با تاریخچه داده چقدر آشنا هستید؟ براساس فرهنگ لغت ماریام وبستر (Merriam-Webster)، داده اطلاعاتی واقعی است که بهعنوان مبنایی برای استدلال، بحث یا محاسبه استفاده میشوند. با این تعریف، داده اساساً هر قطعهای از اطلاعات جمعآوری شده است که میتواند استفاده شود و برای بهدستآوردن بینش بیشتر، پردازش و تجزیهوتحلیل شود. داده معمولاً با کامپیوتر مرتبط است؛ زیرا دادهها معمولاً در کامپیوتر تولید و ذخیره میشوند، اما بسیار قبلتر از آنچه تصور میکنیم وجود داشتهاند. در این مطلب به سراغ تاریخچه داده میرویم، اینکه از کجا اهمیت آن شروع شد و چطور شد که به نقطهای رسیدیم که تمامی صنایع بهنوعی به علم داده نیازمند شدند.
تاریخچه داده
اولین نمونه از ذخیره و تجزیهوتحلیل داده بهدست انسان به ۱۸۰۰۰ سال قبلازمیلاد بازمیگردد، زمانی کشف شد که انسانهای ماقبل تاریخ از چوبهای شمارش بهعنوان وسیلهای برای انجامدادن محاسبات ابتدایی استفاده میکردند. این قبیلههای پارینهسنگی برای پیگیری فعالیتهای خود، مانند تجارت و نظارت بر تدارکات، بریدگیهایی روی چوبها و استخوانها، ایجاد میکردند.
در سال ۲۴۰۰ قبلازمیلاد چرتکه وسیلهای که برای انجامدادن محاسبات استفاده میشد در بابل (Babylon) اختراع شد. در طول تاریخ توسعهی مداوم، جمعآوری، پردازش و تجزیهوتحلیل دادهها ازطریق نوشتههای متعدد در لوحهای سنگی، گلی، پاپیروس، چوب و طومارهای کاغذی مشاهده شد. درنهایت، با کشف شکلهای بیشتری از داده نیاز به پردازش، جمعآوری، ذخیره و تجزیهوتحلیل آن نیز تکامل یافت.
همانطور که جامعهی بشری پیشرفتهتر شد، نیاز برای پردازش دادهها نیز افزایش یافت. در دههی هشتاد میلادی سرشماری در ایالاتمتحده آغاز شد.
تعداد نقاط داده در سرشماری بهطور تصاعدی افزایش یافت تا جایی که ادارهی سرشماری ایالاتمتحده تخمین زد که جمعآوری و تجزیهوتحلیل تمامی دادههای سرشماری سالها یا حتی دههها طول میکشد. این امر تا حد زیادی مشکلساز بود؛ زیرا گردآوری و تجزیهوتحلیل دادههای سرشماری کنونی فقط زمانی تکمیل میشد که سرشماری بعدی شروع میشد یا از قبل شروع شده بود.
خوشبختانه مهندس و مخترع جوانی بهنام هرمان هولریث (Herman Hollerith) ماشین جدولبندی هولریث را توسعه داد. این ماشین جدولبندی الکترومکانیکی زمان موردنیاز برای جمعآوری و تجزیهوتحلیل دادههای سرشماری را از سالها به ماهها کاهش میداد؛ بههمین دلیل، هولریث بهعنوان پدر محاسبات خودکار در نظر گرفته میشود که بعداً با تأسیس IBM شناخته شد.
پیشنهاد میکنیم با پرسشهای متداول علم داده هم آشنا شوید.
انقلاب دادهها با کامپیوتر
بهسمت دههی نود و اختراع کامپیوتر که میرویم، با ظهور یک ماشین محاسباتی قدرتمندتر، نیاز پیچیدهتری برای ذخیرهسازی دادهها ایجاد میشود. فریتز فلومر (Fritz Pfleumer)، مهندس آلمانیـاتریشی، روشی برای ذخیرهی اطلاعات بهصورت مغناطیسی روی نوار ابداع کرد.
برخی از اصول اختراع او امروزه هنوز برای ذخیرهسازی دادههای دیجیتال استفاده میشود. در این دوره اصطلاح «هوش تجاری»، بهدلیل نیاز به نرمافزارهای نوظهور و سیستمهایی برای تجزیهوتحلیل عملکرد تجاری و عملیاتی، بهسرعت بالا رفت.
هنگامی که تیم برنرز لی (Tim Berners-Lee) در سال ۱۹۸۹ شبکهی جهانی وب (World Wide Web) را ایجاد کرد که به اینترنت نیز معروف است، انقلاب دادهها بهمعنای واقعی اتفاق افتاد. این موضوع به اشتراکگذاری خودکار اطلاعات میان مردم در سراسر جهان انجامید. این بهاین معناست که امروزه دادههای بیشتری به اشتراک گذاشته میشود، ایجاد میشود و ذخیره میشود که به راههای جدیدی برای جمعآوری، استفاده و تجزیهوتحلیل دادهها میانجامد.
انتقال به بیگدیتا یا کلانداده (Big Data)
با توجه به رشد باورنکردنی اینترنت در دههی ۱۹۹۰ و توسعهی مداوم کامپیوترهای شخصی و دستگاههای محاسباتی بهطور کلی، تعداد دستگاههای آنلاین (و درنتیجه میزان دادههای ایجادشده) بهسرعت افزایش یافت.
درحالیکه ایدهی Big Data حتی قبل از دههی ۱۹۹۰ وجود داشت، فقط در سال ۲۰۰۵ بود که راجر موگالاس (Roger Mougalas) رسماً به آن برچسب بیگدیتا را داد. او آن را بهعنوان «مجموعهی بزرگی از دادهها توصیف کرد که مدیریت و پردازش آن با استفاده از ابزارهای هوش تجاری سنتی تقریباً غیرممکن است».
کلانداده اصطلاحی است که برای توصیف حجم وسیعی از دادهها، اعم از ساختاریافته و بدون ساختار که سازمانها را بهصورت روزانه تحتالشعاع قرار میدهد، استفاده میشود.
این موضوع به حجم اطلاعات، سرعتی که در آن ایجاد و جمعآوری میشود و تنوع یا دامنهی نقاط داده تحت پوشش بازمیگردد. با توجه به اندازه و پیچیدگی کلانداده، فرایند جمعآوری، سازماندهی و تجزیهوتحلیل آنها برای کشف الگوها و دیگر اطلاعات مفید، بخشی از کمک به بسیاری از سازمانها برای تصمیمگیریهای تجاری خود شده است.
این امر، بهنوبهی خود، ایجاد علم داده یا دیتا ساینس (Data Science) انجامیده است. یک حوزهی میانرشتهای که از روشهای علمی، فرایندها، الگوریتمها و سیستمها از حجم زیادی از داده استفاده میکند تا الگوهای موجود در آنها را کشف کند و رهبران کسبوکار را قادر میکند تا بینشهای آگاهانه به دست آورند.
اینگونه شد که حال ما با علم داده طرف هستیم، علمی که در دنیا سروصدای زیادی بر پا کرده است و در هر حوزهای که فکرش را کنید استفاده میشود.
اگر علاقهمند به مطالعهی بیشتر دربارهی علم داده و کاربردهای آن هستید، پیشنهاد میکنیم مطلب علم داده یا دیتا ساینس (Data Sciene) را هم مطالعه کنید.
با کافهتدریس متخصص داده شوید!
کافهتدریس بهصورت تخصصی بهروزترین آموزشهای علم داده را در قالب کلاسهای آنلاین و ویدئوهای آموزشی در اختیار شما قرار میدهد. این آموزشها به شما کمک میکند در هر نقطهی جغرافیایی که هستید به کاملترین آموزش علم داده دسترسی داشته باشید و در مسیر تبدیلشدن به دیتا ساینتیست قدم بردارید.
برای آشنایی با کلاسهای آنلاین و ویدئوهای آموزشی علم داده روی این لینک کلیک کنید:
برای مسلط شدن در زمینهی Big data شما توصیه ای دارید؟
اول باید درباره یه سری مفاهیم اصلی مثل حجم دادهها، سرعت تولید، و تنوع اطلاعات مطالعه کنین. زبان برنامه نویسی پایتون رو باید بلد باشین. ابزارهای کار با بیگ دیتا مثل Spark، Kafka و Apache Hadoop هستن که حداقل باید یکیشو بلد باشین و پیشنهاد من اسپارکه. در مورد پایگاه دادههای رابطه ای و غیر رابطه ای هم باید بدونین و بتونین مدیریتشون کنین.