بیگ دیتا (Big Data) مجموعهای عظیم از دادههاست که تکنیکهای معمول نمیتوانند آنها را پردازش کنند. این اصطلاح، نهتنها به دادهها، به فریمورکها، ابزارها و تکنیکهای مختلف مربوط هم اشاره میکند.
مقدمه
اگر فقط کمی از دنیای فناوری سر در بیاورید، قطعاً باید اسم بیگ دیتا (Big Data) را شنیده باشید. این روزها هر زمان که برنامهای را باز میکنیم، در گوگل جستوجو میکنیم یا با تلفنهمراه خود به مکانی دیگر سفر میکنیم، دائماً داده تولید میکنیم. نتیجهی این کار مجموعهی عظیمی از اطلاعات ارزشمند است که شرکتها و سازمانها به مدیریت، ذخیره و تجزیهوتحلیل آنها نیاز دارند.
سؤال بعدی این است که از این حجم عظیم داده دقیقاً چگونه استفاده و چگونه پردازش و ذخیره میشود؟ اینجاست که بیگدیتا وارد عمل میشود. در این مقاله بیگ دیتا (Big Data) را معرفی میکنیم و با موارد استفاده و چالشهای آن آشنا شویم.
بیگ دیتا (Big Data) چیست؟
بیگدیتا به مجموعه دادههای پیچیدهی ساختاریافته (Structured Data) و بدون ساختار (Unstructured Data) اشاره میکند که بهسرعت از منابع مختلف تولید و منتقل میشوند.
درواقع بیگدیتا از سه V تشکیل شده است که Volume (حجم)، Velocity (سرعت) و Variety (تنوع) را شامل میشود.
برای درک بهتر، به این سه ویژگی نگاهی دقیقتر میاندازیم:
Volume (حجم)
بهمعنای حجم عظیمی از دادههای ذخیره شده است. بیگدیتا یک مجموعهداده بسیار عظیم است، درحالیکه دادههای سنتی در اندازههایی مانند مگابایت و گیگابایت و ترابایت اندازهگیری میشوند، بیگدیتا در حجمهای پتابایت (petabytes) و زتابایت (zettabyte) ذخیره میشود.
برای درک عظمت تفاوت میان این دو، این مثال را در نظر بگیرید که یک گیگابایت معادل یک فیلم هفتدقیقهای با کیفیت HD است، درحالیکه یک زتابایت برابر با ۲۵۰میلیارد DVD است.
بیگدیتا معماری را ارائه میکند تا بتوان این نوع دادهها را مدیریت کرد. بدون راهحلهای مناسب برای ذخیره و پردازش این حجم از داده، استخراج بینش از آن غیرممکن است.
Velocity (سرعت)
جریان دادهها باید با سرعت نور (سرعت خیلیزیاد) پردازش و تجزیهوتحلیل شوند. از سرعت ایجاد آن گرفته تا زمان موردنیاز برای تجزیهوتحلیلش، همهچیز درمورد بیگدیتا با سرعت بالا انجام میشود.
شرکتها و سازمانها باید توانایی استفاده از این دادهها و استخراج اطلاعات بهصورت لحظهای از آنها را داشته باشند، در غیر این صورت، کارشان چندان مفید نخواهد بود. پردازش بلادرنگ به تصمیمگیرندگان اجازه میدهد سریع عمل کنند و در رقابت حرفی برای گفتن داشته باشند.
درحالیکه برخی از انواع دادهها را میتوان بهصورت دستهای پردازش کرد و در طول زمان از آن استفاده کرد، بیگدیتا برای رسیدن به بهترین نتایج به اقدامات فوری نیاز دارد. دادههای سنسور دستگاههای پزشکی مثالی عالی برای درک این موضوع است؛ توانایی پردازش فوری دادههای پزشکی میتواند اطلاعات بالقوهای را برای نجات بیمار در اختیار کاربران و پزشکان قرار دهد.
Variety (تنوع)
منظور منابع و اشکال مختلفی است که دادهها از آنها جمعآوری میشوند، مانند عدد، متن، ویدئو، تصویر و صدا. تقریباً ۹۵ درصد بیگدیتا بدون ساختار است، بهاین معنا که بهراحتی در یک مدل ساده و سنتی قرار نمیگیرد. همهچیز، از ایمیلها و فیلمها گرفته تا دادههای علمی و هواشناسی، میتواند یک بیگدیتا را تشکیل دهد که هر یک از آنها ویژگیهای منحصربهفرد خود را دارند.
بیگدیتا در کجا استفاده میشود؟
بیگ دیتا (Big Data) برای شناسایی الگوها و روندها، پاسخ به سؤالات، کسب بینش درمورد مشتریان و حل مشکلات پیچیده تقریباً در هر صنعتی استفاده میشود. شرکتها و سازمانها بهدلایل متعددی، مانند رشد مشاغل خود، درک تصمیمات مشتری، بهبود تحقیقات، پیشبینیها و هدفقراردادن مخاطبان کلیدی برای تبلیغات، از این اطلاعات استفاده میکنند.
در اینجا به چند نمونه از صنایعی که در آنها انقلاب بیگدیتا در حال رخدادن است اشاره میکنیم:
صنعت مالی
صنایع مالی و بیمه از بیگدیتا برای تشخیص کلاهبرداری، ارزیابی ریسک، رتبهبندی حسابها، خدمات کارگزاری، فناوری بلاکچین (Blockchain) و دیگر موارد استفاده میکنند؛ همچنین مؤسسات مالی از بیگدیتا برای بهبود امنیت سایبری و شخصیسازی تصمیمات مالی برای مشتریان استفاده میکنند.
صنعت پزشکی
بیمارستانها، محققان و شرکتهای دارویی در حال اتخاذ راهحلهای مبتنی بر بیگدیتا برای بهبود و پیشرفت مراقبتهای بهداشتی هستند.
با دسترسی به حجم وسیعی از دادههای بیماران و دادههای مربوط به جمعیت، پزشکان میتوانند درمانها را بهبود دهند، تحقیقات مؤثرتری درمورد بیماریهایی مانند سرطان و آلزایمر انجام دهند، داروهای جدیدی تولید کنند و بینشهای اساسی درمورد الگوهای سلامت جمعیت به دست آورند.
رسانه و سرگرمی
اگر تابهحال از Netflix یا دیگر سرویسهای مشابه که توصیههایی را به کاربر ارائه میکنند استفاده کردهاید، پس درواقع شاهد یکی از استفادههای از بیگدیتا بودهاید.
شرکتهای رسانهای عادتهای خواندن، مشاهده و گوشکردن ما را تجزیهوتحلیل میکنند تا تجربیات فردی ایجاد کنند. Netflix حتی از دادههای مربوط به گرافیک، عناوین و رنگها برای تصمیمگیری درمورد ترجیحهای مشتری استفاده میکند. آنها دادهها را تجزیهوتحلیل میکنند تا درنهایت پیشنهادهای مناسبی را مطابق با علاقههایمان به ما ارائه کنند.
کشاورزی
بیگدیتا حتی در کشاورزی هم به کمک ما آمده است؛ از مهندسی بذر گرفته تا پیشبینی عملکرد محصول با دقت بالا، بیگدیتا بهسرعت در حال ایجاد تحول در صنعت کشاورزی است.
با هجوم دادهها در دو دههی گذشته، در بسیاری از کشورها اطلاعات حتی از مواد غذایی هم بیشتر یافت میشود؛ بههمین دلیل، محققان و دانشمندان از بیگدیتا برای مقابله با گرسنگی و سوءتغذیه استفاده میکنند. با گروههایی مانند Global Open Data for Agriculture & Nutrition (GODAN) که اجازهی دسترسی آزاد و نامحدود به دادههای مربوط به مواد غذایی و کشاورزی جهانی را فراهم میکنند، پیشرفتهایی برای پایاندادن و مقابله با گرسنگی و سوءتغذیه در جهان انجام شده است.
چالشهای بیگدیتا چیست؟
- یکی از مسائل مربوط به بیگدیتا رشد نمایی دادههای خام است. مراکز داده و پایگاههای داده حجم عظیمی از دادهها را ذخیره میکنند. این دادهها همچنان بهسرعت در حال رشد است. رشد تصاعدی دادهها اغلب ذخیرهی درست آنها را با مشکل مواجه میکند.
- چالش بعدی انتخاب ابزار مناسب بیگدیتاست. ابزارهای مختلفی برای تجزیهوتحلیل و کار با بیگدیتا وجود دارد، اما انتخاب نادرست میتواند به اتلاف زحمات، زمان و پول بینجامد.
- چالش بعدی بیگدیتا (Big Data) امنیت آن است. اغلب سازمانها بیشازحد مشغول درک و تجزیهوتحلیل دادهها هستند، بهگونهای که امنیت دادهها را به مراحل بعدی موکول میکنند و این دادههای محافظتنشده درنهایت به مکانی برای هکرها تبدیل میشود.
خلاصهی مطالب دربارهی بیگدیتا
در این مطلب با مفهوم بیگ دیتا (Big Data) و کاربردها و چالشهای آن آشنا شدیم. همانطور که متوجه شدیم، در حال حاضر ما در دنیایی زندگی میکنیم که خواهناخواه روزانه در حال تولید حجم تصورناپذیری از اطلاعات هستیم. درواقع میتوان اینطور تصور کرد که زندگی در دنیای مدرن بدون تولید داده اصلاً امکانپذیر نیست.
این حجم عظیم دادهها که روزبهروز در حال رشد هستند بیگدیتا نامیده میشوند. بیگدیتا در صنایع مختلفی استفاده میشود و هر نوع از این دادهها بهنحوی زندگی ما را آسانتر میکنند.
از این پس، هر زمان که از گوشی تلفنهمراه یا لپتاپ خود استفاده میکنید، به یاد داشته باشید که در حال تولید داده برای استفاده در سازمانها و شرکتهای مختلف برای تجزیهوتحلیلهای پیشرو هستید.
خوب است بدانید که علم داده یا دیتاساینس (Data Science) برای کار روی همین دادههایی که ما در حال تولید آن هستیم به وجود آمده است. اگر علاقهمند هستید دربارهی آن بیشتر بدانید، پیشنهاد میکنیم مطلب علم داده (Data Science) چیست را مطالعه کنید.
سلام و خسته نباشید مهندسی داده یا بیگ دیتا جزعی از حوزه علم داده است؟ و اینکه میتوان به صورت مجزا فقط مهندس بیگ دیتا شد و به بخش های دیگه علم داده وارد نشد؟
سلام، به طور کلی تفاوت اصلی بین دانشمند داده و مهندس داده اینه که مهندسان داده، سیستمها و ساختارهایی رو میسازن که دادهها رو ذخیره، استخراج و سازماندهی میکنن، در حالی که دانشمندان داده اون دادهها رو برای پیشبینی روندها، جمعآوری بینشهای تجاری و پاسخ به سؤالات مرتبط با سازمان تجزیه و تحلیل میکنن. درواقع نقشهاشون با هم متفاوته. اگه نگیم مهندس داده باید کاملا روی تمام مفاهیم دیتاساینس و آنالیز داده مسلط باشه، باید بعضی از مفاهیم دیتاساینس رو بدونه.
خیلی مقاله خوبی بود باز هم از این دست منتشر کنید
ممنون از اشتراک نظرتون.
سلام من کلاس علم داده 1 رو ثبت نام کردم اما متاسفانه همگام با کلاس نمی تونم بیام .ولی جلسات اول رو باهاتون بودم خیلی کار استاد درسته
سلام، اگر آفلاین پیش میرین هم مشکلی وجود نداره. ممنون از شما.
maghahleyi bara yadgiri mashin darin?
سلام، بله. میتونین به این لینک مراجعه کنین: http://ctdrs.ir/ds0002
big data می تونه ایمیل های دریافتی یک سازمان هم به شمار بره ؟
بله میتونیم بگیم که ایمیلها هم جزو بیگدیتا محسوب میشن.
ببخشید دیتای میلیونی رو میگن بیگ دیتا ؟
همونطور که در مقاله توضیح داده شده یکی از ویژگیهای بیگدیتا حجم هست، اما این ویژگی به تنهایی نمیتونه ملاک باشه.