در این مطلب بهسراغ پرسش های متداول علم داده رفتهایم. اگر تابهحال درمورد علم داده شنیدهاید، دست خود را بلند کنید… احتمالاً در دنیای امروزی که بهنوعی با تکنولوژی گره خورده است، کمتر کسی پیدا میشود که حتی اسم علم داده یا دیتا ساینس (Data Science) به گوشش نرسیده باشد. در حال حاضر، همهجای دنیا حرف از علم داده است و اینکه چطور بهزودی تمامی دنیا و تمامی صنایع را در بر خواهد گرفت. دیتا ساینس علمی است که کمک میکند حجم عظیمی از دادههایی را که روزانه در حال تولید هستند به اطلاعات مفید تبدیل و از آن برای هدف خاصی استفاده کنیم.
پرسش های متداول علم داده
از زمانی که کامپیوترها را ساختیم، جریان بیپایانی از دادهها در حال تولید هستند. این دادهها عمدتاً نامرتب هستند و نمیتوانند کار زیادی برایمان انجام دهند. هر کاری که انجام میدهیم، داده تولید میکند. وقتی سر کار میرویم، سرعت حرکتمان، مسیرمان، چند پیچی که از آن گذشتیم، چند باری که به رانندگان دیگر فحش دادیم، چقدر سوخت ماشینمان را مصرف کردیم، مسافتی که پیمودهایم، همه و همه، حجم عظیمی از داده را تولید میکنند و این فهرست تقریباً بیانتهاست.
این واقعیت که این دادهها را تابهحال در نظر نگرفتهایم بهاین معنی است که از آن برای هیچ چیز استفاده نکردهایم. این دادهها وجود دارند، اما درعینحال بیفایده هستند؛ اینجاست که علم داده وارد میشود تا این دادههای بلااستفاده را به اطلاعاتی مفید تبدیل کند.
حال که تا حدی درمورد ماهیت اصلی علم داده صحبت کردیم، لازم است با هم به پرسشهایی پاسخ دهیم که ممکن است برای علاقهمندانی پیش آید که قصد دارند دیر یا زود به این حوزه وارد شوند و بهعنوان یک دانشمند داده یا تحلیلگر داده یا مهندس داده و هر موقعیت شغلی دیگر فعالیت کنند که بهنوعی به علم داده مرتبط است. در این مطلب به پرسش های متداول علم داده میپردازیم که پیش از ورود به این حوزه لازم است پاسخشان را بدانید.
سؤال ۱. آیا برای ورود به علم داده باید بر برنامهنویسی پایتون مسلط باشیم؟
افرادی که از رشتههایی غیرمرتبط با دیتا ساینس یا کامپیوتر به حوزهی علم داده وارد میشوند این پرسش را مطرح میکنند: آیا لازم است کاملاً بر زبان برنامهنویسی پایتون مسلط باشیم؟
جواب کوتاه این سؤال خیر است.
اما برای اینکه توضیح کاملتری در این باره ارائه کنیم، بهتر است با یک مثال شروع کنیم.
فرض کنید قصد دارید زبان انگلیسی را یاد بگیرید. برای این کار قطعاً با خود اینطور فکر نمیکنید که اول باید چهارصدهزار لغت موجود در این زبان را یاد بگیرم تا بتوانید شروع به صحبتکردن کنید. مطمئناً با یادگرفتن کلمات سادهتری مانند Hello، Hi یا go و come شروع به حرفزدن میکنید و بهمرور دامنهی لغات خود را افزایش میدهید و کلمات پیچیدهتری را به جملات خود وارد میکنید. همین مسئله درمورد حوزه دیتا ساینس هم صدق میکند.
اینطور نیست که از ابتدا لازم باشد در کدنویسی پایتون حرفهای باشید، بلکه با دانش ابتدایی در این زمینه هم میتوانید به این رشته وارد شوید و بهمرور مهارت کدنویسی خود را تقویت کنید و بهتر و بهتر شوید.
بهتر است ابتدا با سینتکسهای (Syntax) کلی این زبان آشنا شویم، محیطهایی که امکان برنامهنویسی پایتون را دارند بیابیم و درنهایت در کنار یادگیری تئوریهای یادگیری ماشین، پکیجهای مربوط را به کار بگیریم و کدنویسی در زمینهی اصلیای را تقویت کنیم که همان یادگیری ماشین یا دیتا ساینس است.
سؤال۲. پیشنیازهای یادگیری علم داده چیست؟
سؤال بعدی که ذهن افراد را پیش از ورود به حوزهی علم داده یا بهطور خاص یادگیری ماشین مشغول میکند پیشنیازهای آن است. بهطور کلی، میتوان این پیشنیازها را به سه دستهی اصلی و یک دستهی مکمل تقسیم کرد.
دستهی اول آمار و احتمالات است که لازم است دربارهی احتمال شرطی، قضیه بیز (Bayes) و افراز فضاهای نمونهای که دید نسبتاً خوبی را درمورد ریاضیات ابتدایی یادگیری ماشین خواهد داد، اطلاعاتی را داشته باشیم؛ علاوهبراین، لازم است با مفاهیم آمار توصیفی، آزمون فرض و رگرسیون هم آشنا باشیم.
دستهی دوم که ریاضیات است، در مقایسه با آمار، زمان کمتری نیاز دارد. در این بخش لازم است درمورد مشتق و مشتق زنجیرهای، مشتق توابع چندمتغیره که همان مفهوم گرادیان است و جبرخطی، کار با ماتریسها و بردارها و تا حدی انتگرال اطلاعاتی را داشته باشیم.
دستهی سوم برنامهنویسی است که پیشنهاد میکنیم با زبان پایتون (Python) شروع کنید. دلیل این موضوع این است که اولاً زبان استاندارد هوش مصنوعی در حال حاضر در دنیا پایتون است و ثانیاً زبانی بسیار ساده است که یادگیری آن در مقایسه با باقی زبانها کار راحتتری است.
درنهایت باید به دستهی مکمل اشاره کنیم که به مفاهیم طراحی الگوریتم و پیچیدگی برنامهها مربوط است؛ زیرا در هر صورت کار ما در این حوزه تا حدی بهینهسازی برنامههایی است که نوشته میشوند.
سؤال ۳. چقدر طول میکشد تا به یک دانشمند داده یا مهندس یادگیری ماشین تبدیل بشویم؟
پاسخ به این سؤال کمی دشوار است؛ زیرا حتی افرادی که سالها در حال فعالیت در این حوزه هستند نمیتوانند ادعا کنند که همهفنحریف هستند یا کاملاً بر این حوزه تسلط دارند؛ بنابراین نمیتوان گفت که چه زمان به مرحلهای خواهید رسید که دیگر موضوعی نباشد که با آن آشنایی نداشته باشید.
این حوزه اقیانوسی از اطلاعات است که انتها ندارد؛ پس توقع نداشته باشید زمانی مشخص تعیین شود که دیگر تمامی مفاهیم این حوزه را بلد باشید و به یادگیری نیازی نداشته باشید، بلکه با ورود به این حوزه باید همواره در حال یادگیری موضوعات جدید باشید.
بااینحال بهطور کلی میتوان گفت که بعد از دو یا سه هفته با مفاهیم کلی این حوزه آشنا خواهید شد و حداقل ۶ ماه زمان میبرد تا مفاهیم نظری حوزهی علم داده و یادگیری ماشین را بیاموزید. حدوداً یک سال هم زمان لازم است تا بتوانیم بگویید در حال حاضر من مفاهیمی از این حوزه را مطالعه کردهام و دربارهی آنها برای گفتن حرفی دارم.
حرف آخر
در این مطلب به پرسشهای متداول علم داده پرداختیم که احتمالاً ذهن افراد علاقهمند به دنیای بزرگ دیتاساینس را درگیر میکند. پیشنهاد میکنیم برای شروع مطلب معرفی علم داده را مطالعه کنید تا دربارهی این حوزه دید بهتری به دست آورید.
با کافهتدریس علم داده را آسان بیاموزید!
دیتاساینس یکی از پرتقاضاترین دانشهاست. هر روز دامنهی نفوذ این دانش در دنیا گستردهتر میشود و افراد زیادی هم برای آموختن این دانش دستبهکار میشوند. احتمالاً بههمین دلیل است که این دانش رو دانش عصر جدید و قرن بیستویکم دانستهاند. اگر شما هم جزو افرادی هستید که دوست دارید به این حوزه قدم بگذارید، بهتر است زودتر دستبهکار شوید.
دپارتمان علم داده کافهتدریس با استفاده از استادان مجرب کلاسهای آنلاین علم داده را برگزار میکند. این کلاسهای آنلاین به شما کمک میکند در هر جای ایران که هستید به جامعترین برنامهی آموزشی و کاملترین منابع دسترسی داشته باشید. همینطور میتوانید بهصورت منعطف برای یادگیری علم برنامهریزی کنید.
کلاسهای آنلاین علم داده کافهتدریس در قالب ۱۶۰ ساعت کلاس کاملاً کارگاهی و بر مبنای پروژههای واقعی برگزار میشود. در کنار این کلاسها شما میتوانید بهصورت منظم در وبینارهای منظم آموزشی رایگان هم شرکت کنید.
برای آشنایی با کلاسهای آنلاین علم داده کافهتدریس روی این لینک کلیک کنید: