نقشه راه دیتا ساینتیست شدن چیست؟ در این مطلب ۱۰ درس برای دانشمندان داده آینده را که باید یاد بگیرید آورده‌ایم. آیا تصمیم به ورود به یک حرفه‌ی جدید در حوزه علم داده گرفته‌اید؟ این راهنما شما را برای سفر پیش‌رو آماده می‌کند. هر روز افراد بیشتری وارد علم‌داده می‌شوند و دلایل مختلفی هم برای این روند وجود دارد. اول، تقاضای زیاد. به‌رغم کاهش سرعت صنعت، به‌دلیل همه‌گیری کووید-۱۹، طبق گزارش LinkedIn، علم داده یکی از برترین مشاغل در حال رشد در بازار است. در مرحله‌ی بعد حقوق است. آمار Glassdoor نشان می‌دهد حقوق یک دانشمند داده سطح ابتدایی حدود ۱۴۶۲۷۰ دلار است؛ سرانجام، محبوبیت چشمگیر. مجله‌ی هاروارد بیزینس ریویو (Harvard Business Review) در مقاله‌ای به‌یادماندنی در سال ۲۰۱۱ اعلام کرد که دانشمند داده یا دیتا ساینس جذاب‌ترین شغل قرن بیست‌ویکم است.

نقشه راه دیتا ساینتیست شدن

نقشه راه دیتا ساینتیست شدن

اگر قصد دارید یک ماجراجویی جدید در حوزه‌ی علم داده شروع کنید، از هیچ چیز دریغ نکنید و آن را دنبال کنید. برای کمک به شما در موفقیت در این سفر، ما فهرستی از ۱۰ درس و نکات عملی را آماده کرده‌ایم که به شما کمک می‌کند در دنیای شگفت‌انگیز علم داده حرکت کنید و جایگاه خود را پیدا کنید.

۱. ابهام‌زدایی از علم داده

علم داده یا دیتا ساینس اغلب در کنار دیگر واژه‌های کلیدی فناوری، مانند بیگ‌دیتا (Big data)، هوش مصنوعی (Artificial Intelligence) و یادگیری ماشین (Machine Learning)، محل بحث قرار می‌گیرد که درک روشنی از چیستی علم داده را دشوار می‌کند.

در چند کلمه، علم داده یک حوزه‌ی میان‌رشته‌ای است که روش‌های علمی، برنامه‌نویسی، الگوریتم‌ها و آمار را برای استخراج دانش از داده‌ها ترکیب می‌کند. علم داده یا دیتا ساینس مجموعه‌ای از ابزارها و روش‌های قدرتمند برای مقابله با داده‌ها را دربرمی‌گیرد که تقریباً در هر صنعتی کاربردی است. این امکانات بسیار گسترده است، از تجزیه‌وتحلیل اکتشافی داده‌های اولیه و تکنیک‌های جمع‌آوری داده‌ها، مانند وب اسکرپینگ (Web scrapping)، تا برخی از باارزش‌ترین کاربردهای حوزه، مانند موتورهای توصیه‌گر، بینایی کامپیوتر (Computer vision)، ماشین‌های خودران و پردازش زبان طبیعی (Natural Language Processing)، جایی که یادگیری ماشین و یادگیری عمیق (Deep Learning) نقش ایفا می‌کنند، آن‌هم یک نقش حیاتی!

درحالی‌که علم داده یک انتخاب طبیعی برای متخصصان با پیشینه‌ی IT یا برنامه‌نویسی است، این رشته به‌سرعت در حال پیشرفت است و امروزه منصفانه است که بگوییم هر کسی بدون توجه به اینکه از کجا آمده‌اید، می‌گوید به دنیای علم داده یا دیتا ساینس خوش آمدید. دلیل؟ از آنجا که علم داده به رشته‌های جدید وارد می‌شود، دانستن جنبه‌های اساسی یک حوزه یا زمینه‌ی تحقیقاتی خاص بسیار مهم است.

علاوه بر مهارت‌های فنی و کدنویسی، دانشمندان داده باید همیشه درجاتی از تخصص در حوزه‌ی کسب‌وکار داشته باشند تا بتوانند آنچه انجام می‌دهند درک کنند. این امر ارزیابی داده‌های ورودی، ارزیابی ارزش و اعتبار بینش‌ها و تشخیص این را که چه چیزی منطقی است و چه چیزی نیست دربرمی‌گیرد.

برای آشنایی بیشتر با علم داده و تصحیح ابهامات این مطلب را مطالعه کنید:

با ۷ تصور غلط درمورد علم داده آشنا شوید!

۲. زبان برنامه‌نویسی مناسب علم داده چیست؟

یادگیری کدنویسی گامی ضروری برای تبدیل‌شدن به دانشمند داده یا دیتا ساینتیست است. با وجود رشد اخیر پلتفرم‌های هوش مصنوعی «بدون کد» و درحالی‌که این راه‌حل‌ها به کاربران تجاری غیرفنی اجازه می‌دهند تا برنامه‌ها و نرم‌افزارهایی را که می‌خواهند بسازند (در تلاش برای رفع کمبود مهارت‌های توسعه‌دهنده‌ی نرم‌افزار)، شایستگی‌ها، منابع و طرز فکری‌ای که دانشمندان داده ارائه می‌کنند، حداقل در حال حاضر، به‌سختی جایگزین‌شدنی هستند.

برنامه‌نویسی بخش اصلی زندگی روزانه‌ی یک دانشمند داده است؛ اما برنامه‌نویسی چیست و زبان برنامه‌نویسی چیست؟

برنامه‌نویسی تکنیکی است که امکان اجرای وظیفه‌های خودکار یک سیستم کامپیوتری را فراهم می‌کند. برای ارتباط با کامپیوتر از زبان‌های برنامه‌نویسی استفاده می‌کنیم. زبان برنامه‌نویسی مجموعه‌ای از قواعد معنایی و نحوی است که برنامه‌نویسان برای نوشتن دستورالعمل‌ها (که به‌عنوان الگوریتم نیز شناخته می‌شوند) برای کامپیوتر برای تکمیل یک کار خاص استفاده می‌کنند.

در حال حاضر صدها زبان برنامه‌نویسی وجود دارد. در علم داده دو زبان برنامه‌نویسی محبوب Python و R هستند. هر دو زبان برای هر کار علم داده‌ای که ممکن است فکرش را کنید عالی هستند. آن‌ها اغلب به‌عنوان رقیب به تصویر کشیده می‌شوند، اما رویکرد هوشمندانه‌تر این است که آن‌ها را به‌عنوان زبان‌های مکمل ببینیم، یعنی متحدانی که می‌توانند برای بهره‌برداری کامل از پتانسیل‌شان با هم ترکیب شوند.

برای آشنایی با زبان برنامه‌نویسی پایتون برای علم داده این مطلب را مطالعه کنید:

با زبان برنامه نویسی پایتون آشنا شوید!

نقشه راه دیتا ساینتیست شدن

۳. در ابتدا سخت خواهد بود؛ صبور باشید!

برای طی‌کردن نقشه راه دیتا ساینتیست شدن باید صبور باشید. بیایید صادق باشیم: یادگیری کدنویسی سخت است. این عبارت برای هر فرد، صرف‌نظر از پیشینه‌اش، صدق می‌کند. وقت آن رسیده است که فکر نکنیم فردی که در رشته‌ی علوم کامپیوتر یا ریاضی تحصیل کرده است در مقایسه با یک فارغ‌التحصیل رشته‌های علوم انسانی نامزد مناسب‌تری برای علم داده است. تنها تفاوت میان آنان این است که اولی احتمالاً برنامه‌نویسی را در کالج شروع کرده و دومی احتمالاً این کار را نکرده است؛ اما مطمئن باشید که اولی نیز در مقطعی با کدنویسی مشکل داشت، به‌خصوص در ابتدا!

کدنویسی مانند رفتن به باشگاه است. روزهای اول عضلات شما احساس درد و سفت‌شدن می‌کند. شما به آن درد عادت ندارید و درحالی‌که روی کاناپه دراز کشیده‌اید، ممکن است وسوسه شوید آن را ترک کنید، اما اگر تسلیم نشوید، اگر به ورزش ادامه دهید، همه‌چیز به تدریج بهبود خواهد یافت. پس از چند هفته متوجه خواهید شد که در حال شکست‌دادن نقاط عطف تناسب اندام هستید که چندی پیش دست‌نیافتنی به نظر می‌رسید. درنهایت، رفتن به باشگاه بخشی از روتین شما خواهد شد و یک روز متوجه خواهید شد که از ورزش‌کردن لذت می‌برید.

برای اکثر نوزادان، میان ۹ تا ۱۴ ماه طول می‌کشد تا شروع به صحبت کنند. خوشبختانه یک زبان برنامه‌نویسی بسیار ساده‌تر و ابتدایی‌تر از زبان انسانی است. اگر مصمم هستید، باید بتوانید در عرض چند ماه اسکریپت‌های اولیه بنویسید؛ درست مانند رفتن به باشگاه، هنگام یادگیری زبان برنامه‌نویسی نیز باید صبور باشید.

برای آشنایی با مسیر ورود به علم داده این مطلب را مطالعه کنید:

ورود به علم داده یا دیتاساینس از کجا شروع می‌شود؟

۴. شما تنها نیستید؛ منابع علم داده با شما هستند!

این خبر خوبی است و در طول طی‌کردن نقشه راه دیتا ساینتیست شدن همواره باید آن را به خاطر داشته باشید. ماجراجویی علم داده شما پر از موانع خواهد بود. ممکن است هنگام نوشتن کدتان گیر کنید، گاهی متوجه نمی‌شوید چرا اسکریپت شما به‌درستی اجرا نمی‌شود و زمان‌هایی پیش می‌آید که نمی‌دانید چگونه یک تسک خاص علم داده‌ را شروع کنید.

نیازی به استرس نیست؛ شما تنها نیستید. یکی از جالب‌ترین چیزها در علم داده و به‌طور گسترده‌تر، اکوسیستم برنامه‌نویسی، این است که اینترنت پر از منابع و اطلاعاتی است که می‌تواند به شما در غلبه بر چالش‌هایی که ممکن است با آن‌ها مواجه شوید کمک کند. شما فقط باید سؤالات درست را بپرسید تا به پاسخ‌های درست برسید.

در اینجا فهرستی از منابعی که در طول سفر علم داده به کمکتان می‌آیند معرفی کرده‌ایم:

  • Stack Overflow برای برنامه نویسان: با بیش از ۱۶ میلیون کاربر Stack Overflow یک پلتفرم پرسش‌وپاسخ عمومی برای برنامه‌نویسان است. اگر با اسکریپت پایتون یا R خود مشکلی دارید، احتمالاً درنهایت به دنبال راه‌حل در Stack Overflow خواهید بود.
  • آموزش‌ها: با تحلیل رگرسیون مشکل دارید؟ نمی‌دانید از کجا با وب اسکرپینگ شروع کنید؟ خواندن یک آموزش (Tutorial) درمورد این موضوع می‌تواند یک نقطه‌ی شروع عالی باشد. شما می‌توانید آموزش‌های جامعی را درمورد طیف وسیعی از موضوع‌ها در پلتفرم‌های شناخته‌شده، مانند DataCamp و حتی YouTube، پیدا کنید.
  • دوره‌های آنلاین: اگر می‌خواهید متخصص حوزه شوید، مهارت‌های کدنویسی خود را تقویت کنید یا فقط می‌خواهید افق علم داده یا دیتا ساینس خود را گسترش دهید، احتمالاً یک دوره‌ی آنلاین همان چیزی است که به دنبال آن هستید. گزینه‌های زیادی در بازار وجود دارد، ازجمله DataCamp و Coursera.
  • کتاب‌های علم داده: کتاب‌ها همیشه منبعی عالی برای اطلاعات بوده‌اند. تعداد فزاینده‌ای از کتاب‌های علم داده در سال‌های گذشته منتشر شده‌اند و بسیاری از آن‌ها را می‌توان به‌صورت آنلاین و به‌شکل رایگان پیدا کرد. یک توصیه‌ی خوب کتاب‌های O’Reilly است.

برای آشنایی بیشتر با منابع پیشنهاد می‌کنیم با کلیک روی این لینک، پادکست پرسش‌های متداول علم داده کافه‌تدریس را گوش کنید:

پرسش‌های متداول علم داده که باید پاسخ‌شان را بدانید!

نقشه راه دیتا ساینتیست شدن

۵. هنر کدنویسی

درس دیگر در نقشه راه دیتا ساینتیست شدن این است که پس از چند ماه تمرین برنامه‌نویسی، اعتماد‌به‌نفس بیشتری درمورد مهارت‌های خود خواهید داشت. درنهایت، شما شروع به دیدن تصویر بزرگ خواهید کرد و متوجه خواهید شد که کدنویسی یک هنر است؛ برای مثال، متوجه خواهید شد که راه‌های زیادی برای حل یک مشکل برنامه‌نویسی وجود دارد، اما برخی از آن‌ها کارآمدتر از باقی هستند. درواقع، جست‌وجو برای کارایی کار شما را چه از نظر نوشتن و چه از نظر اجرای کد هدایت خواهد کرد. این شما را به یادگیری استراتژی‌های برنامه‌نویسی جدید سوق می‌دهد.

یکی دیگر از جنبه‌های مهم که شما شروع به توجه‌کردن به آن خواهید کرد خوانایی است. به یاد داشته باشید که خوانایی، نه‌تنها برای برنامه‌نویسان دیگری که ممکن است مجبور شوند با اسکریپت‌های شما سروکار داشته باشند، برای خود شما در آینده نیز مهم است. با ایجاد تغییرات کوچک در برخی از عناصر، مانند ساختار نحو، نام‌گذاری متغیرها و توابع و فاصله و تورفتگی، کد شما می‌تواند بهتر به نظر برسد و قابل‌درک‌تر باشد؛ همچنین اظهارنظر درمورد کد و مستندسازی عملکردهای خود زندگی را برای شما و دیگر خوانندگان آسان‌تر می‌کند.

۶. یادگیری را از کجا شروع کنم؟

در مسیر نقشه راه دیتا ساینتیست شدن احتمالاً همه برای رسیدن به پاسخ این پرسش عجله دارند. ما قبلاً علم داده یا دیتا ساینس را به‌عنوان یک حوزه‌ی میان‌رشته‌ای تعریف کردیم که روش‌های علمی، برنامه‌نویسی، الگوریتم‌ها و آمار را برای استخراج دانش از داده‌ها ترکیب می‌کند. بله، علم داده حوزه‌ی نسبتاً سختی است و باید بدانید که هر فردی که وارد علم داده می‌شود، صرف‌نظر از پیشینه‌اش، باید یک فرایند یادگیری خاص را طی کند و دانستن همه‌چیز بلافاصله غیرممکن است!

پس از کجا شروع کنیم؟ پاسخ واحدی برای این سؤال وجود ندارد، اما بدون داشتن پایه‌ای در برنامه‌نویسی، آمار و ریاضی در حرفه‌ی خود خیلی پیشرفت نخواهید کرد. درمورد برنامه‌نویسی، علاوه بر پایتون یا R، مطمئناً دانستن SQL ضروری است. از ریاضی و آمار نترسید؛ ممکن است زمان بیشتری طول بکشد، اما در زمان خود خواهید آموخت که p-value یا یک شبکه‌ی عصبی مصنوعی چیست.

۷. به یادگیری ادامه دهید!

این نکته در مسیر نقشه راه دیتا ساینتیست شدن حیاتی است. اگر فکر می‌کنید که پیداکردن اولین شغل علم داده یا دیتا ساینس پایان ماجراجویی است، در اشتباه‌اید. علم داده یک حوزه‌ی پویا و به‌سرعت در حال توسعه است. آنچه امروز محبوب است فردا می‌تواند منسوخ شود.

اولاً علم داده یک فرایند یادگیری مادام‌العمر است. شما باید به یادگیری ادامه دهید، وگرنه در خطر منسوخ‌شدن هستید.

ثانیاً دانستن همه‌ی زبان‌های برنامه‌نویسی و فناوری‌های موجود غیرممکن است؛ بنابراین با توجه به نیازهای شغلی خود و آنچه بیشتر به آن علاقه دارید، انتخاب کنید که چه چیزی یاد بگیرید.

مطالعه این مطلب می‌تواند منابع جذابی برای یادگیری مداوم در اختیار شما قرار دهد:

۱۰ پادکست معروف علم داده کدام‌اند؟

نقشه راه دیتا ساینتیست شدن

۸. علم داده وسیله‌ای برای رسیدن به هدف است!

ارزش کار شما به‌عنوان یک دانشمند داده درصورتی‌که نتوانید ارتباط پروژه‌هایی را که روی آن‌ها کار می‌کنید بیان کنید چیست؟ اگر کسی متوجه کار شما نشود، انجام‌دادن یک تجزیه‌وتحلیل عمیق و کامل داده چه فایده‌ای دارد؟

هدف علم داده استخراج بینش از داده‌ها و به‌کارگیری آن بینش‌ها برای ایجاد ارزش است؛ به‌عبارت دیگر، علم داده، به‌خودی خود، یک هدف نیست، بلکه وسیله‌ای برای ایجاد ارزش است. مهارت‌هایی مانند ارتباط خوب، داستان‌سرایی و تفکر خلاق کلیدی برای تبدیل بینش به ارزش هستند.

۹. هر که بامش بیش، برفش بیشتر

در مسیر طی‌کردن نقشه راه دیتا ساینتیست شدن این درس اساسی است. این احتمالاً مهم‌ترین درس است. علم داده پشت برخی از باارزش‌ترین برنامه‌ها و اختراع‌های زندگی ما قرار دارد. جوامع ما به‌سرعت در حال تغییر هستند که با نیروی علم داده و هوش‌مصنوعی، در میان دیگر فناوری‌ها، به پیش می‌روند.

در طی این بی‌قطعیت‌ها و تغییرات شدید مهم است که انتقادی و محتاط بمانید. کار روزانه‌ی ما، به‌عنوان دانشمندان داده، سروکار داشتن با داده‌ها، ساخت مدل‌ها و تبدیل بینش به ارزش است، اما همیشه باید سعی کنیم از رایانه‌های‌مان فراتر برویم و خودمان را درمورد تأثیرات اجتماعی کارمان زیرسؤال ببریم. انتقادپذیری و پاسخ‌گویی اولین قدم برای جلوگیری از سوءاستفاده‌های صنعتی و تضمین آینده‌ای عادلانه است.

برای آشنایی با روز کاری دانشمند داده یا دیتا ساینتیست این مطلب را مطالعه کنید:

روز کاری دیتاساینتیست چگونه می‌گذرد؟

۱۰. زندگی شما با داده‌ها عجین خواهد شد!

برای پایان‌دادن به این مطلب، می‌خواهیم آخرین درس را با شما به اشتراک بگذاریم: علم داده، نه‌تنها جامعه را تغییر می‌دهد، زندگی شما را نیز برای همیشه تغییر می‌دهد.

دنیایی که ما در آن زندگی می‌کنیم پیچیده است. ما دائماً با فرایندها و سیستم‌هایی سروکار داریم که فراتر از درک ما هستند. برای پرداختن به این پیچیدگی، ما با مدل‌هایی کار می‌کنیم که می‌توان آن‌ها را به‌عنوان توصیف ساده‌شده واقعیت تعریف کرد. در این راستا، علم داده تعداد خوبی از مدل‌ها را ارائه می‌کند که می‌تواند به ما در درک دنیای خود کمک کند؛ برای مثال، مدل رابطه‌ای برای مدیریت پایگاه داده می‌تواند برای ساختاردهی اطلاعات و توصیف پدیده‌های پیچیده بسیار مفید باشد. مدل‌های شبکه‌های اجتماعی می‌توانند به ما کمک کنند بفهمیم چگونه اطلاعات از فردی به فرد دیگر جریان می‌یابد یا از ظرفیت شبکه‌هایی که بخشی از آن هستیم بهره‌برداری کنیم.

حتی جذاب‌تر از آن، مدل‌های ریاضی که برنامه‌های یادگیری ماشین را تقویت می‌کنند، نه‌تنها برای یادگیری رایانه‌ها حیاتی هستند، دیدگاه‌های جدیدی را برای نگاه‌کردن به هوش انسان و درنتیجه، به‌دست‌آوردن درک عمیق‌تری از خود ارائه می‌کنند.

درنهایت، دلیل دیگری وجود دارد که علم داده شما را تغییر خواهد داد. ما در عصر بیگ‌دیتا زندگی می‌کنیم. هر روز هزاران داده ایجاد و جمع‌آوری می‌شود. داده چیزی نیست به‌جز اطلاعات انواع‌واقسام منابع. خواندن به ما امکان می‌دهد از کتاب‌ها و دیگر متون منبع بیاموزیم و سواد داده به ما امکان می‌دهد از داده‌ها بیاموزیم. این کاملاً یک چیز مشابه است؛ زیرا داده‌ راه‌های بی‌سابقه‌ای برای مطالعه درباره‌ی هر حوزه‌ای که ممکن است فکرش کنید، از پزشکی، روان‌شناسی و هنر گرفته تا تغییرات آب‌وهوایی و اقلیمی، نجوم و تاریخ، ارائه می‌کند.

علم داده ابزارهایی را برای تجزیه‌وتحلیل داده‌ها در اختیار شما قرار می‌دهد؛ کاری که با آن‌ها انجام می‌دهید فقط به تخیل و کنجکاوی شما متکی است؛ پس بیایید ماجراجویی را ادامه دهیم. آن سوی دنیای علم‌داده چیزهایی وجود دارند که منتظر هستند شما کشف‌شان کنید. فراگیری مهارت‌های کار با داده را همین حالا شروع کنید!

۱۱. منابع آنلاین یادگیری علم داده را جدی بگیرید!

یکی از درس‌هایی که باید در مسیر نقشه راه دیتا ساینتیست شدن همیشه در نظر بگیرید امکانات فراوانی است که منابع یادگیری آنلاین در اختیار شما قرار می‌دهد. دوره‌های آنلاین، از کلاس‌های آنلاین گرفته تا ویدئوهای آموزشی و همین‌طور منابع مکتوب، نظیر چیزی که همین الان در حال مطالعه‌ی آن هستید، به شما امکان می‌دهد از هر نقطه‌ی جغرافیایی به به‌روزترین و جامع‌ترین آموزش دیتا ساینس دسترسی داشته باشید.

خبر خوب این است که کافه‌تدریس به‌صورت کاملاً تخصصی و با بهره‌بردن از به‌روزترین منابع کلاس‌های آنلاین آموزش علم داده را برگزار می‌کند.

شکل برگزاری کلاس‌های آنلاین آموزش علم داده کافه‌تدریس تعاملی و پویا و در قالب کارگاهی، با کار روی پروژه‌های واقعی علم داده، است.

برای آشنایی با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری دیتا ساینس و ماشین لرنینگ روی این لینک کلیک کنید:

دوره جامع آموزش علم داده (Data Science)