نقشه راه دیتا ساینتیست شدن چیست؟ در این مطلب ۱۱ درس برای دانشمندان داده آینده را که باید یاد بگیرید آوردهایم. آیا تصمیم به ورود به یک حرفهی جدید در حوزه علم داده گرفتهاید؟ این راهنما شما را برای سفر پیشرو آماده میکند. هر روز افراد بیشتری وارد علمداده میشوند و دلایل مختلفی هم برای این روند وجود دارد. اول، تقاضای زیاد. بهرغم کاهش سرعت صنعت، بهدلیل همهگیری کووید-۱۹، طبق گزارش LinkedIn، علم داده یکی از برترین مشاغل در حال رشد در بازار است. در مرحلهی بعد حقوق است. آمار Glassdoor نشان میدهد حقوق یک دانشمند داده سطح ابتدایی حدود ۱۴۶۲۷۰ دلار است؛ سرانجام، محبوبیت چشمگیر. مجلهی هاروارد بیزینس ریویو (Harvard Business Review) در مقالهای بهیادماندنی در سال ۲۰۱۱ اعلام کرد که دانشمند داده یا دیتا ساینس جذابترین شغل قرن بیستویکم است.
-
1.
نکاتی برای دیتا ساینتیست شدن
- 1.1. ۱. ابهامزدایی از علم داده
- 1.2. ۲. زبان برنامهنویسی مناسب علم داده چیست؟
- 1.3. ۳. در ابتدا سخت خواهد بود؛ صبور باشید!
- 1.4. ۴. شما تنها نیستید؛ منابع علم داده با شما هستند!
- 1.5. ۵. هنر کدنویسی
- 1.6. ۶. یادگیری را از کجا شروع کنم؟
- 1.7. ۷. به یادگیری ادامه دهید!
- 1.8. ۸. علم داده وسیلهای برای رسیدن به هدف است!
- 1.9. ۹. هر که بامش بیش، برفش بیشتر
- 1.10. ۱۰. زندگی شما با دادهها عجین خواهد شد!
- 1.11. ۱۱. منابع آنلاین یادگیری علم داده را جدی بگیرید!
نکاتی برای دیتا ساینتیست شدن
اگر قصد دارید یک ماجراجویی جدید در حوزهی علم داده شروع کنید، از هیچ چیز دریغ نکنید و آن را دنبال کنید. برای کمک به شما در موفقیت در این سفر، ما فهرستی از ۱۱ درس و نکات عملی را آماده کردهایم که به شما کمک میکند در دنیای شگفتانگیز علم داده حرکت کنید و جایگاه خود را پیدا کنید.
۱. ابهامزدایی از علم داده
علم داده یا دیتا ساینس اغلب در کنار دیگر واژههای کلیدی فناوری، مانند بیگدیتا (Big data)، هوش مصنوعی (Artificial Intelligence) و یادگیری ماشین (Machine Learning)، محل بحث قرار میگیرد که درک روشنی از چیستی علم داده را دشوار میکند.
در چند کلمه، علم داده یک حوزهی میانرشتهای است که روشهای علمی، برنامهنویسی، الگوریتمها و آمار را برای استخراج دانش از دادهها ترکیب میکند. علم داده یا دیتا ساینس مجموعهای از ابزارها و روشهای قدرتمند برای مقابله با دادهها را دربرمیگیرد که تقریباً در هر صنعتی کاربردی است. این امکانات بسیار گسترده است، از تجزیهوتحلیل اکتشافی دادههای اولیه و تکنیکهای جمعآوری دادهها، مانند وب اسکرپینگ (Web scrapping)، تا برخی از باارزشترین کاربردهای حوزه، مانند موتورهای توصیهگر، بینایی کامپیوتر (Computer vision)، ماشینهای خودران و پردازش زبان طبیعی (Natural Language Processing)، جایی که یادگیری ماشین و یادگیری عمیق (Deep Learning) نقش ایفا میکنند، آنهم یک نقش حیاتی!
درحالیکه علم داده یک انتخاب طبیعی برای متخصصان با پیشینهی IT یا برنامهنویسی است، این رشته بهسرعت در حال پیشرفت است و امروزه منصفانه است که بگوییم هر کسی بدون توجه به اینکه از کجا آمدهاید، میگوید به دنیای علم داده یا دیتا ساینس خوش آمدید. دلیل؟ از آنجا که علم داده به رشتههای جدید وارد میشود، دانستن جنبههای اساسی یک حوزه یا زمینهی تحقیقاتی خاص بسیار مهم است.
علاوه بر مهارتهای فنی و کدنویسی، دانشمندان داده باید همیشه درجاتی از تخصص در حوزهی کسبوکار داشته باشند تا بتوانند آنچه انجام میدهند درک کنند. این امر ارزیابی دادههای ورودی، ارزیابی ارزش و اعتبار بینشها و تشخیص این را که چه چیزی منطقی است و چه چیزی نیست دربرمیگیرد.
پیشنهاد میکنیم با ۷ تصور غلط درمورد علم داده هم آشنا شوید.
۲. زبان برنامهنویسی مناسب علم داده چیست؟
یادگیری کدنویسی گامی ضروری برای تبدیلشدن به دانشمند داده یا دیتا ساینتیست است. با وجود رشد اخیر پلتفرمهای هوش مصنوعی «بدون کد» و درحالیکه این راهحلها به کاربران تجاری غیرفنی اجازه میدهند تا برنامهها و نرمافزارهایی را که میخواهند بسازند (در تلاش برای رفع کمبود مهارتهای توسعهدهندهی نرمافزار)، شایستگیها، منابع و طرز فکریای که دانشمندان داده ارائه میکنند، حداقل در حال حاضر، بهسختی جایگزینشدنی هستند.
برنامهنویسی بخش اصلی زندگی روزانهی یک دانشمند داده است؛ اما برنامهنویسی چیست و زبان برنامهنویسی چیست؟
برنامهنویسی تکنیکی است که امکان اجرای وظیفههای خودکار یک سیستم کامپیوتری را فراهم میکند. برای ارتباط با کامپیوتر از زبانهای برنامهنویسی استفاده میکنیم. زبان برنامهنویسی مجموعهای از قواعد معنایی و نحوی است که برنامهنویسان برای نوشتن دستورالعملها (که بهعنوان الگوریتم نیز شناخته میشوند) برای کامپیوتر برای تکمیل یک کار خاص استفاده میکنند.
در حال حاضر صدها زبان برنامهنویسی وجود دارد. در علم داده دو زبان برنامهنویسی محبوب Python و R هستند. هر دو زبان برای هر کار علم دادهای که ممکن است فکرش را کنید عالی هستند. آنها اغلب بهعنوان رقیب به تصویر کشیده میشوند، اما رویکرد هوشمندانهتر این است که آنها را بهعنوان زبانهای مکمل ببینیم، یعنی متحدانی که میتوانند برای بهرهبرداری کامل از پتانسیلشان با هم ترکیب شوند.
پیشنهاد میکنیم با زبان برنامه نویسی پایتون هم آشنا شوید.
۳. در ابتدا سخت خواهد بود؛ صبور باشید!
برای طیکردن نقشه راه دیتا ساینتیست شدن باید صبور باشید. بیایید صادق باشیم: یادگیری کدنویسی سخت است. این عبارت برای هر فرد، صرفنظر از پیشینهاش، صدق میکند. وقت آن رسیده است که فکر نکنیم فردی که در رشتهی علوم کامپیوتر یا ریاضی تحصیل کرده است در مقایسه با یک فارغالتحصیل رشتههای علوم انسانی نامزد مناسبتری برای علم داده است. تنها تفاوت میان آنان این است که اولی احتمالاً برنامهنویسی را در کالج شروع کرده و دومی احتمالاً این کار را نکرده است؛ اما مطمئن باشید که اولی نیز در مقطعی با کدنویسی مشکل داشت، بهخصوص در ابتدا!
کدنویسی مانند رفتن به باشگاه است. روزهای اول عضلات شما احساس درد و سفتشدن میکند. شما به آن درد عادت ندارید و درحالیکه روی کاناپه دراز کشیدهاید، ممکن است وسوسه شوید آن را ترک کنید، اما اگر تسلیم نشوید، اگر به ورزش ادامه دهید، همهچیز به تدریج بهبود خواهد یافت. پس از چند هفته متوجه خواهید شد که در حال شکستدادن نقاط عطف تناسب اندام هستید که چندی پیش دستنیافتنی به نظر میرسید. درنهایت، رفتن به باشگاه بخشی از روتین شما خواهد شد و یک روز متوجه خواهید شد که از ورزشکردن لذت میبرید.
برای اکثر نوزادان، میان ۹ تا ۱۴ ماه طول میکشد تا شروع به صحبت کنند. خوشبختانه یک زبان برنامهنویسی بسیار سادهتر و ابتداییتر از زبان انسانی است. اگر مصمم هستید، باید بتوانید در عرض چند ماه اسکریپتهای اولیه بنویسید؛ درست مانند رفتن به باشگاه، هنگام یادگیری زبان برنامهنویسی نیز باید صبور باشید.
پیشنهاد میکنیم با مسیر ورود به علم داده یا دیتاساینس هم آشنا شوید.
۴. شما تنها نیستید؛ منابع علم داده با شما هستند!
این خبر خوبی است و در طول طیکردن نقشه راه دیتا ساینتیست شدن همواره باید آن را به خاطر داشته باشید. ماجراجویی علم داده شما پر از موانع خواهد بود. ممکن است هنگام نوشتن کدتان گیر کنید، گاهی متوجه نمیشوید چرا اسکریپت شما بهدرستی اجرا نمیشود و زمانهایی پیش میآید که نمیدانید چگونه یک تسک خاص علم داده را شروع کنید.
نیازی به استرس نیست؛ شما تنها نیستید. یکی از جالبترین چیزها در علم داده و بهطور گستردهتر، اکوسیستم برنامهنویسی، این است که اینترنت پر از منابع و اطلاعاتی است که میتواند به شما در غلبه بر چالشهایی که ممکن است با آنها مواجه شوید کمک کند. شما فقط باید سؤالات درست را بپرسید تا به پاسخهای درست برسید.
در اینجا فهرستی از منابعی که در طول سفر علم داده به کمکتان میآیند معرفی کردهایم:
- Stack Overflow برای برنامه نویسان: با بیش از ۱۶ میلیون کاربر Stack Overflow یک پلتفرم پرسشوپاسخ عمومی برای برنامهنویسان است. اگر با اسکریپت پایتون یا R خود مشکلی دارید، احتمالاً درنهایت به دنبال راهحل در Stack Overflow خواهید بود.
- آموزشها: با تحلیل رگرسیون مشکل دارید؟ نمیدانید از کجا با وب اسکرپینگ شروع کنید؟ خواندن یک آموزش (Tutorial) درمورد این موضوع میتواند یک نقطهی شروع عالی باشد. شما میتوانید آموزشهای جامعی را درمورد طیف وسیعی از موضوعها در پلتفرمهای شناختهشده، مانند DataCamp و حتی YouTube، پیدا کنید.
- دورههای آنلاین: اگر میخواهید متخصص حوزه شوید، مهارتهای کدنویسی خود را تقویت کنید یا فقط میخواهید افق علم داده یا دیتا ساینس خود را گسترش دهید، احتمالاً یک دورهی آنلاین همان چیزی است که به دنبال آن هستید. گزینههای زیادی در بازار وجود دارد، ازجمله DataCamp و Coursera.
- کتابهای علم داده: کتابها همیشه منبعی عالی برای اطلاعات بودهاند. تعداد فزایندهای از کتابهای علم داده در سالهای گذشته منتشر شدهاند و بسیاری از آنها را میتوان بهصورت آنلاین و بهشکل رایگان پیدا کرد. یک توصیهی خوب کتابهای O’Reilly است.
برای آشنایی بیشتر با منابع پیشنهاد میکنیم با کلیک روی لینک پرسشهای متداول علم داده، پادکست پرسشهای متداول علم داده کافهتدریس را گوش کنید.
۵. هنر کدنویسی
درس دیگر در نقشه راه دیتا ساینتیست شدن این است که پس از چند ماه تمرین برنامهنویسی، اعتمادبهنفس بیشتری درمورد مهارتهای خود خواهید داشت. درنهایت، شما شروع به دیدن تصویر بزرگ خواهید کرد و متوجه خواهید شد که کدنویسی یک هنر است؛ برای مثال، متوجه خواهید شد که راههای زیادی برای حل یک مشکل برنامهنویسی وجود دارد، اما برخی از آنها کارآمدتر از باقی هستند. درواقع، جستوجو برای کارایی کار شما را چه از نظر نوشتن و چه از نظر اجرای کد هدایت خواهد کرد. این شما را به یادگیری استراتژیهای برنامهنویسی جدید سوق میدهد.
یکی دیگر از جنبههای مهم که شما شروع به توجهکردن به آن خواهید کرد خوانایی است. به یاد داشته باشید که خوانایی، نهتنها برای برنامهنویسان دیگری که ممکن است مجبور شوند با اسکریپتهای شما سروکار داشته باشند، برای خود شما در آینده نیز مهم است. با ایجاد تغییرات کوچک در برخی از عناصر، مانند ساختار نحو، نامگذاری متغیرها و توابع و فاصله و تورفتگی، کد شما میتواند بهتر به نظر برسد و قابلدرکتر باشد؛ همچنین اظهارنظر درمورد کد و مستندسازی عملکردهای خود زندگی را برای شما و دیگر خوانندگان آسانتر میکند.
۶. یادگیری را از کجا شروع کنم؟
در مسیر نقشه راه دیتا ساینتیست شدن احتمالاً همه برای رسیدن به پاسخ این پرسش عجله دارند. ما قبلاً علم داده یا دیتا ساینس را بهعنوان یک حوزهی میانرشتهای تعریف کردیم که روشهای علمی، برنامهنویسی، الگوریتمها و آمار را برای استخراج دانش از دادهها ترکیب میکند. بله، علم داده حوزهی نسبتاً سختی است و باید بدانید که هر فردی که وارد علم داده میشود، صرفنظر از پیشینهاش، باید یک فرایند یادگیری خاص را طی کند و دانستن همهچیز بلافاصله غیرممکن است!
پس از کجا شروع کنیم؟ پاسخ واحدی برای این سؤال وجود ندارد، اما بدون داشتن پایهای در برنامهنویسی، آمار و ریاضی در حرفهی خود خیلی پیشرفت نخواهید کرد. درمورد برنامهنویسی، علاوه بر پایتون یا R، مطمئناً دانستن SQL ضروری است. از ریاضی و آمار نترسید؛ ممکن است زمان بیشتری طول بکشد، اما در زمان خود خواهید آموخت که p-value یا یک شبکهی عصبی مصنوعی چیست.
۷. به یادگیری ادامه دهید!
این نکته در مسیر نقشه راه دیتا ساینتیست شدن حیاتی است. اگر فکر میکنید که پیداکردن اولین شغل علم داده یا دیتا ساینس پایان ماجراجویی است، در اشتباهاید. علم داده یک حوزهی پویا و بهسرعت در حال توسعه است. آنچه امروز محبوب است فردا میتواند منسوخ شود.
اولاً علم داده یک فرایند یادگیری مادامالعمر است. شما باید به یادگیری ادامه دهید، وگرنه در خطر منسوخشدن هستید.
ثانیاً دانستن همهی زبانهای برنامهنویسی و فناوریهای موجود غیرممکن است؛ بنابراین با توجه به نیازهای شغلی خود و آنچه بیشتر به آن علاقه دارید، انتخاب کنید که چه چیزی یاد بگیرید.
مطالعه مطلب ۱۰ پادکست معروف علم داده میتواند منابع جذابی برای یادگیری مداوم در اختیار شما قرار دهد.
۸. علم داده وسیلهای برای رسیدن به هدف است!
ارزش کار شما بهعنوان یک دانشمند داده درصورتیکه نتوانید ارتباط پروژههایی را که روی آنها کار میکنید بیان کنید چیست؟ اگر کسی متوجه کار شما نشود، انجامدادن یک تجزیهوتحلیل عمیق و کامل داده چه فایدهای دارد؟
هدف علم داده استخراج بینش از دادهها و بهکارگیری آن بینشها برای ایجاد ارزش است؛ بهعبارت دیگر، علم داده، بهخودی خود، یک هدف نیست، بلکه وسیلهای برای ایجاد ارزش است. مهارتهایی مانند ارتباط خوب، داستانسرایی و تفکر خلاق کلیدی برای تبدیل بینش به ارزش هستند.
۹. هر که بامش بیش، برفش بیشتر
در مسیر طیکردن نقشه راه دیتا ساینتیست شدن این درس اساسی است. این احتمالاً مهمترین درس است. علم داده پشت برخی از باارزشترین برنامهها و اختراعهای زندگی ما قرار دارد. جوامع ما بهسرعت در حال تغییر هستند که با نیروی علم داده و هوشمصنوعی، در میان دیگر فناوریها، به پیش میروند.
در طی این بیقطعیتها و تغییرات شدید مهم است که انتقادی و محتاط بمانید. کار روزانهی ما، بهعنوان دانشمندان داده، سروکار داشتن با دادهها، ساخت مدلها و تبدیل بینش به ارزش است، اما همیشه باید سعی کنیم از رایانههایمان فراتر برویم و خودمان را درمورد تأثیرات اجتماعی کارمان زیرسؤال ببریم. انتقادپذیری و پاسخگویی اولین قدم برای جلوگیری از سوءاستفادههای صنعتی و تضمین آیندهای عادلانه است.
پیشنهاد میکنیم با روز کاری دیتا ساینتیست هم آشنا شوید.
۱۰. زندگی شما با دادهها عجین خواهد شد!
علم داده، نهتنها جامعه را تغییر میدهد، بلکه زندگی شما را نیز برای همیشه تغییر میدهد.
دنیایی که ما در آن زندگی میکنیم پیچیده است. ما دائماً با فرایندها و سیستمهایی سروکار داریم که فراتر از درک ما هستند. برای پرداختن به این پیچیدگی، ما با مدلهایی کار میکنیم که میتوان آنها را بهعنوان توصیف سادهشده واقعیت تعریف کرد. در این راستا، علم داده تعداد خوبی از مدلها را ارائه میکند که میتواند به ما در درک دنیای خود کمک کند؛ برای مثال، مدل رابطهای برای مدیریت پایگاه داده میتواند برای ساختاردهی اطلاعات و توصیف پدیدههای پیچیده بسیار مفید باشد. مدلهای شبکههای اجتماعی میتوانند به ما کمک کنند بفهمیم چگونه اطلاعات از فردی به فرد دیگر جریان مییابد یا از ظرفیت شبکههایی که بخشی از آن هستیم بهرهبرداری کنیم.
حتی جذابتر از آن، مدلهای ریاضی که برنامههای یادگیری ماشین را تقویت میکنند، نهتنها برای یادگیری رایانهها حیاتی هستند، دیدگاههای جدیدی را برای نگاهکردن به هوش انسان و درنتیجه، بهدستآوردن درک عمیقتری از خود ارائه میکنند.
درنهایت، دلیل دیگری وجود دارد که علم داده شما را تغییر خواهد داد. ما در عصر بیگدیتا زندگی میکنیم. هر روز هزاران داده ایجاد و جمعآوری میشود. داده چیزی نیست بهجز اطلاعات انواعواقسام منابع. خواندن به ما امکان میدهد از کتابها و دیگر متون منبع بیاموزیم و سواد داده به ما امکان میدهد از دادهها بیاموزیم. این کاملاً یک چیز مشابه است؛ زیرا داده راههای بیسابقهای برای مطالعه دربارهی هر حوزهای که ممکن است فکرش کنید، از پزشکی، روانشناسی و هنر گرفته تا تغییرات آبوهوایی و اقلیمی، نجوم و تاریخ، ارائه میکند.
علم داده ابزارهایی را برای تجزیهوتحلیل دادهها در اختیار شما قرار میدهد؛ کاری که با آنها انجام میدهید فقط به تخیل و کنجکاوی شما متکی است؛ پس بیایید ماجراجویی را ادامه دهیم. آن سوی دنیای علمداده چیزهایی وجود دارند که منتظر هستند شما کشفشان کنید. فراگیری مهارتهای کار با داده را همین حالا شروع کنید!
۱۱. منابع آنلاین یادگیری علم داده را جدی بگیرید!
برای پایاندادن به این مطلب، میخواهیم آخرین درس را با شما به اشتراک بگذاریم: یکی از درسهایی که باید در مسیر نقشه راه دیتا ساینتیست شدن همیشه در نظر بگیرید امکانات فراوانی است که منابع یادگیری آنلاین در اختیار شما قرار میدهد. دورههای آنلاین، از کلاسهای آنلاین گرفته تا ویدئوهای آموزشی و همینطور منابع مکتوب، نظیر چیزی که همین الان در حال مطالعهی آن هستید، به شما امکان میدهد از هر نقطهی جغرافیایی به بهروزترین و جامعترین آموزش دیتا ساینس دسترسی داشته باشید.
خبر خوب این است که کافهتدریس بهصورت کاملاً تخصصی و با بهرهبردن از بهروزترین منابع کلاسهای آنلاین آموزش علم داده را برگزار میکند.
شکل برگزاری کلاسهای آنلاین آموزش علم داده کافهتدریس تعاملی و پویا و در قالب کارگاهی، با کار روی پروژههای واقعی علم داده، است.
برای آشنایی با کلاسهای آنلاین آموزش علم داده کافهتدریس و مشاورهی رایگان برای شروع یادگیری دیتا ساینس و ماشین لرنینگ روی این لینک کلیک کنید: