چطور از سایکیدلرن استفاده کنیم؟ راهنمای گام‌به‌گام استفاده از کتابخانه Scikit-Learn

یادگیری ماشین (Machine Learning) یکی از شاخه‌های هوش مصنوعی است که به مطالعه و ساخت روش‌هایی برای شبیه‌سازی یادگیری انسان می‌پردازد. سایکیدلرن (Scikit-Learn) یکی از محبوب‌ترین کتابخانه‌های پایتون برای پیاده‌سازی مدل‌های یادگیری ماشین است. این کتابخانه به کاربران اجازه می‌دهد تا با استفاده از واسطی یکپارچه، الگوریتم‌های مختلف یادگیری نظارتی و غیرنظارتی را به‌راحتی پیاده‌سازی کنند. در این آموزش، به بررسی مراحل مختلف چرخه یادگیری ماشین یعنی پیش‌پردازش (Preprocessing) داده، آموزش مدل (Training) و ارزیابی مدل (Evaluation) به‌کمک سایکیدلرن می‌پردازیم.

فهرست مطالب پنهان‌کردن فهرست

1. انواع ماشین لرنینگ
2. سایکیدلرن چیست؟
3. چطور با سایکیدلرن کار کنیم؟
4. مدل‌های طبقه‌بندی
5. مدل‌های خوشه‌بندی
6. جمع‌بندی
7. پرسش‌های متداول
8. یادگیری ماشین لرنینگ را از امروز شروع کنید!

انواع ماشین لرنینگ

یادگیری ماشین به کامپیوترها این امکان را می‌دهد که از داده‌ها یاد بگیرند و بدون برنامه‌نویسی صریح عملکردهای مختلف را بهبود بخشند. یادگیری ماشین به سه نوع اصلی تقسیم می‌شود:

یادگیری نظارت‌شده

یادگیری نظارت‌شده (Supervised Learning) متداول‌ترین نوع یادگیری ماشین است که در آن مدل با استفاده از داده‌های برچسب‌دار (Labelled data) آموزش می‌بیند. این داده‌ها شامل ورودی‌ها و خروجی‌های صحیح هستند. هدف این نوع یادگیری، یافتن یک رابطه یا تابعی است که بتواند ورودی‌های جدید را به خروجی‌های درست تبدیل کند. یادگیری نظارت‌شده به دو نوع اصلی تقسیم می‌شود:

رگرسیون (Regression): در این روش، هدف پیش‌بینی مقدار عددی پیوسته است. به عنوان مثال، پیش‌بینی قیمت خانه‌ها بر اساس ویژگی‌های مختلف آن‌ها.
طبقه‌بندی (Classification): در این روش، هدف مدل، دسته‌بندی داده‌ها به کلاس‌های مختلف است. به عنوان مثال، تشخیص ایمیل‌های اسپم از غیر اسپم یا تشخیص بیماری در پزشکی.

یادگیری بدون نظارت

در یادگیری بدون نظارت (Unsupervised Learning)، مدل با استفاده از داده‌های بدون برچسب (Unlabeled data) آموزش می‌بیند. هدف این نوع یادگیری، کشف الگوها و ساختارهای پنهان در داده‌ها بدون داشتن خروجی‌های صحیح است. یادگیری بدون نظارت به دو نوع اصلی تقسیم می‌شود:

خوشه‌بندی (Clustering): در این روش، مدل داده‌ها را به گروه‌های مشابه (خوشه‌ها) تقسیم می‌کند. به عنوان مثال، تقسیم مشتریان به گروه‌های مختلف بر اساس رفتار خرید.
کاهش ابعاد (Dimensionality Reduction): در این روش، مدل تلاش می‌کند ابعاد داده‌ها را کاهش دهد در حالی که اطلاعات مهم حفظ شود. به عنوان مثال، کاهش ابعاد تصاویر برای فشرده‌سازی داده‌ها یا تجسم داده‌ها.

یادگیری تقویتی

یادگیری تقویتی (Reinforcement Learning) نوعی از یادگیری ماشین است که در آن یک عامل نرم‌افزاری با تعامل با محیط خود یاد می‌گیرد تا اقداماتی را انجام دهد که منجر به حداکثر پاداش شود. در این نوع یادگیری، عامل به طور مداوم از محیط بازخورد می‌گیرد و تصمیمات خود را بر اساس این بازخوردها بهبود می‌بخشد. یادگیری تقویتی در مسائلی که شامل تصمیم‌گیری‌های متوالی هستند، بسیار کاربردی است. به عنوان مثال، بازی‌های ویدئویی، رباتیک و سیستم‌های توصیه‌گر.

برای آشنایی بیشتر با یادگیری تقویتی، به این مقاله مراجعه کنید: یادگیری تقویتی یا Reinforcement Learning و کاربردهایش چیست؟

سایکیدلرن چیست؟

سایکیدلرن یک کتابخانه متن‌باز (Open Source) و قوی در پایتون است که برای ساده‌سازی فرآیند پیاده‌سازی مدل‌های یادگیری ماشین طراحی شده است. این کتابخانه به متخصصان این امکان را می‌دهد که یک طیف وسیع از الگوریتم‌های یادگیری ماشین نظارت‌شده و بدون نظارت را از طریق یک رابط کاربری سازگار پیاده‌سازی کنند. Sklearn بر پایه SciPy ساخته شده و با انواع داده‌های عددی که به صورت آرایه‌های NumPy و سایر انواع داده‌هایی که می‌توانند به آرایه‌های عددی تبدیل شوند (مانند DataFrameهای Pandas)، کار می‌کند.

چطور با سایکیدلرن کار کنیم؟

در ادامه می‌خواهیم نحوه استفاده از سایکیدلرن را طی اجرای چند پروژه ماشین لرنینگ در محیط Google Colab آموزش دهیم. برای انجام این کار لازم است ابتدا یک مجموعه داده متناسب با نوع پروژه ماشین لرنینگی که می‌خواهیم اجرا کنیم، داشته باشیم. جالب است بدانید سایکیدلرن فکر این‌جا را هم کرده و برخی مجموعه داده‌های استاندارد یادگیری ماشین را در کلاس datasets خود قرار داده است. این یعنی نیازی به دانلود داده از یک وبسایت یا پایگاه داده خارجی نیست. اما چطور می‌توان به این مجموعه داده‌ها دسترسی پیدا کرد؟

بارگذاری داده‌ها

همان‌طور که گفتیم، می‌توان از کلاس datasets از کتابخانه سایکیدلرن، داده‌ موردنیاز برای انجام پروژه موردنظر را بارگذاری کرد. اما پیش از آن، باید بدانیم که می‌خواهیم چه پروژه‌ای انجام بدهیم تا متناسب با آن، مجموعه داده خود را انتخاب کنیم. برای مثال، یکی از مجموعه داده‌های سایکیدلرن که مناسب مدل‌های رگرسیون می‌باشد، مجموعه داده دیابت است. در این قسمت بااستفاده از این دیتاست یک پروژه رگرسیون را اجرا خواهیم کرد. برای بارگذاری این دیتاست از کد زیر استفاده می‌کنیم:

این کد، داده‌ها را به صورت یک دیکشنری‌ بارگذاری می‌کند. برای پردازش و تحلیل داده‌ها، می‌توانیم آن‌ها را به یک DataFrame تبدیل کنیم:

در نهایت، پنج سطر اول آن را نمایش می‌دهیم تا نگاهی سریع به داده‌ها داشته باشیم:

این دیتاست شامل اطلاعات مربوط به ۴۴۲ بیمار دیابتی است و همان‌طور که در تصویر بالا مشخص است، شامل ۱۰ ویژگی‌ (Feature) و یک متغیر هدف (Label) می‌باشد. در ادامه توضیح مختصری از تعریف هریک از این ویژگی‌ها و همچنین متغیر هدف آورده‌شده‌است:

age: سن بیمار
sex: جنسیت بیمار
BMI: شاخص توده بدنی بیمار یا همان نسبت وزن به کیلوگرم تقسیم بر (قد به متر به‌توان دو)
BP: میانگین فشار خون بیمار
S1: مقدار کلسترول موجود در سرم خون (بخشی از پلاسمای خون) بیمار
S2: میزان لیپوپروتئین‌های با چگالی کم بیمار
S3: میزان لیپوپروتئین‌های با چگالی بالا بیمار
S4: میزان کلسترول کل بیمار
S5: میزان تری‌گلیسرید سرم خون بیمار
S6: سطح قند خون بیمار
متغیر هدف: برچسب یا Label این مجموعه داده، یک معیار کمی از میزان پیشرفت بیماری است که با یک مقدار پیوسته نمایش داده می‌شود.

اکتشاف داده‌ها

اکتشاف داده‌ها (Data exploration) مرحله‌ای مهم در هر پروژه ماشین لرنینگ است که به ما کمک می‌کند تا ساختار و ویژگی‌های داده‌ها را بهتر بفهمیم. با استفاده از متدهای info و describe در پانداس، می‌توانیم خلاصه‌ای از داده‌ها و آمار توصیفی آن‌ها را به‌دست آوریم:

پیش‌پردازش داده‌ها

پیش‌پردازش (Preprocessing) داده‌ها شامل مراحل متعددی است. برخی از مهم‌ترین این مراحل، حذف مقادیر گم‌شده (Missing values) و داده‌های تکراری است. همان‌طور که در تصویر قبل مشخص است، مجموعه داده دیابت هیچ مقدارگم‌شده‌ای ندارد زیرا مقابل تمام فیچرها نوشته‌شده که ۴۴۲ داده‌ غیر خالی (non-null) داریم.

بررسی داده‌های تکراری

بااستفاده از متد duplicated می‌توان وجود داده‌های تکراری در مجموعه داده را بررسی کرد. در این‌جا بااستفاده از کد زیر مجموع تعداد داده‌های تکراری را می‌توان دید:

که خوشبختانه همان‌طور که می‌بینید، مجموعه داده ما داده تکراری هم ندارد.

تقسیم داده‌ها به مجموعه‌های آموزشی و آزمایشی

پیش از انجام باقی مراحل پیش‌پردازش، بهتر است مجموعه داده‌مان را به دو مجموعه آموزشی و آزمایشی تبدیل کنیم. این کار را می‌توان بااستفاده از متد model_selection در سایکیدلرن به‌صورت زیر انجام داد:

در این کد ابتدا از مجموعه داده کامل، ویژگی‌ها را جدا کرده و در متغیر X می‌ریزیم و برچسب را نیز در متغیر y. سپس باکمک تابع گفته‌شده، داده‌ها را با نسبت ۸۵ درصد آموزشی و ۱۵ درصد آزمایشی تقسیم می‌کنیم.

استانداردسازی

یکی دیگر از کارهایی که می‌توان در فاز پیش‌پردازش انجام داد استانداردسازی داده‌ها است. ما در کلاس preproseccing سایکیدلرن دو نوع استانداردسازی داریم:

StandardScaler

StandardScaler یکی از ابزارهای موجود در کتابخانه سایکیدلرن است که برای استانداردسازی داده‌ها استفاده می‌شود. این ابزار داده‌ها را طوری مقیاس‌بندی می‌کند که میانگین هر ویژگی برابر با ۰ و انحراف معیار آن برابر با ۱ باشد. این کار باعث می‌شود تا ویژگی‌ها با مقیاس‌های مختلف، تأثیر یکسانی در مدل‌های یادگیری ماشین داشته باشند. فرمول استفاده‌شده در این ابزار به‌صورت زیر است:

در این فرمول میانگین μ و انحراف معیار σ داده‌ها است.

نکته قابل توجه در نحوه استفاده از این تابع، این است که باید روی مجموعه داده آموزشی fit_transform و روی داده‌های آزمایشی transform شود. درواقع برای استانداردسازی داده‌های آموزشی ابتدا میانگین (μ_train) و انحراف معیار (σ_train) داده‌های آموزش محاسبه می‌شود، سپس هر داده از مجموعه آموزش (X_train) از میانگین کسر شده و بر انحراف معیار تقسیم می‌شود. اما برای استانداردسازی داده‌های آزمایشی (X_test)، از میانگین و انحراف معیار محاسبه شده از داده‌های آموزش استفاده می‌شود. به عبارت دیگر، داده‌های آزمایشی از میانگین داده‌های آموزشی کسر شده و بر انحراف معیار داده‌های آموزشی تقسیم می‌شوند.

توضیحات مربوط به این فرایند در کلاس علم داده استاد شکرزاد نیز مطرح شده است. در شکل زیر می‌توانید دست‌نوشت استاد برای توضیح مبحث استانداردسازی را ببینید:

MinMaxScaler

MinMaxScaler یکی دیگر از ابزارهای موجود در کتابخانه سایکیدلرن است که برای استانداردسازی داده‌ها استفاده می‌شود. این ابزار داده‌ها را به یک بازه مشخص (بین ۰ و ۱) مقیاس‌بندی می‌کند. این کار باعث می‌شود تا مدل‌های یادگیری ماشین سریع‌تر و با دقت بیشتری آموزش ببینند. فرمول استفاده‌شده در این ابزار به‌صورت زیر است:

در این فرمول:

X مقدار اصلی ویژگی (Feature)، کمترین مقدار ویژگی در داده‌ها و بیشترین مقدار ویژگی در داده‌ها است.

برای استفاده از این نوع استاندارسازی، ابتدا آن را از کلاس گفته‌شده فراخوانی (import) می‌کنیم:

سپس یک نمونه (Instance) از آن می‌سازیم:

درپایان برای اعمال این تابع روی مجموعه داده‌های آموزشی و آزمایشی به‌صورتی که توضیح دادیم عمل می‌کنیم:

فراخوانی مدل

برای مرحله آموزش، ابتدا باید مدل موردنظر را انتخاب کنیم. سایکیدلرن مدل‌‌های ماشین لرنینگ متنوعی دارد که برخی از آن‌ها مربوط به پروژه‌های رگرسیون، برخی نیز مربوط به پروژه‌های طبقه‌بندی و برخی هم مربوط به پروژه‌های خوشه‌بندی است. ما در این قسمت از مدل‌های رگرسیون این کتابخانه استفاده می‌کنیم.

برای این کار ابتدا باید این مدل‌ها را از کلاس‌های مربوطه‌شان فراخوانی کنیم:

مدل‌های فراخوانی‌شده به‌ترتیب ماشین بردار پشتیبان، درخت تصمیم، K نزدیک‌ترین همسایه، جنگل تصادفی، رگرسیون‌های خطی، ریج، لاسو و الاستیک هستند. برای مطالعه تئوری هر یک از این مدل‌ها، به لینک قرارداده‌شده مراجعه فرمایید.

برای مقایسه راحت‌تر عملکرد این مدل‌ها بایکدیگر، ابتدا یک دیکشنری به اسم models تعریف می‌کنیم که شامل چندین مدل رگرسیون مختلف از کتابخانه سایکیدلرن است. هر کلید (key) در این دیکشنری نام مدل را نشان می‌دهد و هر مقدار (value) یک نمونه (Instance) از آن مدل است:

آموزش و ارزیابی عملکرد مدل‌ها

درقسمت بعد، دو تابع mean_squared_error و r2_score را از کتابخانه سایکیدلرن فراخوانی می‌کنیم که برای ارزیابی مدل‌ها استفاده می‌شوند:

سپس یک دیکشنری خالی به نام results تعریف می‌کنیم تا نتایج ارزیابی مدل‌ها را ذخیره کند:

درادامه یک حلقه for قرار می‌دهیم که برای هر مدل در دیکشنری models به‌ترتیب کارهای زیر را انجام می‌دهد:

مدل روی داده‌های آموزشی X_train_scaled و y_train آموزش داده می‌شود (model.fit).
مدل بر روی داده‌های آزمایشی X_test_scaled پیش‌بینی‌ انجام می‌دهد (model.predict).
سپس در فاز ارزیابی خطای میانگین مربعات (MSE) و امتیاز R² محاسبه می‌شود.
نتایج ارزیابی مدل در دیکشنری results ذخیره می‌شود.

سپس بااستفاده از کد زیر میزان خطا و امتیاز عملکرد هر مدل را چاپ می‌کنیم:

بعد از اجرای کدهای گفته‌شده خروجی به‌شکل زیر درخواهدآمد:

تفسیر نتایج

باتوجه به این اعداد می‌توان فهمید مدل رگرسیون خطی با خطای ۳۱۰۴ و امتیاز ۰.۴۷ بهترین عملکرد را داشته است. رگرسیون Ridge عملکردی مشابه رگرسیون خطی دارد و تنها تفاوت اندکی در خطا و امتیاز نسبت به آن مشاهده می‌شود. رگرسیون Lasso، خطای بیشتری نسبت به دو مدل قبلی دارد اما هنوز هم عملکردش قابل قبول است. مدل رگرسیون Elasticnet نیز که ترکیبی از رگرسیون‌های Ridge و Lasso است، نسبت به رگرسیون خطی و Ridge عملکرد کمی ضعیف‌تری دارد اما همچنان در حد متوسط است. با توجه بهMSE بسیار بالا و امتیاز R² منفی مدل درخت تصمیم، عملکرد این مدل بسیار ضعیف به‌شمار می‌رود. مدل جنگل تصادفی عملکرد بهتری نسبت به درخت تصمیم دارد، اما هنوز هم MSE بیشتر وامتیاز R² پایین‌تری نسبت به مدل‌های خطی نشان می‌دهد. عملکرد مدل‌های ماشین بردار پشتیبان و KNN نیز چندان جالب نیست.

استفاده از GridSearchCV

برای تنظیم هایپر پارامترهای این مدل‌ها و بهبود عملکرد هریک، می‌توان از GridSearch استفاده کرد. برای این منظور ابتدا باید کتابخانه GridSearchCV را فراخوانی کنیم:

سپس یک دیکشنری تعریف می‌کنیم و پارامترهای مختلفی که برای هر مدل قرار است جستجو شوند را در آن قرار می‌دهیم. برای مثال، رگرسیون‌های Ridge و Lasso دارای پارامتر alpha با مقادیر مختلف هستند. این پارامتر ضریب جمله تنظیم (Regularization term) را تعیین می‌کند:

حال باید مجددا مانند قسمت قبل، مدل‌ها را در یک دیکشنری قرار دهیم. این دیکشنری، مدل‌های مختلف رگرسیون را تعریف می‌کند که قرار است آموزش داده شوند. همچنین یک دیکشنری به‌نام results برای ذخیره نتایج ارزیابی هر مدل ایجاد می‌کنیم:

سپس مانند حالت قبل یک حلقه for تعریف می‌کنیم که برای هر مدل در دیکشنری models کارهای زیر را انجام می‌دهد:

برای هر مدل، ابتدا نام مدل چاپ می‌شود.
یک GridSearchCV با استفاده از آن مدل و پارامترهای مربوطه ایجاد می‌شود (grid_search). این عملیات با ۵ فولد (cv=5) و خطای MSE و امتیاز R² برای ارزیابی انجام می‌شود.
مدل با استفاده از داده‌های آموزشی، آموزش داده می‌شود (grid_search.fit).
بهترین مدل از جستجوی شبکه پارامترها انتخاب می‌شود (grid_search.best_estimator_).
پیش‌بینی‌ها برای داده‌های آزمایشی بااستفاده از بهترین مدل انجام می‌شود (best_model.predict).
MSE و R² برای پیش‌بینی‌های انجام شده محاسبه می‌شود.
نتایج در دیکشنری results ذخیره می‌شوند.

در نهایت، نتایج ارزیابی هر مدل شامل MSE، R² و بهترین پارامترهای تنظیم‌شده برای هریک چاپ می‌شوند:

به‌این‌ترتیب می‌توان بهترین مدل و بهترین پارامترهای تنظیم‌شده‌ای که درطول فرآیند GridSearchCV آموزش دید را استخراج کرد. خروجی این کد را می‌توانید در شکل زیر ببنید:

همان‌طور که می‌بینید در اغلب مدل‌ها نسبت به حالت پایه، شاهد بهبود عملکرد هستیم. مقایسه عملکرد مدل پایه و تنظیم‌شده هر یک از مدل‌های رگرسیون بالا را می‌توانید در ادامه ببینید:

رگرسیون خطی

رگرسیون خطی به عنوان مدل پایه، خود عملکرد خوبی داشته و هیچ پارامتر اضافی برای تنظیم نداشته است.

رگرسیون Ridge

رگرسیون Ridge، که شامل منظم‌سازی L2 (L2 Regularization) برای جلوگیری از بیش‌برازش است، در مدل پایه عملکرد کمی بهتر نسبت به مدل بهینه داشته است. این نشان می‌دهد که افزایش مقدار آلفا (ضریب جمله تنظیم) به ۱۰ در مدل بهینه ممکن است بیش از حد منظم‌سازی کرده و باعث کاهش کمی در عملکرد مدل شده باشد. بنابراین، انتخاب پارامترهای مناسب در این رگرسیون بسیار مهم است.

رگرسیون Lasso

رگرسیون Lasso با استفاده از منظم‌سازی L1 (L1 Regularization) برای تنظیم پارامترها عمل می‌کند. نتایج مدل پایه و مدل بهینه برای لاسو یکسان هستند که نشان‌دهنده عدم تغییر در تنظیم پارامترها است. این مدل می‌تواند ویژگی‌های غیرمهم را به صفر برساند و مدل را ساده‌تر کند، اما به نظر می‌رسد که مقدار آلفا در هر دو حالت بهینه بوده است.

رگرسیون ElasticNet

رگرسیون ElasticNet ترکیبی از منظم‌سازی‌های L1 و L2 را استفاده می‌کند و به طور قابل توجهی بهتر از مدل پایه عمل کرده است. این نشان می‌دهد که تنظیم پارامترهای آلفا و نسبت استفاده از L1 و L2 به ۰.۱ کمک کرده است تا مدل بهتر عمل کند. این مدل از هر دو نوع منظم‌سازی بهره می‌برد و می‌تواند تعادلی مناسب بین آنها ایجاد کند.

درخت تصمیم

همان‌طور که به‌خاطر دارید درخت تصمیم در مدل پایه عملکرد بسیار ضعیفی داشت، در حالی که تنظیم پارامترهای عمق درخت (max_depth) و حداقل نمونه‌های تقسیم (min_samples) بهبود چشمگیری ایجاد کرده است. این نشان می‌دهد که درخت‌ تصمیم بدون تنظیمات مناسب ممکن است به‌مشکل بیش‌برازش (Overfitting) یا کم‌برازش (Underfitting) دچار شوند، اما با تنظیمات مناسب می‌توانند عملکرد بهتری داشته باشند.

جنگل تصادفی

جنگل تصادفی که مجموعه‌ای از درخت‌های تصمیم است، در مدل بهینه کمی بهتر از مدل پایه عمل کرده است. تنظیم عمق درخت‌ها (max_depth) و تعداد درخت‌ها (n_estimators) به بهبود عملکرد کمک کرده است. این مدل به دلیل استفاده از چندین درخت، از استحکام و دقت بیشتری برخوردار است و تنظیمات مناسب می‌تواند این مزیت را افزایش دهد.

ماشین بردار پشتیبانی

مدل SVM در مدل پایه عملکرد بسیار ضعیفی داشته است، اما با تنظیم پارامترهای C و اپسیلون بهبود قابل توجهی پیدا کرده است. این نشان می‌دهد که SVM به شدت وابسته به تنظیم پارامترها است و با تنظیم مناسب می‌تواند عملکرد بسیار بهتری داشته باشد. این مدل به ویژه در مسائل پیچیده و غیرخطی کارآمد است.

K نزدیکترین همسایه‌ها

مدل KNN در مدل بهینه عملکرد بهتری نسبت به مدل پایه داشته است. تنظیم تعداد همسایه‌ها به ۱۰ کمک کرده است تا مدل پیش‌بینی‌های دقیق‌تری داشته باشد. این مدل ساده اما موثر می‌تواند با تنظیم مناسب تعداد همسایه‌ها بهبود یابد و عملکرد خوبی ارائه دهد.

به طور کلی، تنظیم پارامترها تأثیر قابل توجهی بر عملکرد مدل‌ها دارد و در بسیاری از موارد می‌تواند به بهبود عملکرد کمک کند. انتخاب پارامترهای مناسب بر اساس داده‌های موجود و روش‌های بهینه‌سازی می‌تواند تفاوت‌های عمده‌ای در دقت و کارایی مدل‌ها ایجاد کند.