۵ راه مؤثر برای بهبود دقت مدل یادگیری ماشین

مهسا مژدهی

3 سال پیش

راه افزایش دقت مدل یادگیری ماشین چیست؟ ایجاد مدل‌های یادگیری ماشین (Machine Learning) فرایند پیچیده‌ای است که حتی باتجربه‌ترین دانشمندان داده (Data Scientists) اغلب در آن اشتباه می‌کنند. اگر می‌خواهید مدل‌های یادگیری ماشین شما تا حد امکان دقیق باشند، باید از راه‌هایی که می‌توانید آن‌ها را بهبود ببخشید آگاه باشید. در این مطلب ۵ راه برای بهبود دقت مدل‌های یادگیری ماشین را بررسی خواهیم کرد! اگر شما هم به دنبال راهی برای افزایش دقت مدل یادگیری ماشین خود هستید، تا انتهای این مطلب همراه باشید!

فهرست مطالب پنهان‌کردن فهرست

1. یادگیری ماشین چیست؟
2. ۱. رسیدگی به مقادیر ازدست‌رفته (Missing Values) و اوت‌لایرها (Outlier)
3. ۲. مهندسی ویژگی (Feature Engineering)
4. ۳. انتخاب ویژگی (Feature Selection)
5. ۴. الگوریتم‌های چندگانه (Multiple Algorithm) را امتحان کنید!
1. 5.1. مدل‌های Ensemble
6. ۵. تنظیم هایپرپارامترها (Hyper Parameters)
7. حرف آخر دربارهٔ مجموعه راه بهبود دقت مدل یادگیری ماشین
8. یادگیری ماشین لرنینگ با کلاس‌های آنلاین آموزش علم داده و یادگیری ماشین کافه‌تدریس

یادگیری ماشین چیست؟

یادگیری ماشین (ML) زیرشاخه‌ای از هوش مصنوعی (AI) است که بر توسعه الگوریتم‌ها و مدل‌هایی تمرکز دارد که به رایانه‌ها اجازه می‌دهد از داده‌ها یاد بگیرند و بدون برنامه‌ریزی صریح، پیش‌بینی کنند یا تصمیم بگیرند. ماشین‌لرنینگ یا یادگیری ماشین شامل ساخت مدل‌ها و الگوریتم‌های ریاضی است که می‌توانند الگوها و روابط را از مجموعه داده‌های بزرگ بیاموزند. در اصل، یادگیری ماشین ماشین‌ها را قادر می‌سازد تا با تجزیه‌وتحلیل و پردازش داده‌ها، عملکرد خود را در یک کار خاص بهبود بخشند. این فرآیند یادگیری تکراری شامل آموزش مدل بر روی داده‌های برچسب‌گذاری‌شده، استخراج ویژگی‌ها و بهینه‌سازی پارامترهای مدل برای به حداقل رساندن خطاها یا به حداکثر رساندن عملکرد است. تکنیک‌های یادگیری ماشین طیف گسترده‌ای از الگوریتم‌ها، از جمله یادگیری تحت نظارت، یادگیری بدون نظارت، یادگیری تقویتی و یادگیری عمیق را در بر می‌گیرد. یادگیری ماشین با توانایی خود در کشف بینش‌های پنهان و پیش‌بینی‌های دقیق، به ابزاری قدرتمند در حوزه‌های مختلف از جمله مالی، مراقبت‌های بهداشتی، بازاریابی، تشخیص تصویر، پردازش زبان طبیعی و سیستم‌های توصیه تبدیل شده است. به پیشرفت و یافتن کاربردها در حل مشکلات پیچیده و هدایت نوآوری در عصر دیجیتال ادامه می‌دهد.

۱. رسیدگی به مقادیر ازدست‌رفته (Missing Values) و اوت‌لایرها (Outlier)

یکی از ساده‌ترین راه‌ها برای بهبود و افزایش دقت مدل یادگیری ماشین مدیریت مقادیر ازدست‌رفته و اوت‌لایرهاست.

اگر داده‌هایی دارید که مقادیری ندارند یا حاوی مقادیر پرت (اوت‌لایر) هستند، مدل شما احتمالاً دقت کمتری خواهد داشت. این به‌این دلیل است که مقادیر ازدست‌رفته و مقادیر پرت می‌توانند کاری کنند که مدل درمورد داده‌های شما فرضیه‌های نادرستی داشته باشد.

برای مثال، تصور کنید مجموعه داده‌ای با اطلاعات قد و وزن برای افرادی دارید که همگی تقریباً هم‌سن هستند. اگر یکی از آن‌ها مقدار وزن نداشته باشد، درحالی‌که وزن شخص دیگری به‌طور غیرعادی بالا یا پایین است، مدل شما فقط براساس قد آنان فرضیه‌های نادرستی درمورد این دو فرد خواهد داشت.

همچنین مهم است که توجه کنید که مقادیر ازدست‌رفته و نقاط پرت می‌توانند به این بینجامند که مدل‌های شما دچار بیش‌برازش (overfitting) یا کم‌بزرازش (underfitting) شود. حال سؤال اینجاست که چطور می‌توان این مشکل را حل کرد؟

روش‌های مختلفی وجود دارد که می‌توانید مقادیر پرت و مقادیر ازدست‌رفته را مدیریت کنید. چند مورد آن عبارت است از:

نقاط داده‌ای را که حاوی مقادیر ازدست‌رفته یا نقاط پرت هستند از مجموعه داده‌ی آموزشی خود حذف کنید.
مقادیر ازدست‌رفته را با استفاده از تکنیکی مانند k نزدیک‌ترین همسایه (KNN) یا رگرسیون خطی (Linear regression) پر کنید.
از تکنیکی مانند bootstrapping برای حذف تأثیر داده‌های پرت استفاده کنید.

پیشنهاد می‌کنیم با مفاهیم بیش‌برازش و کم‌برازش و راه‌های جلوگیری از آن‌ها بیشتر آشنا شویم.

۲. مهندسی ویژگی (Feature Engineering)

مهندسی ویژگی هنر ایجاد ویژگی‌ها یا فیچرهای جدید از فیچرهای موجود است. این کار یک راه افزایش دقت مدل یادگیری ماشین است.

برای مثال، می‌توانید فیچری (feature) را ایجاد کنید که نشان‌دهنده‌ی میزان دوری فرد از محل کار خود براساس دو فیچر دیگر، یعنی «آدرس منزل» و «محل محل کار»، باشد. مهندسی ویژگی به بهبود دقت مدل‌های یادگیری ماشین کمک می‌کند و به آن‌ها اجازه می‌دهد پیش‌بینی‌های دقیق‌تری انجام دهند.

یکی از رایج‌ترین راه‌ها برای ایجاد فیچرهای جدید ترکیب چند فیچر موجود در یک یا چند فیچر جدید است.

برای مثال، ممکن است «سن» را با «وزن» و «قد» ترکیب کنید تا فیچری به نام شاخص توده بدن (BMI) ایجاد کنید. این به مدل شما اجازه می‌دهد پیش بینی‌های بهتری انجام دهد؛ زیرا فیچرهای کمتر و نویز (noise) کمتری در مدل شما وجود دارد.

راه‌های مختلفی برای مهندسی ویژگی وجود دارد و بهترین راه برای انجام‌دادن آن اغلب به مجموعه داده‌ای بستگی دارد که با آن کار می‌کنید.

بااین‌حال چند نکته که ممکن است در این مورد مفید باشد از این قرار است:

سعی کنید همبستگی‌هایی (correlation) میان فیچرهای مختلف پیدا کنید و موارد جدیدی ایجاد کنید که این روابط را به تصویر می‌کشد.
از تبدیل‌هایی (transforms) مانند تبدیل لگاریتمی یا استانداردسازی استفاده کنید تا فیچرهای خود را قابل‌مقایسه‌تر و آسان‌تر کنید.
از تکنیک‌های پیش‌پردازش داده، مانند استخراج ویژگی (feature extraction) و انتخاب ویژگی (feature selection)، استفاده کنید تا به شما کمک کند مهم‌ترین فیچرها را در مجموعه‌ داده‌ی خود پیدا کنید.

۳. انتخاب ویژگی (Feature Selection)

انتخاب ویژگی یا انتخاب فیچر فرایندی است که به شما کمک می‌کند مفیدترین فیچرها را در مجموعه داده‌ی خود شناسایی کنید. این کار هم یک راه افزایش دقت مدل یادگیری ماشین محسوب می‌شود.

هدف آن کاهش یا حذف نویز و بهبود دقت مدل‌های یادگیری ماشین با حذف اطلاعات اضافی از آن‌ها، یعنی نقاط داده حاوی تنها یک فیچر، است.

راه‌های مختلفی برای انتخاب فیچرها وجود دارد، اما همگی استفاده از نوعی تجزیه‌وتحلیل آماری یا فیلترکردن ویژگی‌هایی با امتیازات کم‌اهمیت را شامل هستند (یعنی مواردی که کمک زیادی به دقت مدل شما نمی‌کنند).

برخی از تکنیک‌های رایج برای انتخاب ویژگی عبارت‌اند از:

رتبه‌بندی فیچرها براساس همبستگی آن‌ها با دیگر متغیرهای مجموعه داده، سپس حذف آن‌ها که همبستگی کمتری در مقایسه با دارند؛ برای مثال، می‌توانید از ضریب همبستگی پیرسون (Pearson Corellation Coefficient) برای اندازه‌گیری قدرت رابطه میان دو متغیر استفاده کنید.
فیلترکردن فیچرها براساس امتیازهای اهمیت آن‌ها که معمولاً با استفاده از تکنیکی، مانند گرادیان کاهشی (Gredient Descent) یا جنگل تصادفی (Random Forest)، محاسبه می‌شوند.
انتخاب زیرمجموعه‌ای از فیچرهایی که همبستگی بالایی با متغیر هدف دارند، اما میان خودشان همبستگی پایینی دارند (یعنی غیرهمبسته یا مستقل از یکدیگر هستند).

۴. الگوریتم‌های چندگانه (Multiple Algorithm) را امتحان کنید!

یک اشتباه رایج این است که هنگام آموزش مدل خود فقط یک الگوریتم را امتحان کنید. ممکن است اگر داده‌های زیادی داشته باشید و یادگیری الگوریتم از آن به‌اندازه کافی آسان باشد، این روش کار کند، اما اکثر مجموعه داده‌های دنیای واقعی بسیار پیچیده‌تر از آن هستند. یک راه افزایش دقت مدل یادگیری ماشین استفاده از الگوریتم‌های چندگانه است.

احتمالاً برخی از فیچرها در مجموعه داده شما وجود خواهد داشت که کمک زیادی به دقت مدل شما نمی‌کند و حذف آن‌ها فقط اوضاع را بدتر می‌کند. اینجاست که استفاده از چندین الگوریتم می‌تواند مفید باشد.

با آزمایش الگوریتم‌های مختلف می‌توانید تشخیص دهید که کدام‌یک برای داده‌های شما بهتر عمل می‌کنند و سپس از آن اطلاعات برای بهبود دقت مدل‌های خود استفاده کنید.

انواع مختلفی از الگوریتم‌های یادگیری ماشین وجود دارد؛ بنابراین تشخیص اینکه کدام‌یک برای داده‌های شما مناسب هستند دشوار است. یک راه خوب برای شروع استفاده از اعتبارسنجی متقاطع (Cross Validation) با الگوریتم‌های متعدد در یک مجموعه داده و سپس مقایسه امتیازهای دقت آن‌ها با یکدیگر است.

اگر با زبان برنامه‌نویسی پایتون (Python) کار می‌کنید، scikit-learn فهرست خوبی از مدل‌های رایج یادگیری ماشین دارد که می‌توانید روی داده‌های خود امتحان کنید؛ ازجمله این مدل‌ها می‌توان به این موارد اشاره کرد:

رگرسیون خطی (Linear Regression)
ماشین‌های بردار پشتیبان (Support Vector Machine / SVM)
درخت تصمیم (Decision Tree)
جنگل تصادفی (Random Forest)
شبکه‌های عصبی (Neural Networks)

پیشنهاد می‌کنیم با کاربرد پایتون در علم داده بیشتر آشنا شوید.

مدل‌های Ensemble

روش دیگر استفاده از روشی‌ای است که دو یا چند الگوریتم را با هم در یک مدل ترکیب می‌کند. Ensembleها اغلب از هر الگوریتم دیگری دقیق‌تر هستند؛ زیرا از نقاط قوت هر یک استفاده می‌کنند و نقاط ضعف آن‌ها را جبران می‌کنند.

به‌عبارت دیگر، اگر چندین یادگیرنده ضعیف (یعنی مدل‌هایی که به‌تنهایی عملکرد ضعیفی دارند) را در یک گروه ترکیب کنید، می‌توانید یک یادگیرنده قوی‌تر (یعنی مدلی که به‌عنوان یک فرد خوب عمل می‌کند) به دست آورید.

۵. تنظیم هایپرپارامترها (Hyper Parameters)

هایپرپارامترها پارامترهایی در مدل‌های یادگیری ماشین هستند که نحوه‌ی عملکرد آن‌ها را تعیین می‌کنند. دیگر راه افزایش دقت مدل یادگیری ماشین تنظیم آن‌هاست. این پارامترها می‌توانند شامل مواردی مانند تعداد لایه‌های یک شبکه عصبی عمیق یا تعداد درخت در یک مدل Ensemble باشند.

معمولاً باید خودتان این هایپرپارامترها را تنظیم کنید؛ زیرا هنگام آموزش مدل خود به‌طور خودکار تنظیم نمی‌شوند.

اینجاست که اعتبارسنجی متقابل (Cross Validation) می‌تواند مفید باشد. با تقسیم داده‌های خود به مجموعه‌های آموزشی (Train set) و آزمایشی (Test Set)، می‌توانید ترکیب‌های مختلفی از هایپرپارامترها را امتحان کنید و سپس ببینید که آن‌ها در مجموعه آزمایشی چقدر خوب عمل می‌کنند. این کار به شما کمک می‌کند بهترین ترکیب هایپرپارامترها را برای مدل خود پیدا کنید.

راه دیگر برای انجام‌دادن این کار استفاده از جست‌وجوی شبکه‌ای (grid search) است که روشی برای یافتن ترکیب بهینه هایپرپارامترها برای داده‌های شماست. جست‌وجوی شبکه‌ای با آزمایش هر ترکیب ممکنی از پارامترها پیش می‌رود تا زمانی که یکی از پارامترها را پیدا کند که بهترین عملکرد را در معیار مدنظر شما مثلاً accuracy به شما ارائه کند. سپس می‌توانید از این ترکیب از هایپراپارامترها برای آموزش مدل خود استفاده کنید. برای این کار می‌توانید ازطریق کتابخانه scikit-learn در پایتون از Grid Search استفاده کنید.

حرف آخر دربارهٔ مجموعه راه بهبود دقت مدل یادگیری ماشین

همان‌طور که در این مطلب خواندید، راه‌های زیادی برای بهبود دقت مدل‌های یادگیری ماشین وجود دارد. با استفاده از روش‌هایی مانند مهندسی ویژگی، تنظیم هایپرپارامترها و آزمایش الگوریتم‌های متعدد، امکان ایجاد یک مدل واقعاً دقیق را به خود می‌دهید. مهم‌ترین چیز این است که به آزمایش‌کردن ادامه دهید و از اشتباه‌های خود درس بگیرید. هر چه بیشتر درمورد داده‌ها و الگوریتم‌هایی که استفاده می‌کنید بدانید، مدل شما عملکرد بهتری خواهد داشت.

یادگیری ماشین لرنینگ با کلاس‌های آنلاین آموزش علم داده و یادگیری ماشین کافه‌تدریس

اگر به یادگیری ماشین علاقه‌مندید، شرکت در کلاس‌های آنلاین علم داده و ماشین لرنینگ کافه‌تدریس را به شما پیشنهاد می‌کنیم.

شرکت در این کلاس‌ها به شما امکان می‌دهد از هر نقطه‌ی جغرافیایی به بهترین و جامع‌ترین آموزش علم داده و یادگیری ماشین دسترسی داشته باشید.

کلاس‌های آنلاین آموزش علم داده و یادگیری ماشین کافه‌تدریس به‌شکلی کاملاً پویا و تعاملی برگزار می‌شود و مبنای آن هم کار روی پروژه‌های واقعی است.

برای آشنایی بیشتر با کلاس‌های آنلاین آموزش علم داده و یادگیری ماشین کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری روی این لینک کلیک کنید:

دوره جامع آموزش علم داده (Data Science)