یادگیری نیمه نظارتی (Semi-supervised Learning) نوعی یادگیری ماشین (Machine Learning) است که از ترکیب مقدار کمی داده‌ی برچسب‌دار و مقدار زیادی داده‌ی بدون برچسب برای آموزش مدل‌ها استفاده می‌کند. این رویکرد ترکیبی از یادگیری باناظر (Supervised Learning) که از داده‌های آموزشی برچسب‌دار استفاده می‌کند و یادگیری بدون ناظر (Unsupervised Learning) است که از داده‌های آموزشی بدون برچسب استفاده می‌کند.

یادگیری نیمه‌نظارتی

مقدمه

الگوریتم‌های یادگیری ماشین امروزی را می‌توان به‌طور کلی به سه دسته یادگیری با ناظر (Supervised Learning)، یادگیری بدون ناظر (Unsupervised Learning) و یادگیری تقویتی (Reinforcement Learning) طبقه‌بندی کرد.

با کنارگذاشتن یادگیری تقویتی، دو دسته‌ی اصلی مسائل یادگیری ماشین، یادگیری با ناظر و بدون ناظر هستند. تفاوت اساسی میان این دو این است که مجموعه‌ی داده‌های یادگیری باناظر برچسب دارند، درحالی‌که مجموعه‌ی داده‌های یادگیری بدون ناظر برچسب ندارند.

اساسی‌ترین عیب الگوریتم‌های یادگیری با ناظر این است که مهندس یادگیری ماشین یا محقق علم داده یا دیتا ساینس باید به‌صورت دستی مجموعه‌ داده را برچسب‌گذاری کند. این فرایند بسیار پرهزینه است، به‌ویژه هنگامی که با حجم زیادی از داده‌ها سروکار داریم. اساسی‌ترین عیب آموزش بدون ناظر هم این است که طیف کاربردی آن محدود است.

برای مقابله با این معایب مفهوم یادگیری نیمه نظارتی (Semi-supervised Learning) معرفی شد. در این مطلب قصد داریم این نوع یادگیری را معرفی کنیم و با برخی از کاربردهای آشنا شویم.

نگاهی مختصر به یادگیری ماشین

پیشرفت در فناوری کامپیوتر در دهه‌های گذشته جمع‌آوری داده‌های الکترونیکی در بیشتر حوزه‌ها را رایج کرده است. در حال حاضر بسیاری از سازمان‌ها حجم زیادی از داده‌ها را از سال‌های گذشته جمع‌آوری کرده‌اند. این داده‌ها می‌توانند به افراد، معاملات مالی، اطلاعات بیولوژیکی و بسیاری از موارد دیگر مربوط باشد.

به‌طور همزمان، محققان داده در حال توسعه‌ی برنامه‌های کامپیوتری تکرارشونده به‌نام الگوریتم هستند که می‌توانند این حجم زیاد از داده‌ها را بررسی، آن‌ها را تجزیه‌وتحلیل کنند و الگوها و روابطی در آن‌ها را که انسان نمی‌تواند تشخیص دهد شناسایی کنند.

تجزیه‌وتحلیل داده‌های گذشته می‌تواند اطلاعات بسیار ارزشمندی درباره‌ی آنچه در آینده از پدیده‌های مشابه یا مرتبط با آن انتظار می‌رود ارائه کند. این الگوریتم‌ها می‌توانند از گذشته درس بگیرند و از این یادگیری برای پیش‌بینی‌های ارزشمند درباره آینده استفاده کنند.

این امر دقیقاً همان چیزی است که به آن یادگیری ماشین (Machine Learning) می‌گویند. اگر بخواهیم در یک جمله آن را تعریف کنیم، می‌توانیم بگوییم یادگیری ماشین مطالعه‌ی الگوریتم‌های کامپیوتری است که به برنامه‌های کامپیوتری اجازه می‌دهد به‌طور خودکار ازطریق تجربه بهبود یابند و وظایف خاصی را انجام دهند.

همان‌طور که پیش‌تر اشاره شد، یادگیری ماشین را می‌توان به سه دسته‌ی اصلی یادگیری باناظر، بدون ناظر و یادگیری تقویتی تقسیم کرد. اما یک نوع یادگیری دیگر نیز وجود دارد که چیزی میان یادگیری باناظر و بدون ناظر است و به آن یادگیری نیمه نظارتی گفته می‌شود. در بخش بعدی بیشتر با این نوع یادگیری آشنا خواهیم شد.

برای مطالعه بیشتر درباره یادگیری ماشین این مطلب را مطالعه کنید:

یادگیری ماشین (Machine Learning) چیست و چگونه کار می‌کند؟

یادگیری ماشین

یادگیری نیمه نظارتی (Semi-supervised Learning) چیست؟

یادگیری نیمه نظارتی نوعی یادگیری ماشین است که در آن الگوریتم براساس ترکیبی از داده‌های برچسب‌دار و بدون برچسب آموزش داده می‌شود. به‌طور معمول، این ترکیب مقدار بسیار کمی از داده‌های برچسب‌دار و مقدار بسیار زیادی از داده‌های بدون برچسب را شامل خواهد بود.

در یادگیری نیمه نظارتی روش اصلی این است که ابتدا برنامه‌نویس داده‌های مشابه را با استفاده از الگوریتم یادگیری بدون ناظر خوشه‌بندی (Clustering) می‌کند و سپس از داده‌های دارای برچسب موجود برای برچسب‌گذاری به باقی داده‌های بدون برچسب استفاده می‌کند.

اگر بخواهیم با یک مثال قضیه را روشن‌تر کنیم، می‌توانیم سه نوع الگوریتم یادگیری را این‌طور در نظر بگیریم که در یادگیری با ناظر (Supervised Learning) دانش‌آموز تحت‌نظارت معلم در خانه و مدرسه است، در یادگیری بدون ناظر (Unsupervised Learning)‌ دانش‌آموز باید خود به‌تنهایی به‌دنبال درک مفاهیم باشد و در یادگیری نیمه نظارتی (Semi-supervised Learning) معلم چند مفهوم را در کلاس آموزش می‌دهد و به‌عنوان تکلیف از دانش‌آموز می‌خواهد سؤالاتی را جواب دهد که مرتبط و مشابه با همان مفاهیم آموزش داده شده هستند.

چند مورد از کاربردهای یادگیری نیمه نظارتی

  1. تشخیص گفتار (Speech Recognition): از آنجا که برچسب‌گذاری فایل‌های صوتی کاری بسیار فشرده و دشوار است، یادگیری نیمه‌نظارتی رویکردی بسیار طبیعی برای حل این مشکل است.
  2. طبقه‌بندی محتوای اینترنتی (Internet Content Classification): برچسب‌گذاری هر صفحه‌ی وب فرایندی غیرعملی و غیرممکن است؛ بنابراین استفاده از الگوریتم‌های یادگیری نیمه‌نظارتی در این کار بسیار مناسب است. حتی الگوریتم جست‌وجوی گوگل از نوعی یادگیری نیمه‌نظارتی برای رتبه‌بندی صفحات مرتبط با یک جست‌وجو استفاده می‌کند.
  3. طبقه‌بندی توالی پروتئین‌ها (Protein Sequence Classification): از آنجا که رشته‌های DNA که دربردارنده‌ی اطلاعات مربوط به پروتئین‌ها هستند، به‌طور معمول، از نظر اندازه بسیار بزرگ هستند، برچسب‌گذاری آن‌ها کار دشواری است؛ به همین دلیل در این حوزه نیز یادگیری نیمه‌نظارتی بسیار پرطرفدار است.

خلاصه‌ی مطالب

در این مقاله یادگیری نیمه‌نظارتی که نوعی یادگیری ماشین را بررسی کردیم. درواقع این نوع یادگیری برای زمانی استفاده می‌شود که داده‌های برچسب‌دار زیادی در دسترس نداریم. در این حالت می‌توانیم از این حجم کم داده‌های برچسب‌دار به همراه داده‌های بدون برچسب برای یادگیری مدل به‌شکل نیمه‌نظارتی استفاده کنیم.

به‌طور کلی می‌توان گفت یادگیری ماشین، چه باناظر (Supervised)، چه بدون ناظر (Unsupervised)، چه نیمه‌نظارتی (Semi-supervised) و چه یادگیری تقویتی (Reinforcement Learning) برای به‌دست‌آوردن اطلاعات مهم از داده‌ها یا ایجاد فناوری‌های نوآورانه جدید، بسیار ارزشمند است.

آموزش علم داده با کلاس‌های آنلاین علم داده کافه‌تدریس

اگر دوست دارید به دنیای علم داده وارد شوید، پیشنهاد ما شرکت در کلاس‌های آنلاین آموزش علم داده کافه‌تدریس است.

این کلاس‌ها به‌صورت کاملاً تعاملی و پویا و در دوره‌های مقدماتی و پیشرفته برگزار می‌شود، شکل کارگاهی دارد و مبتنی بر کار روی پروژه‌های واقعی علم داده است.

برای آشنایی بیشتر با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری دیتا ساینس روی این لینک کلیک کنید:

کلاس‌های آنلاین علم داده کافه‌تدریس