یادگیری نیمه نظارتی (Semi-supervised Learning) نوعی یادگیری ماشین (Machine Learning) است که از ترکیب مقدار کمی دادهی برچسبدار و مقدار زیادی دادهی بدون برچسب برای آموزش مدلها استفاده میکند. این رویکرد ترکیبی از یادگیری باناظر (Supervised Learning) که از دادههای آموزشی برچسبدار استفاده میکند و یادگیری بدون ناظر (Unsupervised Learning) است که از دادههای آموزشی بدون برچسب استفاده میکند.
مقدمه
الگوریتمهای یادگیری ماشین امروزی را میتوان بهطور کلی به سه دسته یادگیری با ناظر (Supervised Learning)، یادگیری بدون ناظر (Unsupervised Learning) و یادگیری تقویتی (Reinforcement Learning) طبقهبندی کرد.
با کنارگذاشتن یادگیری تقویتی، دو دستهی اصلی مسائل یادگیری ماشین، یادگیری با ناظر و بدون ناظر هستند. تفاوت اساسی میان این دو این است که مجموعهی دادههای یادگیری باناظر برچسب دارند، درحالیکه مجموعهی دادههای یادگیری بدون ناظر برچسب ندارند.
اساسیترین عیب الگوریتمهای یادگیری با ناظر این است که مهندس یادگیری ماشین یا محقق علم داده یا دیتا ساینس باید بهصورت دستی مجموعه داده را برچسبگذاری کند. این فرایند بسیار پرهزینه است، بهویژه هنگامی که با حجم زیادی از دادهها سروکار داریم. اساسیترین عیب آموزش بدون ناظر هم این است که طیف کاربردی آن محدود است.
برای مقابله با این معایب مفهوم یادگیری نیمه نظارتی (Semi-supervised Learning) معرفی شد. در این مطلب قصد داریم این نوع یادگیری را معرفی کنیم و با برخی از کاربردهای آشنا شویم.
نگاهی مختصر به یادگیری ماشین
پیشرفت در فناوری کامپیوتر در دهههای گذشته جمعآوری دادههای الکترونیکی در بیشتر حوزهها را رایج کرده است. در حال حاضر بسیاری از سازمانها حجم زیادی از دادهها را از سالهای گذشته جمعآوری کردهاند. این دادهها میتوانند به افراد، معاملات مالی، اطلاعات بیولوژیکی و بسیاری از موارد دیگر مربوط باشد.
بهطور همزمان، محققان داده در حال توسعهی برنامههای کامپیوتری تکرارشونده بهنام الگوریتم هستند که میتوانند این حجم زیاد از دادهها را بررسی، آنها را تجزیهوتحلیل کنند و الگوها و روابطی در آنها را که انسان نمیتواند تشخیص دهد شناسایی کنند.
تجزیهوتحلیل دادههای گذشته میتواند اطلاعات بسیار ارزشمندی دربارهی آنچه در آینده از پدیدههای مشابه یا مرتبط با آن انتظار میرود ارائه کند. این الگوریتمها میتوانند از گذشته درس بگیرند و از این یادگیری برای پیشبینیهای ارزشمند درباره آینده استفاده کنند.
این امر دقیقاً همان چیزی است که به آن یادگیری ماشین (Machine Learning) میگویند. اگر بخواهیم در یک جمله آن را تعریف کنیم، میتوانیم بگوییم یادگیری ماشین مطالعهی الگوریتمهای کامپیوتری است که به برنامههای کامپیوتری اجازه میدهد بهطور خودکار ازطریق تجربه بهبود یابند و وظایف خاصی را انجام دهند.
همانطور که پیشتر اشاره شد، یادگیری ماشین را میتوان به سه دستهی اصلی یادگیری باناظر، بدون ناظر و یادگیری تقویتی تقسیم کرد. اما یک نوع یادگیری دیگر نیز وجود دارد که چیزی میان یادگیری باناظر و بدون ناظر است و به آن یادگیری نیمه نظارتی گفته میشود. در بخش بعدی بیشتر با این نوع یادگیری آشنا خواهیم شد.
برای مطالعه بیشتر درباره یادگیری ماشین این مطلب را مطالعه کنید:
یادگیری ماشین (Machine Learning) چیست و چگونه کار میکند؟
یادگیری نیمه نظارتی (Semi-supervised Learning) چیست؟
یادگیری نیمه نظارتی نوعی یادگیری ماشین است که در آن الگوریتم براساس ترکیبی از دادههای برچسبدار و بدون برچسب آموزش داده میشود. بهطور معمول، این ترکیب مقدار بسیار کمی از دادههای برچسبدار و مقدار بسیار زیادی از دادههای بدون برچسب را شامل خواهد بود.
در یادگیری نیمه نظارتی روش اصلی این است که ابتدا برنامهنویس دادههای مشابه را با استفاده از الگوریتم یادگیری بدون ناظر خوشهبندی (Clustering) میکند و سپس از دادههای دارای برچسب موجود برای برچسبگذاری به باقی دادههای بدون برچسب استفاده میکند.
اگر بخواهیم با یک مثال قضیه را روشنتر کنیم، میتوانیم سه نوع الگوریتم یادگیری را اینطور در نظر بگیریم که در یادگیری با ناظر (Supervised Learning) دانشآموز تحتنظارت معلم در خانه و مدرسه است، در یادگیری بدون ناظر (Unsupervised Learning) دانشآموز باید خود بهتنهایی بهدنبال درک مفاهیم باشد و در یادگیری نیمه نظارتی (Semi-supervised Learning) معلم چند مفهوم را در کلاس آموزش میدهد و بهعنوان تکلیف از دانشآموز میخواهد سؤالاتی را جواب دهد که مرتبط و مشابه با همان مفاهیم آموزش داده شده هستند.
چند مورد از کاربردهای یادگیری نیمه نظارتی
- تشخیص گفتار (Speech Recognition): از آنجا که برچسبگذاری فایلهای صوتی کاری بسیار فشرده و دشوار است، یادگیری نیمهنظارتی رویکردی بسیار طبیعی برای حل این مشکل است.
- طبقهبندی محتوای اینترنتی (Internet Content Classification): برچسبگذاری هر صفحهی وب فرایندی غیرعملی و غیرممکن است؛ بنابراین استفاده از الگوریتمهای یادگیری نیمهنظارتی در این کار بسیار مناسب است. حتی الگوریتم جستوجوی گوگل از نوعی یادگیری نیمهنظارتی برای رتبهبندی صفحات مرتبط با یک جستوجو استفاده میکند.
- طبقهبندی توالی پروتئینها (Protein Sequence Classification): از آنجا که رشتههای DNA که دربردارندهی اطلاعات مربوط به پروتئینها هستند، بهطور معمول، از نظر اندازه بسیار بزرگ هستند، برچسبگذاری آنها کار دشواری است؛ به همین دلیل در این حوزه نیز یادگیری نیمهنظارتی بسیار پرطرفدار است.
خلاصهی مطالب
در این مقاله یادگیری نیمهنظارتی که نوعی یادگیری ماشین را بررسی کردیم. درواقع این نوع یادگیری برای زمانی استفاده میشود که دادههای برچسبدار زیادی در دسترس نداریم. در این حالت میتوانیم از این حجم کم دادههای برچسبدار به همراه دادههای بدون برچسب برای یادگیری مدل بهشکل نیمهنظارتی استفاده کنیم.
بهطور کلی میتوان گفت یادگیری ماشین، چه باناظر (Supervised)، چه بدون ناظر (Unsupervised)، چه نیمهنظارتی (Semi-supervised) و چه یادگیری تقویتی (Reinforcement Learning) برای بهدستآوردن اطلاعات مهم از دادهها یا ایجاد فناوریهای نوآورانه جدید، بسیار ارزشمند است.
آموزش علم داده با کلاسهای آنلاین علم داده کافهتدریس
اگر دوست دارید به دنیای علم داده وارد شوید، پیشنهاد ما شرکت در کلاسهای آنلاین آموزش علم داده کافهتدریس است.
این کلاسها بهصورت کاملاً تعاملی و پویا و در دورههای مقدماتی و پیشرفته برگزار میشود، شکل کارگاهی دارد و مبتنی بر کار روی پروژههای واقعی علم داده است.
برای آشنایی بیشتر با کلاسهای آنلاین آموزش علم داده کافهتدریس و مشاورهی رایگان برای شروع یادگیری دیتا ساینس روی این لینک کلیک کنید: