یادگیری بدون ناظر (Unsupervised Learning) یکی از تکنیک‌های یادگیری ماشین (Machine Learning) است که در آن کاربر نیازی به نظارت بر مدل ندارد؛ درعوض، خود مدل، به‌تنهایی، برای کشف الگوها و اطلاعاتی که در داده وجود دارد کار می‌کند؛ به‌عبارت دیگر، این تکنیک عمدتاً با داده‌های بدون برچسب سروکار دارد.

مقدمه

امروزه هم جامعه‌ی هوش مصنوعی (Artificial Intelligence) و هم عموم مردم به یادگیری عمیق (Deep Learning) بسیار توجه می‌کنند، اما اخیراً محققان تردید کرده‌اند که یادگیری عمیق واقعاً بتواند آینده‌ی هوش مصنوعی باشد.

تکنیک‌های برجسته‌ی یادگیری عمیق که امروزه استفاده می‌شود، همه، به یادگیری با ناظر (Supervised Learning) متکی هستند؛ با وجود این، کاملاً واضح می‌بینیم که انسان‌ها چیزها، الگوها و مفاهیم را بدون نظارت خاصی یاد می‌گیرند. به‌تعبیری، یادگیری ما کاملاً بدون نظارت است، اما هنوز یادگیری بدون ناظر به‌اندازه‌ی یادگیری باناظر محل توجه نبوده است؛ شاید دلیل آن به دشواربودن حل مسائل به‌این روش و نتایج نامطلوب آن بازگردد.

در این مطلب قصد داریم یادگیری بدون ناظر را معرفی کنیم، با سه وظیفه‌ی اصلی آن آشنا شویم و در آخر به مزایا و معایب آن نگاهی بیندازیم.

یادگیری ماشین چیست؟

امروزه فناوری‌های هوشمند در همه جا وجود دارد و تقریباً در تمام جنبه‌های زندگی روزمره ما نفوذ کرده است. مصرف‌کنندگان انتظار دارند اطلاعات بیشتر، اتوماسیون بیشتر، سریع‌تر، همه با کلیک یک دکمه انجام شود. برای چنین کاری و برآورده کردن نیازهای مصرف‌کنندگان، شرکت‌ها باید به انطباق و پیاده‌سازی جدیدترین فناوری‌ها ادامه دهند، در غیر این صورت خطر عقب افتادن آن‌ها از این روند غیرقابل انکار، وجود دارد.

پیشرفت هوش مصنوعی (AI) در حوزه‌ی تجاری این نیاز را تشدید کرده است. در حال حاضر سیستم‌های امنیتی می‌توانند اسکن اثر انگشت و صورت را به داده‌های بیومتریک تبدیل کنند تا قفل درها و گوشی‌های هوشمند را باز کنند. سیستم‌های بانکی می‌توانند الگوهای خرید غیرمعمول را شناسایی کرده و به طور خودکار پیامی برای تأیید انسانی تراکنش‌ها ارسال کنند. دستیارهای صوتی در تلفن‌های هوشمند از پردازش زبان طبیعی برای پردازش صدا و پاسخ دادن به طیف گسترده‌ای از درخواست‌های افراد استفاده می‌کنند. همه این فناوری‌های قابل توجه به طور مداوم با استفاده از الگوریتم‌های یادگیری ماشین (ML) امکان‌پذیر و پیشرفته‌تر می‌شوند.

یادگیری ماشین (Machine Learning) زیر مجموعه‌ای از هوش مصنوعی (Artificial Intelligence) است. به طور خاص، ماشین‌لرنینگ یک برنامه کاربردی در هوش مصنوعی است که به سیستم‌ها توانایی یادگیری و بهبود از روی داده‌ها را می‌دهد. همان‌طور که انسان‌ها از تجربیات روزمره یاد می‌گیرند، ML به تدریج پیش‌بینی‌ها و دقت کار خود را در چندین تکرار بهبود می‌بخشد. داده‌های آموزشی برای مدل‌های ماشین‌لرنینگ از دستگاه‌های IoT، جمع‌آوری‌شده از تراکنش‌ها یا ثبت‌شده در رسانه‌های اجتماعی ارائه می‌شوند. تکنیک‌های علم داده به غربال کردن، طبقه بندی و گروه‌بندی اطلاعات بر اساس پارامترهای مختلف برای این ماشین‌ها / مدل‌ها کمک می‌کنند. با پردازش و ترکیب داده‌ها، ماشین‌لرنینگ می‌تواند مدل‌هایی ایجاد کند که الگوهای رفتاری خاص انسان را به دقت پیش‌بینی کرده و پاسخ‌ها را بر این اساس آغاز کند. به عنوان مثال، هنگامی که مشتری برای خرید تلفن همراه بعدی خود به صورت آنلاین جستجو می‌کند و انتخاب‌های خود را محدود کرده است، سایت به آن‌ها مقایسه با سایر تلفن‌ها یا لوازم جانبی این تلفن‌ها را ارائه می‌دهد که خریداران می‌توانند همزمان آن محصولات را نیز تهیه کنند. این مدل پاسخ، از داده‌هایی ایجاد می‌شود که از خریدهای مشابه قبلی پردازش شده‌اند و ماشین را قادر می‌سازد مدلی ایجاد کند که به مشتریان جدید کمک می‌کند تا انتخاب‌های مشابه و آگاهانه داشته باشند.

یادگیری بدون ناظر (Unsupervised Learning) چیست؟

یادگیری بدون ناظر (Unsupervised Learning) یا یادگیری بدون نظارت که به‌عنوان یادگیری ماشین بدون ناظر (Unsupervised Machine Learning) نیز شناخته می‌شود، از الگوریتم‌های یادگیری ماشین برای تجزیه‌و‌تحلیل و خوشه‌بندی مجموعه‌ی داده‌های بدون برچسب (Unlabeled) استفاده می‌کند. این الگوریتم‌ها، بدون نیاز به دخالت انسان، الگوهای پنهان یا گروه‌های مختلف موجود در داده‌ها را کشف می‌کنند.

بیایید مثالی از یادگیری بدون ناظر را برای درک بهتر با هم بررسی کنیم.

طرز کارکرد یادگیری بدون ناظر در ذهن کودک

در خانواده‌ای که یک نوزاد و یک سگ خانگی دارند نوزاد این سگ را می‌شناسد، بدون اینکه از قبل به او چیزی گفته باشند. چند هفته بعد، یک دوست خانوادگی یک سگ را به‌همراه خود به خانه‌ی آنان می‌آورد که شروع به بازی با نوزاد می‌کند. نوزاد خانواده این سگ را قبلاً ندیده است، اما ویژگی‌های بسیاری را که به سگ‌ها مربوط است تشخیص می‌دهد (برای مثال، گوش‌ها، چشم‌ها، راه‌رفتن روی چهار پا) و به‌همین دلیل می‌داند که این موجود مانند سگ خانگی خودشان است. او حیوان جدید را به‌عنوان یک سگ تشخیص می‌دهد.

این دقیقاً مثالی از یک یادگیری بدون ناظر است؛ به‌این معنا که به ما آموزش داده نمی‌شود، اما از داده‌ها یاد می‌گیریم که در این مورد نوزاد داده‌های مربوط به یک سگ را یاد گرفته است. اگر این یادگیری باناظر بود، دوست خانوادگی آنان به نوزاد می‌گفت که این یک سگ است تا یاد بگیرد.

یادگیری بانظارت و بدون نظارت

یادگیری ماشین دارای سه نوع الگوریتم – با نظارت (Supervised Learning)، بدون نظارت (Unsupervised Learning) و تقویتی (Reinforcement Learning) است. در یادگیری تقویتی، ماشین‌ها برای ایجاد توالی‌ای از تصمیمات آموزش داده می‌شوند و معمولا در حوزه رباتیک مورد استفاده قرار می‌گیرند. اما پرکاربردترین الگوریتم‌های یادگیری ماشین یادگیری با نظارت و بدون نظارت هستند که یک تفاوت اساسی باهم دارند. یادگیری با نظارت از مجموعه داده‌های برچسب‌دار استفاده می‌کند، در حالی که یادگیری بدون نظارت از مجموعه داده‌های بدون برچسب استفاده می‌کند. منظور از “برچسب” این است که داده‌ها قبلا با پاسخ مناسب برچسب‌گذاری شده‌اند و کلاس آن‌ها یا خروجی آن‌ها مشخص است. مدل ماشین‌لرنینگ از این داده‌ها و خروجی مختص آن‌ها یاد می‌گیرد که برای داده‌های آینده چه خروجی‌ای را در نظر بگیرد.

برای آشنایی با یادگیری با ناظر این مطلب را مطالعه کنید:

یادگیری با ناظر (Supervised Learning) چیست؟

تفاوت اصلی بین یادگیری نظارت‌شده و یادگیری بدون نظارت

تمایز اصلی بین این دو رویکرد یادگیری ماشین، استفاده از مجموعه داده‌های برچسب‌دار است. به بیان ساده، یادگیری نظارت شده (Supervised Learning) از داده‌های ورودی و خروجی برچسب دار استفاده می‌کند، در حالی که یادگیری بدون نظارت (Unsupervised Learning) این کار را نمی‌کند.

در یادگیری نظارت شده، الگوریتم از مجموعه داده‌های آموزشی که دارای برچسب هستند، یعنی خروجی آن‌ها مشخص است، یاد می‌گیرد. به این شکل که پیش‌بینی‌های مکرر بر روی داده‌ها انجام داده و سعی می‌کند با مقایسه خروجی خود با خروجی واقعی، پاسخ صحیح را یاد بگیرد. مدل‌های یادگیری نظارت شده نسبت به مدل‌های یادگیری بدون نظارت دقیق‌تر هستند، اما برای برچسب‌گذاری مناسب داده‌ها به مداخله انسانی نیاز دارند. به عنوان مثال، یک مدل یادگیری نظارت شده می‌تواند مدت زمان رفت و آمد شما را بر اساس زمان روز، شرایط آب و هوایی و غیره پیش بینی کند. اما ابتدا باید آن را آموزش دهید تا بداند که هوای بارانی زمان رانندگی را افزایش می‌دهد.

در مقابل، مدل‌های یادگیری بدون نظارت، به تنهایی برای کشف ساختار ذاتی داده‌های بدون برچسب کار می‌کنند. توجه داشته باشید که آن‌ها هنوز به مداخله انسانی برای اعتبارسنجی متغیرهای خروجی نیاز دارند. به عنوان مثال، یک مدل یادگیری بدون نظارت می‌تواند تشخیص دهد که خریداران آنلاین اغلب گروه‌هایی از محصولات را به طور همزمان باهم خریداری می‌کنند. با این حال، یک تحلیل‌گر داده باید در نهایت تأیید کند که آیا منطقی است که موتور توصیه‌گر به طور مثال، لباس‌های کودک را با پوشک، سس کچاپ و فنجان چای دسته‌بندی کند یا خیر. این تفاوت، یعنی داده‌های برچسب‌دار مهم‌ترین و اصلی‌ترین تفاوت بین یادگیری بدون نظارت و نظارت‌شده است. اما تفاوت‌های دیگری نیز بین این دو نوع یادگیری ماشین وجود دارد که در ادامه قصد داریم به آن‌ها بپردازیم.

سایر تفاوت‌های کلیدی بین یادگیری نظارت‌شده و بدون نظارت

اهداف

در یادگیری نظارت‌شده (Supervised Learning)، هدف پیش‌بینی نتایج برای داده‌های جدید است و شما از قبل از نوع نتایجی که باید انتظار داشته باشید اطلاع دارید. اما در یک الگوریتم یادگیری بدون نظارت(Unsupervised Learning) ، هدف این است که از حجم زیادی از داده‌های جدید بینش به دست آوریم. در این حالت، الگوریتم خودش تعیین می‌کند که چه چیزی در مجموعه داده موردنظر متفاوت یا جالب است و چه الگوهایی در آن وجود دارد که باید مورد توجه قرار گیرد.

کاربردها

به طور کلی یادگیری نظارت شده و یادگیری بدون ناظر با توجه به نوع یادگیری که دارند، کاربردهای متفاوتی هم دارند. به طور مثال، مدل‌های یادگیری نظارت‌شده برای تشخیص هرزنامه (Spam filtering)، تجزیه و تحلیل احساسات(Sentiment Analysis)، پیش بینی آب و هوا و پیش بینی قیمت محصولات مختلف و موارد دیگر ایده آل هستند. در مقابل، یادگیری بدون نظارت برای تشخیص ناهنجاری (Anomaly Detection)، موتورهای توصیه‌گر، ویژگی‌های مشتری و تصویربرداری پزشکی مناسب است.

پیچیدگی

تفاوت دیگری که بین یادگیری بدون نظارت و نظارت شده وجود دارد، میزان پیچیدگی آن‌هاست. یادگیری نظارت شده روشی ساده برای یادگیری ماشین (Machine Learning) است که معمولاً از طریق استفاده از ابزارهایی مانند زبان‌های برنامه‌نویسی R یا Python محاسبه می‌شود. در یادگیری بدون نظارت، به ابزارهای قدرتمندی برای کار با مقادیر زیادی از داده‌های طبقه بندی نشده یا بدون برچسب نیاز داریم. مدل‌های یادگیری بدون نظارت از نظر محاسباتی پیچیده‌تر هستند، زیرا به مجموعه آموزشی بزرگی برای تولید نتایج مورد نظر نیاز دارند.

اشکالات

هر دو نوع یادگیری ماشین، چه نظارت‌شده و چه بدون نظارت، با وجود جنبه‌های مثبت و کارایی، نکات منفی مختص به خود را نیز دارند. به طور مثال، آموزش مدل‌های یادگیری تحت نظارت ممکن است زمان‌بر باشد و برچسب‌های متغیرهای ورودی و خروجی نیاز به تخصص انسانی دارد. در همین حال، روش‌های یادگیری بدون نظارت می‌توانند نتایج بسیار نادرستی داشته باشند، مگر اینکه مداخله انسانی برای اعتبارسنجی متغیرهای خروجی داشته باشیم تا بتوانیم از درستی خروجی‌های مدل، اطمینان حاصل کنیم.

حال که با مفهوم یادگیری بدون ناظر و تفاوت آن با یادگیری باناظر آشنا شدیم. اکنون لازم است ببینیم یادگیری بدون ناظر چه وظایفی را دارد و هر وظیفه از چه الگوریتم‌هایی استفاده می‌کند.

سه وظیفه‌ی اصلی یادگیری بدون ناظر

از مدل‌های یادگیری بدون ناظر برای سه وظیفه‌ی اصلی خوشه‌بندی (Clustering)، اتحاد (Association) و کاهش ابعاد (Dimensionality Reduction) استفاده می‌شود. در این بخش با هر یک از آن‌ها آشنا خواهیم شد و الگوریتم‌ها و رویکردهای رایج برای انجام‌دادن‌شان را معرفی خواهیم کرد.

خوشه‌بندی (Clustering)

خوشه‌بندی یک تکنیک داده‌کاوی (Data Mining) است که داده‌های بدون برچسب را براساس شباهت‌ها یا تفاوت‌های آن‌ها گروه‌بندی می‌کند. الگوریتم‌های خوشه‌بندی را می‌توان در چند نوع انحصاری (Exclusive)، هم‌پوشان (Overlapping)، سلسله‌مراتبی (Hierarchical) و احتمالی (Probabilistic) دسته‌بندی کرد.

خوشه‌بندی انحصاری (Exclusive Clustering)

خوشه‌بندی انحصاری نوعی گروه‌بندی است. شرطش هم آن است که هر داده فقط در یک خوشه می‌تواند وجود داشته باشد. به این نوع «خوشه‌بندی سخت» نیز گفته می‌شود. الگوریتم خوشه‌بندی K-means نمونه‌ای از خوشه‌بندی انحصاری است.

خوشه‌بندی K-means نمونه‌ای از روش خوشه‌بندی انحصاری است که در آن نقاط داده به K گروه اختصاص می‌یابند. در این خوشه‌بندی K تعداد خوشه‌ها را براساس فاصله از مرکز هر گروه نشان می‌دهد. نزدیک‌ترین نقاط داده به یک مرکز داده‌ی مشخص در همان گروه قرار می‌گیرند. مقدار K بزرگ‌تر نشان‌دهنده‌ی گروه‌بندی‌های کوچک‌تر با دانه‌بندی (granularity ) بیشتر خواهد بود، درحالی‌که مقدار K کوچک‌تر گروه‌بندی‌های بزرگتر و دانه‌بندی (granularity ) کمتری خواهد داشت.

خوشه‌بندی هم‌پوشان (Overlapping Clustering)

خوشه‌بندی هم‌پوشان با خوشه‌بندی انحصاری از این نظر تفاوت دارد که اجازه می‌دهد نقاط داده به چند خوشه با درجه‌ی جداگانه عضویت تعلق داشته باشند. خوشه‌بندی K-means نرم یا فازی (Soft K-means / Fuzzy K-means) نمونه‌ای از خوشه‌بندی هم‌پوشان است.

خوشه‌بندی سلسله‌مراتبی (Clustering Hierarchical)

خوشه‌بندی سلسله‌مراتبی، یک الگوریتم خوشه‌بندی بدون ناظر است که می‌تواند به دو روش طبقه‌بندی شود: تجمیعی (Agglomerative) یا تقسیم‌کننده (Divisive).

خوشه‌بندی تجمیعی

خوشه‌بندی تجمیعی «رویکرد پایین‌به‌بالا» دارد؛ یعنی نقاط داده‌ی آن در ابتدا به‌صورت گروه‌های جداگانه در نظر گرفته می‌شوند و سپس براساس شباهت‌های موجود کنار هم قرار می‌گیرند تا زمانی که یک خوشه حاصل شود. برای اندازه‌گیری شباهت معمولاً از چهار روش مختلف استفاده می‌شود:

  • پیوند ایزوله‌ساز (Ward Linkage): این روش فاصله میان دو خوشه را با افزایش مجموع مربع خوشه‌ها پس از ادغام آن‌ها تعریف می‌کند.
  • پیوند میانگین (Average Linkage): این روش با میانگین فاصله‌ی میان دو داده در هر خوشه تعریف می‌شود.
  • پیوند کامل یا حداکثر (Complete / maximum linkage): این روش با حداکثر فاصله میان دو داده در هر خوشه تعریف می‌شود.
  • پیوند منفرد یا حداقل (Single / minimum linkage): این روش با حداقل فاصله میان دو نقطه در هر خوشه تعریف می‌شود. بهتر است بدانیم که فاصله‌ی اقلیدسی متداول‌ترین معیاری است که برای محاسبه‌ی این فاصله‌ها استفاده می‌شود.
خوشه‌بندی تقسیم‌کننده

این نوع خوشه‌بندی می‌تواند به‌عنوان نقطه‌ی مقابل خوشه‌بندی تجمیعی تعریف شود که رویکرد از بالابه‌پایین را در پیش می‌گیرد. در این حالت، یک خوشه داده براساس تفاوت‌های موجود میان نقاط داده تقسیم می‌شود. بااینکه معمولاً از خوشه‌بندی تقسیم‌کننده استفاده نمی‌شود، هنوز هم در چارچوب خوشه‌بندی سلسله‌مراتبی قابل ذکر است.

فرایند خوشه‌بندی‌های سلسله‌مراتبی معمولاً با استفاده از یک دندروگرام (Dendrogram)، نموداری درخت‌مانند که ادغام یا تقسیم نقاط داده را در هر تکرار ثبت می‌کند، نمایش داده می‌شود.

خوشه‌بندی تقسیم‌کننده (Divisive) می‌تواند به‌عنوان نقطه‌ی مقابل خوشه‌بندی تجمیعی تعریف شود که رویکرد از بالابه‌پایین را در پیش می‌گیرد. در این حالت، یک خوشه داده براساس تفاوت‌های موجود میان نقاط داده تقسیم می‌شود. بااینکه معمولاً از خوشه‌بندی تقسیم‌کننده استفاده نمی‌شود، هنوز هم در چارچوب خوشه‌بندی سلسله‌مراتبی قابل ذکر است. فرایند خوشه‌بندی‌های سلسله‌مراتبی معمولاً با استفاده از یک دندروگرام (Dendrogram)، نموداری درخت‌مانند که ادغام یا تقسیم نقاط داده را در هر تکرار ثبت می‌کند، نمایش داده می‌شود.

دندروگرام خوشه‌بندی تجمیعی و تقسیم‌کننده

شکل بالا یک نمودار دندروگرام (Dendrogram) را نشان می‌دهد که اگر فرایند را از پایین‌به‌بالا بررسی کنیم درواقع نشان‌دهنده‌ی خوشه‌بندی تجمیعی است و اگر از بالابه‌پایین بررسی کنیم، خوشه‌بندی تقسیم‌کننده را نمایش می‌دهد.

خوشه‌بندی احتمالی (Probabilistic Clustering)

خوشه‌بندی احتمالی تکنیکی بدون ناظر است که در آن نقاط داده براساس احتمال متعلق‌ بودن آن‌ها به یک خوشه‌ی خاص خوشه‌بندی می‌شوند. مدل گاوسی مخلوط (Gaussian Mixture Models) یکی از متداول‌ترین روش‌های خوشه‌بندی احتمالی است. یک مدل مخلوط گاوسی یک مدل احتمالی است که فرض می‌کند تمامی نقاط داده از مخلوط تعداد محدودی از توزیع‌های گاوسی با پارامترهای ناشناخته تولید می‌شوند.

همبستگی (Association Rules / Association)

همبستگی یا Association روشی مبتنی بر قانون (Rule-based) برای یافتن روابط میان متغیرها در یک مجموعه‌ی داده مشخص است. این روش به‌طور مکرر برای تجزیه‌وتحلیل سبد بازار استفاده می‌شود و به شرکت‌ها این امکان را می‌دهد تا روابط میان محصولات مختلف را بهتر درک کنند.

درک عادات مصرفی مشتریان مشاغل را قادر می‌کند تا استراتژی‌های فروش متقابل و موتورهای پیشنهادی بهتری را ایجاد کنند؛ برای مثال، اگر در وب‌سایت دیجی‌کالا محصولی را انتخاب کنیم یا در سبد خرید خود قرار دهیم، پیشنهادهای دیگری با این جمله دریافت می‌کنیم: «خریداران این محصول این محصولات را نیز خریداری کرده‌اند». تعداد الگوریتم‌های مورداستفاده برای این کار خیلی زیاد نیست، ازجمله Eclat، FP-Growth و Apriori ؛ معروف‌ترین آن‌ها الگوریتم Apriori  است که بیشتر از باقی استفاده می‌شود.

کاهش ابعاد (Dimension Reduction)

با اینکه داده‌های بیشتر به‌طور کلی نتایج دقیق‌تری به همراه دارند، می‌توانند روی عملکرد الگوریتم‌های یادگیری ماشین تأثیر منفی بگذارند؛ برای مثال، می‌توانند مشکل Overfitting را ایجاد کنند؛ علاوه‌براین حجم داده‌ی زیاد می‌تواند نمایش مجموعه داده را دشوارتر کند.

کاهش ابعاد تکنیکی است که وقتی تعداد ویژگی‌ها یا ابعاد یک مجموعه‌ی داده بسیار زیاد باشد استفاده می‌شود. این تکنیک تعداد داده‌های ورودی را به‌اندازه‌ای که کنترل‌شدنی باشند کاهش می‌دهد و درعین‌حال یکپارچگی مجموعه‌ی داده را تا حد ممکن حفظ می‌کند.

تکنیک کاهش ابعاد معمولاً در مرحله‌ی پیش‌پردازش داده انجام می‌شود و متدهای مختلفی ازجمله آنالیز مؤلفه‌ی اصلی (PCA)، تجزیه‌ی مقادیر منفرد (SVD) و اتوانکدرها (Autoencoders) برای این کار وجود دارد.

تا اینجا با یادگیری بدون ناظر و وظایف آن آشنا شدیم. در ادامه به برخی از نکات مثبت و منفی این روش خواهیم پرداخت.

برای آشنایی بیشتر با یادگیری ماشین این مطلب را مطالعه کنید:

یادگیری ماشین به زبان ساده به چه معناست و چه مراحلی دارد؟

مزایای استفاده از یادگیری بدون ناظر

مزایای استفاده از یادگیری بدون موارد را می‌توان به‌صورت کلی این‌طور برشمرد:

  • یادگیری ماشین بدون ناظر همه‌ نوع الگوی ناشناخته را در داده‌ها پیدا می‌کند؛
  • روش‌های بدون ناظر به ما در یافتن ویژگی‌هایی که می‌توانند برای دسته‌بندی داده‌ها مفید باشند کمک می‌کند؛
  • یادگیری بدون ناظر در لحظه و به‌صورت بی‌درنگ (Real-time) انجام می‌شود؛ بنابراین تمامی داده‌های ورودی در حین یادگیری تجزیه‌وتحلیل و برچسب‌گذاری می‌شوند؛
  • یافتن داده‌های بدون برچسب راحت‌تر از داده‌های برچسب‌دار است که به مداخله‌ی انسانی نیاز دارند.

معایب استفاده از یادگیری بدون ناظر

به‌صورت کلی معایب استفاده از یادگیری بدون ناظر از این قرار است:

  • نمی‌توان اطلاعات زیادی درباره‌ی نحوه‌ی مرتب‌سازی داده و طبقه‌بندی آن‌ها در خروجی به دست آورد؛ زیرا یافتن الگوهای پنهان در داده و برچسب‌گذاری آن‌ها با ماشین انجام می‌شود؛
  • دقت خروجی یادگیری بدون ناظر کم است؛ زیرا کار برچسب‌گذاری داده را خود ماشین، به‌تنهایی، انجام می‌دهد و دخالت انسانی در آن وجود ندارد؛
  • هیچ دانش قبلی در روش یادگیری ماشین بدون ناظر وجود ندارد؛ علاوه‌براین، تعداد کلاس‌ها نیز مشخص نیست. این امر به ناتوانی در تعیین نتایج حاصل از تجزیه‌وتحلیل می‌انجامد.

پرسش‌های متداول درباره‌ی علم داده را اینجا پیدا کنید:

پرسش‌های متداول یادگیری ماشین که باید پاسخ‌شان را بدانید!

یادگیری نظارت شده در مقابل یادگیری بدون نظارت: کدام یک برای کار موردنظر شما بهتر است؟

انتخاب یک رویکرد مناسب برای تسک موردنظر، بستگی به ساختار و حجم داده‌های شما و همچنین مورد استفاده دارد. برای تصمیم گیری در مورد اینکه چه نوع رویکرد یادگیری ماشین، یعنی یادگیری نظارت شده یا بدون نظارت را برای کارتان انتخاب کنید، بهتر است موارد زیر را در نظر داشته باشید:‌

داده های ورودی خود را ارزیابی کنید!

آیا داده های شما برچسب‌دار (Labeled Data) هستند یا بدون برچسب؟ آیا کارشناسانی در اختیار دارید که بتوانند در صورت نیاز داده‌ها را برایتان برچسب‌گذاری کنند؟

اهداف خود را مشخص کنید!

آیا یک مسئله تکرار شونده و کاملاً تعریف شده برای بررسی دارید؟ یا اینکه الگوریتم نیاز به پیش‌بینی مسائل جدید دارد؟

گزینه‌های خود را برای الگوریتم‌ها مرور کنید!

آیا الگوریتم‌هایی با همان ابعاد مورد نیاز شما (یعنی تعداد characteristic  feature, attribute و) وجود دارد؟ آیا این الگوریتم‌ها می‌توانند حجم و ساختار داده شما را پشتیبانی کنند؟

به طور کلی، طبقه‌بندی کلان داده‌ها یا Bigdata می‌تواند یک چالش واقعی در یادگیری نظارت شده باشد، اما از سوی دیگر،  نتایج آن بسیار دقیق و قابل اعتماد هستند. در مقابل، یادگیری بدون نظارت می‌تواند حجم زیادی از داده‌ها را به شکل بلادرنگ (Real-time) مدیریت کند. اما، عدم شفافیت در مورد نحوه خوشه‌بندی (Clustering) داده‌ها و خطر نتایج نادرست در این نوع الگوریتم وجود دارد. به همین دلیل است که نوع دیگری از یادگیری ماشین به نام یادگیری نیمه نظارتی یا semi-supervised learning  هم وجود دارد.

یادگیری نیمه‌نظارتی، ترکیبی از مزایای دو نوع یادگیری قبلی

اگر نمی توانید در مورد استفاده از یادگیری نظارت شده یا بدون نظارت تصمیم بگیرید، یادگیری نیمه نظارت شده یک راه‌حل خوب است که در آن از یک مجموعه داده آموزشی با داده‌های برچسب دار و بدون برچسب استفاده می‌کنید. این نوع یادگیری به ویژه زمانی مفید است که استخراج فیچرهای مرتبط از داده‌ها دشوار است و حجم داده زیادی دارید. یادگیری نیمه نظارتی برای تصاویر پزشکی ایده آل است، زیرا در آن، مقدار کمی از داده‌های آموزشی می‌تواند منجر به بهبود قابل توجهی در دقت مدل شود. برای مثال، یک رادیولوژیست می‌تواند زیرمجموعه کوچکی از سی تی اسکن‌ها را برای تومورها یا بیماری‌های دیگر برچسب‌گذاری کند تا دستگاه بتواند با دقت بیشتری پیش‌بینی کند که کدام بیماران ممکن است به مراقبت پزشکی بیشتری نیاز داشته باشند.

برای مطالعه بیشتر در مورد یادگیری نیمه‌نظارتی، روی لینک زیر کلیک کنید:
یادگیری نیمه‌نظارتی چیست؟

خلاصه‌ی مطالب

در این مطلب یادگیری بدون ناظر، یکی از تکنیک‌های یادگیری ماشین، را معرفی کردیم. همین‌طور دانستیم که در یادگیری بدون ناظر به نظارت روی مدل نیازی نیست و خود مدل با پیداکردن الگوهای موجود در داده، داده‌ها را برچسب‌گذاری و در یک گروه خاص طبقه‌بندی می‌کند؛ علاوه‌براین با سه نوع اصلی یادگیری بدون ناظر، یعنی خوشه بندی، اتحاد و کاهش ابعاد، آشنا شدیم.

به‌طور کلی می‌توان گفت تکنیک‌های یادگیری ماشین، نه‌تنها یکی از پرطرفدارترین مباحث علوم داده محسوب می‌شوند، در تصمیم گیری‌های مبتنی بر داده (Data-driven decision making) نقش مهمی دارند. این نوع تصمیم‌ها در موفقیت تجارت‌ها نقش بسیار مهمی دارند.

آموزش علم داده و یادگیری ماشین با کلاس‌های آنلاین کافه‌تدریس

اگر به یادگیری علم داده و ماشین‌لرنینگ علاقه دارید، کلاس‌های آنلاین آموزش علم داده کافه‌تدریس به شما امکان می‌دهد در هر نقطه‌ی جغرافیایی به به‌روزترین و جامع‌ترین آموزش دسترسی داشته باشید.

کلاس‌های آنلاین آموزش علم داده کافه‌تدریس مبتنی بر پروژه‌های واقعی علم داده است و به‌صورت کاملاً تعاملی برگزار می‌شود.

برای آشنایی با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس و مشاوره‌ی رایگان روی این لینک کلیک کنید:

کلاس‌های آنلاین علم داده کافه‌تدریس