طبقه‌بندی تصویر یا Image Classification هسته اصلی بسیاری از محصولات و فیچرهای محبوب است، از برچسب‌گذاری عکس در فیس‌بوک گرفته تا خودروی خودران تسلا. طبقه‌بندی تصویر، به‌زبان ساده، تجزیه‌وتحلیل و برچسب گذاری تصاویر است.

این مطلب مقدمه‌ای در این مورد ارائه می‌کند که طبقه‌بندی‌کننده‌های تصویر چه هستند و چرا اهمیت دارند.

روش‌های مختلف پردازش تصویر (Image Processing)

روش‌های مختلفی برای پردازش تصویر وجود دارد و طبقه‌بندی تصویر یکی از سه روش اصلی در این زمینه است:

طبقه بندی تصویر یا Image Classification

طبقه‌بندی تصویر سؤالی که پاسخ می‌دهد این است که نوع تصویر چیست و خروجی آن یک کلاس است؛ برای مثال، «سگ» یا «گربه». بعداً به این مطلب بیشتر خواهیم پرداخت.

تشخیص اشیا یا Object Detection

سؤالی که در این روش پاسخ داده می‌شود این است که جسم کجاست؟ این مدل مختصات یک به‌اصطلاح «جعبه محدودکننده» یا همان bounding box را در اطراف جسم موجود در تصویر خروجی به ما می‌دهد. اگر از قبل می‌دانید که به دنبال سگ حاضر در تصویر هستید و می‌خواهید بدانید که آیا تصویر خاص یک سگ را نشان می‌دهد یا نه و اگر بله، کجای تصویر است، باید از object detection استفاده کنید.

بخش‌بندی تصویر یا Image Segmentation

سؤالی که در این روش پاسخ داده می‌شود این است که شکل جسم چگونه است؟ مدل برای هر شیء در تصویر یک پوشش پیکسلی (pixel-wise mask) ایجاد می‌کند. بخش‌بندی تصویر اطلاعات دقیق‌تری درمورد اندازه و شکل جسم می‌دهد. اگرچه این مدل‌ها از نظر محاسباتی گران‌تر هستند، اغلب برای بهبود کارایی سیستم استفاده می‌شوند؛ به‌این شکل که الگوریتم‌ها می‌توانند فقط به پردازش بخش‌های مرتبط تصویر بپردازند؛ برای مثال، شناسایی چهره تلفن‌های هوشمند فقط باید خطوط و اشکال را در شکل صورت تجزیه‌وتحلیل کند، نه پس زمینه را.

برای مطالعه بیشتر درباره بخش‌بندی تصویر این مطلب را مطالعه کنید:

بخش‌بندی تصویر یا Image Segmentation چیست؟

حال که به‌طور مختصر با روش‌های کلی پردازش تصویر آشنا شدیم، در ادامه به‌طور اختصاصی درمورد طبقه‌بندی تصویر یا همان Image Classification صحبت خواهیم کرد.

طبقه بندی تصویر یا Image Classification چیست؟

این مثال کلاسیک را تصور کنید: مجموعه‌ای از تصاویر به شما داده می‌شود که هر کدام یک گربه یا یک سگ را نشان می‌دهند. به‌جای برچسب‌گذاری تک‌تک عکس‌ها، می‌خواهید از یک الگوریتم برای انجام‌دادن این کار استفاده کنید: این الگوریتم به کل تصویر نگاه می‌کند و احتمالات را برای هر یک از کلاس‌هایی که در آن آموزش دیده‌اند در خروجی ارائه می‌کند. این امر معمولاً ازطریق آموزش شبکه‌های عصبی (Neural Networks) امکان‌پذیر است که در مقاله‌ای دیگر به‌طور مفصل دربارهٔ آن صحبت کرده‌ایم. برای مطالعه این مطلب روی این لینک کلیک کنید:

شبکه‌ی عصبی کانولوشنی (CNN) چیست؟

مانند دیگر کاربردهای یادگیری باناظر (Supervised Learning)، شبکه با داده‌های آموزشی کافی تغذیه می‌شود، یعنی تصاویر برچسب‌گذاری‌شده‌ای از گربه‌ها و سگ‌ها. آن‌چه در مرحله‌های میان ورود تصویر و خروجی شبکه اتفاق می‌افتد تا حدی پیچیده است و در مقاله معرفی شبکه عصبی CNN دربارهٔ آن توضیح داده‌ایم؛ اما به‌زبان ساده، این شبکه‌ها تصویر را به شکل‌ها و رنگ‌های انتزاعی تجزیه می‌کنند که برای تشکیل فرضیه‌ای (Hypothesis) براساس محتوای تصویر استفاده می‌شود.

برنامه‌های کاربردی برای طبقه‌بندی تصاویر

همه افراد، ازجمله خود ما، به استفاده از مثال برچسب‌زدن تصاویر سگ‌ها و گربه‌ها دربارهٔ کاربرد طبقه‌بندی تصاویر ادامه می‌دهند، اما ظرفیت بسیار بیشتری در این فناوری وجود دارد که در ادامه تعدادی از آن‌ها را بررسی خواهیم کرد.

۱. موتورهای جست‌وجوی بصری (Visual Search Engines)

موتورهای جست‌وجو به بخشی جدایی‌ناپذیر از زندگی بیشتر افراد تبدیل شده‌اند. ما کلمه‌های کلیدی را تایپ می‌کنیم و نتایج معنی‌داری به دست می‌آوریم که مطابق با آنچه به دنبال آن بودیم سفارشی می‌شوند.

به‌لطف طبقه‌بندی‌کننده‌های تصویر، همین کار برای جست‌وجوی بصری نیز کار می‌کند. از محبوب‌ترین موتورهای جست‌وجوی بصری می‌توان به بازیکنان بزرگی مانند گوگل (Google) و بینگ (Bing) اشاره کرد؛ اما برخی از بازیکنان تخصصی در این حوزه نیز وجود دارند، مانند TinEye و Picsearch.

  • یک موتور جست‌وجوی بصری چندین کاربرد دارد:
  • یافتن تصاویر براساس کلمات کلیدی: جست‌وجوی کلاسیک تصویر در گوگل. کاربر کلمه‌های کلیدی را تایپ می‌کند و تصویرهای مربوط را به‌عنوان خروجی دریافت می‌کند.
  • دریافت اطلاعات در مورد یک تصویر خاص: کاربر یک تصویر را وارد می‌کند و اطلاعات (متن و بصری) آن تصویر را دریافت می‌کند؛ برای مثال، تصویر یک ساختمان ناشناخته را وارد کنید؛ سپس موتور جست‌وجو اطلاعاتی درمورد نام و مکان آن ساختمان خاص در اختیار شما قرار می‌دهد.
  • یافتن تصاویر مشابه: کاربر یک تصویر را وارد می‌کند و تصویرهای مشابه را دریافت می‌کند؛ برای مثال، تصور کنید که عکسی از بازیگر موردعلاقه خود دارید. با تغذیه یک موتور جست‌وجوی بصری با این تصویر، تعداد زیادی عکس از بازیگر موردعلاقه خود در انواع مکان‌ها دریافت می‌کنید.

طبقه‌بندی تصویر در موتور جست‌وجوی گوگل

در این تصویر می‌توانید نتایج جست‌وجوی گوگل «توله‌سگ قهوه‌ای» را مشاهده کنید:

موتور جست‌وجوی بصری (گوگل) تصویرهایی را ارائه می‌کند که با درخواست جست‌وجو مطابقت دارند (تصویرها را براساس کلمه‌های کلیدی پیدا می‌کند). صفحه نتیجه تصاویری را نشان می‌دهد که یک طبقه‌بندی‌کننده تصویر با کلاس‌های «قهوه‌ای» و «توله‌سگ» برچسب‌گذاری کرده است.

اما کار آن در اینجا متوقف نمی‌شود. هنگام کلیک روی تصویر بالا سمت چپ، الگوریتم تصویرهای اضافی را در سمت راست نشان می‌دهد (تصویرهای مشابه را می‌یابد). در پشت صحنه یک طبقه‌بندی‌کننده تصویر تمامی تصویرهای موجود در پایگاه داده خود را اسکن کرده است؛ برای مثال، درمورد رنگ، شکل و اندازه. سپس الگوریتم محاسبه کرده که تصاویر دیگری که اسکن کرده چقدر با تصویر کلیک شده از بالا سمت چپ مطابقت دارند. همان‌طور که می‌بینید، سگ‌ها در تصاویر به دست آمده بسیار شبیه به هم هستند: آن‌ها رنگ خز قهوه‌ای تیره یکسانی دارند و صورت آن‌ها شکل و اندازه مشابهی دارد.

۲. تشخیص لوگو، برندها را قادر می‌کند «گوش‌دادن بصری» را انجام دهند!

برندهای مصرف‌کننده باید بدانند که در رسانه‌های اجتماعی چه اتفاقی می‌افتد؛ زیرا این رسانه‌ها نکته‌های ارزشمندی درمورد رفتار مشتری ارائه می‌کنند. چند نمونه سؤال عبارت‌اند از: آیا آخرین کمپین بازاریابی اشاره به نام تجاری را افزایش داده است؟ تعامل مردم با برند چگونه است؟ افرادی که درباره برند مطلبی را پست می‌کنند چه کسانی هستند؟ آن‌ها درمورد برند چه می‌نویسند و چرا؟

Social Listening و Visual Listening

برای پیگیری آن برندها پست‌های متنی را که به‌نام تجاری آن‌ها اشاره کرده‌اند نظارت می‌کنند؛ برای مثال، تولیدکننده لباس ورزشی آدیداس (Adidas) هر پستی که کلمه‌ «آدیداس» را دارد ردیابی می‌کند. به‌این روش بازاریابی، گوش‌دادن اجتماعی یا Social Listening می‌گویند.

بااین‌حال مشکل مشهودی وجود دارد: اکثر اوقات افراد بدون ذکر نام برند درمورد یک برند پست می‌کنند. آنان ممکن است جدیدترین کفش‌های آدیداس را بپوشند و درمورد آن اظهار نظر کنند، اما این را به‌صراحت در توضیح تصویر نگویند؛ بنابراین در این حالت گوش‌دادن اجتماعی نمی‌تواند آن را پیگیری کند، اما گوش‌دادن بصری (Visual Listening) می‌تواند.

طبقه بندی تصویر یا Image Classification به برندها امکان می‌دهد به محتوای بصری نیز گوش دهند. با اسکن تصاویر، طبقه‌بندی‌کننده‌های تصویر می‌توانند نام تجاری بصری را تشخیص دهند؛ درمقابل با Social Listening، به این فرایند گوش‌دادن بصری گفته می‌شود.

با تجزیه‌وتحلیل داده‌های تصویری و متنی، برندها اکنون می‌توانند تجزیه‌وتحلیل رسانه‌های اجتماعی را با دقت بیشتری انجام دهند؛ برای مثال، با تجزیه‌وتحلیل ابرداده‌های جغرافیایی و جمعیتی پست‌ها، آن‌ها می‌توانند سهم بازار خود را در بخش‌های مختلف مشتری تخمین بزنند.

گوش‌دادن بصری همچنین به برندها این امکان را می‌دهد تا موفقیت کمپین‌های بازاریابی دشوار را محاسبه کنند، مانند حمایت مالی از رویدادهای ورزشی؛ برای مثال، آدیداس را در نظر بگیرید که حامی مالی جام جهانی فوتبال (FIFA World Cup) است. از طریق گوش‌دادن بصری، آن‌ها بهتر می‌توانند افزایش آگاهی از برند خود را ازطریق این کمپین خاص تخمین بزنند. گوش‌دادن بصری حتی به محافظت از برند کمک می‌کند؛ برای مثال، این فناوری می‌تواند استفاده جعلی از آرم‌ها را شناسایی کند.

۳. تشخیص چهره: جایگزین کارت پرواز در فرودگاه‌ها

قبلاً در بالا به Face ID اپل اشاره کردیم، اما برنامه‌های کاربردی بیشتری وجود دارد که در حال حاضر زندگی روزمره ما را بهبود می‌بخشند، به‌ویژه در فرودگاه‌های مدرن.

در فرودگاه‌ها، تشخیص چهره (Face Recognition) این قابلیت را دارد که جایگزین کارت پرواز شود. این فناوری چهره مسافران را شناسایی می‌کند و آن‌ها را با چندین پایگاه داده تطبیق می‌دهد تا هویت و اطلاعات پرواز آن‌ها را تأیید کند.

علاوه بر تجربه مسافرتی پیشرفته، با این فناوری ظرفیت صرفه‌جویی در زمان بسیار زیاد است؛ برای مثال، لوفتهانزا (Lufthansa) در سال ۲۰۱۸ یک مرحله آزمایشی را در چندین فرودگاه ایالات‌متحده انجام داد. به‌گفته این شرکت، سوار‌شدن بر ایرباس A380 با ۳۵۰ مسافر فقط ۲۲ دقیقه طول کشید که ۴۰ دقیقه را تقریباً به نصف کاهش داد.

علاوه بر پردازش سریع‌تر، فناوری تشخیص چهره به بهبود امنیت کمک می‌کند. براساس اداره گمرک و حفاظت مرزی ایالات‌متحده (CBP)، تشخیص چهره می‌تواند برای بررسی‌های امنیتی با «ثبات و دقت بیشتر»، در مقایسه با نقاط بازرسی حضوری، رقابت کند.

خلاصه مطالب گفته‌شده درباره طبقه بندی تصویر یا Image Classification

آنچه تا اکنون درمورد آن بحث کردیم به‌طور خلاصه در این چند مورد خلاصه می‌شود:

  • طبقه‌بندی تصویر متعلق به حوزه بینایی ماشین (Computer Vision) است و فرایند برچسب‌گذاری یک تصویر را با توجه به محتوای بصری آن توصیف می‌کند.
  • تشخیص شیء (Object Detection) برای شناسایی مکان یک شیء استفاده می‌شود. الگوریتم‌ها یک کادر مستطیلی محدودکننده در اطراف شیء مربوط را در خروجی ارائه می‌کنند.
  • بخش‌بندی تصویر (Image Segmentation) اطلاعات دقیق‌تری درمورد شکل‌ها ازطریق یک ماسک پیکسلی برای هر شیء در تصویر فراهم می‌کند.
  • طبقه‌بندی تصویر در طیف گسترده‌ای از صنایع و قابلیت‌ها اعمال می‌شود؛ برای مثال، طبقه‌بندی‌کننده‌های تصویر برچسب‌گذاری تصویر را خودکار می‌کنند و بهبود می‌بخشند، برندها را قادر می‌کنند «گوش‌دادن بصری» یا همان Visual Listening را انجام دهند، کارت‌های پرواز را در فرودگاه‌ها جایگزین می‌کنند و ستون‌فقرات موتورهای جست‌وجوی بصری هستند.

با کافه‌تدریس دیتا ساینس را آسان بیاموزید!

اگر دوست دارید به دنیای علم داده یا همان دیتا ساینس وارد شوید، کافی است با کافه‌تدریس همراه شوید. کلاس‌های آنلاین آموزش علم داده کافه‌تدریس به شما امکان می‌دهد از هر نقطه جغرافیایی به جامع‌ترین و به‌روزترین آموزش دیتا ساینس و ماشین لرنینگ دسترسی داشته باشید.

برای آشنایی با کلاس‌های آنلاین علم داده کافه‌تدریس روی این لینک کلیک کنید:

کلاس‌های آنلاین علم داده کافه‌تدریس