طبقهبندی تصویر یا Image Classification هسته اصلی بسیاری از محصولات و فیچرهای محبوب است، از برچسبگذاری عکس در فیسبوک گرفته تا خودروی خودران تسلا. طبقهبندی تصویر، بهزبان ساده، تجزیهوتحلیل و برچسب گذاری تصاویر است.
این مطلب مقدمهای در این مورد ارائه میکند که طبقهبندیکنندههای تصویر چه هستند و چرا اهمیت دارند.
روشهای مختلف پردازش تصویر (Image Processing)
روشهای مختلفی برای پردازش تصویر وجود دارد و طبقهبندی تصویر یکی از سه روش اصلی در این زمینه است:
طبقه بندی تصویر یا Image Classification
طبقهبندی تصویر سؤالی که پاسخ میدهد این است که نوع تصویر چیست و خروجی آن یک کلاس است؛ برای مثال، «سگ» یا «گربه». بعداً به این مطلب بیشتر خواهیم پرداخت.
تشخیص اشیا یا Object Detection
سؤالی که در این روش پاسخ داده میشود این است که جسم کجاست؟ این مدل مختصات یک بهاصطلاح «جعبه محدودکننده» یا همان bounding box را در اطراف جسم موجود در تصویر خروجی به ما میدهد. اگر از قبل میدانید که به دنبال سگ حاضر در تصویر هستید و میخواهید بدانید که آیا تصویر خاص یک سگ را نشان میدهد یا نه و اگر بله، کجای تصویر است، باید از object detection استفاده کنید.
بخشبندی تصویر یا Image Segmentation
سؤالی که در این روش پاسخ داده میشود این است که شکل جسم چگونه است؟ مدل برای هر شیء در تصویر یک پوشش پیکسلی (pixel-wise mask) ایجاد میکند. بخشبندی تصویر اطلاعات دقیقتری درمورد اندازه و شکل جسم میدهد. اگرچه این مدلها از نظر محاسباتی گرانتر هستند، اغلب برای بهبود کارایی سیستم استفاده میشوند؛ بهاین شکل که الگوریتمها میتوانند فقط به پردازش بخشهای مرتبط تصویر بپردازند؛ برای مثال، شناسایی چهره تلفنهای هوشمند فقط باید خطوط و اشکال را در شکل صورت تجزیهوتحلیل کند، نه پس زمینه را.
درباره بخشبندی تصویر یا Image Segmentation بیشتر بدانید.
حال که بهطور مختصر با روشهای کلی پردازش تصویر آشنا شدیم، در ادامه بهطور اختصاصی درمورد طبقهبندی تصویر یا همان Image Classification صحبت خواهیم کرد.
طبقه بندی تصویر یا Image Classification چیست؟
این مثال کلاسیک را تصور کنید: مجموعهای از تصاویر به شما داده میشود که هر کدام یک گربه یا یک سگ را نشان میدهند. بهجای برچسبگذاری تکتک عکسها، میخواهید از یک الگوریتم برای انجامدادن این کار استفاده کنید: این الگوریتم به کل تصویر نگاه میکند و احتمالات را برای هر یک از کلاسهایی که در آن آموزش دیدهاند در خروجی ارائه میکند. این امر معمولاً ازطریق آموزش شبکههای عصبی (Neural Networks) امکانپذیر است که در این مطلب شبکه عصبی کانولوشنی (CNN) چیست؟ درباره آن صحبت کردهایم.
مانند دیگر کاربردهای یادگیری باناظر (Supervised Learning)، شبکه با دادههای آموزشی کافی تغذیه میشود، یعنی تصاویر برچسبگذاریشدهای از گربهها و سگها. آنچه در مرحلههای میان ورود تصویر و خروجی شبکه اتفاق میافتد تا حدی پیچیده است و در مقاله معرفی شبکه عصبی CNN دربارهٔ آن توضیح دادهایم؛ اما بهزبان ساده، این شبکهها تصویر را به شکلها و رنگهای انتزاعی تجزیه میکنند که برای تشکیل فرضیهای (Hypothesis) براساس محتوای تصویر استفاده میشود.
برنامههای کاربردی برای طبقهبندی تصاویر
همه افراد، ازجمله خود ما، به استفاده از مثال برچسبزدن تصاویر سگها و گربهها دربارهٔ کاربرد طبقهبندی تصاویر ادامه میدهند، اما ظرفیت بسیار بیشتری در این فناوری وجود دارد که در ادامه تعدادی از آنها را بررسی خواهیم کرد.
۱. موتورهای جستوجوی بصری (Visual Search Engines)
موتورهای جستوجو به بخشی جداییناپذیر از زندگی بیشتر افراد تبدیل شدهاند. ما کلمههای کلیدی را تایپ میکنیم و نتایج معنیداری به دست میآوریم که مطابق با آنچه به دنبال آن بودیم سفارشی میشوند.
بهلطف طبقهبندیکنندههای تصویر، همین کار برای جستوجوی بصری نیز کار میکند. از محبوبترین موتورهای جستوجوی بصری میتوان به بازیکنان بزرگی مانند گوگل (Google) و بینگ (Bing) اشاره کرد؛ اما برخی از بازیکنان تخصصی در این حوزه نیز وجود دارند، مانند TinEye و Picsearch.
- یک موتور جستوجوی بصری چندین کاربرد دارد:
- یافتن تصاویر براساس کلمات کلیدی: جستوجوی کلاسیک تصویر در گوگل. کاربر کلمههای کلیدی را تایپ میکند و تصویرهای مربوط را بهعنوان خروجی دریافت میکند.
- دریافت اطلاعات در مورد یک تصویر خاص: کاربر یک تصویر را وارد میکند و اطلاعات (متن و بصری) آن تصویر را دریافت میکند؛ برای مثال، تصویر یک ساختمان ناشناخته را وارد کنید؛ سپس موتور جستوجو اطلاعاتی درمورد نام و مکان آن ساختمان خاص در اختیار شما قرار میدهد.
- یافتن تصاویر مشابه: کاربر یک تصویر را وارد میکند و تصویرهای مشابه را دریافت میکند؛ برای مثال، تصور کنید که عکسی از بازیگر موردعلاقه خود دارید. با تغذیه یک موتور جستوجوی بصری با این تصویر، تعداد زیادی عکس از بازیگر موردعلاقه خود در انواع مکانها دریافت میکنید.
طبقهبندی تصویر در موتور جستوجوی گوگل
در این تصویر میتوانید نتایج جستوجوی گوگل «تولهسگ قهوهای» را مشاهده کنید:
موتور جستوجوی بصری (گوگل) تصویرهایی را ارائه میکند که با درخواست جستوجو مطابقت دارند (تصویرها را براساس کلمههای کلیدی پیدا میکند). صفحه نتیجه تصاویری را نشان میدهد که یک طبقهبندیکننده تصویر با کلاسهای «قهوهای» و «تولهسگ» برچسبگذاری کرده است.
اما کار آن در اینجا متوقف نمیشود. هنگام کلیک روی تصویر بالا سمت چپ، الگوریتم تصویرهای اضافی را در سمت راست نشان میدهد (تصویرهای مشابه را مییابد). در پشت صحنه یک طبقهبندیکننده تصویر تمامی تصویرهای موجود در پایگاه داده خود را اسکن کرده است؛ برای مثال، درمورد رنگ، شکل و اندازه. سپس الگوریتم محاسبه کرده که تصاویر دیگری که اسکن کرده چقدر با تصویر کلیک شده از بالا سمت چپ مطابقت دارند. همانطور که میبینید، سگها در تصاویر به دست آمده بسیار شبیه به هم هستند: آنها رنگ خز قهوهای تیره یکسانی دارند و صورت آنها شکل و اندازه مشابهی دارد.
۲. تشخیص لوگو، برندها را قادر میکند «گوشدادن بصری» را انجام دهند!
برندهای مصرفکننده باید بدانند که در رسانههای اجتماعی چه اتفاقی میافتد؛ زیرا این رسانهها نکتههای ارزشمندی درمورد رفتار مشتری ارائه میکنند. چند نمونه سؤال عبارتاند از: آیا آخرین کمپین بازاریابی اشاره به نام تجاری را افزایش داده است؟ تعامل مردم با برند چگونه است؟ افرادی که درباره برند مطلبی را پست میکنند چه کسانی هستند؟ آنها درمورد برند چه مینویسند و چرا؟
برای پیگیری آن برندها پستهای متنی را که بهنام تجاری آنها اشاره کردهاند نظارت میکنند؛ برای مثال، تولیدکننده لباس ورزشی آدیداس (Adidas) هر پستی که کلمه «آدیداس» را دارد ردیابی میکند. بهاین روش بازاریابی، گوشدادن اجتماعی یا Social Listening میگویند.
بااینحال مشکل مشهودی وجود دارد: اکثر اوقات افراد بدون ذکر نام برند درمورد یک برند پست میکنند. آنان ممکن است جدیدترین کفشهای آدیداس را بپوشند و درمورد آن اظهار نظر کنند، اما این را بهصراحت در توضیح تصویر نگویند؛ بنابراین در این حالت گوشدادن اجتماعی نمیتواند آن را پیگیری کند، اما گوشدادن بصری (Visual Listening) میتواند.
طبقه بندی تصویر یا Image Classification به برندها امکان میدهد به محتوای بصری نیز گوش دهند. با اسکن تصاویر، طبقهبندیکنندههای تصویر میتوانند نام تجاری بصری را تشخیص دهند؛ درمقابل با Social Listening، به این فرایند گوشدادن بصری گفته میشود.
با تجزیهوتحلیل دادههای تصویری و متنی، برندها اکنون میتوانند تجزیهوتحلیل رسانههای اجتماعی را با دقت بیشتری انجام دهند؛ برای مثال، با تجزیهوتحلیل ابردادههای جغرافیایی و جمعیتی پستها، آنها میتوانند سهم بازار خود را در بخشهای مختلف مشتری تخمین بزنند.
گوشدادن بصری همچنین به برندها این امکان را میدهد تا موفقیت کمپینهای بازاریابی دشوار را محاسبه کنند، مانند حمایت مالی از رویدادهای ورزشی؛ برای مثال، آدیداس را در نظر بگیرید که حامی مالی جام جهانی فوتبال (FIFA World Cup) است. از طریق گوشدادن بصری، آنها بهتر میتوانند افزایش آگاهی از برند خود را ازطریق این کمپین خاص تخمین بزنند. گوشدادن بصری حتی به محافظت از برند کمک میکند؛ برای مثال، این فناوری میتواند استفاده جعلی از آرمها را شناسایی کند.
۳. تشخیص چهره: جایگزین کارت پرواز در فرودگاهها
قبلاً در بالا به Face ID اپل اشاره کردیم، اما برنامههای کاربردی بیشتری وجود دارد که در حال حاضر زندگی روزمره ما را بهبود میبخشند، بهویژه در فرودگاههای مدرن.
در فرودگاهها، تشخیص چهره (Face Recognition) این قابلیت را دارد که جایگزین کارت پرواز شود. این فناوری چهره مسافران را شناسایی میکند و آنها را با چندین پایگاه داده تطبیق میدهد تا هویت و اطلاعات پرواز آنها را تأیید کند.
علاوه بر تجربه مسافرتی پیشرفته، با این فناوری ظرفیت صرفهجویی در زمان بسیار زیاد است؛ برای مثال، لوفتهانزا (Lufthansa) در سال ۲۰۱۸ یک مرحله آزمایشی را در چندین فرودگاه ایالاتمتحده انجام داد. بهگفته این شرکت، سوارشدن بر ایرباس A380 با ۳۵۰ مسافر فقط ۲۲ دقیقه طول کشید که ۴۰ دقیقه را تقریباً به نصف کاهش داد.
علاوه بر پردازش سریعتر، فناوری تشخیص چهره به بهبود امنیت کمک میکند. براساس اداره گمرک و حفاظت مرزی ایالاتمتحده (CBP)، تشخیص چهره میتواند برای بررسیهای امنیتی با «ثبات و دقت بیشتر»، در مقایسه با نقاط بازرسی حضوری، رقابت کند.
خلاصه مطالب گفتهشده درباره طبقه بندی تصویر یا Image Classification
آنچه تا اکنون درمورد آن بحث کردیم بهطور خلاصه در این چند مورد خلاصه میشود:
- طبقهبندی تصویر متعلق به حوزه بینایی ماشین (Computer Vision) است و فرایند برچسبگذاری یک تصویر را با توجه به محتوای بصری آن توصیف میکند.
- تشخیص شیء (Object Detection) برای شناسایی مکان یک شیء استفاده میشود. الگوریتمها یک کادر مستطیلی محدودکننده در اطراف شیء مربوط را در خروجی ارائه میکنند.
- بخشبندی تصویر (Image Segmentation) اطلاعات دقیقتری درمورد شکلها ازطریق یک ماسک پیکسلی برای هر شیء در تصویر فراهم میکند.
- طبقهبندی تصویر در طیف گستردهای از صنایع و قابلیتها اعمال میشود؛ برای مثال، طبقهبندیکنندههای تصویر برچسبگذاری تصویر را خودکار میکنند و بهبود میبخشند، برندها را قادر میکنند «گوشدادن بصری» یا همان Visual Listening را انجام دهند، کارتهای پرواز را در فرودگاهها جایگزین میکنند و ستونفقرات موتورهای جستوجوی بصری هستند.
با کافهتدریس دیتا ساینس را آسان بیاموزید!
اگر دوست دارید به دنیای علم داده یا همان دیتا ساینس وارد شوید، کافی است با کافهتدریس همراه شوید. کلاسهای آنلاین آموزش علم داده کافهتدریس به شما امکان میدهد از هر نقطه جغرافیایی به جامعترین و بهروزترین آموزش دیتا ساینس و ماشین لرنینگ دسترسی داشته باشید.
برای آشنایی با کلاسهای آنلاین علم داده کافهتدریس روی این لینک کلیک کنید: