رقابت سالانه ILSVRC چیست؟ یادگیری عمیق (Deep Learning) زیرمجموعه‌ی یادگیری ماشین  (Machine Learning) است. این شاخه از هوش مصنوعی کامپیوتر را وامی‌دارد تا براساس تجربیاتی که به دست می‌آورد، وظایفی مشخص را انجام دهد. محبوبیت استفاده از تکنیک‌های یادگیری عمیق را می‌توان به‌دلیل نوآوری‌هایی دانست که در استفاده از شبکه‌های عصبی کانولوشنی (CNN) در طبقه‌بندی تصاویر (Image Classification) ایجاد شد.

بسیاری از این نوآوری‌ها در چالش شناسایی تصاویر با مقیاس بزرگ ایمیج نت (ImageNet Large Scale Visual Recognition Challenge) شکل گرفت که به‌اختصار ILSVRC نام دارد. ILSVRC یک رقابت سالانه در حوزه‌ی بینایی ماشین (Computer Vision) است که با به‌کارگیری دیتاست ImageNet برگزار می‌شود؛ به‌همین دلیل، این رقابت به‌نام رقابت ImageNet هم معروف است. در ادامه شرحی مختصر بر بینایی ماشین (Computer Vision) و کارهایی که در آن انجام می‌شود می‌آوریم و سپس با برجسته‌ترین معماری‌های کانولوشنی که از ابتدا تاکنون در رقابت ILSVRC شرکت کرده‌اند آشنا خواهیم شد.

بینایی ماشین (Computer Vision) چیست؟

از سال‌ها قبل انسان در تلاش بوده است تا ماشین‌هایی را تولید کند که هوشی مانند هوش انسان داشته باشند؛ درواقع ماشین‌هایی بسازد که مانند ما فکر و رفتار کنند. بینایی ماشین (Computer Vision) هم یکی از همین تکنولوژی‌هاست که در آن انسان تلاش کرده است تا با استفاده از تکنیک‌هایی کامپیوتر را وادار کند عکس‌های دیجیتالی و ویدیوها را مانند ما انسان‌ها شناسایی کند.

بینایی ماشین (Computer Vision) یکی از قدرتمندترین انواع هوش مصنوعی است. این رشته از علوم کامپیوتر بر کپی‌برداری از قسمت‌هایی از سیستم بینایی انسان تمرکز می‌کند. با پیشرفت‌هایی که در هوش مصنوعی (Artificial Intelligence)، یادگیری عمیق (Deep Learning) و شبکه‌های عصبی (Neural Networks) داشته‌ایم، مسیر پیشرفت بینایی ماشین  (Computer Vision)هموارتر شده است.

کاربرد بینایی ماشین کجاست؟

کاربردهای بینایی ماشین را به‌صورت مختصر می‌توان در این موارد جست‌وجو کرد:

  • شناسایی اشیا (Object Identification): این سیستم محتوای بصری را تجزیه‌وتحلیل می‌کند و شیء موجود در عکس یا فیلم را شناسایی می‌کند؛ برای مثال، می‌تواند نوع خاصی از ماشین را در تصویر شناسایی کند.
  • تأیید اشیا (Object Verification): این سیستم محتوای بصری را تجزیه‌وتحلیل می‌کند و نشان می‌دهد شیء خاصی در عکس یا فیلم وجود دارد یا نه؛ برای مثال، آیا در عکس یا فیلم ماشین وجود دارد یا نه؟
  • طبقه‌بندی اشیا (Object Classification): این سیستم عکس‌ها و فیلم‌ها را تجزیه‌وتحلیل می‌کند و اشیا را در محتوای بصری در یک دسته‌بندی طبقه‌بندی می‌کند؛ مثلاً می‌تواند یک ماشین را در میان تمامی اشیای موجود در محتوای تصویری پیدا کند.
  • ردیابی اشیا (Object Tracking): این سیستم در فیلم یک یا چند شیء را پیدا می‌کند که با معیارهای جست‌وجو مطابقت دارد و حرکت آن را ردیابی می‌کند.
  • قطعه‌بندی تصاویر (Image Segmentation): فرایندی است که در آن یک عکس دیجیتالی را به قطعه‌های مختلفی قسمت‌بندی می‌کنند که این از پیچیدگی عکس کم می‌کند؛ برای مثال، در پزشکی برای تشخیص سلول‌های سرطانی می‌توان از این سیستم استفاده کرد.

برای مطالعه بیشتر درباره‌ی بینایی ماشین این مطلب را مطالعه کنید:

بینایی ماشین (Computer Vision) چیست و چه کاربردهایی دارد؟

معماری‌های برتر رقابت ILSVRC

معماری‌های برتر رقابت ILSVRC

حال که با بینایی ماشین آشنا شدیم، رقابت ILSVRC و برجسته‌ترین معماری‌های کانولوشنی را بررسی می‌کنیم که در این رقابت شرکت کرده‌اند.

لی نت-۵ (LeNet-5)

لی نت-۵ (LeNet-5)

LeNet-5 یک معماری کانولوشنی هفت‌لایه است که در سال ۱۹۹۸ لی‌کان (LeCun) و همکارانش ارائه کردند. این معماری اعداد را طبقه‌بندی می‌کند. از این معماری اولین بار هفت‌ بانک به‌منظور شناسایی اعداد دست‌نویس روی چک‌ها استفاده کردند که به‌صورت عکس‌های سیاه‌وسفید دیجیتالی با اندازه‌ی ۳۲×۳۲ پیکسل درآمده بودند؛ اما شناسایی عکس‌هایی با اندازه‌ی بزرگتر به لایه‌های کانولوشنی بزرگتر و بیشتری نیاز داشت؛ این یعنی به منابع محاسباتی بیشتری نیازمند بود؛ بنابراین این تکنیک، به‌دلیل محدودیت منابع محاسباتی، با مشکل مواجه بود و کنار گذاشته شد.

الکس نت (AlexNet)

الکس نت (AlexNet)

در سال ۲۰۱۲ معماری AlexNet توانست به مقدار ۱۵.۳ درصد در پنج خطای برتر (top-5 error) برسد و عملکرد بسیار بهتری را در مقایسه با رقبا داشته باشد و برنده‌ی رقابت سالانه ILSVRC شود. رتبه‌ی دوم رقابت را معماری‌ای کسب کرد که از شبکه کانولوشنی استفاده نکرده بود و به پنج خطای برتر (top-5 error) ۲۶.۲ درصد رسید.

معماری AlexNet مشابه معماری LeNet است، با این تفاوت که عمیق‌تر است، فیلترهای بیشتر در هر لایه و لایه‌های کانولوشن استک‌شده  (Stacked Convolutional Layers)دارد. این معماری لایه‌های کانولوشن با اندازه‌ی ۱۱×۱۱، ۵×۵ و ۳×۳، لایه‌ی ادغام Max pooling، دراپ‌اوت (dropout)، افزایش داده (Data augmentation)، تابع فعال‌ساز ReLU و بهینه‌ساز گرادیان کاهشی تصادفی (SGD / Stochastic Gradient Descent) را شامل است. در این معماری بعد از هر لایه‌ی کانولوشن و کاملاً متصل (Fully connected) یک تابع فعال‌ساز ReLU وجود دارد. معماری AlexNet به‌طور هم‌زمان طی ۶ روز روی دو GPU Nvidia Geforce GTX 580 آموزش دیده و به‌همین دلیل، به دو بخش تقسیم شده است. این معماری Alex Krizhevsky ، Geoffrey Hinton و  Ilya Sutskever طراحی کرده‌اند.

برای آشنایی بیشتر با معماری الکس‌نت این مطلب را مطالعه کنید:

معماری الکس نت (AlexNet) را به‌صورت کامل بشناسید!

زد اف نت (ZFNet)

معماری زد اف نت (ZFNet)

در سال ۲۰۱۳ هم برنده‌ی رقابت ILSVRC یک معماری کانولوشنی به‌نام ZFNet بود. معماری ZFNet با حفظ ساختار معماری AlexNet و کمی تغییر در هایپرپارامترهای آن توانست به پنج خطای برتر (top-5 error) ۱۴.۸ درصد برسد.

گوگل نت  اینسپشن (GoogLeNet  Inception)

گوگل نت / اینسپشن (GoogLeNet / Inception)

برنده‌ی سال ۲۰۱۴ رقابت ILSVRC معماری GooglLeNet یا همان Inception بود که پنج خطای برتر (top-5 error) این معماری ۶.۶۷ درصد بود. با توجه به اینکه درصد خطا بسیار به عملکرد انسانی نزدیک بود، مسئولان رقابت تصمیم گرفتند از نیروی متخصص انسانی برای انجام‌دادن این تست استفاده کردند و با نتایج معماری GooLeNet مقایسه کنند. آنان توانستند به خطای ۵.۱ درصد ( تک‌مدل) و خطای ۳.۶ درصد (ترکیبی از چند مدل) برسند. معماری GoogLeNet از همان معماری LeNet استفاده کرده، با این تفاوت که یک عنصر جدید به‌نام ماژول آغازین (Inception Module) نیز به آن اضافه کرده است.

این معماری بر پایه‌ی چندین لایه‌ی کانولوشن کوچک است تا از تعداد پارامترها تا حد زیادی بکاهد. معماری GoogLeNet بیست‌ودو لایه‌ی کانولوشن دارد و با این کار تعداد پارامترها را از شصت‌میلیون که در معماری AlexNet بود به چهارمیلیون کاهش داده است.

معماری وی‌جی‌جی‌نت (VGGNet)

وی‌جی‌جی‌نت (VGGNet)

رتبه‌ی دوم در رقابت سال ۲۰۱۴ را معماری VGGNet به دست آورد که آن را Simonyan و Zisserman طراحی کرده بودند. بااینکه این معماری رتبه‌ی دوم را به دست آورد، به‌دلیل سادگی و تعداد لایه‌های کانولوشن کمتر (۱۶)، به آن توجه شد. VGGNet، مانند معماری AlexNet، از لایه‌های کانولوشنی ۳×۳ با تعداد زیادی فیلتر استفاده کرده و ۲ تا ۳ هفته روی ۴ GPU آموزش دیده است. در حال حاضر این معماری محبوب‌ترین معماری برای استخراج ویژگی محسوب می‌شود. تنظیمات وزن معماری VGGNet برای عموم در دسترس است و تابه‌حال موارد کاربرد زیادی، ازجمله به‌عنوان استخراج‌کننده ویژگی، داشته است. تنها مشکل این معماری ۱۱۰میلیون پارامتر آن است که ممکن است مدیریت آن کمی مشکل باشد.

برای آشنایی با معماری ویجیجینت این مطلب را مطالعه کنید:

با شبکه‌ی عصبی وی جی جی نت (VGGNet) آشنا شوید!

رزنت (ResNet)

رزنت (ResNet)

در آخر، معماری ResNet (مخفف Residual Networks) که آن را Kaiming He و همکارانش ارائه کردند در سال ۲۰۱۵ رتبه‌ی اول را در رقابت کسب کرد. این معماری اتصالاتی دارد که به آن‌ها Skip Connections گفته می‌شود. این اتصالات که به واحدهای گیتی (Gated Units) یا واحدهای بازگشتی گیتی (Gated Recurrent Units) نیز معروف هستند به مدل GRU که اکنون استفاده می‌شود شباهت بسیار زیادی دارد. با استفاده از این معماری آنان توانستند یک شبکه‌ی عصبی ۱۵۲ لایه با پیچیدگی کمتر در مقایسه با VGGNet آموزش دهند. معماری ResNet توانست به پنج خطای برتر (top-5 error) ۳.۵۷ درصد برسد که نتایج بهتری را در مقایسه با اجرای انسانی داشته است.

برای آشنایی با معماری رزنت این مطلب را مطالعه کنید:

شبکه‌ی رزنت (ResNet) چیست و ساختار آن چگونه است؟

خلاصه‌ی مطالب درباره‌ی رقابت سالانه (ILSVRC)

در این مطلب با مدل‌های محبوب طبقه‌بندی تصویر یادگیری عمیق در تاریخ رقابت ImageNet (ILSVRC) آشنا شدیم؛ هم‌چنین شرحی مختصر بر بینایی ماشین (Computer Vision) و وظایف آن به دست دادیم.

برای آشنایی بیشتر با شبکه‌های عصبی کانولوشنی این مطلب را مطالعه کنید:

شبکه‌ی عصبی کانولوشنی (CNN) چیست؟