رقابت سالانه ILSVRC چیست؟ یادگیری عمیق (Deep Learning) زیرمجموعهی یادگیری ماشین (Machine Learning) است. این شاخه از هوش مصنوعی کامپیوتر را وامیدارد تا براساس تجربیاتی که به دست میآورد، وظایفی مشخص را انجام دهد. محبوبیت استفاده از تکنیکهای یادگیری عمیق را میتوان بهدلیل نوآوریهایی دانست که در استفاده از شبکههای عصبی کانولوشنی (CNN) در طبقهبندی تصاویر (Image Classification) ایجاد شد.
بسیاری از این نوآوریها در چالش شناسایی تصاویر با مقیاس بزرگ ایمیج نت (ImageNet Large Scale Visual Recognition Challenge) شکل گرفت که بهاختصار ILSVRC نام دارد. ILSVRC یک رقابت سالانه در حوزهی بینایی ماشین (Computer Vision) است که با بهکارگیری دیتاست ImageNet برگزار میشود؛ بههمین دلیل، این رقابت بهنام رقابت ImageNet هم معروف است. در ادامه شرحی مختصر بر بینایی ماشین (Computer Vision) و کارهایی که در آن انجام میشود میآوریم و سپس با برجستهترین معماریهای کانولوشنی که از ابتدا تاکنون در رقابت ILSVRC شرکت کردهاند آشنا خواهیم شد.
بینایی ماشین (Computer Vision) چیست؟
از سالها قبل انسان در تلاش بوده است تا ماشینهایی را تولید کند که هوشی مانند هوش انسان داشته باشند؛ درواقع ماشینهایی بسازد که مانند ما فکر و رفتار کنند. بینایی ماشین (Computer Vision) هم یکی از همین تکنولوژیهاست که در آن انسان تلاش کرده است تا با استفاده از تکنیکهایی کامپیوتر را وادار کند عکسهای دیجیتالی و ویدیوها را مانند ما انسانها شناسایی کند.
بینایی ماشین (Computer Vision) یکی از قدرتمندترین انواع هوش مصنوعی است. این رشته از علوم کامپیوتر بر کپیبرداری از قسمتهایی از سیستم بینایی انسان تمرکز میکند. با پیشرفتهایی که در هوش مصنوعی (Artificial Intelligence)، یادگیری عمیق (Deep Learning) و شبکههای عصبی (Neural Networks) داشتهایم، مسیر پیشرفت بینایی ماشین (Computer Vision)هموارتر شده است.
کاربرد بینایی ماشین کجاست؟
کاربردهای بینایی ماشین را بهصورت مختصر میتوان در این موارد جستوجو کرد:
- شناسایی اشیا (Object Identification): این سیستم محتوای بصری را تجزیهوتحلیل میکند و شیء موجود در عکس یا فیلم را شناسایی میکند؛ برای مثال، میتواند نوع خاصی از ماشین را در تصویر شناسایی کند.
- تأیید اشیا (Object Verification): این سیستم محتوای بصری را تجزیهوتحلیل میکند و نشان میدهد شیء خاصی در عکس یا فیلم وجود دارد یا نه؛ برای مثال، آیا در عکس یا فیلم ماشین وجود دارد یا نه؟
- طبقهبندی اشیا (Object Classification): این سیستم عکسها و فیلمها را تجزیهوتحلیل میکند و اشیا را در محتوای بصری در یک دستهبندی طبقهبندی میکند؛ مثلاً میتواند یک ماشین را در میان تمامی اشیای موجود در محتوای تصویری پیدا کند.
- ردیابی اشیا (Object Tracking): این سیستم در فیلم یک یا چند شیء را پیدا میکند که با معیارهای جستوجو مطابقت دارد و حرکت آن را ردیابی میکند.
- قطعهبندی تصاویر (Image Segmentation): فرایندی است که در آن یک عکس دیجیتالی را به قطعههای مختلفی قسمتبندی میکنند که این از پیچیدگی عکس کم میکند؛ برای مثال، در پزشکی برای تشخیص سلولهای سرطانی میتوان از این سیستم استفاده کرد.
پیشنهاد میکنیم مطلب بینایی ماشین (Computer Vision) چیست و چه کاربردهایی دارد؟ را مطالعه کنید.
معماریهای برتر رقابت ILSVRC
حال که با بینایی ماشین آشنا شدیم، رقابت ILSVRC و برجستهترین معماریهای کانولوشنی را بررسی میکنیم که در این رقابت شرکت کردهاند.
لی نت-۵ (LeNet-5)
LeNet-5 یک معماری کانولوشنی هفتلایه است که در سال ۱۹۹۸ لیکان (LeCun) و همکارانش ارائه کردند. این معماری اعداد را طبقهبندی میکند. از این معماری اولین بار هفت بانک بهمنظور شناسایی اعداد دستنویس روی چکها استفاده کردند که بهصورت عکسهای سیاهوسفید دیجیتالی با اندازهی ۳۲×۳۲ پیکسل درآمده بودند؛ اما شناسایی عکسهایی با اندازهی بزرگتر به لایههای کانولوشنی بزرگتر و بیشتری نیاز داشت؛ این یعنی به منابع محاسباتی بیشتری نیازمند بود؛ بنابراین این تکنیک، بهدلیل محدودیت منابع محاسباتی، با مشکل مواجه بود و کنار گذاشته شد.
الکس نت (AlexNet)
در سال ۲۰۱۲ معماری AlexNet توانست به مقدار ۱۵.۳ درصد در پنج خطای برتر (top-5 error) برسد و عملکرد بسیار بهتری را در مقایسه با رقبا داشته باشد و برندهی رقابت سالانه ILSVRC شود. رتبهی دوم رقابت را معماریای کسب کرد که از شبکه کانولوشنی استفاده نکرده بود و به پنج خطای برتر (top-5 error) ۲۶.۲ درصد رسید.
معماری AlexNet مشابه معماری LeNet است، با این تفاوت که عمیقتر است، فیلترهای بیشتر در هر لایه و لایههای کانولوشن استکشده (Stacked Convolutional Layers)دارد. این معماری لایههای کانولوشن با اندازهی ۱۱×۱۱، ۵×۵ و ۳×۳، لایهی ادغام Max pooling، دراپاوت (dropout)، افزایش داده (Data augmentation)، تابع فعالساز ReLU و بهینهساز گرادیان کاهشی تصادفی (SGD / Stochastic Gradient Descent) را شامل است. در این معماری بعد از هر لایهی کانولوشن و کاملاً متصل (Fully connected) یک تابع فعالساز ReLU وجود دارد. معماری AlexNet بهطور همزمان طی ۶ روز روی دو GPU Nvidia Geforce GTX 580 آموزش دیده و بههمین دلیل، به دو بخش تقسیم شده است. این معماری Alex Krizhevsky ، Geoffrey Hinton و Ilya Sutskever طراحی کردهاند.
برای آشنایی بیشتر با معماری الکسنت مطلب معماری الکس نت (AlexNet) را مطالعه کنید.
زد اف نت (ZFNet)
در سال ۲۰۱۳ هم برندهی رقابت ILSVRC یک معماری کانولوشنی بهنام ZFNet بود. معماری ZFNet با حفظ ساختار معماری AlexNet و کمی تغییر در هایپرپارامترهای آن توانست به پنج خطای برتر (top-5 error) ۱۴.۸ درصد برسد.
گوگل نت / اینسپشن (GoogLeNet / Inception)
برندهی سال ۲۰۱۴ رقابت ILSVRC معماری GooglLeNet یا همان Inception بود که پنج خطای برتر (top-5 error) این معماری ۶.۶۷ درصد بود. با توجه به اینکه درصد خطا بسیار به عملکرد انسانی نزدیک بود، مسئولان رقابت تصمیم گرفتند از نیروی متخصص انسانی برای انجامدادن این تست استفاده کردند و با نتایج معماری GooLeNet مقایسه کنند. آنان توانستند به خطای ۵.۱ درصد ( تکمدل) و خطای ۳.۶ درصد (ترکیبی از چند مدل) برسند. معماری GoogLeNet از همان معماری LeNet استفاده کرده، با این تفاوت که یک عنصر جدید بهنام ماژول آغازین (Inception Module) نیز به آن اضافه کرده است.
این معماری بر پایهی چندین لایهی کانولوشن کوچک است تا از تعداد پارامترها تا حد زیادی بکاهد. معماری GoogLeNet بیستودو لایهی کانولوشن دارد و با این کار تعداد پارامترها را از شصتمیلیون که در معماری AlexNet بود به چهارمیلیون کاهش داده است.
ویجیجینت (VGGNet)
رتبهی دوم در رقابت سال ۲۰۱۴ را معماری VGGNet به دست آورد که آن را Simonyan و Zisserman طراحی کرده بودند. بااینکه این معماری رتبهی دوم را به دست آورد، بهدلیل سادگی و تعداد لایههای کانولوشن کمتر (۱۶)، به آن توجه شد. VGGNet، مانند معماری AlexNet، از لایههای کانولوشنی ۳×۳ با تعداد زیادی فیلتر استفاده کرده و ۲ تا ۳ هفته روی ۴ GPU آموزش دیده است. در حال حاضر این معماری محبوبترین معماری برای استخراج ویژگی محسوب میشود. تنظیمات وزن معماری VGGNet برای عموم در دسترس است و تابهحال موارد کاربرد زیادی، ازجمله بهعنوان استخراجکننده ویژگی، داشته است. تنها مشکل این معماری ۱۱۰میلیون پارامتر آن است که ممکن است مدیریت آن کمی مشکل باشد.
برای آشنایی با معماری ویجیجینت مطلب شبکه عصبی وی جی جی نت (VGGNet) را مطالعه کنید.
رزنت (ResNet)
در آخر، معماری ResNet (مخفف Residual Networks) که آن را Kaiming He و همکارانش ارائه کردند در سال ۲۰۱۵ رتبهی اول را در رقابت کسب کرد. این معماری اتصالاتی دارد که به آنها Skip Connections گفته میشود. این اتصالات که به واحدهای گیتی (Gated Units) یا واحدهای بازگشتی گیتی (Gated Recurrent Units) نیز معروف هستند به مدل GRU که اکنون استفاده میشود شباهت بسیار زیادی دارد. با استفاده از این معماری آنان توانستند یک شبکهی عصبی ۱۵۲ لایه با پیچیدگی کمتر در مقایسه با VGGNet آموزش دهند. معماری ResNet توانست به پنج خطای برتر (top-5 error) ۳.۵۷ درصد برسد که نتایج بهتری را در مقایسه با اجرای انسانی داشته است.
برای آشنایی با معماری رزنت مطلب شبکهی رزنت (ResNet) را مطالعه کنید.
خلاصهی مطالب دربارهی رقابت سالانه (ILSVRC)
در این مطلب با مدلهای محبوب طبقهبندی تصویر یادگیری عمیق در تاریخ رقابت ImageNet (ILSVRC) آشنا شدیم؛ همچنین شرحی مختصر بر بینایی ماشین (Computer Vision) و وظایف آن به دست دادیم.
برای آشنایی بیشتر با شبکههای عصبی کانولوشنی مطلب شبکهی عصبی کانولوشنی (CNN) را مطالعه کنید.
مفهوم بینایی ماشین چیست و در کدام بخشهایی کاربرد دارد؟
بینایی ماشین (Computer Vision) یکی از قدرتمندترین انواع هوش مصنوعی است. این رشته از علوم کامپیوتر بر کپیبرداری از قسمتهایی از سیستم بینایی انسان تمرکز میکند. با پیشرفتهایی که در هوش مصنوعی (Artificial Intelligence)، یادگیری عمیق (Deep Learning) و شبکههای عصبی (Neural Networks) داشتهایم، مسیر پیشرفت بینایی ماشین (Computer Vision)هموارتر شده است.
معماریهای برتر رقابت ILSVRC کدامها هستند و هر یک چه ویژگیهای منحصر به فردی دارند؟
برندهی سال ۲۰۱۴ رقابت ILSVRC معماری GooglLeNet یا همان Inception بود که پنج خطای برتر (top-5 error) این معماری ۶.۶۷ درصد بود. با توجه به اینکه درصد خطا بسیار به عملکرد انسانی نزدیک بود، مسئولان رقابت تصمیم گرفتند از نیروی متخصص انسانی برای انجامدادن این تست استفاده کردند و با نتایج معماری GooLeNet مقایسه کنند. آنان توانستند به خطای ۵.۱ درصد ( تکمدل) و خطای ۳.۶ درصد (ترکیبی از چند مدل) برسند. معماری GoogLeNet از همان معماری LeNet استفاده کرده، با این تفاوت که یک عنصر جدید بهنام ماژول آغازین (Inception Module) نیز به آن اضافه کرده است.
توضیح دهید که چرا معماری ResNet در میان معماریهای برتر ILSVRC قرار گرفته است؟
این معماری اتصالاتی دارد که به آنها Skip Connections گفته میشود. این اتصالات که به واحدهای گیتی (Gated Units) یا واحدهای بازگشتی گیتی (Gated Recurrent Units) نیز معروف هستند به مدل GRU که اکنون استفاده میشود شباهت بسیار زیادی دارد. با استفاده از این معماری آنان توانستند یک شبکهی عصبی ۱۵۲ لایه با پیچیدگی کمتر در مقایسه با VGGNet آموزش دهند. معماری ResNet توانست به پنج خطای برتر (top-5 error) ۳.۵۷ درصد برسد که نتایج بهتری را در مقایسه با اجرای انسانی داشته است.
سوال ۱:
سالها قبل انسان در تلاش بوده است تا ماشینهایی را تولید کند که هوشی مانند هوش انسان داشته باشند؛ درواقع ماشینهایی بسازد که مانند ما فکر و رفتار کنند. بینایی ماشین هم یکی از همین تکنولوژیهاست که در آن انسان تلاش کرده است تا با استفاده از تکنیکهایی کامپیوتر را وادار کند عکسهای دیجیتالی و ویدیوها را مانند ما انسانها شناسایی کند
کاربرد: شناسایی اشیا، تایبد اشیا طبقه بندی اشیا، ردیابی اشیا، قطعه بندی تصاویر