کافه‌تدریس

با شبکه عصبی وی جی جی نت (VGGNet) آشنا شوید!

وی جی جی نت (VGGNe)

وی جی جی نت (VGGNe)

وی جی جی نت (VGGNet) یک شبکه عصبی کانولوشنی است که در سال ۲۰۱۴ کارن سایمون (Karen Simonyan) و آندره زیسرمن (Andrew Zisserman) از دانشگاه آکسفورد آن را معرفی کردند. این شبکه در رقابت ILSVRC سال ۲۰۱۴ رتبه‌ی دوم را کسب کرد، ولی به‌دلیل نوآوری بسیار خوبی که داشت همواره در میان برنده‌های رقابت ILSVRC از این شبکه هم یاد می‌شود.

شبکه عصبی وی جی جی نت و با شبکه الکس‌نت چه تفاوتی دارد؟

شبکه الکس‌نت (AlexNet) در سال ۲۰۱۲ معرفی و برنده‌ی رقابت ILSVRC شد. این شبکه پیشرفت چشمگیری را در شبکه‌های کانولوشنی ایجاد کرد و یکی از بهترین مدل‌ها برای طبقه‌بندی تصاویر محسوب می‌شد، البته فقط تا زمانی که شبکه عصبی وی جی جی نت (VGGNet) معرفی شد. شبکه الکس‌نت (AlexNet) از تابع فعال‌ساز ReLU، به‌جای تابع تانژانت هایپربولیک (Tanh)، استفاده کرد؛ علاوه‌براین از دو GPU و لایه‌های ادغام هم‌پوشان (Overlapping Pooling Layers) برای بهینه‌ترشدن مدل استفاده کرد.

اما مشکل الکس‌نت چه بود؟ درواقع باید گفت این شبکه هیچ مشکلی نداشت؛ محققان فقط به دنبال مدل‌هایی با دقت بهتر بودند؛ به‌همین دلیل، در سال ۲۰۱۴ مدل VGGNet معرفی شد و در رقابت ILSVRC رتبه‌ی دوم را به دست آورد. این شبکه، به‌دلیل نوآوری منحصربه‌فردش، همواره در میان شبکه‌هایی مطرح می‌شود که در این رقابت رتبه‌ی اول را کسب کردند. در این مطلب قصد داریم شبکه‌ی وی جی جی نت (VGGNet) را معرفی کنیم و با خصوصیات آن آشنا شویم.

برای آشنایی با شبکه عصبی الکس‌نت این مطلب را مطالعه کنید:

معماری الکس نت (AlexNet) را به‌صورت کامل بشناسید!

شبکه عصبی VGGNet

همان‌طور که پیش‌تر گفته شد، وی جی جی نت (VGGNet) یک شبکه‌ی عصبی کانولوشنی (CNN / Convolutional Neural Network) است که در سال ۲۰۱۴ کارن سایمون و آندره زیسرمن معرفی کردند. این شبکه نسخه‌های مختلفی دارد که این نسخه‌ها از ۱۱ لایه تا ۱۹ لایه دارند. در این شبکه توجه اصلی روی تأثیر عمق شبکه روی دقت آن است.

معماری شبکه وی‌جی‌جی‌نت (VGGNet)

در ادامه‌ی این مطلب به‌صورت مفصل معماری شبکه‌ی وی جی جی نت (VGGNet) را بررسی خواهیم کرد.

لایه‌ ورودی (Input Layer)

شبکه‌ی وی‌جی‌جی‌نت (VGGNet) یک عکس رنگی (RGB) به‌اندازه‌ی ۲۲۴×۲۲۴ پیسکل را دریافت می‌کند.

لایه‌های کانولوشن (Convolutional Layers)

لایه‌های کانولوشن در این شبکه از فیلترهای اندازه‌ی کوچک استفاده می‌کنند. اندازه‌ی فیلترها برابر با ۳×۳ است که کوچک‌ترین اندازه‌ی ممکن برای فیلتر محسوب می‌شود و پیکسل‌های اطراف را نیز مدنظر قرار می‌دهد؛ علاوه‌براین لایه‌های کانولوشنی با فیلترهای ۱×۱ نیز دارد که یک تابع فعال‌ساز ReLU بعد از آن وجود دارد. مقدار گام (Stride) ثابت و برابر با ۱ است تا بتوان اطلاعات فضایی (Spatial Information) را هم‌چنان بعد از فرایند کانولوشن حفظ کرد.

لایه‌های کاملاً متصل (Fully Connected Layers)

شبکه‌ی وی جی جی نت (VGGNet) سه لایه‌ی کاملاً متصل (Fully Connected Layers) دارد. دو لایه‌ی اولی ۴۰۹۶ نود و لایه‌ی آخر آن ۱۰۰۰ نود، یعنی برابر با تعداد کلاس‌ها، دارد. بعد از هر یک از این لایه‌ها یک تابع فعال‌ساز ReLU اعمال می‌شود.

لایه‌های ادغام حداکثر (Max pooling layers)

شبکه وی‌جی‌جی‌نت (VGGNet) از پنج لایه‌ی ادغام حداکثر (Max pooling layers) با اندازه‌ی ۲×۲ و مقدار گام (Stride) ۲ استفاده می‌کند.

در جدول شماره‌ی ۱ جزئیات لایه‌های موجود در نسخه‌های مختلف شبکه‌ی وی‌جی‌جی‌نت (VGGNet) را مشاهده می‌کنیم. عمق شبکه یا همان لایه‌های شبکه از چپ به راست بیشتر می‌شود و همان‌طور که می‌بینیم، این شبکه نسخه‌های ۱۱، ۱۳، ۱۶ و ۱۸ لایه دارد. مواردی که پررنگ شده است نشان‌دهنده‌ی لایه‌هایی است که در نسخه‌های بعدی اضافه شده‌اند.

لایه‌های کانولوشن به‌این شکل نوشته شده‌اند: Conv اندازه‌ی فیلتر – تعداد فیلترها

برای مثال، Conv3 – 64 به‌این معناست که این لایه کانولوشن ۶۴ فیلتر با اندازه‌ی ۳×۳ دارد.

تفاوت وی‌جی‌جی‌نت (VGGNet) با الکس‌نت (AlexNet)

در وی جی جی نت (VGGNet)، به‌جای استفاده از فیلترهایی با اندازه‌ی بزرگ که در الکس‌نت (AlexNet)، مانند ۱۱×۱۱ یا ۷×۷، استفاده شده بود، از فیلترهایی با اندازه‌های کوچک استفاده شده است. این موضوع به شبکه این امکان را می‌دهد تا لایه‌های بیشتری را داشته باشد که لایه‌های بیشتر هم عملکرد شبکه را بهبود می‌دهد.

هم‌چنین تعداد پارامترها در وی‌جی‌جی‌نت، در مقایسه با الکس‌نت، کمتر است. در وی‌جی‌جی‌نت تعداد پارامترها ۲۷ برابر تعداد فیلترهاست، درحالی‌که در الکس‌نت (AlexNet) این مقدار ۴۹ برابر است.

علاوه‌براین وی‌جی‌جی‌نت (VGGNet) از کانولوشن ۱×۱ استفاده می‌کند که این موضوع در الکس‌نت (AlexNet) وجود ندارد. این شبکه از کانولوشن ۱×۱ به‌منظور افزایش غیرخطی‌شدن تابع تصمیم استفاده می‌کند، اما درعین‌حال تعداد فیلترها را تغییر نمی‌دهد؛ یعنی تعداد فیلترها در ورودی و خروجی این کانولوشن با هم برابر است.

جمع‌بندی مطالب درباره وی جی جی نت (VGGNet)

در این مطلب شبکه‌ی عصبی وی جی جی نت (VGGNet) را معرفی کردیم. VGG یک مدل ابتکاری تشخیص اشیاست که تا ۱۹ لایه را پشتیبانی می‌کند. درواقع یک شبکه‌ی کانولوشنی (CNN) عمیق محسوب می‌شود که در بسیاری از وظایف و مجموعه‌داده‌های غیر از ImageNet، عملکرد خیلی خوبی را داشته است. این شبکه هنوز هم یکی از پرکاربردترین معماری‌های شناسایی تصویر محسوب می‌شود.

برای آشنایی با شبکه‌ی عصبی کانولوشنی این مطلب را مطالعه کنید:

شبکه‌ی عصبی کانولوشنی (CNN) چیست؟

یادگیری دیتا ساینس با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

اگر به دنبال ورود به دنیای دیتا ساینس و یادگیری آن هستید، پیشنهاد ما شرکت در کلاس‌های آنلاین علم داده کافه‌تدریس است. کافه‌تدریس کلاس‌های آنلاین آموزش علم داده را به‌صورت مقدماتی و پیشرفته برگزار می‌کند. شکل برگزاری این کلاس‌ها به‌صورت پویا و تعاملی است و در قالب کارگاه‌محور و با کار روی پروژه‌های واقعی علم داده برگزار می‌شود.

برای آشنایی بیشتر با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری دیتا ساینس روی این لینک کلیک کنید:

کلاس‌های آنلاین علم داده کافه‌تدریس

خروج از نسخه موبایل