با معروف‌ترین دیتاست‌های بخش‌بندی تصویر آشنا شوید!

معروف‌ترین دیتاست‌های بخش‌بندی تصویر کدام‌اند؟ در این مطلب با معروف‌ترین دیتاست‌های بخش‌بندی تصویر یا Image Segmentation آشنا می‌شوید. ۵ دیتاست معروف بخش‌بندی تصویر را در ادامه این مطلب توضیح داده‌ایم.

فهرست مطالب پنهان‌کردن فهرست

1. معروف‌ترین دیتاست‌های بخش‌بندی تصویر
2. جمع‌بندی
3. ورود به دنیای دیتا ساینس و ماشین لرنینگ با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

معروف‌ترین دیتاست‌های بخش‌بندی تصویر

با توجه به موفقیت مدل‌های یادگیری عمیق در طیف وسیعی از کاربردهای بینایی ماشین، تحقیقات زیادی با هدف توسعه رویکردهای بخش‌بندی تصویر با استفاده از یادگیری عمیق انجام شده است. در حال حاضر، مجموعه داده‌های زیادی برای بخش‌بندی تصویر (Image Segmentation) وجود دارد. معروف‌ترین دیتاست‌های بخش‌بندی تصویر از این قرار است:

PASCAL VOC
MS COCO
ADE20K
YouTube-Objects
KITTI

در ادامه هر یک از این دیتاست‌ها را معرفی کرده‌ایم.

PASCAL VOC

چالش PASCAL Visual Object Classes (VOC) مجموعه‌داده‌های مربوط به حوزه تصویر را در دسترس عموم قرار می‌دهد. PASCAL VOC یکی از محبوب‌ترین مجموعه‌داده‌ها در بینایی ماشین است که در آن تصاویر برچسب‌گذاری‌شده برای پنج تسک مختلف در دسترس هستند: طبقه‌بندی (Claissification)، بخش‌بندی (Segmentation)، تشخیص (Detection)، تشخیص عملکرد (Action Detection) و طرح‌بندی افراد (Person Layout). تعداد زیادی از الگوریتم‌های بخش‌بندی محبوب روی این مجموعه داده ارزیابی شده‌اند.

PASCAL VOS برای تسک بخش‌بندی از ۲۱ کلاس برای برچسب‌گذاری اشیا پشتیبانی می‌کند: وسایل نقلیه، خانه، حیوانات، هواپیما، دوچرخه، قایق، اتوبوس، ماشین، موتور سیکلت، قطار، بطری، صندلی، میز ناهار خوری، گیاه گلدانی، مبل، تلویزیون/مانیتور، پرنده، گربه، گاو، سگ، اسب، گوسفند و انسان.

اگر پیکسل‌ها به هیچ‌یک از این کلاس‌ها تعلق نداشته باشند، به‌عنوان پس‌زمینه (Background) برچسب‌گذاری می‌شوند. داده‌های آموزشی PASCAL VOC دارای ۱۱۵۳۰ تصویر است که شامل ۲۷۴۵۰ شیء برچسب‌گذاری‌شده و ۶۹۲۹ بخش‌بندی است.

MS COCO

Microsoft Common Objects in Context (MS COCO) یک مجموعه داده شناسایی، بخش‌بندی و زیرنویس (Captioning) اشیا در مقیاس بزرگ است. COCO تصاویری از صحنه‌های پیچیده روزمره را شامل است که اشیای معمولی و رایج در زمینه (Context) طبیعی آن‌ها را دربرمی‌گیرد. COCO براساس مجموع ۲.۵میلیون نمونه بخش‌بندی برچسب‌گذاری‌شده در ۳۲۸هزار عکس است که عکس‌هایی از ۹۱ نوع شیء را دربردارد که یک فرد چهارساله به‌راحتی آن‌ها را تشخیص می‌دهد.

ADE20K

ADE20K پایگاه داده‌ای است در مقیاس بزرگ که بر درک معنایی صحنه‌های خیابان‌های شهر متمرکز است. این دیتاست مجموعه‌ای متنوع از سکانس‌های ویدئویی ضبط‌شده در خیابان‌های پنجاه شهر، پنج‌هزار تصویر کاملاً برچسب‌گذاری‌شده و مجموعه‌ای از بیست‌هزار فریم با برچسب‌گذاری ضعیف را دربرمی‌گیرد؛ هم‌چنین زمان جمع‌آوری این داده‌ها چندین ماه در فصول بهار، تابستان و پاییز است. این مجموعه‌داده به‌ویژه برای تسک‌های مربوط به خودروهای خودران اهمیت دارد.

مجموعه‌داده ADE20K بیش از دویست‌هزار تصویر منظره‌محور را شامل است که با اشیا و بخش‌های مختلف آن‌ها برچسب‌گذاری شده‌اند. برخلاف دیگر مجموعه داده‌ها، ADE20K ماسک بخش‌بندی اشیا و ماسک بخش‌بندی قطعات مختلف هر شیء را شامل است. در این مجموعه‌داده ۲۰۲۱۰ تصویر در مجموعه آموزشی، ۲۰۰۰ تصویر در مجموعه اعتبارسنجی و سه‌هزار تصویر در مجموعه‌ی تست وجود دارد.

معروف‌ترین دیتاست‌های بخش‌بندی تصویر (Image Segmentation)

YouTube-Objects

مجموعه داده‌ی YouTube-Objects از ویدئوهایی تشکیل شده است که با جست‌وجوی نام ۱۰ شیء از YouTube جمع‌آوری شده‌اند؛ به‌طور خاص، اشیایی از ۱۰ کلاس PASCAL VOC، هواپیما، پرنده، قایق، ماشین، گربه، گاو، سگ، اسب، موتور سیکلت و قطار را شامل است.

مجموعه‌داده اصلی برای تشخیص اشیا با برچسب‌گذاری ضعیف توسعه داده شده بود و حاوی برچسب‌گذاری پیکسلی نبود؛ بنابراین مجموعه داده بخش‌بندی اشیا ویدئویی (YouTube-VOS) با برچسب‌گذاری کامل منتشر شد که ۴۴۵۳ کلیپ ویدیویی YouTube و ۹۴ دسته یا کلاس شیء را دربرمی‌گیرد.

KITTI

مجموعه‌داده KITTI یکی از محبوب‌ترین مجموعه‌داده‌ها برای روباتیک متحرک (Mobile Robotics) و خودروهای خودران است. این مجموعه داده ساعت‌ها ویدئو از سناریوهای ترافیکی را شامل است که با رانندگی در شهر نسبتاً کوچک Karlsruhe (در بزرگراه‌ها و مناطق روستایی) ضبط شده‌اند. به‌طور متوسط، در هر تصویر حداکثر پانزده خودرو و سی عابر پیاده مشاهده‌شدنی است.

وظایف اصلی این مجموعه‌داده عبارت‌اند از: تشخیص جاده (road detection)، بازسازی استریو (stereo reconstruction)، جریان نوری یا بصری (Optical Flow)، کیلومترشماری بصری (visual odometry)، تشخیص اشیای سه‌بعدی (3D object detection) و ردیابی سه‌بعدی (3D tracking). مجموعه‌داده اصلی به‌منظور بخش‌بندی معنایی (Semantic Segmentation) ایجاد نشده است، اما محققان به‌صورت دستی بخش‌هایی از مجموعه‌داده را برچسب‌گذاری کرده‌اند.

جمع‌بندی

در این مطلب معروف‌ترین دیتاست‌های بخش‌بندی تصویر را بررسی کردیم. برای آشنایی با بخش‌بندی تصویر یا Image Segmentation پیشنهاد می‌کنیم این مطلب را مطالعه کنید:

بخش‌بندی تصویر یا Image Segmentation چیست؟

ورود به دنیای دیتا ساینس و ماشین لرنینگ با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس

یکی از بهترین روش‌های یادگیری علم داده و یادگیری ماشین شرکت در کلاس‌های آنلاین آموزش علم داده است. کافه‌تدریس دوره‌های مقدماتی و پیشرفته‌ی آموزش علم داده را در قالب کلاس‌های آنلاین کاملاً تعاملی و پویا و کارگاهی برگزار می‌کند که مبتنی بر کار روی پروژه‌های واقعی علم داده است.

کلاس‌های آنلاین آموزش دیتا ساینس کافه‌تدریس به شما امکان می‌دهد از هر نقطه‌ی جغرافیایی به جامع‌ترین و به‌روزترین آموزش علم داده و یادگیری ماشین دسترسی داشته باشید.

برای آشنایی بیشتر با کلاس‌های آنلاین آموزش علم داده کافه‌تدریس و مشاوره‌ی رایگان برای شروع یادگیری روی این لینک کلیک کنید:

کلاس‌های آنلاین علم داده کافه‌تدریس