معروفترین دیتاست های بخش بندی تصویر کداماند؟ در این مطلب با معروفترین دیتاست های بخش بندی تصویر یا Image Segmentation آشنا میشوید. ۵ دیتاست معروف بخش بندی تصویر را در ادامه این مطلب توضیح دادهایم.
معروفترین دیتاست های بخش بندی تصویر
با توجه به موفقیت مدلهای یادگیری عمیق در طیف وسیعی از کاربردهای بینایی ماشین، تحقیقات زیادی با هدف توسعه رویکردهای بخشبندی تصویر با استفاده از یادگیری عمیق انجام شده است. در حال حاضر، مجموعه دادههای زیادی برای بخشبندی تصویر (Image Segmentation) وجود دارد. معروفترین دیتاست های بخش بندی تصویر از این قرار است:
- PASCAL VOC
- MS COCO
- ADE20K
- YouTube-Objects
- KITTI
در ادامه هر یک از این دیتاستها را معرفی کردهایم.
PASCAL VOC
چالش PASCAL Visual Object Classes (VOC) مجموعهدادههای مربوط به حوزه تصویر را در دسترس عموم قرار میدهد. PASCAL VOC یکی از محبوبترین مجموعهدادهها در بینایی ماشین است که در آن تصاویر برچسبگذاریشده برای پنج تسک مختلف در دسترس هستند: طبقهبندی (Claissification)، بخشبندی (Segmentation)، تشخیص (Detection)، تشخیص عملکرد (Action Detection) و طرحبندی افراد (Person Layout). تعداد زیادی از الگوریتمهای بخشبندی محبوب روی این مجموعه داده ارزیابی شدهاند.
PASCAL VOS برای تسک بخشبندی از ۲۱ کلاس برای برچسبگذاری اشیا پشتیبانی میکند: وسایل نقلیه، خانه، حیوانات، هواپیما، دوچرخه، قایق، اتوبوس، ماشین، موتور سیکلت، قطار، بطری، صندلی، میز ناهار خوری، گیاه گلدانی، مبل، تلویزیون/مانیتور، پرنده، گربه، گاو، سگ، اسب، گوسفند و انسان.
اگر پیکسلها به هیچیک از این کلاسها تعلق نداشته باشند، بهعنوان پسزمینه (Background) برچسبگذاری میشوند. دادههای آموزشی PASCAL VOC دارای ۱۱۵۳۰ تصویر است که شامل ۲۷۴۵۰ شیء برچسبگذاریشده و ۶۹۲۹ بخشبندی است.
MS COCO
Microsoft Common Objects in Context (MS COCO) یک مجموعه داده شناسایی، بخشبندی و زیرنویس (Captioning) اشیا در مقیاس بزرگ است. COCO تصاویری از صحنههای پیچیده روزمره را شامل است که اشیای معمولی و رایج در زمینه (Context) طبیعی آنها را دربرمیگیرد. COCO براساس مجموع ۲.۵میلیون نمونه بخشبندی برچسبگذاریشده در ۳۲۸هزار عکس است که عکسهایی از ۹۱ نوع شیء را دربردارد که یک فرد چهارساله بهراحتی آنها را تشخیص میدهد.
ADE20K
ADE20K پایگاه دادهای است در مقیاس بزرگ که بر درک معنایی صحنههای خیابانهای شهر متمرکز است. این دیتاست مجموعهای متنوع از سکانسهای ویدئویی ضبطشده در خیابانهای پنجاه شهر، پنجهزار تصویر کاملاً برچسبگذاریشده و مجموعهای از بیستهزار فریم با برچسبگذاری ضعیف را دربرمیگیرد؛ همچنین زمان جمعآوری این دادهها چندین ماه در فصول بهار، تابستان و پاییز است. این مجموعهداده بهویژه برای تسکهای مربوط به خودروهای خودران اهمیت دارد.
مجموعهداده ADE20K بیش از دویستهزار تصویر منظرهمحور را شامل است که با اشیا و بخشهای مختلف آنها برچسبگذاری شدهاند. برخلاف دیگر مجموعه دادهها، ADE20K ماسک بخشبندی اشیا و ماسک بخشبندی قطعات مختلف هر شیء را شامل است. در این مجموعهداده ۲۰۲۱۰ تصویر در مجموعه آموزشی، ۲۰۰۰ تصویر در مجموعه اعتبارسنجی و سههزار تصویر در مجموعهی تست وجود دارد.
YouTube-Objects
مجموعه دادهی YouTube-Objects از ویدئوهایی تشکیل شده است که با جستوجوی نام ۱۰ شیء از YouTube جمعآوری شدهاند؛ بهطور خاص، اشیایی از ۱۰ کلاس PASCAL VOC، هواپیما، پرنده، قایق، ماشین، گربه، گاو، سگ، اسب، موتور سیکلت و قطار را شامل است.
مجموعهداده اصلی برای تشخیص اشیا با برچسبگذاری ضعیف توسعه داده شده بود و حاوی برچسبگذاری پیکسلی نبود؛ بنابراین مجموعه داده بخشبندی اشیا ویدئویی (YouTube-VOS) با برچسبگذاری کامل منتشر شد که ۴۴۵۳ کلیپ ویدیویی YouTube و ۹۴ دسته یا کلاس شیء را دربرمیگیرد.
KITTI
مجموعهداده KITTI یکی از محبوبترین مجموعهدادهها برای روباتیک متحرک (Mobile Robotics) و خودروهای خودران است. این مجموعه داده ساعتها ویدئو از سناریوهای ترافیکی را شامل است که با رانندگی در شهر نسبتاً کوچک Karlsruhe (در بزرگراهها و مناطق روستایی) ضبط شدهاند. بهطور متوسط، در هر تصویر حداکثر پانزده خودرو و سی عابر پیاده مشاهدهشدنی است.
وظایف اصلی این مجموعهداده عبارتاند از: تشخیص جاده (road detection)، بازسازی استریو (stereo reconstruction)، جریان نوری یا بصری (Optical Flow)، کیلومترشماری بصری (visual odometry)، تشخیص اشیای سهبعدی (3D object detection) و ردیابی سهبعدی (3D tracking). مجموعهداده اصلی بهمنظور بخشبندی معنایی (Semantic Segmentation) ایجاد نشده است، اما محققان بهصورت دستی بخشهایی از مجموعهداده را برچسبگذاری کردهاند.
جمعبندی
در این مطلب معروفترین دیتاست های بخش بندی تصویر را بررسی کردیم. برای آشنایی با بخشبندی تصویر یا Image Segmentation پیشنهاد میکنیم مطلب بخشبندی تصویر یا Image Segmentation چیست؟ را مطالعه کنید.
ورود به دنیای دیتا ساینس و ماشین لرنینگ با کلاسهای آنلاین آموزش علم داده کافهتدریس
یکی از بهترین روشهای یادگیری علم داده و یادگیری ماشین شرکت در کلاسهای آنلاین آموزش علم داده است. کافهتدریس دورههای مقدماتی و پیشرفتهی آموزش علم داده را در قالب کلاسهای آنلاین کاملاً تعاملی و پویا و کارگاهی برگزار میکند که مبتنی بر کار روی پروژههای واقعی علم داده است.
کلاسهای آنلاین آموزش دیتا ساینس کافهتدریس به شما امکان میدهد از هر نقطهی جغرافیایی به جامعترین و بهروزترین آموزش علم داده و یادگیری ماشین دسترسی داشته باشید.
برای آشنایی بیشتر با کلاسهای آنلاین آموزش علم داده کافهتدریس و مشاورهی رایگان برای شروع یادگیری روی این لینک کلیک کنید: