هوش مصنوعی مولد یا Generative AI چیست؟

هوش مصنوعی مولد یا Generative AI چیست؟‌ هوش مصنوعی مولد، حوزه‌ای از هوش مصنوعی است که به سرعت در حال تکامل است که به ماشین‌ها اجازه می‌دهد محتوای جدید و اورجینال مانند تصاویر، موسیقی و متن تولید کنند. این فناوری پیشرفته این پتانسیل را دارد که صنایع مختلف از جمله هنر، مد و موسیقی را با ارائه روشی جدید برای ایجاد محتوا که قبلا فقط از طریق خلاقیت انسان امکان‌پذیر بود، متحول کند. در این پست وبلاگ به معرفی هوش مصنوعی مولد، تاریخچه آن، تفاوتش با هوش مصنوعی سنتی، مزایا و محدودیت‌های آن و نگرانی‌های پیرامون آن خواهیم پرداخت.

فهرست مطالب پنهان‌کردن فهرست

1. تاریخچه هوش مصنوعی مولد
2. هوش مصنوعی مولد چیست؟‌
3. مدل‌های زبانی و Transformerها
1. 3.1. ترنسفورمرها
2. 3.2. مدل‌های زبانی بزرگ
4. هوش مصنوعی مولد چگونه کار می‌کند؟
5. هوش مصنوعی مولد در مقابل هوش مصنوعی
6. DALL-E، ChatGPT و Bard چیست؟
7. کاربردهای هوش مصنوعی مولد چیست؟
8. محدودیت‌های هوش مصنوعی مولد چیست؟
9. نگرانی‌های پیرامون هوش مصنوعی مولد چیست؟
10. چند نمونه از ابزارهای مولد هوش مصنوعی چیست؟
11. آینده هوش مصنوعی مولد

تاریخچه هوش مصنوعی مولد

چت‌بات Eliza که توسط جوزف وایزنبام (Joseph Weizenbaum) در دهه ۱۹۶۰ ایجاد شد، یکی از اولین نمونه‌های هوش مصنوعی مولد (Generative AI) بود. این پیاده‌سازی‌های اولیه از یک رویکرد مبتنی بر قانون استفاده می‌کردند که به‌دلیل محدود بودن واژگان، فقدان زمینه و اتکای بیش از حد به الگوها، از جمله کاستی‌های دیگر، به راحتی شکست خورد. سفارشی‌سازی و گسترش چت‌بات‌های اولیه نیز دشوار بود.

این حوزه در پی پیشرفت‌های شبکه‌های عصبی و یادگیری عمیق در سال ۲۰۱۰ شاهد تجدید حیات بود که این فناوری را قادر ساخت تا به طور خودکار تجزیه متن موجود، طبقه‌بندی عناصر تصویر و رونویسی صدا را بیاموزد.

ایان گودفلو (Ian Goodfellow) GANs را در سال ۲۰۱۴ معرفی کرد. این تکنیک یادگیری عمیق یک رویکرد جدید برای سازماندهی شبکه‌های عصبی رقیب برای تولید و سپس رتبه‌بندی تغییرات محتوا ارائه کرد که می توانند افراد، صداها، موسیقی و متن واقع بینانه تولید کنند. این کار الهامی شد برای کشف اینکه چگونه می‌توان از هوش مصنوعی مولد برای ایجاد دیپ‌فیک‌های واقع‌گرایانه استفاده کرد که صداها و افراد را در ویدئوها جعل می‌کنند.

از آن زمان، پیشرفت در سایر تکنیک‌ها و معماری‌های شبکه عصبی به گسترش قابلیت‌های Generative AI کمک کرده است. این تکنیک‌ها شامل VAE ها، LSTMs، Transformers ، مدل های diffusion و میدان های تابشی عصبی است.

درمورد مدل‌های LSTMs بیشتر بخوانید:‌

شبکه LSTMs چیست و چگونه کار می‌کند؟

هوش مصنوعی مولد چیست؟‌

هوش مصنوعی مولد یا Generative AI نوعی فناوری هوش مصنوعی است که می‌تواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا و داده‌های مصنوعی تولید کند. هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.

لازم به ذکر است که این فناوری کاملاً جدید نیست و در دهه ۱۹۶۰ در چت‌بات‌ها معرفی شد. اما تا سال ۲۰۱۴، با معرفی شبکه‌های مولد متخاصم یا GANs – نوعی الگوریتم یادگیری ماشین – بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانع‌کننده‌ای را خلق کند.

از یک طرف، این قابلیت جدید فرصت هایی را ایجاد کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی می‌شود. همچنین نگرانی‌های مربوط به دیپ‌فیک‌ها – تصاویر یا ویدیوهای جعلی دیجیتالی – و حملات مضر امنیت سایبری به مشاغل باز کرد.

درباره ی دیپ‌فیک بیشتر بخوانید:‌

نقش هوش مصنوعی در دیپ‌فیک چیست؟

مدل‌های زبانی و Transformerها

دو پیشرفت اخیر که در زیر با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کرده‌اند:

ترنسفورمرها

ترنسفورمرها و مدل‌های زبانی پیشرفتی که از روی آن‌ها شکل گرفته‌اند. ترنسفورمرها نوعی یادگیری ماشین هستند که به محققان امکان آموزش مدل‌های بزرگتر را بدون نیاز به برچسب زدن همه داده‌ها از قبل می‌دهند. بنابراین می‌توان مدل‌های جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخ‌هایی با عمق بیشتری دست یافت. علاوه بر این، تراسفورمرها مفهوم جدیدی به نام Attention یا توجه را ارائه کردند که مدل‌ها را قادر می‌سازد تا ارتباطات بین کلمات را در صفحات، فصل‌ها و کتاب‌ها ردیابی کنند و نه فقط در جملات جداگانه. ترنسفورمرها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین‌ها، مواد شیمیایی و DNA استفاده کنند.

درمورد مدل ترنسفورمر بیشتر بخوانید:

مدل Transformers یا مدل انتقالی چیست؟

مدل‌های زبانی بزرگ

پیشرفت‌های سریع در مدل‌های زبانی بزرگ (LLMها) – یعنی مدل‌هایی با میلیاردها یا حتی تریلیون‌ها پارامتر – عصر جدیدی را گشوده ‌اند که در آن مدل‌های هوش مصنوعی مولد (Generative AI) می‌توانند متن‌های جذاب بنویسند، تصاویر واقعی و حتی تا حدودی سرگرم‌کننده خلق کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را بر اساس توضیحات متنی ایجاد می‌کند یا زیرنویس متنی را برای تصاویر ایجاد می‌کند.

با وجود این پیشرفت‌ها، ما هنوز در روزهای اولیه استفاده از Generative AI برای ایجاد متن خوانا و گرافیک‌های سبک فوتورئالیستی هستیم. پیاده‌سازی‌های اولیه مشکلاتی با دقت و سوگیری داشته‌اند، و همچنین مستعد توهم و پاسخ‌های عجیب و غریب هستند. با این حال، پیشرفت‌ها تاکنون نشان می دهد که قابلیت‌های ذاتی این نوع هوش مصنوعی می‌تواند اساساً دنیا را تغییر دهد. در آینده، این فناوری می‌تواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.

هوش مصنوعی مولد چگونه کار می‌کند؟

هوش مصنوعی مولد یا Generative AI با یک اعلان شروع می‌شود که می‌تواند به شکل متن، تصویر، ویدئو، طرح، نت‌های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی می‌تواند پردازش کند. سپس الگوریتم‌های مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمی‌گردانند. محتوا می‌تواند شامل مقاله‌ها، راه‌حل‌هایی برای مشکلات یا دیپ‌فیکی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.

نسخه‌های اولیه هوش مصنوعی مولد نیازمند ارسال داده‌ها از طریق یک API یا یک فرآیند پیچیده بودند. توسعه دهندگان باید با ابزارهای ویژه آشنا می‌شدند و برنامه‌های کاربردی را با استفاده از زبان‌هایی مانند پایتون می‌نوشتند. اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می‌دهد درخواستتان را به زبان ساده توصیف کنید. پس از پاسخ اولیه، می‌توانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که می‌خواهید محتوای تولید شده منعکس کند، سفارشی کنید.

هوش مصنوعی مولد در مقابل هوش مصنوعی

هوش مصنوعی مولد (Generative AI) محتوای جدید، پاسخ‌های چت، طرح‌ها، داده‌های مصنوعی یا دیپ‌فیک تولید می‌کند. از سوی دیگر، هوش مصنوعی سنتی بر شناسایی الگوها، تصمیم‌گیری، بهبود تجزیه و تحلیل، طبقه بندی داده‌ها و کشف تقلب متمرکز شده است. همان‌طور که در بالا ذکر شد، هوش مصنوعی مولد اغلب از تکنیک‌های شبکه عصبی مانند ترنسفورمر، GANs و VAE استفاده می‌کند. سایر انواع هوش مصنوعی، به طور متمایز، از تکنیک‌هایی مانند شبکه‌های عصبی کانولوشنی، شبکه های عصبی بازگشتی و یادگیری تقویتی استفاده می کنند.

درباره‌ی شبکه‌ عصبی کانولوشنی و بازگشتی بخوانید:‌

شبکه عصبی کانولوشنی یا CNN چیست و چه کاربردهایی دارد؟

شبکه عصبی بازگشتی یا RNN چیست و چه کاربردهایی دارد؟

هوش مصنوعی مولد اغلب با یک اعلان شروع می‌شود که به کاربر یا منبع داده اجازه می‌دهد یک پرس و جو یا مجموعه داده اولیه را برای هدایت تولید محتوا ارسال کند. الگوریتم‌های سنتی هوش مصنوعی داده‌های جدید را پردازش می‌کنند تا یک نتیجه ساده را به دست آورند.

DALL-E، ChatGPT و Bard چیست؟

ChatGPT، Dall-E و Bard رابط های هوش مصنوعی مولد محبوب هستند.

DALL-E

دال-ای یا Dall-E که بر روی مجموعه داده‌های بزرگی از تصاویر و توضیحات متنی مرتبط با آن‌ها آموزش دیده است، نمونه‌ای از یک برنامه کاربردی هوش مصنوعی چندوجهی است که اتصالات را در رسانه ‌ای مختلف مانند بینایی، متن و صدا شناسایی می‌کند. در این صورت معنای کلمات را به عناصر بصری متصل می‌کند. این مدل با استفاده از پیاده‌سازی GPT OpenAI در سال ۲۰۲۱ ساخته شد. Dall-E 2، نسخه دوم و با قابلیت‌تر، در سال ۲۰۲۲ منتشر شد. کاربران را قادر می‌سازد تا تصاویر را در سبک‌های مختلف تولید کنند که توسط درخواست‌های کاربر هدایت می‌شوند.

ChatGPT

ChatGPT چت‌بات مجهز به هوش مصنوعی که در نوامبر ۲۰۲۲ دنیا را متحول کرد و بر اساس اجرای OpenAI GPT-3.5 ساخته شد. OpenAI راهی برای تعامل و تنظیم دقیق پاسخ‌های متنی از طریق رابط چت با بازخورد تعاملی ارائه کرده است. نسخه‌های قبلی GPT فقط از طریق یک API قابل دسترسی بودند. GPT-4 در ۱۴ مارس ۲۰۲۳ منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده است و یک مکالمه واقعی را شبیه سازی می‌کند. پس از محبوبیت باورنکردنی رابط GPT جدید، مایکروسافت سرمایه گذاری جدید قابل توجهی را در OpenAI اعلام کرد و نسخه ای از GPT را در موتور جستجوی Bing خود ادغام کرد.

Bard

Bard گوگل یکی دیگر از رهبران پیشرو در تولید تکنیک‌های هوش مصنوعی ترنسفورمور برای پردازش زبان، پروتئین‌ها و دیگر انواع محتوا بود. گوگل نسخه منبع باز برخی از این مدل‌ها را برای محققان ارائه کرد اما هرگز یک رابط عمومی برای این مدل‌ها منتشر نکرد. تصمیم مایکروسافت برای پیاده سازی GPT در بینگ، گوگل را وادار کرد تا یک چت‌بات عمومی به نام Google Bard را به سرعت وارد بازار کند. بعد از اینکه این چت‌بات به اشتباه گفت تلسکوپ Webb اولین تلسکوپی است که سیاره ای در یک منظومه شمسی خارجی کشف کرده است، گوگل متحمل ضرر قابل توجهی در قیمت سهام شد.

کاربردهای هوش مصنوعی مولد چیست؟

هوش مصنوعی مولد را می‌توان در موارد مختلفی برای تولید هر نوع محتوا به کار برد. برخی از موارد استفاده برای هوش مصنوعی مولد شامل موارد زیر است:

پیاده سازی چت‌بات‌ها برای خدمات مشتری و پشتیبانی فنی.
استفاده از دیپ فیک برای تقلید از افراد یا حتی افراد خاص.
بهبود دوبله فیلم‌ها و محتوای آموزشی به زبان‌های مختلف.
نوشتن پاسخ ایمیل، پروفایل دوستیابی، رزومه و مقالات.
خلق هنر فوتورئالیستی در سبکی خاص.
بهبود ویدیوهای نمایش محصول
پیشنهاد ترکیبات دارویی جدید برای آزمایش.
طراحی محصولات فیزیکی و ساختمان.
بهینه سازی طرح‌های تراشه‌های جدید
نوشتن موسیقی به سبک یا لحن خاص.

محدودیت‌های هوش مصنوعی مولد چیست؟

پیاده سازی‌های اولیه هوش مصنوعی مولد به وضوح محدودیت‌های فراوان آن را نشان می‌دهد.

برخی از محدودیت‌هایی که باید در هنگام پیاده‌سازی یا استفاده از یک برنامه هوش مصنوعی مولد در نظر گرفته عبارتند از:

همیشه منبع محتوا را مشخص نمی‌کند.
ارزیابی سوگیری منابع اصلی می‌تواند چالش برانگیز باشد.
با تولید محتوای فیک که خیلی شبیه به واقعی است، شناسایی اطلاعات نادرست را دشوارتر می‌کند.
نتایج ممکن است بیش از تعصبی یا با سوگیری خاصی باشد.

نگرانی‌های پیرامون هوش مصنوعی مولد چیست؟

ظهور هوش مصنوعی مولد نیز نگرانی‌های مختلفی را برانگیخته است.. در این‌جا برخی از انواع خاصی از مسائل مشکل‌ساز ناشی از وضعیت فعلی هوش مصنوعی مولد را لیست کرده‌ایم:

می‌تواند اطلاعات نادرست و گمراه کننده ارائه دهد.
بدون دانستن منبع و منشأ اطلاعات، اعتماد کردن دشوارتر است.
می‌تواند انواع جدیدی از سرقت ادبی را ترویج کند که حقوق تولیدکنندگان محتوا و هنرمندان محتوای اصلی را نادیده می‌گیرد.
ممکن است مدل‌های کسب‌وکار موجود مبتنی بر بهینه‌سازی موتور جستجو و تبلیغات را مختل کند.
تولید اخبار جعلی را آسان‌تر می‌کند.
ممکن است در آینده شغل‌های زیادی را حذف کند.

چند نمونه از ابزارهای مولد هوش مصنوعی چیست؟

ابزارهای مولد هوش مصنوعی برای داده‌های مختلف مانند متن، تصویر، موسیقی، کد و صدا وجود دارد. برخی از این ابزارها عبارتند از:‌

ابزارهای تولید متن عبارتند از GPT، Jasper، AI-Writer و Lex.
ابزارهای تولید تصویر عبارتند از Dall-E 2، Midjourney و Stable Diffusion.
ابزارهای تولید موسیقی عبارتند از Amper، Dadabots و MuseNet.
ابزارهای تولید کد عبارتند از CodeStarter، Codex، GitHub Copilot و Tabnine.
ابزارهای ترکیب صدا عبارتند از Descript، Listnr و Podcast.ai.
شرکت‌های ابزار طراحی تراشه هوش مصنوعی شامل Synopsys، Cadence، Google و Nvidia هستند.

آینده هوش مصنوعی مولد

سهولت استفاده‌ی باورنکردنی ChatGPT و استفاده‌ی گسترده‌ی آن توسط مردم، نویدبخش پذیرش گسترده هوش مصنوعی مولد است. البته مطمئناً، برخی از مشکلات در راه اندازی ایمن و مسئولانه این فناوری را نیز نشان داده است. اما این مسائل مربوط به اجرای اولیه‌ی هوش مصنوعی مولد، الهم بخش تحقیقاتی برای تولید ابزارهای بهتر برای تشخیص متن، تصاویر و ویدیوی تولید شده توسط هوش مصنوعی بوده است. البته که تمام تیم‌های تحقیقاتی برای ایجاد هوش‌مصنوعی بهتر، مسئولانه‌تر و قابل اعتماد‌تر تلاش خواهند کرد.

هوش مصنوعی مولد یک حوزه به سرعت در حال پیشرفت است که نویدهای زیادی برای آینده دارد. با توانایی تولید خروجی‌های پیچیده و خلاقانه مانند موسیقی، هنر و حتی محتوای کامل، هوش مصنوعی مولد این پتانسیل را دارد که بسیاری از صنایع را متحول کند. در سال‌های آینده، با توسعه الگوریتم‌ها و مدل‌های پیچیده‌تر که قادر به تولید خروجی‌های پیچیده‌تر و ظریف‌تر هستند، می‌توان انتظار داشت که شاهد پیشرفت‌های قابل توجهی در این فناوری باشیم. در حالی که مطمئناً نگرانی‌هایی در مورد سوء استفاده احتمالی از این فناوری وجود دارد، کاربردهای مثبت هوش مصنوعی مولد بسیار زیاد است، از کمک به هنرمندان و تولیدکنندگان محتوا گرفته تا کمک به تحقیقات علمی و حتی افزایش ارتباطات و همکاری بین انسان‌ها و ماشین‌ها. به طور کلی، آینده هوش مصنوعی مولد روشن است و می‌توان انتظار داشت که در سال‌های آینده شاهد پیشرفت‌های جدید و هیجان‌انگیزی باشیم.