هوش مصنوعی مولد یا Generative AI چیست؟ هوش مصنوعی مولد، حوزهای از هوش مصنوعی است که به سرعت در حال تکامل است که به ماشینها اجازه میدهد محتوای جدید و اورجینال مانند تصاویر، موسیقی و متن تولید کنند. این فناوری پیشرفته این پتانسیل را دارد که صنایع مختلف از جمله هنر، مد و موسیقی را با ارائه روشی جدید برای ایجاد محتوا که قبلا فقط از طریق خلاقیت انسان امکانپذیر بود، متحول کند. در این پست وبلاگ به معرفی هوش مصنوعی مولد، تاریخچه آن، تفاوتش با هوش مصنوعی سنتی، مزایا و محدودیتهای آن و نگرانیهای پیرامون آن خواهیم پرداخت.
- 1. تاریخچه هوش مصنوعی مولد
- 2. هوش مصنوعی مولد چیست؟
- 3. مدلهای زبانی و Transformerها
- 4. هوش مصنوعی مولد چگونه کار میکند؟
- 5. هوش مصنوعی مولد در مقابل هوش مصنوعی
- 6. DALL-E، ChatGPT و Bard چیست؟
- 7. کاربردهای هوش مصنوعی مولد چیست؟
- 8. محدودیتهای هوش مصنوعی مولد چیست؟
- 9. نگرانیهای پیرامون هوش مصنوعی مولد چیست؟
- 10. چند نمونه از ابزارهای مولد هوش مصنوعی چیست؟
- 11. آینده هوش مصنوعی مولد
- 12. با کافهتدریس متخصص داده شوید!
تاریخچه هوش مصنوعی مولد
چتبات Eliza که توسط جوزف وایزنبام (Joseph Weizenbaum) در دهه ۱۹۶۰ ایجاد شد، یکی از اولین نمونههای هوش مصنوعی مولد (Generative AI) بود. این پیادهسازیهای اولیه از یک رویکرد مبتنی بر قانون استفاده میکردند که بهدلیل محدود بودن واژگان، فقدان زمینه و اتکای بیش از حد به الگوها، از جمله کاستیهای دیگر، به راحتی شکست خورد. سفارشیسازی و گسترش چتباتهای اولیه نیز دشوار بود.
این حوزه در پی پیشرفتهای شبکههای عصبی و یادگیری عمیق در سال ۲۰۱۰ شاهد تجدید حیات بود که این فناوری را قادر ساخت تا به طور خودکار تجزیه متن موجود، طبقهبندی عناصر تصویر و رونویسی صدا را بیاموزد.
ایان گودفلو (Ian Goodfellow) GANs را در سال ۲۰۱۴ معرفی کرد. این تکنیک یادگیری عمیق یک رویکرد جدید برای سازماندهی شبکههای عصبی رقیب برای تولید و سپس رتبهبندی تغییرات محتوا ارائه کرد که می توانند افراد، صداها، موسیقی و متن واقع بینانه تولید کنند. این کار الهامی شد برای کشف اینکه چگونه میتوان از هوش مصنوعی مولد برای ایجاد دیپفیکهای واقعگرایانه استفاده کرد که صداها و افراد را در ویدئوها جعل میکنند.
از آن زمان، پیشرفت در سایر تکنیکها و معماریهای شبکه عصبی به گسترش قابلیتهای Generative AI کمک کرده است. این تکنیکها شامل VAE ها، LSTMs، Transformers ، مدل های diffusion و میدان های تابشی عصبی است.
پیشنهاد میکنیم درباره شبکه LSTMs چیست هم مطالعه کنید.
هوش مصنوعی مولد چیست؟
هوش مصنوعی مولد یا Generative AI نوعی فناوری هوش مصنوعی است که میتواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا و دادههای مصنوعی تولید کند. هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.
لازم به ذکر است که این فناوری کاملاً جدید نیست و در دهه ۱۹۶۰ در چتباتها معرفی شد. اما تا سال ۲۰۱۴، با معرفی شبکههای مولد متخاصم یا GANs – نوعی الگوریتم یادگیری ماشین – بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانعکنندهای را خلق کند.
از یک طرف، این قابلیت جدید فرصت هایی را ایجاد کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی میشود. همچنین نگرانیهای مربوط به دیپفیکها – تصاویر یا ویدیوهای جعلی دیجیتالی – و حملات مضر امنیت سایبری به مشاغل باز کرد.
پیشنهاد میکنیم درباره نقش هوش مصنوعی در دیپفیک هم مطالعه کنید.
مدلهای زبانی و Transformerها
دو پیشرفت اخیر که در زیر با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کردهاند:
ترنسفورمرها
ترنسفورمرها و مدلهای زبانی پیشرفتی که از روی آنها شکل گرفتهاند. ترنسفورمرها نوعی یادگیری ماشین هستند که به محققان امکان آموزش مدلهای بزرگتر را بدون نیاز به برچسب زدن همه دادهها از قبل میدهند. بنابراین میتوان مدلهای جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخهایی با عمق بیشتری دست یافت. علاوه بر این، تراسفورمرها مفهوم جدیدی به نام Attention یا توجه را ارائه کردند که مدلها را قادر میسازد تا ارتباطات بین کلمات را در صفحات، فصلها و کتابها ردیابی کنند و نه فقط در جملات جداگانه. ترنسفورمرها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئینها، مواد شیمیایی و DNA استفاده کنند.
پیشنهاد میکنیم درباره مدل Transformers یا مدل انتقالی هم مطالعه کنید.
مدلهای زبانی بزرگ
پیشرفتهای سریع در مدلهای زبانی بزرگ (LLMها) – یعنی مدلهایی با میلیاردها یا حتی تریلیونها پارامتر – عصر جدیدی را گشوده اند که در آن مدلهای هوش مصنوعی مولد (Generative AI) میتوانند متنهای جذاب بنویسند، تصاویر واقعی و حتی تا حدودی سرگرمکننده خلق کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را بر اساس توضیحات متنی ایجاد میکند یا زیرنویس متنی را برای تصاویر ایجاد میکند.
با وجود این پیشرفتها، ما هنوز در روزهای اولیه استفاده از Generative AI برای ایجاد متن خوانا و گرافیکهای سبک فوتورئالیستی هستیم. پیادهسازیهای اولیه مشکلاتی با دقت و سوگیری داشتهاند، و همچنین مستعد توهم و پاسخهای عجیب و غریب هستند. با این حال، پیشرفتها تاکنون نشان می دهد که قابلیتهای ذاتی این نوع هوش مصنوعی میتواند اساساً دنیا را تغییر دهد. در آینده، این فناوری میتواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.
هوش مصنوعی مولد چگونه کار میکند؟
هوش مصنوعی مولد یا Generative AI با یک اعلان شروع میشود که میتواند به شکل متن، تصویر، ویدئو، طرح، نتهای موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی میتواند پردازش کند. سپس الگوریتمهای مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمیگردانند. محتوا میتواند شامل مقالهها، راهحلهایی برای مشکلات یا دیپفیکی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.
نسخههای اولیه هوش مصنوعی مولد نیازمند ارسال دادهها از طریق یک API یا یک فرآیند پیچیده بودند. توسعه دهندگان باید با ابزارهای ویژه آشنا میشدند و برنامههای کاربردی را با استفاده از زبانهایی مانند پایتون مینوشتند. اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان میدهد درخواستتان را به زبان ساده توصیف کنید. پس از پاسخ اولیه، میتوانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که میخواهید محتوای تولید شده منعکس کند، سفارشی کنید.
هوش مصنوعی مولد در مقابل هوش مصنوعی
هوش مصنوعی مولد (Generative AI) محتوای جدید، پاسخهای چت، طرحها، دادههای مصنوعی یا دیپفیک تولید میکند. از سوی دیگر، هوش مصنوعی سنتی بر شناسایی الگوها، تصمیمگیری، بهبود تجزیه و تحلیل، طبقه بندی دادهها و کشف تقلب متمرکز شده است. همانطور که در بالا ذکر شد، هوش مصنوعی مولد اغلب از تکنیکهای شبکه عصبی مانند ترنسفورمر، GANs و VAE استفاده میکند. سایر انواع هوش مصنوعی، به طور متمایز، از تکنیکهایی مانند شبکههای عصبی کانولوشنی، شبکه های عصبی بازگشتی و یادگیری تقویتی استفاده می کنند.
پیشنهاد میکنیم درباره شبکه عصبی کانولوشنی یا CNN و همینطور شبکه عصبی بازگشتی یا RNN هم مطالعه کنید.
هوش مصنوعی مولد اغلب با یک اعلان شروع میشود که به کاربر یا منبع داده اجازه میدهد یک پرس و جو یا مجموعه داده اولیه را برای هدایت تولید محتوا ارسال کند. الگوریتمهای سنتی هوش مصنوعی دادههای جدید را پردازش میکنند تا یک نتیجه ساده را به دست آورند.
DALL-E، ChatGPT و Bard چیست؟
ChatGPT، Dall-E و Bard رابط های هوش مصنوعی مولد محبوب هستند.
DALL-E
دال-ای یا Dall-E که بر روی مجموعه دادههای بزرگی از تصاویر و توضیحات متنی مرتبط با آنها آموزش دیده است، نمونهای از یک برنامه کاربردی هوش مصنوعی چندوجهی است که اتصالات را در رسانه ای مختلف مانند بینایی، متن و صدا شناسایی میکند. در این صورت معنای کلمات را به عناصر بصری متصل میکند. این مدل با استفاده از پیادهسازی GPT OpenAI در سال ۲۰۲۱ ساخته شد. Dall-E 2، نسخه دوم و با قابلیتتر، در سال ۲۰۲۲ منتشر شد. کاربران را قادر میسازد تا تصاویر را در سبکهای مختلف تولید کنند که توسط درخواستهای کاربر هدایت میشوند.
ChatGPT
ChatGPT چتبات مجهز به هوش مصنوعی که در نوامبر ۲۰۲۲ دنیا را متحول کرد و بر اساس اجرای OpenAI GPT-3.5 ساخته شد. OpenAI راهی برای تعامل و تنظیم دقیق پاسخهای متنی از طریق رابط چت با بازخورد تعاملی ارائه کرده است. نسخههای قبلی GPT فقط از طریق یک API قابل دسترسی بودند. GPT-4 در ۱۴ مارس ۲۰۲۳ منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده است و یک مکالمه واقعی را شبیه سازی میکند. پس از محبوبیت باورنکردنی رابط GPT جدید، مایکروسافت سرمایه گذاری جدید قابل توجهی را در OpenAI اعلام کرد و نسخه ای از GPT را در موتور جستجوی Bing خود ادغام کرد.
Bard
Bard گوگل یکی دیگر از رهبران پیشرو در تولید تکنیکهای هوش مصنوعی ترنسفورمور برای پردازش زبان، پروتئینها و دیگر انواع محتوا بود. گوگل نسخه منبع باز برخی از این مدلها را برای محققان ارائه کرد اما هرگز یک رابط عمومی برای این مدلها منتشر نکرد. تصمیم مایکروسافت برای پیاده سازی GPT در بینگ، گوگل را وادار کرد تا یک چتبات عمومی به نام Google Bard را به سرعت وارد بازار کند. بعد از اینکه این چتبات به اشتباه گفت تلسکوپ Webb اولین تلسکوپی است که سیاره ای در یک منظومه شمسی خارجی کشف کرده است، گوگل متحمل ضرر قابل توجهی در قیمت سهام شد.
کاربردهای هوش مصنوعی مولد چیست؟
هوش مصنوعی مولد را میتوان در موارد مختلفی برای تولید هر نوع محتوا به کار برد. برخی از موارد استفاده برای هوش مصنوعی مولد شامل موارد زیر است:
- پیاده سازی چتباتها برای خدمات مشتری و پشتیبانی فنی.
- استفاده از دیپ فیک برای تقلید از افراد یا حتی افراد خاص.
- بهبود دوبله فیلمها و محتوای آموزشی به زبانهای مختلف.
- نوشتن پاسخ ایمیل، پروفایل دوستیابی، رزومه و مقالات.
- خلق هنر فوتورئالیستی در سبکی خاص.
- بهبود ویدیوهای نمایش محصول
- پیشنهاد ترکیبات دارویی جدید برای آزمایش.
- طراحی محصولات فیزیکی و ساختمان.
- بهینه سازی طرحهای تراشههای جدید
- نوشتن موسیقی به سبک یا لحن خاص.
محدودیتهای هوش مصنوعی مولد چیست؟
پیاده سازیهای اولیه هوش مصنوعی مولد به وضوح محدودیتهای فراوان آن را نشان میدهد.
برخی از محدودیتهایی که باید در هنگام پیادهسازی یا استفاده از یک برنامه هوش مصنوعی مولد در نظر گرفته عبارتند از:
- همیشه منبع محتوا را مشخص نمیکند.
- ارزیابی سوگیری منابع اصلی میتواند چالش برانگیز باشد.
- با تولید محتوای فیک که خیلی شبیه به واقعی است، شناسایی اطلاعات نادرست را دشوارتر میکند.
- نتایج ممکن است بیش از تعصبی یا با سوگیری خاصی باشد.
نگرانیهای پیرامون هوش مصنوعی مولد چیست؟
ظهور هوش مصنوعی مولد نیز نگرانیهای مختلفی را برانگیخته است.. در اینجا برخی از انواع خاصی از مسائل مشکلساز ناشی از وضعیت فعلی هوش مصنوعی مولد را لیست کردهایم:
- میتواند اطلاعات نادرست و گمراه کننده ارائه دهد.
- بدون دانستن منبع و منشأ اطلاعات، اعتماد کردن دشوارتر است.
- میتواند انواع جدیدی از سرقت ادبی را ترویج کند که حقوق تولیدکنندگان محتوا و هنرمندان محتوای اصلی را نادیده میگیرد.
- ممکن است مدلهای کسبوکار موجود مبتنی بر بهینهسازی موتور جستجو و تبلیغات را مختل کند.
- تولید اخبار جعلی را آسانتر میکند.
- ممکن است در آینده شغلهای زیادی را حذف کند.
چند نمونه از ابزارهای مولد هوش مصنوعی چیست؟
ابزارهای مولد هوش مصنوعی برای دادههای مختلف مانند متن، تصویر، موسیقی، کد و صدا وجود دارد. برخی از این ابزارها عبارتند از:
- ابزارهای تولید متن عبارتند از GPT، Jasper، AI-Writer و Lex.
- ابزارهای تولید تصویر عبارتند از Dall-E 2، Midjourney و Stable Diffusion.
- ابزارهای تولید موسیقی عبارتند از Amper، Dadabots و MuseNet.
- ابزارهای تولید کد عبارتند از CodeStarter، Codex، GitHub Copilot و Tabnine.
- ابزارهای ترکیب صدا عبارتند از Descript، Listnr و Podcast.ai.
- شرکتهای ابزار طراحی تراشه هوش مصنوعی شامل Synopsys، Cadence، Google و Nvidia هستند.
آینده هوش مصنوعی مولد
سهولت استفادهی باورنکردنی ChatGPT و استفادهی گستردهی آن توسط مردم، نویدبخش پذیرش گسترده هوش مصنوعی مولد است. البته مطمئناً، برخی از مشکلات در راه اندازی ایمن و مسئولانه این فناوری را نیز نشان داده است. اما این مسائل مربوط به اجرای اولیهی هوش مصنوعی مولد، الهم بخش تحقیقاتی برای تولید ابزارهای بهتر برای تشخیص متن، تصاویر و ویدیوی تولید شده توسط هوش مصنوعی بوده است. البته که تمام تیمهای تحقیقاتی برای ایجاد هوشمصنوعی بهتر، مسئولانهتر و قابل اعتمادتر تلاش خواهند کرد.
هوش مصنوعی مولد یک حوزه به سرعت در حال پیشرفت است که نویدهای زیادی برای آینده دارد. با توانایی تولید خروجیهای پیچیده و خلاقانه مانند موسیقی، هنر و حتی محتوای کامل، هوش مصنوعی مولد این پتانسیل را دارد که بسیاری از صنایع را متحول کند. در سالهای آینده، با توسعه الگوریتمها و مدلهای پیچیدهتر که قادر به تولید خروجیهای پیچیدهتر و ظریفتر هستند، میتوان انتظار داشت که شاهد پیشرفتهای قابل توجهی در این فناوری باشیم. در حالی که مطمئناً نگرانیهایی در مورد سوء استفاده احتمالی از این فناوری وجود دارد، کاربردهای مثبت هوش مصنوعی مولد بسیار زیاد است، از کمک به هنرمندان و تولیدکنندگان محتوا گرفته تا کمک به تحقیقات علمی و حتی افزایش ارتباطات و همکاری بین انسانها و ماشینها. به طور کلی، آینده هوش مصنوعی مولد روشن است و میتوان انتظار داشت که در سالهای آینده شاهد پیشرفتهای جدید و هیجانانگیزی باشیم.
با کافهتدریس متخصص داده شوید!
کافهتدریس بهصورت تخصصی بهروزترین آموزشهای علم داده را در قالب کلاسهای آنلاین و ویدئوهای آموزشی در اختیار شما قرار میدهد. این آموزشها به شما کمک میکند در هر نقطهی جغرافیایی که هستید به کاملترین آموزش علم داده دسترسی داشته باشید و در مسیر تبدیلشدن به دیتا ساینتیست قدم بردارید.
برای آشنایی با کلاسهای آنلاین و ویدئوهای آموزشی علم داده روی این لینک کلیک کنید: