شبکه عصبی LSTM چیست و چگونه کار می‌کند؟

مهسا مژدهی

4 سال پیش

شبکه عصبی LSTM یا حافظه کوتاه‌مدت طولانی (Long-Short Term Memory) نوعی خاص از شبکه عصبی بازگشتی (RNN / Recurrent Neural Network) محسوب می‌شود. پس برای اینکه بتوانیم نحوه کار شبکه LSTM را درک کنیم لازم است با شبکه عصبی RNN آشنا شیم. در این مطلب به‌صورت مختصر درباره شبکه RNN صحبت کرده‌ایم و سپس به شبکه عصبی حافظه کوتاه‌مدت طولانی و نحوه کارش پرداخته‌ایم.

فهرست مطالب پنهان‌کردن فهرست

1. معرفی شبکه‌های عصبی مصنوعی
2. انواع شبکه‌های عصبی مصنوعی
3. شبکه عصبی بازگشتی (RNN) چیست؟
4. شبکه عصبی LSTM چیست؟
5. مفهوم اصلی شبکه LSTM
1. 5.1. تابع فعال‌ساز تانژانت هایپربولیک (Tanh)
2. 5.2. تابع فعال‌ساز سیگموید (Sigmoid)
6. گیت‌های موجود در ساختار شبکه عصبی LSTM
7. خلاصه مطالب درباره شبکه عصبی LSTM

معرفی شبکه‌های عصبی مصنوعی

شبکه‌های عصبی مصنوعی (ANN) نوعی الگوریتم یادگیری ماشین هستند که برای ساخت آن‌ها از ساختار و عملکرد مغز انسان الهام گرفته شده است. شبکه های عصبی مصنوعی متشکل از گره‌های به هم پیوسته یا نورون‌های مصنوعی هستند که اطلاعات را پردازش می‌کنند و یاد می‌گیرند بر اساس داده‌های ورودی پیش بینی کنند. اتصالات بین گره‌ها دارای وزن هستند و وزن‌ها در طول پردازش داده، برای بهبود دقت پیش بینی‌ها تنظیم می‌شوند.

شبکه های عصبی مصنوعی به طور گسترده در کاربردهای مختلفی مانند تشخیص تصویر، تشخیص گفتار و پردازش زبان طبیعی استفاده می‌شوند. یکی از نقاط قوت ANN ها توانایی آن‌ها در یادگیری الگوهای پیچیده در مجموعه داده های بزرگ بدون برنامه ریزی صریح است. آن‌ها همچنین می‌توانند از مثال‌ها یاد بگیرند و با موقعیت‌های جدید تطبیق پیدا کنند، که آن‌ها را برای کارهایی که شامل محیط‌های نامشخص یا پویا هستند، مناسب می‌کند.

با این حال، ANN ها همچنین می‌توانند از نظر محاسباتی گران باشند و برای دستیابی به دقت بالا به مقادیر زیادی از داده‌های آموزشی نیاز دارند. علاوه بر این، تفسیر عملکرد درونی شبکه‌های عصبی مصنوعی می‌تواند دشوار باشد، که می‌تواند درک نحوه تصمیم‌گیری یا شناسایی سوگیری‌های بالقوه در پیش‌بینی‌هایشان را دشوار کند. با وجود این چالش‌ها، شبکه‌های عصبی مصنوعی همچنان یک حوزه تحقیقاتی فعال هستند و به پیشرفت‌های قابل توجهی در یادگیری ماشین و هوش مصنوعی منجر شده‌اند.

انواع شبکه‌های عصبی مصنوعی

در این بخش برخی از رایج ترین انواع شبکه عصبی مصنوعی (ANN) که هر کدام ساختار و عملکرد منحصر به فرد خود را دارند، معرفی خواهیم کرد.

شبکه‌های عصبی پیشخور (Feed-Forward Neural Networks): این نوع شبکه، ابتدایی ترین نوع شبکه عصبی مصنوعی است که در آن اطلاعات تنها در یک جهت جریان دارد، از گره‌های ورودی به گره های خروجی. این شبکه‌ها برای کارهایی مانند طبقه بندی، رگرسیون و تشخیص الگو استفاده می‌شوند.

شبکه‌های عصبی تکرارشونده (Recurrent Neural Networks): این شبکه‌ها دارای یک حلقه بازخورد هستند که به آن‌ها اجازه می‌دهد اطلاعات ورودی‌های قبلی را ذخیره کنند که آن‌ها را برای کارهایی مانند پیش‌بینی توالی، مدل‌سازی زبان و تشخیص گفتار مناسب می‌کند.

شبکه‌های عصبی کانولوشنی (CNNs): این شبکه‌ها برای پردازش داده‌ها با توپولوژی شبکه‌ای مانند تصاویر و ویدئوها طراحی شده‌اند. آن‌ها از یک سری لایه‌های کانولوشن برای استخراج ویژگی‌ها از داده‌های ورودی استفاده می‌کنند و معمولاً برای تشخیص تصویر، تشخیص اشیا و تجزیه و تحلیل ویدیو استفاده می‌شوند.

شبکه عصبی بازگشتی (RNN) چیست؟

شبکه عصبی RNN نوعی شبکه عصبی است که حافظه داخلی دارد؛ به‌عبارت دیگر، این شبکه یک شبکه عصبی معمولی است که در ساختارش حلقه‌ای دارد که ازطریق آن در هر گام (Step) خروجی گام قبلی، به‌همراه ورودی جدید، به شبکه وارد می‌شود. این حلقه به شبکه کمک می‌کند تا اطلاعات قبلی را در کنار اطلاعات جدید داشته باشد و بتواند براساس این اطلاعات خروجی مدنظر را به ما بدهد. این ویژگی شبکه RNN این امکان را می‌دهد که بتوانیم با داده‌های ترتیبی (Sequential Data)، مانند متن، صدا و غیره، کار کند.

سؤالی که پیش می‌آید این است که چرا با وجود شبکه عصبی RNN، شبکه LSTM به وجود آمده است؟

دلیل اصلی این است که شبکه عصبی RNN در مسائلی که نیاز باشد حافظه بلندمدت داشته باشد نمی‌تواند خیلی‌خوب عمل کند؛ برای مثال، اگه بخواهیم کلمه آخر («sky») را در این جمله پیش‌بینی کند این کار را به‌خوبی انجام می‌دهد؛ چون با داشتن اطلاعات کلمات همین یک جمله می‌تواند به‌راحتی کلمه آخر را پیش‌بینی کند:

“.The clouds are in the sky”

«ابرها در آسمان هستند.»

اما اگر بخواهیم کلمه آخر («French») را در این پاراگراف پیش‌بینی کند، متأسفانه از پس این کار برنمی‌آید؛ چون برای پیش‌بینی این کلمه نیاز دارد اطلاعات مربوط به کلمات خیلی قبل‌تر را هم در اختیار داشته باشد:

“.I grew up in France. …. I speak fluent French”

«من در فرانسه بزرگ شدم. … من خوب فرانسوی صحبت می‌کنم.»

درواقع هر قدر فاصله میان کلمه‌ای که باید پیش‌بینی کند و اطلاعات قبلی که به آن نیاز دارد برای این پیش‌بینی زیاد‌تر شود، شبکه RNN توانایی یادگیری آن‌ها را از دست می‌دهد؛ پس به‌طور کلی می‌توانیم بگوییم شبکه RNN حافظه کوتاه‌مدت خوبی دارد، اما حافظه بلند‌‌مدت نه. دلیل این موضوع مفهومی به‌نام محوشدگی گرادیان (Vanishing Gradient) است.

شبکه عصبی LSTM چیست؟

همان‌طور که قبلاً اشاره کردیم، شبکه LSTM یا Long-Short Term Memory نوع خاصی از شبکه RNN است که مشکل حافظه بلندمدت شبکه RNN را حل می‌کند. شبکه LSTM سازوکارهایی داخلی به‌اسم گیت (Gate) دارد. این گیت‌ها جریان اطلاعات را کنترل می‌کنند؛ همین‌طور مشخص می‌کنند چه داده‌هایی در توالی مهم هستند و باید هم‌چنان حفظ بشوند و چه داده‌هایی باید حذف بشوند؛ به‌این شکل، شبکه اطلاعات مهم را در طول زنجیره توالی عبور می‌دهد تا خروجی مد‌نظر را داشته باشیم.

در این شکل ساختار یک شبکه عصبی LSTM را می‌بینیم:

همان‌طور که در شکل مشخص است، شبکه LSTM چندین عملیات مختلف در ساختار داخلی‌اش دارد. این عملیات به شبکه LSTM کمک می‌کند اطلاعات را حفظ یا فراموش کند. برای درک نحوه کار این شبکه گام‌به‌گام این عملیات را با ‌هم بررسی می‌کنیم.

مفهوم اصلی شبکه LSTM

مفهوم اصلی شبکه LSTM همان cell state و گیت‌های همراهش است؛ درواقع cell state مانند آزادراهی عمل می‌کند که اطلاعات را در طول زنجیره توالی جلو می‌برد. می‌توانیم به cell state به‌عنوان حافظه شبکه نگاه کنیم. گیت‌ها اطلاعات را در cell state به‌روز نگه می‌دارند. این گیت‌ها شبکه‌های عصبی مختلفی هستند که تصمیم می‌گیرند چه اطلاعاتی به cell state وارد بشوند. این گیت‌ها در طول آموزش شبکه یاد می‌گیرند چه اطلاعاتی باید حفظ یا فراموش شوند.

قبل از اینکه درباره گیت‌های شبکه LSTM صحبت کنیم، لازم است به‌صورت مختصر دو تابع فعال‌سازی‌ای را توضیح دهیم که در ساختار این شبکه وجود دارد تا با عملکردشان بهتر آشنا شویم.

تابع فعال‌ساز تانژانت هایپربولیک (Tanh)

این تابع کمک می‌کند تا مقادیری که در طول شبکه در جریان دهستن تعدیل (regulate) شوند. تابع Tanh تمامی مقادیر را به بازه -۱ تا ۱ می‌برد.

دلیل این کار این است که عملیات ریاضی مختلفی در طول شبکه روی بردارها انجام می‌شود؛ برای مثال، فک کنیم اگر یک مقدار در طول شبکه بارها در عددی مانند ۳ ضرب شود، در این صورت می‌توانیم فکر کنیم مقادیر چقدر می‌توانند بزرگ شوند.

تابع Tanh مقادیر شبکه را میان بازه -۱ تا ۱ قرار می‌دهد تا مقدار خروجی شبکه هم تعدیل شود. همان‌طور که در این شکل می‌بینیم، مقادیر با استفاده از تابع Tanh در یک بازه مشخص (-۱ تا ۱) باقی می‌مانند:

تابع فعال‌ساز سیگموید (Sigmoid)

یکی دیگر از توابع فعال‌ساز که در ساختار شبکه عصبی LSTM وجود دارد تابع سیگموید (Sigmoid) است. این تابع مانند تابع Tanh عمل می‌کند با این تفاوت که مقادیر را میان بازه صفر تا ۱ قرار می‌دهد. دلیل این کار این است که با بردن مقادیر در این بازه می‌توانیم در زمان به‌روزرسانی یا فراموش‌کردن داده از آن استفاده کنیم؛ چون هر عددی که در صفر ضرب شود نتیجه صفر می‌شود و این یعنی آن داده باید فراموش شود و هر عددی که در ۱ ضرب شود برابر با خودش می‌شود و این یعنی آن داده باید حفظ شود؛ به‌این شکل شبکه یاد می‌گیرد کدام اطلاعات را فراموش و کدام را حفظ کند.

حال لازم است با گیت‌های موجود در ساختار شبکه عصبی LSTM آشنا شویم. این شبکه سه گیت دارد: گیت فراموشی (forget gate)، گیت ورودی (input gate) و گیت خروجی (output gate).

گیت‌های موجود در ساختار شبکه عصبی LSTM

گیت فراموشی (Forget Gate)

این گیت تصمیم می‌گیرد کدام اطلاعات حفظ و کدام فراموش شود. اطلاعات ورودی گام جدید به‌همراه اطلاعات حالت نهان (Hidden State) گام قبلی به این گیت وارد می‌شوند و از تابع Sigmoid عبور می‌کنند. خروجی این تابع، همان‌طور که قبلاً گفتیم، میان صفر تا ۱ است. هر قدر عدد خروجی به صفر نزدیک‌تر باشد یعنی باید اطلاعات فراموش شود و هر قدر به ۱ نزدیک‌تر باشد یعنی باید حفظ شود.

گیت ورودی (Input Gate)

این گیت برای به‌روزرسانی مقادیر (اطلاعات) موجود در cell state تعبیه شده است. اطلاعات ورودی گام جدید، به‌همراه اطلاعات hidden state گام قبلی، به این گیت وارد می‌شوند و از تابع Sigmoid عبور می‌کنند تا این تابع تصمیم بگیرد کدام اطلاعات (نزدیک به صفر) دور انداخته و کدوم (نزدیک به ۱) به‌روزرسانی شوند. هم‌چنین اطلاعات ورودی گام جدید، به‌همراه اطلاعات hidden state گام قبلی، یه تابع Tanh وارد می‌شوند تا مقادیرشان میان -۱ تا ۱ قرار بگیرد. درنهایت خروجی تابع Sigmoid و Tanh با هم ضرب می‌شوند تا تابع Sigmoid تصمیم بگیرد چه مقادیری از خروجی تابع Tanh باید حفظ شوند.

حالت سلول (Cell State)

حال می‌توانیم با اطلاعات خروجی از گیت فراموشی و ورودی مقادیر cell state را آپدیت کنیم؛ به‌این شکل که اول مقدار cell state در خروجی گیت فراموشی ضرب در نقطه‌ای (Pointwise Multiplication) می‌شود. در این قسمت هر مقداری در cell state که با مقدار نزدیک به صفر خروجی گیت فراموشی ضرب شود، فراموش می‌شود یا به‌زبان دیگه کنار گذاشته می‌شود. بعد از این مرحله مقدار cell state با خروجی گیت ورودی جمع نقطه‌ای (Pointwise Addition) می‌شود که مقدار cell state با مقادیر جدیدی که شبکه تشخیص داده است لازم هستند به‌روزرسانی شوند. در پایان این مرحله مقادیر cell state به‌روزرسانی شده‌اند و جدید هستند.

گیت خروجی (Output Gate)

این گیت درنهایت تصمیم می‌گیرد که hidden state بعدی ( گام بعدی) چه مقداری باشد. همان‌طور که می‌دانیم، hidden state اطلاعات ورودی‌های قبلی را همراه خودش دارد. اول اطلاعات ورودی گام جدید به‌همراه اطلاعات hidden state گام قبلی یه تابع Sigmoid وارد می‌شوند. مقدار آپدیت‌شده cell state به تابع Tanh وارد می‌شود. خروجی این دو تابع با هم ضرب می‌شود تا تصمیم گرفته شود hidden state چه اطلاعاتی را با خودش به گام بعدی ببرد. در‌نهایت cell state جدید و hidden state جدید به گام زمانی بعدی منتقل می‌شوند.

خلاصه مطالب درباره شبکه عصبی LSTM

شبکه‌های RNN، بااینکه برای پردازش داده‌های ترتیبی ساخته شده‌اند و در برخی موارد ممکن است عملکرد خوبی داشته باشند، مشکل حافظه کوتاه‌مدت دارند؛ به‌همین دلیل نوع دیگری از این شبکه‌ها به‌اسم شبکه LSTM به میدان وارد شده است تا با حل این مشکل به تحقیقات در زمینه‌هایی مانند تشخیص گفتار، پردازش زبان طبیعی و غیره کمک بزرگی کند.

البته ناگفته نماند که بعد از شبکه LSTM، مدل دیگری از این شبکه به‌نام GRU هم معرفی شده است که در مقایسه با مدل LSTM تغییرات کوچکی کرده است.

پیشنهاد می‌کنیم برای اطلاعات بیشتر با با شبکه عصبی کانولوشنی CNN بیشتر آشنا شوید.