آموزش گام‌به‌گام پیاده‌سازی مدل‌های ترنسفورمر با PyTorch

ترنسفورمرها (Transformers)، به عنوان یکی از پیشرفته‌ترین مدل‌های یادگیری عمیق، نقش مهمی در تحول پردازش زبان طبیعی ایفا کرده‌اند. این مدل‌ها با مکانیزم توجه خود قابلیت پردازش موازی داده‌ها و مدیریت وابستگی‌های بلندمدت را دارند. PyTorch، به عنوان یک کتابخانه متن‌باز و قدرتمند، امکان پیاده‌سازی و استفاده از ترنسفورمرها را به سادگی فراهم کرده است. در این مقاله، به بررسی نحوه پیاده‌سازی مدل‌های ترنسفورمر با PyTorch و کاربردهای متنوع آن‌ها در زمینه‌هایی مانند ترجمه ماشینی، پردازش زبان طبیعی و تشخیص گفتار می‌پردازیم تا خوانندگان با قابلیت‌ها و توانایی‌های این مدل‌ها و ابزارهای مرتبط آشنا شوند.

فهرست مطالب پنهان‌کردن فهرست

1. ترنسفورمر چیست؟
1. 1.1. ترنسفورمرها از چه بخش‌هایی تشکیل شده‌اند؟
2. PyTorch و ترنسفورمرها
1. 2.1. کاربردهای ترنسفورمر با PyTorch
3. ساخت یک مدل ترنسفورمر با PyTorch
4. پیاده‌سازی یک مدل ترنسفورمر با PyTorch
5. استفاده از مدل‌های ترنسفورمر پیش‌آموزش‌دیده با Hugging Face
6. جمع‌بندی درباره مدل‌های ترنسفورمر با PyTorch
7. سوالات متداول
8. یادگیری ماشین لرنینگ را از امروز شروع کنید!

ترنسفورمر چیست؟

مدل ترنسفورمر برای اولین بار در سال ۲۰۱۷ توسط تیم تحقیقاتی گوگل معرفی شد. مقاله معروف Attention is All You Need این مدل را به جهان معرفی کرد و نشان داد که با استفاده از مکانیزم توجه (Attention Mechanism)، می‌توان به دقت‌های بی‌سابقه‌ای در پردازش زبان طبیعی دست یافت. ترنسفورمرها از ساختار منحصربه‌فرد خود برای پردازش موازی داده‌ها بهره می‌برند و برخلاف مدل‌های سنتی مانندRNN ها که به ترتیب زمان پردازش می‌شوند، قادراند داده‌ها را به صورت موازی پردازش کنند. این ویژگی باعث شده تا ترنسفورمرها بتوانند وابستگی‌های بلندمدت در داده‌ها را بهتر مدیریت کنند و کارایی بالاتری در وظایف مختلف یادگیری عمیق داشته باشند.

پیشنهاد می‌کنیم این ویدئوی یوتیوب را که رضا شکرزاد در آن به‌طور کامل مقاله ترنسفورمرها را بررسی کرده نیز تماشا کنید.

یکی از مهم‌ترین اجزای ترنسفورمرها، مکانیزم توجه یا به‌طور خاص، مکانیزم خود-توجه (Self-Attention) است که به مدل اجازه می‌دهد تا به تمام بخش‌های ورودی نگاه کرده و اهمیت هر بخش را برای تولید خروجی محاسبه کند. این مکانیزم یک طرح وزن‌دهی است که به مدل اجازه می‌دهد هنگام تولید خروجی به بخش‌های مختلف ورودی توجه کند. درواقع، مکانیزم خود-توجه به مدل اجازه می‌دهد که کلمات یا ویژگی‌های مختلف در توالی ورودی را در نظر بگیرد و به هر یک وزنی اختصاص دهد که نشان‌دهنده اهمیت آن برای تولید یک خروجی مشخص است.

برای مثال، در ترجمه یک جمله، هنگام ترجمه یک کلمه خاص، مدل ممکن است وزن‌های توجه بیشتری به کلماتی که به صورت دستوری یا معنایی با کلمه هدف مرتبط هستند، اختصاص دهد. این فرآیند به ترنسفورمر این امکان را می‌دهد که وابستگی‌ها بین کلمات یا ویژگی‌ها را بدون توجه به فاصله آن‌ها از یکدیگر در توالی به دست آورد.

ترنسفورمرها از چه بخش‌هایی تشکیل شده‌اند؟

ترنسفورمرها از دو بخش اصلی به نام‌های انکودر (Encoder) و دکودر (Decoder) تشکیل شده‌اند. انکودر وظیفه دارد ورودی‌ها را به یک نمایش داخلی تبدیل کند، در حالی که دکودر از این نمایش داخلی برای تولید خروجی‌ها استفاده می‌کند. هر دو بخش از مکانیزم توجه بهره می‌برند که به مدل اجازه می‌دهد تمرکز خود را بر روی بخش‌های مهم‌تر ورودی یا خروجی تنظیم کند.

برای آشنایی بیشتر با ترنسفورمرها مقاله ترنسفورمر چیست؟ را بخوانید.

پس از معرفی، ترنسفورمرها به‌سرعت جایگزین مدل‌های قدیمی‌تر مانند RNN شده و به استاندارد جدیدی در یادگیری عمیق و پردازش زبان طبیعی تبدیل شدند. این مدل‌ها در بسیاری از وظایف مانند ترجمه ماشینی، تولید متن، خلاصه‌سازی و پاسخ به سوالات به کار گرفته شده و نتایج بسیار بهتری نسبت به مدل‌های پیشین به دست آورد‌ه‌اند. از زمان معرفی‌شان تاکنون، ترنسفورمرها بهبودهای بسیاری داشته و نسخه‌های پیشرفته‌تری از آن‌ها مانند BERT و GPT نیز معرفی شده‌اند که هر کدام قابلیت‌ها و کاربردهای جدیدی را به ارمغان آورده‌اند.

PyTorch و ترنسفورمرها

PyTorch یک کتابخانه متن‌باز برای یادگیری عمیق است که توسط فیسبوک توسعه داده شده است. این کتابخانه به دلیل سادگی در استفاده، انعطاف‌پذیری بالا و پشتیبانی قوی از GPU ها، به یکی از محبوب‌ترین ابزارها در میان پژوهشگران و توسعه‌دهندگان تبدیل شده است. پایتورچ امکان تعریف، آموزش و ارزیابی مدل‌های پیچیده یادگیری عمیق از جمله ترنسفورمرها را با کمترین دردسر فراهم می‌کند.

برای آشنایی بیشتر با پایتورچ مقاله آشنایی کامل با کتابخانه PyTorch را بخوانید.

کاربردهای ترنسفورمر با PyTorch

همان‌طور که اشاره کردیم، مدل‌های ترنسفورمر در حوزه‌های مختلفی از پردازش زبان طبیعی و یادگیری عمیق به کار گرفته می‌شوند. پایتورچ به عنوان یکی از ابزارهای قدرتمند یادگیری عمیق، امکان پیاده‌سازی و استفاده از ترنسفورمرها را به راحتی فراهم کرده است. در این بخش به برخی از کاربردهای اصلی ترنسفورمرها با استفاده از پایتورچ می‌پردازیم.

ترجمه ماشینی

یکی از برجسته‌ترین کاربردهای ترنسفورمر، ترجمه ماشینی است. مدل‌های ترنسفورمر به دلیل توانایی بالا در درک وابستگی‌های بلندمدت و ساختار جملات، در ترجمه متون از یک زبان به زبان دیگر بسیار مؤثر هستند. با استفاده از پایتورچ، می‌توان مدل‌های ترجمه ماشینی قدرتمندی ساخت که دقت و سرعت بالایی دارند. این مدل‌ها قادرند ترجمه‌های طبیعی و دقیق‌تری نسبت به مدل‌های سنتی ارائه دهند.

پردازش زبان طبیعی

ترنسفورمرها در پردازش زبان طبیعی (NLP) نیز کاربردهای گسترده‌ای دارند. از جمله این کاربردها می‌توان به تحلیل متون، استخراج مفاهیم و معانی، خلاصه‌سازی متون، پاسخ به سوالات و تولید خودکار متون اشاره کرد. پایتورچ با ارائه ابزارهای مناسب، به پژوهشگران و توسعه‌دهندگان این امکان را می‌دهد که مدل‌های پیچیده NLP را به سادگی پیاده‌سازی و اجرا کنند.

تشخیص گفتار

ترنسفورمرها همچنین در تشخیص گفتار کاربردهای فراوانی دارند. این مدل‌ها می‌توانند گفتار انسان را به متن تبدیل کنند و در کاربردهای مختلفی مانند دستیارهای صوتی، سیستم‌های پاسخگویی خودکار و تبدیل گفتار به متن استفاده شوند. پایتورچ با پشتیبانی از ترنسفورمرها، به توسعه‌دهندگان این امکان را می‌دهد که مدل‌های تشخیص گفتار با دقت بالا ایجاد کنند.

تولید خودکار متن

یکی دیگر از کاربردهای ترنسفورمرها، تولید خودکار متن است. مدل‌های ترنسفورمر مانند GPT قادر هستند متون جدیدی تولید کنند که از نظر زبان و سبک به متون انسانی بسیار نزدیک هستند. این مدل‌ها می‌توانند برای تولید محتوای متنی، نوشتن مقالات، داستان‌سرایی و حتی ایجاد مکالمات خودکار در چت‌بات‌ها به کار روند.

تحلیل احساسات

مدل‌های ترنسفورمر می‌توانند احساسات موجود در متون را تحلیل کرده و تشخیص دهند. این کاربرد در زمینه‌هایی مانند تحلیل نظرات کاربران، بررسی بازخوردها و شناسایی احساسات مثبت، منفی و خنثی بسیار مفید است. پایتورچ ابزارهای مناسبی برای پیاده‌سازی مدل‌های تحلیل احساسات ارائه می‌دهد که می‌توانند دقت بالایی در این زمینه داشته باشند.

پاسخ به سوالات

ترنسفورمرها می‌توانند به سوالات کاربران پاسخ دهند. این کاربرد در سیستم‌های جستجوی اطلاعات، چت‌بات‌ها و دستیارهای هوشمند بسیار مؤثر است. مدل‌های ترنسفورمر با درک سوالات و استخراج پاسخ‌های مناسب از متون موجود، به کاربران کمک می‌کنند به سرعت به اطلاعات مورد نیاز خود دست یابند.

ساخت یک مدل ترنسفورمر با PyTorch

ساخت مدل‌های ترنسفورمر با استفاده از پایتورچ به چندین مرحله تقسیم می‌شود:

تعریف بلوک‌های پایه‌ای ترنسفورمر

ترنسفورمر از چندین بلوک پایه‌ای تشکیل شده است که شامل توجه چندسر (Multi-Head Attention)، شبکه‌های پیش‌خور موضعی (Position-Wise Feed-Forward Networks) و کدگذاری موضعی (Positional Encoding) می‌باشد. هر یک از این بلوک‌ها باید به صورت جداگانه برای مدل تعریف شوند.

ساخت بلوک رمزگذار

بلوک رمزگذار (Encoder Block) مسئول پردازش ورودی‌ها و تولید بازنمایی‌های داخلی است. این بلوک شامل لایه‌های توجه چندسر و شبکه‌های پیش‌خور موضعی است که به ترتیب پردازش می‌شوند. این ترکیب به مدل کمک می‌کند تا ویژگی‌های پیچیده‌ای از ورودی‌ها استخراج کرده و ترتیب توکن‌ها را در دنباله در نظر بگیرد.

ساخت بلوک رمزگشا

بلوک رمزگشا (Decoder Block) مسئول تولید خروجی‌ها بر اساس بازنمایی‌های داخلی تولید شده توسط رمزگذار است. این بلوک نیز شامل لایه‌های توجه چندسر و شبکه‌های پیش‌خور موضعی است. علاوه بر این، بلوک رمزگشا به بازنمایی‌های تولید شده توسط رمزگذار نیز توجه می‌کند تا اطلاعات ورودی را به خروجی مرتبط تبدیل کند.

ترکیب لایه‌های رمزگذار و رمزگشا

در نهایت، لایه‌های رمزگذار و رمزگشا با هم ترکیب می‌شوند تا شبکه ترنسفورمر کامل ساخته شود. این شبکه می‌تواند برای وظایف مختلفی مانند ترجمه ماشینی، پردازش زبان طبیعی و غیره استفاده شود. ترکیب این بلوک‌ها به مدل اجازه می‌دهد تا با استفاده از مکانیزم توجه و پردازش توالی، روابط پیچیده بین ورودی‌ها و خروجی‌ها را یاد بگیرد و عملکرد بهتری در انجام وظایف مختلف داشته باشد.

پیاده‌سازی یک مدل ترنسفورمر با PyTorch

برای ساخت یک مدل ترنسفورمر با PyTorch ابتدا لازم است کتابخانه‌های مورد نیاز را فراخوانی کنیم:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as data
import math

تعریف بلوک‌ توجه چندسر

مکانیزم توجه چندسر (Multi-Head Attention) ارتباط بین هر جفت از موقعیت‌ها را در یک دنباله محاسبه می‌کند. این مکانیزم شامل چندین سر توجه یا attention head است که جنبه‌های مختلف دنباله ورودی را درک و تحلیل می‌کنند. برای تعریف این بلوک‌ها، ابتدا یک کلاس MultiHeadAttention که از nn.Module ارث‌بری می‌کند می‌سازیم:

class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        # Ensure that the model dimension (d_model) is divisible by the number of heads
        assert d_model % num_heads == 0, "d_model must be divisible by num_heads"
        # Initialize dimensions
        self.d_model = d_model # Model's dimension
        self.num_heads = num_heads # Number of attention heads
        self.d_k = d_model // num_heads # Dimension of each head's key, query, and value
        # Linear layers for transforming inputs
        self.W_q = nn.Linear(d_model, d_model) # Query transformation
        self.W_k = nn.Linear(d_model, d_model) # Key transformation
        self.W_v = nn.Linear(d_model, d_model) # Value transformation
        self.W_o = nn.Linear(d_model, d_model) # Output transformation

که در آن:

d_model ابعاد ورودی است.
num_heads تعداد سرهای توجه برای تقسیم ورودی به آن‌هاست.

تابع __init__ این کلاس ابتدا بررسی می‌کند که ابعاد ورودی مدل قابل تقسیم بر تعداد سرهای توجه باشد. سپس لایه‌های کاملا متصل مربوط به ماتریس‌های کوئری (Query)، کلید (Key)، مقدار (Value) و همچنین خروجی (Output) را تعریف می‌کند.

این لایه‌های کاملا متصل همان لایه‌های Linear در شکل زیر هستند که قسمتی از جزوه تدریس مبحث ترنسفورمرها در کلاس علم داده رضا شکرزاد است:

چرا تعداد نورون‌های ورودی و خروجی این لایه‌های خطی برابر با d_model تنظیم می‌شود؟

این تنظیم باعث حفظ سازگاری ابعادی در طول مدل می‌شود، به طوری که خروجی هر مرحله به راحتی ورودی مرحله بعدی باشد. درواقع، برای ادغام سرهای توجه، هر سر توجه به طور جداگانه بردارهای Key، Query و Value را با ابعاد d_k پردازش می‌کند و سپس خروجی‌های همه سرهای توجه ترکیب شده تا یک خروجی نهایی واحد با بعد d_model تولید شود. همچنین، ابعاد d_model به گونه‌ای انتخاب شده است که نماینده ویژگی‌های معنایی مهم در داده‌ها باشد و با حفظ این ابعاد در ورودی و خروجی لایه‌های خطی، اطلاعات معنایی مهم حفظ می‌شوند و مدل می‌تواند با کارایی بیشتری یادگیری کند.

به عنوان مثال، اگر d_model برابر با ۵۱۲ و تعداد سرهای توجه num_heads برابر با ۸ باشد، d_k برابر با ۶۴ خواهد بود و لایه‌های خطی باید تبدیل‌هایی را انجام دهند که ورودی با بعد ۵۱۲ را به بعد ۵۱۲ تبدیل کنند، سپس به ۸ سر تقسیم شده و هر سر ورودی‌هایی با بعد ۶۴ دریافت کند و پس از پردازش توسط سرها، خروجی‌ها با هم ترکیب شده و دوباره به بعد ۵۱۲ برگردند. به این ترتیب، تنظیم ورودی و خروجی لایه‌های خطی با d_model این فرایند را به درستی انجام می‌دهد و سازگاری ابعادی را در سراسر مدل حفظ می‌کند.

محاسبه نمرات توجه

یکی دیگر از توابع این کلاس برای پیاده‌سازی ترنسفورمر با PyTorch تابع scaled_dot_product_attention است:

    def scaled_dot_product_attention(self, Q, K, V, mask=None):
        # Calculate attention scores
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        # Apply mask if provided (useful for preventing attention to certain parts like padding)
        if mask is not None:
            attn_scores = attn_scores.masked_fill(mask == 0, -1e9)
        # Softmax is applied to obtain attention probabilities
        attn_probs = torch.softmax(attn_scores, dim=-1)
        # Multiply by values to obtain the final output
        output = torch.matmul(attn_probs, V)
        return output

در این تابع ابتدا ماتریس نمرات توجه (Attention Scores) را با استفاده از حاصل ضرب نقطه‌ای بین ماتریس کوئری‌ها (Q) و ترانهاده‌ی ماتریس کلیدها (K) محاسبه می‌کنیم. این حاصل ضرب نقطه‌ای (torch.matmul) منجر به تولید یک ماتریس می‌شود که هر عنصر آن نشان‌دهنده همبستگی یا تشابه بین یک کوئری خاص و یک کلید خاص است. سپس، برای جلوگیری از بزرگ شدن نمرات توجه و کنترل مقدار آن‌ها، این نمرات را بر جذر بُعد کلید (d_k) تقسیم می‌کنیم. این مقیاس‌بندی کمک می‌کند تا نمرات توجه به صورت متعادل و قابل مقایسه باقی بمانند.

این قسمت نیز در کلاس علم داده رضا شکرزاد به‌صورت کامل تدریس شده است:

اعمال ماسک

در این تابع همچنین درصورت برقراری شرط None نبودن متغیر mask، برخی از نمرات توجه را از بین می‌بریم. به‌عنوان مثال، در مدل‌های زبانی، این کار می‌تواند برای جلوگیری از توجه به مکان‌های پدشده یا برای حفظ اطلاعات آینده در مراحل پیش‌بینی استفاده شود.

برای انجام این کار، ماتریس نمرات توجه (Q.KT) را با ماتریس mask جمع می‌کنیم که در تمام درایه‌های آن صفر قرار گرفته به‌جز درایه‌هایی که می‌خواهیم درایه متناظرشان در ماتریس نمرات توجه، حذف گردند. در آن درایه‌ها از ماتریس mask، به‌جای صفر یک عدد منفی بسیار بزرگ قرار می‌دهیم و به‌این‌ترتیب در خروجی، ماتریسی خواهیم داشت که برخی درایه‌های آن به‌علت جمع شدن با صفر بی‌تغییر می‌مانند و برخی دیگر به‌علت جمع شدن با یک عدد بسیار منفی، به منفی بی‌نهایت میل می‌کنند.

محاسبه وزن‌های توجه

درادامه، نمرات توجه را از یک تابع softmax عبور می‌دهیم. تابع softmax نمرات توجه را به مقادیر بین ۰ و ۱ تبدیل می‌کند، به طوری که مجموع این مقادیر در طول یک بُعد مشخص (معمولاً بعد آخر) برابر با ۱ است. این احتمالات وزن‌های توجه (Attention weights) نامیده می‌شوند و نشان‌دهنده میزان توجه هر کوئری به هر کلید هستند. رضا شکرزاد در کلاس علم داده درمورد این قسمت نیز صحبت کرده است:

محاسبه خروجی

درپایان این تابع، خروجی نهایی توجه را با ضرب ماتریس وزن‌های توجه در ماتریس مقادیر (V) محاسبه می‌کنیم. این مرحله منجر به تولید یک ماتریس خروجی می‌شود که ترکیبی از مقادیر مختلف با وزن‌دهی بر اساس توجه‌های محاسبه شده است. به عبارت دیگر، هر عنصر در خروجی توجه ترکیبی از مقادیر مختلف است که با توجه به وزن‌های محاسبه شده از مرحله قبل، وزن‌دهی شده‌اند.

تقسیم سرهای توجه

درادامه تابع split_heads را در کلاس MultiHeadAttentions تعریف می‌کنیم:

    def split_heads(self, x):
        # Reshape the input to have num_heads for multi-head attention
        batch_size, seq_length, d_model = x.size()
        return x.view(batch_size, seq_length, self.num_heads, self.d_k).transpose(1, 2)

این متد در مدل توجه چندسر (Multi-Head Attention) ابعاد ورودی x را تغییر می‌دهد تا مدل بتواند چندین سر توجه را به طور همزمان پردازش کند و محاسبات موازی را امکان‌پذیر سازد. برای این منظور، ابتدا ابعاد ورودی شامل batch_size (تعداد نمونه‌ها در هر دسته)، seq_length (طول دنباله) و d_model (بعد مدل) استخراج می‌شود. سپس با استفاده از دستور view، شکل ورودی به (batch_size, seq_length, num_heads, d_k) تغییر داده می‌شود. همان‌طور که قبلا گفتیم، d_k برابر با مقدار صحیح تقسیم d_model بر num_heads است. در نهایت، با استفاده از دستور transpose، ابعاد دوم و سوم جابجا می‌شوند تا شکل نهایی ورودی به صورت (batch_size, num_heads, seq_length, d_k) درآید. این تغییر شکل و جابجایی ابعاد به مدل اجازه می‌دهد تا ورودی‌ها را به طور همزمان و موازی برای هر سر توجه جداگانه پردازش کند، که منجر به افزایش کارایی و دقت مدل در درک ویژگی‌های پیچیده‌تر داده‌ها می‌شود.

ترکیب سرهای توجه

تابع یا متد بعدی این کلاس، combined_heads است:

    def combine_heads(self, x):
        # Combine the multiple heads back to original shape
        batch_size, _, seq_length, d_k = x.size()
        return x.transpose(1, 2).contiguous().view(batch_size, seq_length, self.d_model)

با این متد بعد از اعمال مکانیزم توجه به هر سر به صورت جداگانه، نتایج را دوباره باهم ترکیب می‌کنیم تا به یک تنسور واحد با ابعاد (batch_size, seq_length, d_model) برسیم. این مرحله، نتیجه را برای پردازش‌های بعدی آماده می‌کند.

تابع forward

آخرین تابع کلاس MultiHeadAttention برای استفاده در مدل ترنسفورمر با PyTorch تضمین می‌کند که تمام مراحل محاسباتی چندسر توجه به درستی و به‌ترتیب مناسبی انجام شوند:

    def forward(self, Q, K, V, mask=None):
        # Apply linear transformations and split heads
        Q = self.split_heads(self.W_q(Q))
        K = self.split_heads(self.W_k(K))
        V = self.split_heads(self.W_v(V))
        # Perform scaled dot-product attention
        attn_output = self.scaled_dot_product_attention(Q, K, V, mask)
        # Combine heads and apply output transformation
        output = self.W_o(self.combine_heads(attn_output))
        return output

در این تابع ابتدا ماتریس‌های کوئری‌ (Q)، کلید (K) و مقدار (V) را از طریق لایه‌های خطی که قبلا تعریفشان کردیم، عبور می‌دهیم تا به ابعاد مناسب تبدیل شوند. سپس، این تنسورها را با استفاده از متد split_heads به چندین سر تقسیم می‌کنیم تا محاسبات توجه به‌صورت موازی انجام شود.

در مرحله بعد، متد scaled_dot_product_attention را برای هر سر فراخوانی می‌کنیم تا وزن‌های توجه محاسبه و در ماتریس مقادیر (V) ضرب داخلی شوند. بعد از اعمال مکانیزم توجه، نتایج هر سر را با استفاده از متد combine_heads دوباره به یک تنسور واحد تبدلی می‌کنیم. در نهایت، این تنسور ترکیب‌شده را از طریق یک لایه خطی خروجی عبور می‌دهیم تا نتیجه نهایی آماده شود.

این متد به طور کامل مکانیزم توجه چندسر را پیاده‌سازی می‌کند و به مدل اجازه می‌دهد تا روابط مختلف داده‌های ورودی را در مقیاس‌های مختلف کشف کند.

تعریف بلوک‌ پیش‌خور

بلوک‌ پیش‌خور (FeedForward) کلاس دیگری است که باید برای پیاده‌سازی مدل ترنسفورمر با PyTorch تعریف کنیم. نام این کلاس را PositionWiseFeedForward می‌گذاریم که آن هم از nn.Module ارث‌بری می‌کند:

class PositionWiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff):
        super(PositionWiseFeedForward, self).__init__()
        self.fc1 = nn.Linear(d_model, d_ff)
        self.fc2 = nn.Linear(d_ff, d_model)
        self.relu = nn.ReLU()

که در آن:

d_model بعد ورودی و خروجی مدل و نشان‌دهنده تعداد ویژگی‌هایی است که مدل در هر لحظه از زمان پردازش می‌کند.
d_ff بعد لایه داخلی در شبکه پیش‌خور و نشان‌دهنده تعداد واحدهای نورونی در لایه مخفی شبکه پیش‌خور است.
self.fc1 یک لایه کاملاً متصل (خطی) است که ابعاد ورودی آن برابر با d_model و ابعاد خروجی آن برابر با d_ff است.
self.fc2 یک لایه خطی که ابعاد ورودی آن برابر با d_ff و ابعاد خروجی آن برابر با d_model است.
self.relu تابع فعال‌ساز ReLU (واحد خطی اصلاح‌شده) است، که غیرخطی بودن را بین دو لایه خطی معرفی می‌کند. این تابع فعال‌سازی به مدل کمک می‌کند تا روابط پیچیده‌تری را یاد بگیرد.

متد forward را در این کلاس به‌صورت زیر تعریف می‌کنیم:

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

این متد در کلاس PositionWiseFeedForward به این صورت عمل می‌کند که ابتدا ورودی x را از طریق اولین لایه خطی (fc1) عبور می‌دهد تا به فضای ویژگی با ابعاد d_ff تبدیل شود. سپس خروجی fc1 را از تابع فعال‌سازی ReLU عبور می‌دهد. بعد از این مرحله، خروجی از طریق دومین لایه خطی (fc2) عبور می‌کند تا به ابعاد اصلی d_model بازگردد. سپس نتیجه به‌عنوان خروجی نهایی بازگردانده می‌شود.

تعریف بلوک‌های رمزگذاری موضعی

رمزگذاری موضعی (Positional Embedding) اطلاعات موقعیت را به ورودی‌های مدل اضافه می‌کند تا مدل بتواند ترتیب توکن‌ها را در دنباله درک کند. این کلاس نیز از nn.Module ارث‌بری کرده و آن را به‌صورت زیر تعریف می‌کنیم:

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length):
        super(PositionalEncoding, self).__init__()
        pe = torch.zeros(max_seq_length, d_model)
        position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        self.register_buffer('pe', pe.unsqueeze(0))

که در آن:

d_model بعد ورودی مدل است و تعداد ویژگی‌هایی را که مدل در هر زمان پردازش می‌کند نشان می‌دهد.
max_seq_length حداکثر طول دنباله است که برای آن رمزگذاری‌های موضعی از پیش محاسبه می‌شوند.
pe یک تنسور تمام صفر است که با رمزگذاری‌های موضعی پر خواهد شد.
position یک تنسور حاوی اندیس‌های موقعیت برای هر موقعیت در دنباله است.
div_term یک عبارت است که برای مقیاس‌بندی اندیس‌های موقعیت به روش خاصی استفاده می‌شود.
تابع سینوس بر روی اندیس‌های زوج و تابع کسینوس بر روی اندیس‌های فرد تنسور pe اعمال می‌شود.
pe به عنوان یک بافر ثبت می‌شود که به این معناست که بخشی از وضعیت ماژول خواهد بود اما به عنوان یک پارامتر قابل آموزش در نظر گرفته نمی‌شود.

متد forward را در این کلاس به‌صورت زیر تعریف می‌کنیم:

def forward(self, x):
return x + self.pe[:, :x.size(1)]

این تابع رمزگذاری‌های موضعی را به ورودی x اضافه می‌کند تا مدل بتواند از اطلاعات موقعیت توکن‌ها استفاده کند.

در تصویر زیر می‌توانید جزوه مربوط به تدریس این مبحث را در کلاس علم داده رضا شکرزاد ببینید و درک بهتری از آن داشته باشید: