پردازش زبان طبیعی در زبان فارسی چگونه است؟ در این مطلب به سراغ این پرسش اساسی رفتهایم. در ابتدا بهصورت کلی توضیح میدهیم که پردازش زبان طبیعی چیست و چطور کار میکند؛ شرح کار و هدفهای آن را شرح میدهیم، مرحلههای مختلف آن را توضیح میدهیم و سپس بهصورت عملیاتیتر به سراغ این فرایند در زبان فارسی میرویم و از چالشهای آن میگوییم.
- 1. پردازش زبان طبیعی یا NLP را بیشتر بشناسیم
-
2.
وظایف پردازش زبان طبیعی (NLP)
- 2.1. تشخیص گفتار (Speech Recognition)
- 2.2. برچسبگذاری اجزای گفتار (Part of Speech Tagging)
- 2.3. شناسایی موجودیت نامگذاریشده (Named Entity Recognition)
- 2.4. تقسیمبندی جملهها (Sentence Segmentation)
- 2.5. توکنسازی (Tokenization)
- 2.6. Stemming
- 2.7. Lemmatization
- 2.8. شناسایی کلمههای توقف (Identifying StopWords)
- 2.9. طبقهبندی متن (Text classification)
- 2.10. تجزیهوتحلیل احساسات (Sentiment Analysis)
- 2.11. تولید زبان طبیعی (Natural Language Generation)
-
3.
مجموعه متون (Corpora)
- 3.1. Persian Wikipedia Corpus
- 3.2. MirasText
- 3.3. Farsi News Datasets
- 3.4. VOA Corpus
- 3.5. A large collection of Persian raw text
- 3.6. W2C – Web to Corpus – Corpora
- 3.7. dotIR Collection
- 3.8. irBlogs
- 3.9. Persian Poems Corpus
- 3.10. HmBlogs: A big general Persian corpus
- 3.11. ganjoor-tex
- 3.12. Corpus of Conversational Persian Transcripts
- 4. چالشهای ایجاد مجموعه متون (Copora) فارسی در منابع آنلاین
- 5. جمعبندی مطالب درباره پردازش زبان طبیعی در زبان فارسی
- 6. با کافهتدریس دیتا ساینس را آسان بیاموزید!
پردازش زبان طبیعی یا NLP را بیشتر بشناسیم
پردازش زبان طبیعی (NLP) به شاخهای از علوم کامپیوتر و بهطور خاصتر، شاخه هوش مصنوعی یا AI اشاره میکند. این شاخه به رایانهها توانایی درک متن و گفتار را بههمان روشی میدهد که انسان قادر به انجامدادن آن است. NLP قوانین زبانشناسی محاسباتی (Computational Linguistics) را با مدلهای آماری، یادگیری ماشین و یادگیری عمیق ترکیب میکند. این فناوریها، در کنار هم، رایانهها را قادر میکنند تا زبان انسان را بهصورت متن یا دادههای صوتی پردازش کنند و معنای آن «درک» کنند.
NLP در پشت پرده برنامههای کامپیوتری قرار دارد که متن را از یک زبان به زبان دیگر ترجمه میکنند، به دستورهای گفتاری پاسخ میدهند و حجم زیادی از متن را بهسرعت و حتی بهشکل بیدرنگ خلاصه میکنند. احتمالاً با نرمافزارها و دستیارهای مجازی مانند سیری اپل (Apple Siri)، گرامرلی (Grammarly) یا Google Translate کار کردهاید. اینها نمونههایی از کاربردهای پردازش زبان طبیعی است.
NLP همچنین نقش روبهرشدی در راهحلهای سازمانی ایفا میکند که به سادهسازی عملیات تجاری، افزایش بهرهوری کارکنان و سادهسازی فرایندهای کسبوکار کمک میکند.
پیش از مطالعه بیشتر درباره پردازش زبان طبیعی در فارسی پیشنهاد میکنیم درباره درک زبان طبیعی (NLU) بیشتر بدانید.
وظایف پردازش زبان طبیعی (NLP)
زبان انسان مملو از ابهامهایی است که نوشتن نرمافزاری را که دقیقاً معنای متن یا دادههای صوتی را درک کند بسیار دشوار میکند. هممعنیها، همآواها، کنایهها، اصطلاحات، استعارهها، گرامر و استثناهای کاربردی فقط تعداد کمی از بینظمیهای زبان انسانی هستند که کاری میکنند یادگیری آن سالها طول بکشد. این در حالی است که برنامهنویسان باید برنامههای کاربردی مبتنی بر زبان طبیعیای را آموزش دهند که از همان ابتدا معنای متن و صوت را بهدرستی تشخیص دهند؛ بنابراین میتوان گفت آموزش کامپیوتر برای درک زبان طبیعی انسان کار آسانی نیست.
در حوزه پردازش زبان طبیعی تسکهایی وجود دارد که به این کار کمک میکند و درواقع تسک بزرگ درک زبان طبیعی را به تکههای کوچکتری تقسیم میکند تا انجامدادن آن برای کامپیوتر راحتتر باشد.
برخی از این وظایف از این قرار است:
تشخیص گفتار (Speech Recognition)
تشخیص گفتار که تبدیل گفتار به متن نیز نامیده میشود بهمعنای تبدیل دادههای صوتی به دادههای متنی است. تشخیص گفتار برای هر برنامهای که به دستورهای صوتی یا سؤالهای گفتاری پاسخ میدهد لازم است. چیزی که تشخیص گفتار را چالشبرانگیز میکند نحوه صحبتکردن افراد است؛ برای مثال، سرعت صحبتکردن، لحن مختلف، لهجههای مختلف یا استفاده از دستور زبان نادرست از آن جمله است.
پیشنهاد میکنیم درباره تشخیص گفتار (Speech Recognition) بیشتر بدانید.
برچسبگذاری اجزای گفتار (Part of Speech Tagging)
برچسبگذاری اجزای گفتارکه برچسبگذاری گرامری نیز نامیده میشود فرایند تعیین نقش یک کلمه یا عبارت خاص براساس کاربرد و مفهوم آن است؛ برای مثال، اینکه کلمه بهعنوان فعل، اسم یا قید در جمله قرار گرفته است ازجمله کارهای برچسبگذاری اجزای گفتار یا Part of Speech Tagging است.
شناسایی موجودیت نامگذاریشده (Named Entity Recognition)
این عملکرد کلمهها یا عبارتها را بهعنوان موجودیتهای خاص شناسایی میکند؛ برای مثال، کلمه «تهران» را بهعنوان یک شهر یا کلمه «سارا» را بهعنوان نام یک زن شناسایی میکند.
تقسیمبندی جملهها (Sentence Segmentation)
در این تسک کل Corpus که به کل مجموعه متن اشاره میکند به جملههای جداگانه تقسیم میشود.
توکنسازی (Tokenization)
مرحله بعدی پس از تقسیمبندی جمله توکنسازی است. جملهها به کلمهها شکسته میشوند؛ در برخی از موارد هم که علائم نگارشی اهمیت دارند، این علائم در کنار کلمهها بهعنوان توکن در نظر گرفته میشوند.
Stemming
Stemming به فرایند تقلیل کلمهها به ریشه آنها اشاره میکند. این کار با حذف ابتدا یا انتهای کلمهها انجام میشود؛ برای مثال، در زبان انگلیسی oppressor ،oppression ،oppressed ،oppressive، همه، به oppress تغییر پیدا میکنند. این کار با حذف «or» ،«ion» ،«ed» ،«ive» بهترتیب از هر کلمه به oppress که ریشه است انجام میشود.
Lemmatization
Lemmatization بهمعنای تبدیل کلمه به کلمه ریشه آن است که بهعنوان Lemma شناخته میشود، در این حالت معنای کلمه در نظر گرفته میشود و فقط آخرین بخش کلمهها را حذف نمیکند.
برای مثال، ریشه کلمههای «am» ،«is» ،«are» کلمه «be» است یا کلمههای «creation» ،«creating» ،«creative» به «create» تغییر خواهند کرد. اگر stemming انجام شود، آنها بهجای «create»، به «creati» تبدیل میشوند، یعنی لزوماً معنادار نخواهد بود.
شناسایی کلمههای توقف (Identifying StopWords)
Stopwordها کلمههای رایجی هستند که در زبانهای مختلف یافت میشوند و معنی زیادی به جمله نمیدهند؛ مثلاً در زبان انگلیسی «and» ،«the» ،«is» ،«am» و غیره stopword هستند. این کلمهها باید شناسایی و از مجموعه حذف شوند؛ زیرا مانند نویز در مجموعه داده هستند.
طبقهبندی متن (Text classification)
این مرحله از کار متن را براساس هدفی که در نظر داریم، به کلاسهای مختلفی طبقهبندی میکند.
پیشنهاد میکنیم با طبقهبندی متن (Text Classification) بیشتر آشنا شوید.
تجزیهوتحلیل احساسات (Sentiment Analysis)
این تسک نوعی طبقهبندی متن محسوب میشود. در این مرحله تلاش این است که متن را براساس قطبیت آن (مثبت، منفی، خنثی) طبقهبندی کنیم. البته موارد پیچیدهتری هم وجود دارد؛ برای مثال میتوان متن را به احساسات مختلفی مانند شادی، غم، عصبانیت و غیره طبقهبندی کرد.
تولید زبان طبیعی (Natural Language Generation)
همانطور که از نام آن پیداست در این تسک هدف تولید متن یا همان زبان طبیعی است.
علاوه بر اینها تسکهای دیگری مانند شناسایی موضوع (Topic Detection)، خلاصهسازی متن (Text Summarization)، درک مطلب (Reading Comprehension)، پرسشوپاسخ (Question Answering)، تولید سؤال (Question Generation)، شرح تصویر (Image Captioning)، تشخیص اخبار جعلی (Fake News Detection) و تشخیص سخنان نفرتانگیز (Hate Speech Detection) نیز در این حوزه وجود دارند.
مجموعه متون (Corpora)
Corpora یا Corpus (مفرد) مجموعهای از متن یا صداهای معتبر است که بهشکل مجموعه داده سازماندهی شدهاند. معتبر در اینجا بهمعنای متن نوشتهشده یا صوتی است که یک بومی با آن زبان صحبت میکند. یک Corpora میتواند از روزنامهها، رمانها، پخشهای رادیویی گرفته تا نمایشهای تلویزیونی، فیلمها و توئیتها تشکیل شود.
در ادامه برخی از مجموعه متون (Copora) موجود به زبان فارسی را معرفی کردهایم.
Persian Wikipedia Corpus
یک کپی کامل از صفحات ویکیپدیای فارسی، بهصورت متن ساده (بدون نشانهگذاریهای ویکی) و متادیتای تعبیهشده در JSON. نسخه فعلی بهصورت fawiki-20181001-dump است که ۱۱۶۰۶۷۶ مقاله مفید را شامل است.
برای دیدن این Corpora روی این لینک کلیک کنید:
MirasText
این مجموعه حاصل کاوش بیش از ۲۵۰میلیون وبسایت خبری فارسی است و بیش از ۲.۸میلیون مقاله دارد.
برای دسترسی به آن روی این لینک کلیک کنید:
Farsi News Datasets
این دیتاست از RSS Feed دو وبسایت خبری همشهری و رادیوفردا استخراج شده است.
برای دسترسی به این دیتاست به این لینک سر بزنید:
VOA Corpus
این مجموعه فارسی ۷.۹ میلیون کلمه را دربردارد که از صدای امریکا استخرا شده است و محتوای تولیدی طی سالهای ۲۰۰۳ تا ۲۰۰۸ را دربردارد.
این دیتاست را در اینجا پیدا کنید:
VOA Corpus
A large collection of Persian raw text
مجموعهای عظیمی از متن خام فارسی که از منابع مختلفی ازجمله CommonCrawl استخراج شده است:
A large collection of Persian raw text
W2C – Web to Corpus – Corpora
مجموعهای از متون ۱۲۰ زبان که بهطور خودکار از ویکیپدیا و فضای وب جمعآوری شده است:
dotIR Collection
dotIR یک مجموعه تست فارسی استاندارد است که برای ارزیابی الگوریتمهای بازیابی اطلاعات وب در وب ایرانی مناسب است. dotIR بسیاری از صفحههای وب فارسی، ازجمله متن، لینک، متادیتا و غیره، را شامل است که در قالب XML ذخیره شده است:
irBlogs
irBlogs حاوی بیش از ۵ میلیون پست و یک گراف رابطه متعلق به بیش از ۶۰۰ هزار وبلاگ فارسی است. میتوان از آن در کاربردهای مختلف، مانند بازیابی اطلاعات، مطالعه زبان فارسی در شبکههای اجتماعی آنلاین و حتی الگوریتمهای تئوری گراف، استفاده کرد؛ همچنین ۴۵ پرسوجو و قضاوت مربوط به آنها را کاربران مختلف با استفاده از سیستم ارزیابی UTIRE ایجاد کردهاند.
Persian Poems Corpus
این مجموعه اسناد متنی ۴۸ شاعر فارسی زبان را شامل است. مجموعه در ۳ قالب ارائه میشود؛ اورجینال، نرمالایزشده (فقط ۳۲ الفبای اصلی فارسی) و حذف کلمههای توقف. این مجموعه ۱۲۱۶۲۸۶ مصرع شعر فارسی و ۸۱۰۲۱۱۹ کلمه است که ۱۴۸۵۸۸ کلمه منحصربهفرد را دربرمیگیرد.
HmBlogs: A big general Persian corpus
این مجموعه براساس مجموعهای از حدود ۲۰ میلیون پست وبلاگ در یک بازه زمانی حدوداً ۱۵ ساله از وبلاگهای فارسی تهیه شده است و بیش از ۶.۸ میلیارد توکن را دربرمیگیرد. این پیکره بهدو صورت خام و پیشپردازششده ارائه میشود:
HmBlogs: A big general Persian corpus
ganjoor-tex
این مجوعه متونی از ۱۲ شاعر فارسی را دربرمیگیرد که از وبسایت ganjoor.net استخراج شده است:
Corpus of Conversational Persian Transcripts
مجموعهای شامل رونوشتهایی از حدود ۲۰ ساعت مکالمههای غیررسمی طبیعی در گویش تهرانی و زبان فارسی است. این مجموعه از ۱۲۰۱ دقیقه مکالمه میان ۲۲ شرکتکننده، ۱۲ مرد و ۱۰ زن استخراج شده است. شرکتکنندگان تماسهای تلفنی روزانه و تعاملهای چهرهبهچهره خود را ضبط کردهاند. گفتوگوها انواع مختلف تعامل، موقعیتها، انواع روابط و هدفهای ارتباطی را نشان میدهد. رونوشتها از نظر جنسیت، سن و روش ضبط و موقعیت حاشیهنویسی شدهاند.
Corpus of Conversational Persian Transcripts
چالشهای ایجاد مجموعه متون (Copora) فارسی در منابع آنلاین
متن فارسی جزو زبانهایی است که تحقیقات و کارهای بسیار کمی نسبت به برخی زبانهای دیگر مانند انگلیسی در آن انجام شده است. یکی از دلایل این موضوع چالشهایی است که ایجاد Corpora فارسی با آن مواجه است. در ادامه به برخی از این چالشها اشاره خواهیم کرد.
مرز کلمهها
یکی از مشکلاتی که در پردازش متون فارسی وجود دارد گزینشیبودن نیمفاصله است. بسیاری از کلمههایی که درواقع یک کلمه هستند با فاصله از هم تایپ میشوند. این امر به این میانجامد که کلمههایی که باید یکی در نظر گرفته شوند بهشکل جدا و بهصورت ۲ کلمه در نظر گرفته شوند؛ برای مثال، کلمه «بینالمللی» در اکثر مواقع با فاصله و بهشکل «بین المللی» نوشته میشود.
کاراکترهای عربی
یکی دیگر مشکلاتی که در هنگام پردازش متون فارسی با آن مواجه هستیم استفادهنکردن از کاراکترهای عربی است؛ برای مثال، کلمهای مانند «جداً» درصورتیکه تنوین نداشته باشد «جدا» نوشته میشود و این در حالی است که این دو کلمه معانی متفاوتی دارند. این موضوع بهخصوص در متونی که از منابع آنلاین گرفته میشود وجود دارد و نویسندگان تمایلی به استفاده از این کاراکترها ندارند.
املای مختلف کلمهها
در متون فارسی کلمهها میتوانند با املای متفاوتی نوشته شوند؛ برای مثال، «آمریکایی»، «آمریکائی»، «امریکایی» و «امریکایی» از آن جمله است. این کلمهها درواقع یکی هستند و معنای یکسانی دارند، اما بهدلیل املای متفاوت، در پردازش متن بهعنوان ۴ کلمه مختلف در نظر گرفته میشوند.
حروف غیرواصل
در فارسی حروفی مانند «ر»، «ز»، «ژ» و غیره وجود دارند که به حرف بعدی خود وصل نمیشوند؛ بههمین دلیل، گاه نویسنده در مواردی که این حروف در آخر کلمه قرار میگیرند، از فاصله برای جداسازی کلمه از کلمهٔ بعدی استفاده نمیکند که این موضوع مشکلاتی را در هنگام پردازش متن به وجود میآورد.
حروف صدادار کوتاه
در هنگام نوشتن متن فارسی در بیشتر مواقع حروف صدادار کوتاه نوشته نمیشود و این موضوع در معنای کلمه ابهام ایجاد میکند؛ برای مثال، کلمه «کند» با نوشتن حروف صدادار کوتاه میتواند دو کلمه «کُند» و «کُنَد» باشد.
شکستهنویسی
چالش دیگری که ممکن است در هنگام پردازش متن فارسی با آن برخورد کنیم این است که متنهایی که معمولاً در پستهای رسانههای اجتماعی وجود دارد بهشکل محاوره نوشته میشوند. به این کال اصطلاحاً شکستهنویسی گفته میشود؛ برای مثال، حذف حرف «د» در آخر شناسه فعل یا تبدیل کلمه «خواهر» به «خاهر». این شکل از نوشتار تابع مطلقی از گفتار است.
جمعبندی مطالب درباره پردازش زبان طبیعی در زبان فارسی
در این مطلب بهطور مختصر پردازش زبان طبیعی در فارسی و تسکهای مختلف آن را معرفی کردیم؛ همچنین برخی از مجموعهدادههای متنی در زبان فارسی را معرفی و برخی از اصلیترین چالشهای پردازش متن فارسی در متون آنلاین را بررسی کردیم.
درحالیکه حوزه متن در برخی از زبانهایی مانند زبان انگلیسی که در دنیا بیشترین صحبتکننده را دارد به مرحلهٔ بسیار خوبی رسیده است، تحقیقات انجامشده در بسیاری از زبانها، ازجمله زبان فارسی، هنوز در اول راه قرار دارد و لازم است چالشهای آنها بررسی شود.
با کافهتدریس دیتا ساینس را آسان بیاموزید!
اگر دوست دارید به دنیای علم داده یا همان دیتا ساینس وارد شوید، کافی است با کافهتدریس همراه شوید. کلاسهای آنلاین آموزش علم داده کافهتدریس به شما امکان میدهد از هر نقطه جغرافیایی به جامعترین و بهروزترین آموزش دیتا ساینس و ماشین لرنینگ دسترسی داشته باشید.
برای آشنایی با کلاسهای آنلاین علم داده کافهتدریس روی این لینک کلیک کنید:
پردازش زبان طبیعی (NLP) چه وظایفی را در زبان فارسی بر عهده دارد؟ لطفاً سه مورد را نام ببرید.
تشخیص گفتار (Speech Recognition)
برچسبگذاری اجزای گفتار (Part of Speech Tagging)
طبقهبندی متن (Text classification)
از چالشهای ایجاد مجموعه متن به زبان فارسی سه مورد نام ببرید.
مرز کلمهها
کاراکترهای عربی
املای مختلف کلمهها
دو مثال از مجموعه متون فارسی که در فهرست ذکر شده را نام ببرید و یک مورد را توضیح دهید.
حروف صدادار کوتاه
شکستهنویسی
چالش دیگری که ممکن است در هنگام پردازش متن فارسی با آن برخورد کنیم این است که متنهایی که معمولاً در پستهای رسانههای اجتماعی وجود دارد بهشکل محاوره نوشته میشوند. به این کال اصطلاحاً شکستهنویسی گفته میشود؛ برای مثال، حذف حرف «د» در آخر شناسه فعل یا تبدیل کلمه «خواهر» به «خاهر». این شکل از نوشتار تابع مطلقی از گفتار است.
سوال ۳:
MirasText
این مجموعه حاصل کاوش بیش از ۲۵۰میلیون وبسایت خبری فارسی است و بیش از ۲.۸میلیون مقاله دارد
Farsi News Datasets
این دیتاست از RSS Feed دو وبسایت خبری همشهری و رادیوفردا استخراج شده است
VOA Corpus
این مجموعه فارسی ۷.۹ میلیون کلمه را دربردارد که از صدای امریکا استخرا شده است و محتوای تولیدی طی سالهای ۲۰۰۳ تا ۲۰۰۸ را دربردارد.
سوال۲:
مرز کلمه
کاراکتر های عربی
املای مختلف کلمهها
شکستهنویسی
سوال ۱:
تشخیص گفتار
برچسب گذاری اجزای گفتار
شناسایی موجودیت نامگذاریشده
توکن سازی
سلام
ممنون از مقاله خوب و نکات ریزی که توضیح داده شد.
موفق باشید.
ممنون از توجه شما