متن‌کاوی (Text Mining) چیست و چه تکنیک‌ها و کاربردهایی دارد؟

مهسا مژدهی, 3 سال قبل 21 زمان مطالعه:8 دقیقه مشاهده مطلب

متن‌کاوی (Text Mining) که به آنالیز متن (Text Analysis) هم معروف است، فرایند تبدیل متن بدون ساختار به داده‌های ساختاریافته برای تجزیه‌وتحلیل راحت‌تر است. متن‌کاوی به ماشین‌ها اجازه می‌دهد زبان انسان را بفهمند و به‌طور خودکار آن را پردازش کنند.

فهرست مطالب پنهان‌کردن فهرست

1. مقدمه
2. متن‌کاوی چیست؟
1. 2.1. انواع داده برای متن‌کاوی
3. تکنیک‌های متن‌کاوی چیست؟
4. کاربردهای متن‌کاوی کجاست؟
5. جمع‌بندی مطالب درباره‌ی متن‌کاوی (Text Mining)
6. هفت‌خوان: مطالعه کن، نظر بده، جایزه بگیر!
1. 6.1. جوایز هفت‌خوان
2. 6.2. پرسش‌های مسابقه

مقدمه

برای مشاغل حجم زیاد داده‌های تولیدشده‌ی روزانه هم یک فرصت است و هم یک چالش. از یک سو، داده‌ها به شرکت‌ها کمک می‌کنند بینش هوشمندی درباره‌ی نظرات مردم درمورد محصولات یا خدمات خود دریافت کنند؛ درواقع ایده‌های بالقوه‌ای را می‌توانیم از تجزیه‌وتحلیل ایمیل‌ها، نقد محصولات، پست‌های رسانه‌های اجتماعی، بازخورد مشتریان، تیکت‌های پشتیبانی و غیره به‌دست آوریم. از سوی دیگر، معضل نحوه‌ی پردازش این داده‌ها وجود دارد. اینجاست که متن‌کاوی (Text Mining) مطرح می‌شود. در این مطلب متن‌کاوی را معرفی خواهیم کرد و با تکنیک‌ها و کاربردهای آن آشنا خواهیم شد.

متن‌کاوی چیست؟

متن‌کاوی (Text Mining) فرایند تبدیل متن بدون ساختار به قالب ساختاریافته برای شناسایی الگوهای معنی‌دار و بینش‌های جدید موجود در آن است. با به‌کارگیری تکنیک‌های تحلیلی پیشرفته، مانند الگوریتم‌های یادگیری ماشین (Machine Learning) و الگوریتم‌های یادگیری عمیق (Deep Learning)، شرکت‌ها قادر به کشف روابط پنهان در داده‌های بدون ساختار خود هستند.

برای آشنایی با یادگیری ماشین این مطلب را مطالعه کنید:

یادگیری ماشین (Machine Learning) چیست و چگونه کار می‌کند؟

انواع داده برای متن‌کاوی

متن یکی از رایج‌ترین انواع داده در پایگاه داده است. این داده‌ها را می‌توان به سه دسته تقسیم کرد:

داده‌های ساختاریافته (Structured Data)

این داده‌ها به‌صورت جدول‌هایی از سطرها و ستون‌های متعدد استانداردسازی می‌شوند. این کار ذخیره‌سازی و پردازش آن‌ها را آسان‌تر می‌کند. داده‌های ساختاریافته می‌توانند ورودی‌هایی مانند نام و آدرس و شماره‌تلفن را شامل باشد.

داده‌های بدون ساختار (Unstructured Data)

این داده‌ها فرمت ازپیش‌تعریف‌شده و مشخصی ندارند. این داده‌ها می‌توانند متن از منابعی مانند رسانه‌های اجتماعی یا نقد محصولات، یا فایل‌های ویدئویی و صوتی را شامل باشند.

داده‌های نیمه‌ساختاریافته (Semi-structured Data)

همان‌طور که از نامش پیداست، این داده‌ها ترکیبی از داده‌ی ساختاریافته و بدون ساختار هستند. نمونه‌هایی از داده‌های نیمه‌ساختاریافته فایل‌های XML ، JSON و HTML را شامل است.

از آنجا که ۸۰ درصد از داده‌ها در دنیا بدون ساختار هستند، متن‌کاوی عملی بسیار ارزشمند در سازمان‌ها محسوب می‌شود. ابزارها و تکنیک‌های متن‌کاوی به ما امکان می‌دهند اسناد بدون ساختار را به فرمت ساختاریافته تبدیل کنیم تا تجزیه‌وتحلیل و ایجاد بینش با کیفیت بالا از آن‌ها امکان‌پذیر شود. این امر، به‌نوبه‌ی خود، تصمیم‌گیری سازمان‌ها را بهبود می‌بخشد و به نتایج بهتر برای کسب‌و‌کار می‌انجامد.

حال که متوجه شدیم متن‌کاوی چیست، در بخش بعد خواهیم دید برای این کار از چه تکنیک‌هایی استفاده می‌شود.

برای آشنایی با یادگیری عمیق این مطلب را مطالعه کنید:

یادگیری عمیق (Deep Learning) چیست؟

تکنیک‌های متن‌کاوی چیست؟

فرایند متن‌کاوی چندین فعالیت را دربرمی‌گیرد که به ما امکان می‌دهد اطلاعات را از داده‌های متنی بدون ساختار استخراج کنیم. قبل از اینکه بتوانیم تکنیک‌های مختلف استخراج متن را اعمال کنیم، باید با پیش‌پردازش متن (Text Preprocessing) شروع کنیم، یعنی تمیزکردن داده‌های متنی و تبدیل آن‌ها به قالبی کاربردی. این عمل یک جنبه‌ی اصلی پردازش زبان طبیعی (NLP) است و معمولاً استفاده از تکنیک‌هایی مانند شناسایی زبان (language identification)، توکن‌سازی (tokenization)، برچسب‌گذاری اجزای گفتار (part-of-speech tagging)، تکه‌تکه‌کردن (chunking) و تجزیه‌ی نحوی (syntax parsing) را شامل می‌شود تا داده‌ها برای تجزیه‌وتحلیل فرمت مناسبی داشته باشند.

هنگامی که پیش‌پردازش متن به پایان رسید، می‌توانیم از الگوریتم‌های متن‌کاوی برای به‌دست‌آوردن بینش از داده‌ها استفاده کنیم. برخی از این تکنیک‌های متداول متن‌کاوی عبارت‌اند از:

بازیابی اطلاعات (Information Retrieval)

بازیابی اطلاعات یا همان Information Retrieval که به‌اختصار IR نامیده می‌شود اطلاعات یا اسناد مربوط را براساس مجموعه‌ای از کوئری‌ها (Query) یا عبارات ازپیش‌تعیین‌شده بازمی‌گرداند. سیستم‌های IR از الگوریتم‌هایی برای ردیابی رفتارهای کاربر و شناسایی داده‌های مربوط استفاده می‌کنند. بازیابی اطلاعات معمولاً در سیستم‌های فهرست کتابخانه و موتورهای جست‌وجوی محبوب، مانند Google، استفاده می‌شود.

برخی از وظایف رایج IR عبارت‌اند از:

توکن‌سازی (Tokenization): این فرایند درواقع تجزیه‌ی یک متن طولانی به جملات و کلماتی به‌نام «توکن» است. بعد از تبدیل متن به توکن، از آن‌ها در مدل‌هایی مانند Bag-of-Words، برای خوشه‌بندی (Clustering) متن و کارهایی ازجمله تطبیق اسناد (Document Matching) استفاده می‌شوند.
ریشه‌یابی (Stemming): در فرایند ریشه‌یابی، پیشوندها و پسوندها را از کلمات جدا می‌کنند تا ریشه و معنی کلمه استخراج شود. این تکنیک، با کاهش حجم فایل‌های شاخص‌گذاری (Indexing Files)، بازیابی اطلاعات را بهبود می‌بخشد.

پردازش زبان طبیعی (NLP)

پردازش زبان طبیعی که از زبان‌شناسی محاسباتی (computational linguistics) تکامل یافته است. این عملیات روش‌های حوزه‌های مختلفی، مانند علوم رایانه (computer science)، هوش مصنوعی (artificial intelligence)، زبان‌شناسی (linguistics) و علم داده (data science)، استفاده می‌کند تا رایانه‌ها بتوانند زبان انسان را به‌دو صورت نوشتاری و شفاهی درک کنند. با تجزیه‌وتحلیل ساختار جمله و دستور زبان، وظایف مختلف NLP به رایانه‌ها این امکان را می‌دهد که بتوانند زبان انسان را بفهمند و بخوانند. وظایف متداول NLP عبارت‌اند از:

خلاصه‌سازی (Summarization): این تکنیک خلاصه‌ای از متن‌های طولانی را برای ایجاد خلاصه‌ای مختصر و منسجم از نکات اصلی متن ارائه می‌کند.
برچسب‌گذاری اجزای گفتار (Part of Speech Tagging/ PoS): این تکنیک برچسبی را به هر توکن اختصاص می‌دهد که مشخص می‌کند آن توکن چه نقشی را در جمله دارد، برای مثال اسم، فعل، صفت و غیره. این مرحله تجزیه‌وتحلیل معنایی را روی متن بدون ساختار امکان‌پذیر می‌کند.
دسته‌بندی متن (Text Categorization): این وظیفه که به‌عنوان طبقه‌بندی متن (Text Classification) نیز شناخته می‌شود وظیفه‌ی تجزیه‌و‌تحلیل اسناد متنی و طبقه‌بندی آن‌ها را بر‌اساس موضوع بر عهده دارد.
تجزیه‌وتحلیل احساسات (Sentiment analysis): این وظیفه احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص می‌دهد و به ما امکان می‌دهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم. معمولاً برای دریافت اطلاعات درمورد نظر مشتریان درباره‌ی محصولات و خدمات استفاده می‌شود. اطلاعاتی که به دست می‌آیند می‌توانند به بهبود ارتباط با مشتریان و بهبود فرایندها و تجربیات کاربری کمک کنند.

برای مطالعه‌ی بیشتر درباره‌ی پردازش زبان طبیعی به این لینک سر بزنید:

پردازش زبان طبیعی (Natural Language Processing) چیست؟

استخراج اطلاعات (Information Extraction)

استخراج اطلاعات که به‌اختصار IE نامیده می‌شود در هنگام جست‌وجو در اسناد مختلف داده‌های مربوط را نمایان می‌کند. وظایف رایج استخراج اطلاعات عبارت‌اند از:

انتخاب فیچر (Feature Selection): فرایند انتخاب فیچرهای (ابعاد) مهم است تا بهترین نتیجه را در خروجی یک الگوی تجزیه‌وتحلیل پیش‌بینی داشته باشیم.
استخراج فیچر (Feature Extraction): فرایند انتخاب زیرمجموعه‌ای از فیچرها برای بهبود دقت طبقه‌بندی است. این امر، به‌ویژه، برای کاهش ابعاد (Dimensionality Reduction) اهمیت دارد.
شناسایی موجودیت‌های اسمی (Named-entity Recognition / NER): این عملیات با هدف یافتن و دسته‌بندی موجودیت‌های خاص در متن، مانند نام افراد یا مکان‌های خاص، انجام می‌شود؛ برای مثال، NER «کالیفرنیا» را به‌عنوان یک مکان و «سارا» را به‌عنوان نام یک زن مشخص می‌کند.

داده‌کاوی (Data Mining)

داده‌کاوی فرایند شناسایی الگوها و استخراج بینش مفید از مجموعه‌داده‌های بزرگ است. این عمل داده‌های ساختاریافته و بدون ساختار را برای شناسایی اطلاعات جدید ارزیابی می‌کند و معمولاً برای تجزیه‌وتحلیل رفتارهای مصرف‌کننده در بازاریابی و فروش استفاده می‌شود. متن‌کاوی اساساً زیرمجموعه‌ای از داده‌کاوی است؛ زیرا بر ایجاد ساختار در داده‌های بدون ساختار و تجزیه‌وتحلیل آن‌ها برای ایجاد بینش‌های جدید تمرکز می‌کند. تکنیک‌های ذکرشده اشکال مختلف داده‌کاوی هستند، اما در حوزه‌ی تجزیه‌وتحلیل داده‌های متنی قرار می‌گیرند.

برای درک بیشتر داده‌کاوی پیشنهاد می‌کنیم این مطلب را مطالعه کنید:

داده‌کاوی (Data Mining) چیست و چه مراحلی دارد؟

کاربردهای متن‌کاوی کجاست؟

نرم‌افزار Text analytics (آنالیز متن) بر نحوه‌ی کار بسیاری از صنایع تأثیر گذاشته و به آن‌ها امکان داده است تجربیات کاربران محصول را بهبود ببخشند و هم‌چنین تصمیم‌های تجاری سریع‌تر و بهتری بگیرند. برخی موارد استفاده از متن‌کاوی (Text Mining) این موارد است:

خدمات مشتریان (Customer Service)

راه‌های مختلفی وجود دارد که ازطریق آن‌ها بتوانیم بازخوردهای مشتریان را دریافت کنیم. سیستم‌های بازخورد (Feedback Systems)، مانند چت‌بات‌ها (chatbots)، نظرسنجی از مشتریان، NPS، نقدهای آنلاین، تیکت‌های پشتیبانی و پست‌های شبکه‌های اجتماعی، هنگامی‌که با ابزارهای تجزیه‌وتحلیل متن ترکیب می‌شوند، شرکت‌ها را قادر می‌کنند تا تجربه‌ی مشتری خود را به‌سرعت بهبود دهند.

متن‌کاوی و تجزیه‌و‌تحلیل احساسات می‌توانند به شرکت‌ها این امکان را بدهند که سازوکاری را به‌منظور اولویت‌بندی مشکلات مشتریان خود فراهم کند تا درلحظه و بلادرنگ به مشکلات ضروری پاسخ دهند و رضایت مشتری را افزایش دهند.

مدیریت ریسک (Risk Management)

متن‌کاوی در مدیریت ریسک نیز کاربرد دارد، به‌طوری‌که می‌تواند با نظارت بر تغییرات احساسات و استخراج اطلاعات از گزارش‌های تحلیلگران، بینش‌هایی درمورد روند صنعت و بازارهای مالی ارائه کند.

این امر برای مؤسسات بانکی بسیار ارزشمند است؛ زیرا این داده‌ها هنگام بررسی سرمایه‌گذاری‌های تجاری در بخش‌های مختلف، اطمینان بیشتری را به همراه دارد.

پزشکی (Healthcare)

تکنیک‌های متن‌کاوی (Text Mining) به‌شدت برای محققان درزمینه‌ی زیست‌پزشکی، به‌ویژه برای خوشه‌بندی اطلاعات، ارزشمند است. بررسی دستی تحقیقات پزشکی می‌تواند پرهزینه و زمان‌بر باشد. متن‌کاوی روشی اتوماتیک برای استخراج اطلاعات ارزشمند از متون پزشکی ارائه می‌کند.

اسپم فیلترینگ (Spam Filtering)

اسپم‌ها اغلب به‌عنوان نقطه‌ی ورود هکرها برای آلوده‌کردن سیستم‌های کامپیوتری با بدافزارها محسوب می‌شوند. متن‌کاوی می‌تواند روشی را برای فیلترکردن و حذف این ایمیل‌ها ارائه کند، تجربه‌ی کلی کاربر را بهبود بخشد و خطر حملات سایبری به کاربران را به حداقل برساند.

جمع‌بندی مطالب درباره‌ی متن‌کاوی (Text Mining)

در این مقاله متن‌کاوی و روش‌ها و کاربردهایش را معرفی می‌کردیم. متن‌کاوی به شرکت‌ها کمک می‌کند بهره‌وری بیشتر و درک بهتری از مشتریان خود داشته باشند و از بینش‌هایی که از داده‌ها به دست می‌آورند برای تصمیم‌گیری‌های مبتنی بر داده استفاده کنند.

بسیاری از کارهای وقت‌گیر و تکراری را می‌توان با الگوریتم‌هایی جایگزین کرد که از نمونه‌ها برای دست‌یابی به نتایج سریع‌تر و بسیار دقیق‌تر استفاده می‌کنند. تجزیه‌وتحلیل مجموعه‌ی وسیعی از داده‌ها و استفاده از تکنیک‌های مختلف متن‌کاوی به دریافت بینش‌های مفیدی درمورد نظر و احساس مشتریان درباره‌ی یک محصول می‌انجامد.

بهترین نکته درباره‌ی متن‌کاوی (Text Mining) این است که این فناوری برای همه‌ی صنایع کاربردی است؛ نه‌فقط برای کسانی که مهارت برنامه‌نویسی دارند، برای کسانی هم کاربرد دارد که در بازاریابی، فروش، خدمات به مشتریان و تولید فعالیت دارند.

هفت‌خوان: مطالعه کن، نظر بده، جایزه بگیر!

هفت‌خوان مسابقه‌ی وبلاگی کافه‌تدریس است. شما با پاسخ به چند پرسش درباره‌ی مطلبی که همین حالا مطالعه کرده‌اید، فرصت شرکت در قرعه‌کشی جایزه نقدی و کلاس رایگان کافه‌تدریس را پیدا خواهید کرد.

جوایز هفت‌خوان

۳۰۰,۰۰۰ تومان جایزه نقدی
۵ کلاس رایگان ۳۰۰,۰۰۰ تومانی

پرسش‌های مسابقه

برای شرکت در هفت‌خوان کافه‌تدریس در کامنت همین مطلب به این پرسش‌ها پاسخ دهید:

تکنیک بازیابی اطلاعات در داده‌کاوی چگونه انجام می‌شود؟
پردازش زبان طبیعی چیست و چه مراحلی دارد؟
تفاوت داده‌کاوی و متن‌کاوی چیست؟

برچسب #متن‌کاوی #هوش مصنوعی

دیتا ساینس و ماشین لرنینگ

داده‌کاوی (Data Mining) چیست و چه مراحلی دارد؟

دیتا ساینس و ماشین لرنینگ

شبکه‌ی عصبی کانولوشنی (CNN) چیست؟

21 دیدگاه

محمد حسین

الگو در متن اوی به چه معنی است وچگونه انرا مشخص میکنیم

8 ماه قبل پاسخ
1. زهرا رحیمیان
  
  در متن‌کاوی، اصطلاح “الگو” به یک ساختار یا الگوی خاص از واژگان یا عبارات در متن گفته می‌شه که به منظور شناسایی یا استخراج اطلاعات مشخصی به کار می‌ره. الگوها در واقع نمونه‌های خاصی از داده‌ها هستن که به صورت خاص توسط یک الگوریتم یا مدل متن‌کاوی تشخیص داده می‌شن.
  برای مشخص کردن یه الگو در متن کاوی، میشه از روش‌های مختلفی مثل تحلیل متن و استفاده از ابزارهای متن‌کاوی استفاده کرد.
  
  5 ماه قبل پاسخ
ملیحه جزواحدی

سوال۳:
متن‌کاویی فرایند تبدیل متن بدون ساختار به قالب ساختاریافته برای شناسایی الگوهای معنی‌دار و بینش‌های جدید موجود در آن است.و تکنیک های آن ie,npl, it
داده کاوی
اما داده کاوی: تجربه و تحلیل حجم عظیمی از داده ها و استخراج اطلاعات مفیدی تکنیکهای آن: اهداف تجاری، آماده سازی داده و مدل سازی و الگوگذاری است

1 سال قبل پاسخ
ملیحه جزواحدی

سوال۲:
پردازش طبیعی شاخه ای از علوم رایانه و هوش مصنوعی که به کامپیوتر این امکان را میدهدمتن و کلمه های گفتاری را به همان شیوه برمیگرداند که انسان بتواند بفهمد
مراحل آن:توکن سازی، برچسب گذاری اجزای کلام، ریشه یابی کلمات، حذف کلمات توقف

1 سال قبل پاسخ
ملیحه جزواحدی

سوال ۱:IR
اطلاعات را براساس مجموعه از کوئیری ها یا داده های از پیش تعریف شده برمیگرداند. دووظایف آن:توکن سازی و ریشه یابی
توکن سازی: تجزیه متن طولانی به کلماتی به نام توکن
ریشه یابی:پیشوند ها و پسوند ها جدا و ریشه باقی می‌ماند

1 سال قبل پاسخ
نازنین جدی

بله کتاب متن کاوی ، نگرش یادگیری ماشین نوشته آگاروال رو می تونید مطالعه بفرمایید

2 سال قبل پاسخ
پریسا صدری

میشه یک کتاب هم در زمینه TEXT MINING معرفی کنید ؟

2 سال قبل پاسخ
1. Mahsa MZ
  
  در رابطه با NLP و Text Mining کتاب‌هایی در کانال علم داده معرفی کردیم. می‌تونین به کانال مراجعه کنین و کتاب‌ها رو دانلود کنین. لینک کانال:‌ https://t.me/DSLanders
  
  2 سال قبل پاسخ
امیر ارسلان

کتاب یادگیری عمیق نوشته ایان گودفلو هم مطالعه کنید دوستان

2 سال قبل پاسخ
رها قربانی

ممنون میشم یک مقاله در رابطه با تحلیل پاور بی آی به صورت کاربردی بذارید

2 سال قبل پاسخ
1. Mahsa MZ
  
  بله، در آینده به این نرم‌افزار هم خواهیم پرداخت.
  
  2 سال قبل پاسخ
شهروز اردلی

power BI می تونه در متن کاوی تاثیری داشته باشه ؟

2 سال قبل پاسخ
1. Mahsa MZ
  
  این نرم‌افزار برای تحلیل و کار با داده مورد استفاده قرار می‌گیره و بله در متن‌کاوی هم می‌تونه استفاده شه.
  
  2 سال قبل پاسخ
yser jandaghi

عالی بود جای استاد شکرزاد در دانشگاه های ایران خالی ست به امید روزی که همه اساتید تا همین اندازه مشرف به مطالب باشند

2 سال قبل پاسخ
1. Mahsa MZ
  
  ممنون از توجه شما دوست عزیز
  
  2 سال قبل پاسخ
امیر 2022

Text Mining دوره آموزشی جداگانه داره یا جداست ؟

2 سال قبل پاسخ
1. Mahsa MZ
  
  در حال حاضر دوره مختص متن‌کاوی در کافه‌تدریس نداریم اما در دوره ۲ علم داده به این موضوع پرداخته میشه. ممکنه در آینده این دوره هم اضافه بشه.
  
  2 سال قبل پاسخ
مرضیه

پاسخ سوال 1
تبدیا داده های بدون ساختار به داده های ساختار یافنه برای استخراج اطلاعات و الگوهای معنادار
پاسخ سوال 2
احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص می‌دهد و به ما امکان می‌دهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم.
پاسخ سوال 3
متن‌کاوی به شرکت‌ها کمک می‌کند بهره‌وری بیشتر و درک بهتری از مشتریان خود داشته باشند و از بینش‌هایی که از داده‌ها به دست می‌آورند برای تصمیم‌گیری‌های مبتنی بر داده استفاده کنند.

2 سال قبل پاسخ
محمود

استخراج اطلاعات و دانش از داده ها

2 سال قبل پاسخ
ایوب فتح آبادی

پاسخ پرسش اول :استخراج اطلاعات و دانش از داده های غیر ساختار یافته.

2 سال قبل پاسخ
Shima

این وظیفه احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص می‌دهد و به ما امکان می‌دهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم. معمولاً برای دریافت اطلاعات درمورد نظر مشتریان دربارهֱی محصولات و خدمات استفاده می‌شود. اطلاعاتی که به دست می‌آیند می‌توانند به بهبود ارتباط با مشتریان و بهبود فرایندها و تجربیات کاربری کمک کنند.

2 سال قبل پاسخ