متن کاوی (Text Mining) که به آنالیز متن (Text Analysis) هم معروف است، فرایند تبدیل متن بدون ساختار به دادههای ساختاریافته برای تجزیهوتحلیل راحتتر است. متن کاوی به ماشینها اجازه میدهد زبان انسان را بفهمند و بهطور خودکار آن را پردازش کنند.
مقدمه
برای مشاغل حجم زیاد دادههای تولیدشده روزانه هم یک فرصت است و هم یک چالش. از یک سو، دادهها به شرکتها کمک میکنند بینش هوشمندی دربارهی نظرات مردم درمورد محصولات یا خدمات خود دریافت کنند؛ درواقع ایدههای بالقوهای را میتوانیم از تجزیهوتحلیل ایمیلها، نقد محصولات، پستهای رسانههای اجتماعی، بازخورد مشتریان، تیکتهای پشتیبانی و غیره بهدست آوریم. از سوی دیگر، معضل نحوه پردازش این دادهها وجود دارد. اینجاست که متنکاوی (Text Mining) مطرح میشود. در این مطلب متن کاوی را معرفی خواهیم کرد و با تکنیکها و کاربردهای آن آشنا خواهیم شد.
متن کاوی چیست؟
متن کاوی (Text Mining) فرایند تبدیل متن بدون ساختار به قالب ساختاریافته برای شناسایی الگوهای معنیدار و بینشهای جدید موجود در آن است. با بهکارگیری تکنیکهای تحلیلی پیشرفته، مانند الگوریتمهای یادگیری ماشین (Machine Learning) و الگوریتمهای یادگیری عمیق (Deep Learning)، شرکتها قادر به کشف روابط پنهان در دادههای بدون ساختار خود هستند.
برای آشنایی با یادگیری ماشین این مطلب را مطالعه کنید:
یادگیری ماشین (Machine Learning) چیست و چگونه کار میکند؟
انواع داده برای متن کاوی
متن یکی از رایجترین انواع داده در پایگاه داده است. این دادهها را میتوان به سه دسته تقسیم کرد:
دادههای ساختاریافته (Structured Data)
این دادهها بهصورت جدولهایی از سطرها و ستونهای متعدد استانداردسازی میشوند. این کار ذخیرهسازی و پردازش آنها را آسانتر میکند. دادههای ساختاریافته میتوانند ورودیهایی مانند نام و آدرس و شمارهتلفن را شامل باشد.
دادههای بدون ساختار (Unstructured Data)
این دادهها فرمت ازپیشتعریفشده و مشخصی ندارند. این دادهها میتوانند متن از منابعی مانند رسانههای اجتماعی یا نقد محصولات، یا فایلهای ویدئویی و صوتی را شامل باشند.
دادههای نیمهساختاریافته (Semi-structured Data)
همانطور که از نامش پیداست، این دادهها ترکیبی از دادهی ساختاریافته و بدون ساختار هستند. نمونههایی از دادههای نیمهساختاریافته فایلهای XML ، JSON و HTML را شامل است.
از آنجا که ۸۰ درصد از دادهها در دنیا بدون ساختار هستند، متنکاوی عملی بسیار ارزشمند در سازمانها محسوب میشود. ابزارها و تکنیکهای متنکاوی به ما امکان میدهند اسناد بدون ساختار را به فرمت ساختاریافته تبدیل کنیم تا تجزیهوتحلیل و ایجاد بینش با کیفیت بالا از آنها امکانپذیر شود. این امر، بهنوبهی خود، تصمیمگیری سازمانها را بهبود میبخشد و به نتایج بهتر برای کسبوکار میانجامد.
حال که متوجه شدیم متنکاوی چیست، در بخش بعد خواهیم دید برای این کار از چه تکنیکهایی استفاده میشود.
برای آشنایی با یادگیری عمیق این مطلب را مطالعه کنید:
یادگیری عمیق (Deep Learning) چیست؟
تکنیکهای متن کاوی چیست؟
فرایند متن کاوی چندین فعالیت را دربرمیگیرد که به ما امکان میدهد اطلاعات را از دادههای متنی بدون ساختار استخراج کنیم. قبل از اینکه بتوانیم تکنیکهای مختلف استخراج متن را اعمال کنیم، باید با پیشپردازش متن (Text Preprocessing) شروع کنیم، یعنی تمیزکردن دادههای متنی و تبدیل آنها به قالبی کاربردی. این عمل یک جنبهی اصلی پردازش زبان طبیعی (NLP) است و معمولاً استفاده از تکنیکهایی مانند شناسایی زبان (language identification)، توکنسازی (tokenization)، برچسبگذاری اجزای گفتار (part-of-speech tagging)، تکهتکهکردن (chunking) و تجزیهی نحوی (syntax parsing) را شامل میشود تا دادهها برای تجزیهوتحلیل فرمت مناسبی داشته باشند.
هنگامی که پیشپردازش متن به پایان رسید، میتوانیم از الگوریتمهای متن کاوی برای بهدستآوردن بینش از دادهها استفاده کنیم. برخی از این تکنیکهای متداول متن کاوی عبارتاند از:
بازیابی اطلاعات (Information Retrieval)
بازیابی اطلاعات یا همان Information Retrieval که بهاختصار IR نامیده میشود اطلاعات یا اسناد مربوط را براساس مجموعهای از کوئریها (Query) یا عبارات ازپیشتعیینشده بازمیگرداند. سیستمهای IR از الگوریتمهایی برای ردیابی رفتارهای کاربر و شناسایی دادههای مربوط استفاده میکنند. بازیابی اطلاعات معمولاً در سیستمهای فهرست کتابخانه و موتورهای جستوجوی محبوب، مانند Google، استفاده میشود.
برخی از وظایف رایج IR عبارتاند از:
- توکنسازی (Tokenization): این فرایند درواقع تجزیهی یک متن طولانی به جملات و کلماتی بهنام «توکن» است. بعد از تبدیل متن به توکن، از آنها در مدلهایی مانند Bag-of-Words، برای خوشهبندی (Clustering) متن و کارهایی ازجمله تطبیق اسناد (Document Matching) استفاده میشوند.
- ریشهیابی (Stemming): در فرایند ریشهیابی، پیشوندها و پسوندها را از کلمات جدا میکنند تا ریشه و معنی کلمه استخراج شود. این تکنیک، با کاهش حجم فایلهای شاخصگذاری (Indexing Files)، بازیابی اطلاعات را بهبود میبخشد.
پردازش زبان طبیعی (NLP)
پردازش زبان طبیعی که از زبانشناسی محاسباتی (computational linguistics) تکامل یافته است. این عملیات روشهای حوزههای مختلفی، مانند علوم رایانه (computer science)، هوش مصنوعی (artificial intelligence)، زبانشناسی (linguistics) و علم داده (data science)، استفاده میکند تا رایانهها بتوانند زبان انسان را بهدو صورت نوشتاری و شفاهی درک کنند. با تجزیهوتحلیل ساختار جمله و دستور زبان، وظایف مختلف NLP به رایانهها این امکان را میدهد که بتوانند زبان انسان را بفهمند و بخوانند. وظایف متداول NLP عبارتاند از:
- خلاصهسازی (Summarization): این تکنیک خلاصهای از متنهای طولانی را برای ایجاد خلاصهای مختصر و منسجم از نکات اصلی متن ارائه میکند.
- برچسبگذاری اجزای گفتار (Part of Speech Tagging/ PoS): این تکنیک برچسبی را به هر توکن اختصاص میدهد که مشخص میکند آن توکن چه نقشی را در جمله دارد، برای مثال اسم، فعل، صفت و غیره. این مرحله تجزیهوتحلیل معنایی را روی متن بدون ساختار امکانپذیر میکند.
- دستهبندی متن (Text Categorization): این وظیفه که بهعنوان طبقهبندی متن (Text Classification) نیز شناخته میشود وظیفه تجزیهوتحلیل اسناد متنی و طبقهبندی آنها را براساس موضوع بر عهده دارد.
- تجزیهوتحلیل احساسات (Sentiment analysis): این وظیفه احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص میدهد و به ما امکان میدهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم. معمولاً برای دریافت اطلاعات درمورد نظر مشتریان دربارهی محصولات و خدمات استفاده میشود. اطلاعاتی که به دست میآیند میتوانند به بهبود ارتباط با مشتریان و بهبود فرایندها و تجربیات کاربری کمک کنند.
برای مطالعهی بیشتر درباره پردازش زبان طبیعی به این لینک سر بزنید:
پردازش زبان طبیعی (Natural Language Processing) چیست؟
استخراج اطلاعات (Information Extraction)
استخراج اطلاعات که بهاختصار IE نامیده میشود در هنگام جستوجو در اسناد مختلف دادههای مربوط را نمایان میکند. وظایف رایج استخراج اطلاعات عبارتاند از:
- انتخاب فیچر (Feature Selection): فرایند انتخاب فیچرهای (ابعاد) مهم است تا بهترین نتیجه را در خروجی یک الگوی تجزیهوتحلیل پیشبینی داشته باشیم.
- استخراج فیچر (Feature Extraction): فرایند انتخاب زیرمجموعهای از فیچرها برای بهبود دقت طبقهبندی است. این امر، بهویژه، برای کاهش ابعاد (Dimensionality Reduction) اهمیت دارد.
- شناسایی موجودیتهای اسمی (Named-entity Recognition / NER): این عملیات با هدف یافتن و دستهبندی موجودیتهای خاص در متن، مانند نام افراد یا مکانهای خاص، انجام میشود؛ برای مثال، NER «کالیفرنیا» را بهعنوان یک مکان و «سارا» را بهعنوان نام یک زن مشخص میکند.
دادهکاوی (Data Mining)
دادهکاوی فرایند شناسایی الگوها و استخراج بینش مفید از مجموعهدادههای بزرگ است. این عمل دادههای ساختاریافته و بدون ساختار را برای شناسایی اطلاعات جدید ارزیابی میکند و معمولاً برای تجزیهوتحلیل رفتارهای مصرفکننده در بازاریابی و فروش استفاده میشود. متنکاوی اساساً زیرمجموعهای از دادهکاوی است؛ زیرا بر ایجاد ساختار در دادههای بدون ساختار و تجزیهوتحلیل آنها برای ایجاد بینشهای جدید تمرکز میکند. تکنیکهای ذکرشده اشکال مختلف دادهکاوی هستند، اما در حوزهی تجزیهوتحلیل دادههای متنی قرار میگیرند.
برای درک بیشتر دادهکاوی پیشنهاد میکنیم این مطلب را مطالعه کنید:
دادهکاوی (Data Mining) چیست و چه مراحلی دارد؟
کاربردهای متنکاوی کجاست؟
نرمافزار Text analytics (آنالیز متن) بر نحوهی کار بسیاری از صنایع تأثیر گذاشته و به آنها امکان داده است تجربیات کاربران محصول را بهبود ببخشند و همچنین تصمیمهای تجاری سریعتر و بهتری بگیرند. برخی موارد استفاده از متنکاوی (Text Mining) این موارد است:
خدمات مشتریان (Customer Service)
راههای مختلفی وجود دارد که ازطریق آنها بتوانیم بازخوردهای مشتریان را دریافت کنیم. سیستمهای بازخورد (Feedback Systems)، مانند چتباتها (chatbots)، نظرسنجی از مشتریان، NPS، نقدهای آنلاین، تیکتهای پشتیبانی و پستهای شبکههای اجتماعی، هنگامیکه با ابزارهای تجزیهوتحلیل متن ترکیب میشوند، شرکتها را قادر میکنند تا تجربهی مشتری خود را بهسرعت بهبود دهند.
متنکاوی و تجزیهوتحلیل احساسات میتوانند به شرکتها این امکان را بدهند که سازوکاری را بهمنظور اولویتبندی مشکلات مشتریان خود فراهم کند تا درلحظه و بلادرنگ به مشکلات ضروری پاسخ دهند و رضایت مشتری را افزایش دهند.
مدیریت ریسک (Risk Management)
متنکاوی در مدیریت ریسک نیز کاربرد دارد، بهطوریکه میتواند با نظارت بر تغییرات احساسات و استخراج اطلاعات از گزارشهای تحلیلگران، بینشهایی درمورد روند صنعت و بازارهای مالی ارائه کند.
این امر برای مؤسسات بانکی بسیار ارزشمند است؛ زیرا این دادهها هنگام بررسی سرمایهگذاریهای تجاری در بخشهای مختلف، اطمینان بیشتری را به همراه دارد.
پزشکی (Healthcare)
تکنیکهای متنکاوی (Text Mining) بهشدت برای محققان درزمینهی زیستپزشکی، بهویژه برای خوشهبندی اطلاعات، ارزشمند است. بررسی دستی تحقیقات پزشکی میتواند پرهزینه و زمانبر باشد. متنکاوی روشی اتوماتیک برای استخراج اطلاعات ارزشمند از متون پزشکی ارائه میکند.
اسپم فیلترینگ (Spam Filtering)
اسپمها اغلب بهعنوان نقطهی ورود هکرها برای آلودهکردن سیستمهای کامپیوتری با بدافزارها محسوب میشوند. متنکاوی میتواند روشی را برای فیلترکردن و حذف این ایمیلها ارائه کند، تجربهی کلی کاربر را بهبود بخشد و خطر حملات سایبری به کاربران را به حداقل برساند.
جمعبندی مطالب درباره متن کاوی (Text Mining)
در این مقاله متن کاوی و روشها و کاربردهایش را معرفی میکردیم. متنکاوی به شرکتها کمک میکند بهرهوری بیشتر و درک بهتری از مشتریان خود داشته باشند و از بینشهایی که از دادهها به دست میآورند برای تصمیمگیریهای مبتنی بر داده استفاده کنند.
بسیاری از کارهای وقتگیر و تکراری را میتوان با الگوریتمهایی جایگزین کرد که از نمونهها برای دستیابی به نتایج سریعتر و بسیار دقیقتر استفاده میکنند. تجزیهوتحلیل مجموعهی وسیعی از دادهها و استفاده از تکنیکهای مختلف متنکاوی به دریافت بینشهای مفیدی درمورد نظر و احساس مشتریان دربارهی یک محصول میانجامد.
بهترین نکته دربارهی متنکاوی (Text Mining) این است که این فناوری برای همهی صنایع کاربردی است؛ نهفقط برای کسانی که مهارت برنامهنویسی دارند، برای کسانی هم کاربرد دارد که در بازاریابی، فروش، خدمات به مشتریان و تولید فعالیت دارند.
یادگیری دیتا ساینس با کلاسهای آنلاین آموزش علم داده کافهتدریس
اگر دوست دارید به دنیای علم داده وارد شوید، یکی از بهترین گزینهها شرکت در کلاسهای آنلاین آموزش علم داده کافهتدریس است.
با شرکت در کلاسهای آموزش آنلاین علم داده کافهتدریس، از هر نقطهی جغرافیایی، به بهروزترین و جامعترین آموزش دیتا ساینس دسترسی خواهید داشت.
این کلاسها بهصورت کاملاً کارگاهی و مبتنی بر کار روی پروژههای واقعی علم داده برگزار میشود و شکلی تعاملی و پویا دارد.
برای آشنایی بیشتر با کلاسهای آنلاین آموزش علم داده کافهتدریس و مشاورهی رایگان برای شروع یادگیری علم داده روی این لینک کلیک کنید:
الگو در متن اوی به چه معنی است وچگونه انرا مشخص میکنیم
در متنکاوی، اصطلاح “الگو” به یک ساختار یا الگوی خاص از واژگان یا عبارات در متن گفته میشه که به منظور شناسایی یا استخراج اطلاعات مشخصی به کار میره. الگوها در واقع نمونههای خاصی از دادهها هستن که به صورت خاص توسط یک الگوریتم یا مدل متنکاوی تشخیص داده میشن.
برای مشخص کردن یه الگو در متن کاوی، میشه از روشهای مختلفی مثل تحلیل متن و استفاده از ابزارهای متنکاوی استفاده کرد.
سوال۳:
متنکاویی فرایند تبدیل متن بدون ساختار به قالب ساختاریافته برای شناسایی الگوهای معنیدار و بینشهای جدید موجود در آن است.و تکنیک های آن ie,npl, it
داده کاوی
اما داده کاوی: تجربه و تحلیل حجم عظیمی از داده ها و استخراج اطلاعات مفیدی تکنیکهای آن: اهداف تجاری، آماده سازی داده و مدل سازی و الگوگذاری است
سوال۲:
پردازش طبیعی شاخه ای از علوم رایانه و هوش مصنوعی که به کامپیوتر این امکان را میدهدمتن و کلمه های گفتاری را به همان شیوه برمیگرداند که انسان بتواند بفهمد
مراحل آن:توکن سازی، برچسب گذاری اجزای کلام، ریشه یابی کلمات، حذف کلمات توقف
سوال ۱:IR
اطلاعات را براساس مجموعه از کوئیری ها یا داده های از پیش تعریف شده برمیگرداند. دووظایف آن:توکن سازی و ریشه یابی
توکن سازی: تجزیه متن طولانی به کلماتی به نام توکن
ریشه یابی:پیشوند ها و پسوند ها جدا و ریشه باقی میماند
بله کتاب متن کاوی ، نگرش یادگیری ماشین نوشته آگاروال رو می تونید مطالعه بفرمایید
میشه یک کتاب هم در زمینه TEXT MINING معرفی کنید ؟
در رابطه با NLP و Text Mining کتابهایی در کانال علم داده معرفی کردیم. میتونین به کانال مراجعه کنین و کتابها رو دانلود کنین. لینک کانال: https://t.me/DSLanders
کتاب یادگیری عمیق نوشته ایان گودفلو هم مطالعه کنید دوستان
ممنون میشم یک مقاله در رابطه با تحلیل پاور بی آی به صورت کاربردی بذارید
بله، در آینده به این نرمافزار هم خواهیم پرداخت.
power BI می تونه در متن کاوی تاثیری داشته باشه ؟
این نرمافزار برای تحلیل و کار با داده مورد استفاده قرار میگیره و بله در متنکاوی هم میتونه استفاده شه.
عالی بود جای استاد شکرزاد در دانشگاه های ایران خالی ست به امید روزی که همه اساتید تا همین اندازه مشرف به مطالب باشند
ممنون از توجه شما دوست عزیز
Text Mining دوره آموزشی جداگانه داره یا جداست ؟
در حال حاضر دوره مختص متنکاوی در کافهتدریس نداریم اما در دوره ۲ علم داده به این موضوع پرداخته میشه. ممکنه در آینده این دوره هم اضافه بشه.
پاسخ سوال 1
تبدیا داده های بدون ساختار به داده های ساختار یافنه برای استخراج اطلاعات و الگوهای معنادار
پاسخ سوال 2
احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص میدهد و به ما امکان میدهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم.
پاسخ سوال 3
متنکاوی به شرکتها کمک میکند بهرهوری بیشتر و درک بهتری از مشتریان خود داشته باشند و از بینشهایی که از دادهها به دست میآورند برای تصمیمگیریهای مبتنی بر داده استفاده کنند.
استخراج اطلاعات و دانش از داده ها
پاسخ پرسش اول :استخراج اطلاعات و دانش از داده های غیر ساختار یافته.
این وظیفه احساسات مثبت یا منفی را از منابع داده داخلی یا خارجی تشخیص میدهد و به ما امکان میدهد تغییرات نگرش مشتریان را در طول زمان پیگیری کنیم. معمولاً برای دریافت اطلاعات درمورد نظر مشتریان دربارهֱی محصولات و خدمات استفاده میشود. اطلاعاتی که به دست میآیند میتوانند به بهبود ارتباط با مشتریان و بهبود فرایندها و تجربیات کاربری کمک کنند.