فراوانی وزنی کلمه کلیدی (TF-IDF) چیست؟

آنچه در این مقاله می‌خوانید

۴
(۳۴)

فراوانی وزنی کلمه کلیدی (TF-IDF) – چیزی که به گوگل می گوید این صفحه درباره چیست ؟!

Tf-idf روشی فوق‌العاده برای پیدا نمودن چگالی کلمات کلیدی در بازاریابی اطلاعات می‌باشد.(روشی بر پایه هوش مصنوعی برای درک محتوا توسط ماشین)

در واقع این سیستم وزن دهی نشان می‌دهد چقدر یک کلمه برای یک مقاله مهم است.

چگالی نام برده معیاری برای ارزیابی کلمات نسبت به کل محتوا در صفحه می‌باشد. اهمیت آن در تعداد دفعاتی است که کلمه یا عبارت مورد نظر در صفحه ظاهر می‌گردد. این آمار و چگالی ارائه دهنده فرکانس به منابع ضروری هستند که می‌بایست از طریق آن‌ها به شناسایی محتوا و کلمات کلیدی درون آن بپردازند (کاری که گوگل انجام می دهد) . بیشترین استفاده از آن در موتور های جستجو می‌شود که اغلب از آن به عنوان ابزاری اصولی در ارزیابی و رتبه بندی صفحات در نتایج جستجو کاربران استفاده می‌کنند. ( سئو کارهای ایرانی کمتر به این مسائل اهمیت می دهند .)

برای روشن تر شدن نتایج TF-IDF مثال زیر را ببینید :

اگر کلمه «مچی» را در مقایسه با عبارت «ساعت مچی» در نظر بگیریم، با استفاده از روش TF-IDF می توان فهمید که عبارت «ساعت مچی» نسبت به کلمه «مچی» کمتر مورد استفاده قرار می‌گیرد. برمبنای تناوب تکرار این دو، می‌توان نتیجه گرفت که عبارت «ساعت مچی» در صورتی که در یک متن تکرار شود کلمه‌ی مهم است حتی اگر آستانه‌ مهم در نظر گرفتن کلمه‌ «مچی» خیلی بالاتر است.

تفاوت TF-ITF با محاسبه چگالی کلمات کلیدی

فراوانی وزنی کلمه کلیدی

در واقع TF-ITF میزان لگاریتمی وزن یک کلمه در متن را بیان می دارد که در محاسبه چگالی کلمه کلیدی در افزونه هایی مانند یواست این محاسبه غیر لگاریتمی است .

tf-idf یکی از ساده ترین روش های رتبه بندی عبارات می‌باشد. روش های بسیار دیگری نیز وجود دارند که بسیار پیچیده تر از این روش هستند.

از Tf-idf به عنوان یک روش کارآمد و موفقیت آمیز برای فیلتر کردن کلمات در زمینه های مختف از جمله خلاصه سازی و دسته بندی شناخته می‌شود.

برای یادگیری بیشتر در خصوص tf-idf یا موضوعات بازیابی اطلاعات و استخراج متن، ما به شدت توصیه می‌کنیم که کتاب earch Engines: Information Retrieval in Practice و همینطور Introduction to Information Retrieval را مطالعه کنید.

چگونه محاسبه کنیم:

به طور معمول وزن tf-idf از دو عبارت تشکیل شده است: اول می‌بایست محدوده فرکانس نرمال (TF) را محاسبه کنیم. تعداد کلماتی که یک کلمه در یک محتوا ظاهر شده است تقسیم بر تعداد کل کلمات آن محتوا؛ دوم بحث فرکانس محتوای معکوس (IDF) پیش می‌آید، به عنوان لگاریتم تعداد محتوا موجود در واحد تقسیم بر تعداد محتواهایی که دارای آن اصلاح خاص هستند.

 TF (Term Frequency): این به معنای فرکانس مدت است که اندازه گیری می‌کند چگونه یک دوره در یک محتوا اتفاق می‌افتد. از آنجا که هر محتوا دارای طول متفاوت است، این امکان وجود دارد که یک واژه در محتوای بلند خیلی بیشتر نسبت به محتوای کوتاه ظاهر شود. بنابراین فرکانس مدت در طول سند تقسیم می‌شود. به عنوان روشی برای عادی سازی:

TF برابر است با (تعداد دفعاتی که T در یک محتوا ظاهر می‌شود) / (تعداد کل طول سند)

IDF (Inverse Document Frequency): این به معنای فرکانس محتوای معکوس است که وظیفه آن اندازه گیری طول محتوا می‌باشد. در حین محاسبه TF، تمام اصطلاحات به یک اندازه اهمیت دارند. با این حال همه می‌دانیم که اصطلاحاتی مانند (است، شد، و، آن و…) به مقدار زیاد به کار گرفته می‌شوند اما واقعیت این است که اهمیت و تاثیر بسیار کمی دارند. به این ترتیب در حین محاسبه می‌بایست، شرایط مکرر را در نظر بگیرید:

IDF برابر است با لگاریتم (تعداد کل محتوا / تعداد محتوا T در آن)

برای نمونه، مثال ساده زیر را مشاهده کنید:

یک محتوا ۱۰۰ کلمه ای را در نظر بگیرید که کلمه “گربه” ۳ بار در آن ظاهر می‌شود. فرکانس اصطلاح (یا همان چگالی کلمات کلیدی) در آن برای کلمه “گربه” (۳/۱۰۰) است که معادل ۰.۰۳ می‌باشد. خب اکنون فکر کنید ما محتوایی ۱۰ میلیون کلمه ای داریم که کلمه “گربه” هزار بار در آن آمده است، پس فرکانس محتوای معکوس آن با لگاریتم معادل (۱۰۰۰/۱۰۰۰۰۰۰۰) برابر ۴ است.

بنابراین مقدار tf-idf این محتوا که از طریق ضرب این دو حاصل به دست می‌آید معادل ۰.۱۲ است.

چقدر این مطلب مفید بود ؟

یک ستاره <<>> پنج ستاره

میانگین رتبه ۴ / ۵. تعداد امتیازات ۳۴

تا کنون امتیازی ثبت نشده است . (اولین نفر باشید)

یک پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *