فراوانی وزنی کلمه کلیدی (TF-IDF) – چیزی که به گوگل می گوید این صفحه درباره چیست ؟!
Tf-idf روشی فوقالعاده برای پیدا نمودن چگالی کلمات کلیدی در بازاریابی اطلاعات میباشد.(روشی بر پایه هوش مصنوعی برای درک محتوا توسط ماشین)
در واقع این سیستم وزن دهی نشان میدهد چقدر یک کلمه برای یک مقاله مهم است.
چگالی نام برده معیاری برای ارزیابی کلمات نسبت به کل محتوا در صفحه میباشد. اهمیت آن در تعداد دفعاتی است که کلمه یا عبارت مورد نظر در صفحه ظاهر میگردد. این آمار و چگالی ارائه دهنده فرکانس به منابع ضروری هستند که میبایست از طریق آنها به شناسایی محتوا و کلمات کلیدی درون آن بپردازند (کاری که گوگل انجام می دهد) . بیشترین استفاده از آن در موتور های جستجو میشود که اغلب از آن به عنوان ابزاری اصولی در ارزیابی و رتبه بندی صفحات در نتایج جستجو کاربران استفاده میکنند. ( سئو کارهای ایرانی کمتر به این مسائل اهمیت می دهند .)
برای روشن تر شدن نتایج TF-IDF مثال زیر را ببینید :
اگر کلمه «مچی» را در مقایسه با عبارت «ساعت مچی» در نظر بگیریم، با استفاده از روش TF-IDF می توان فهمید که عبارت «ساعت مچی» نسبت به کلمه «مچی» کمتر مورد استفاده قرار میگیرد. برمبنای تناوب تکرار این دو، میتوان نتیجه گرفت که عبارت «ساعت مچی» در صورتی که در یک متن تکرار شود کلمهی مهم است حتی اگر آستانه مهم در نظر گرفتن کلمه «مچی» خیلی بالاتر است.
تفاوت TF-ITF با محاسبه چگالی کلمات کلیدی
در واقع TF-ITF میزان لگاریتمی وزن یک کلمه در متن را بیان می دارد که در محاسبه چگالی کلمه کلیدی در افزونه هایی مانند یواست این محاسبه غیر لگاریتمی است .
tf-idf یکی از ساده ترین روش های رتبه بندی عبارات میباشد. روش های بسیار دیگری نیز وجود دارند که بسیار پیچیده تر از این روش هستند.
از Tf-idf به عنوان یک روش کارآمد و موفقیت آمیز برای فیلتر کردن کلمات در زمینه های مختف از جمله خلاصه سازی و دسته بندی شناخته میشود.
برای یادگیری بیشتر در خصوص tf-idf یا موضوعات بازیابی اطلاعات و استخراج متن، ما به شدت توصیه میکنیم که کتاب earch Engines: Information Retrieval in Practice و همینطور Introduction to Information Retrieval را مطالعه کنید.
چگونه محاسبه کنیم:
به طور معمول وزن tf-idf از دو عبارت تشکیل شده است: اول میبایست محدوده فرکانس نرمال (TF) را محاسبه کنیم. تعداد کلماتی که یک کلمه در یک محتوا ظاهر شده است تقسیم بر تعداد کل کلمات آن محتوا؛ دوم بحث فرکانس محتوای معکوس (IDF) پیش میآید، به عنوان لگاریتم تعداد محتوا موجود در واحد تقسیم بر تعداد محتواهایی که دارای آن اصلاح خاص هستند.
TF (Term Frequency): این به معنای فرکانس مدت است که اندازه گیری میکند چگونه یک دوره در یک محتوا اتفاق میافتد. از آنجا که هر محتوا دارای طول متفاوت است، این امکان وجود دارد که یک واژه در محتوای بلند خیلی بیشتر نسبت به محتوای کوتاه ظاهر شود. بنابراین فرکانس مدت در طول سند تقسیم میشود. به عنوان روشی برای عادی سازی:
TF برابر است با (تعداد دفعاتی که T در یک محتوا ظاهر میشود) / (تعداد کل طول سند)
IDF (Inverse Document Frequency): این به معنای فرکانس محتوای معکوس است که وظیفه آن اندازه گیری طول محتوا میباشد. در حین محاسبه TF، تمام اصطلاحات به یک اندازه اهمیت دارند. با این حال همه میدانیم که اصطلاحاتی مانند (است، شد، و، آن و…) به مقدار زیاد به کار گرفته میشوند اما واقعیت این است که اهمیت و تاثیر بسیار کمی دارند. به این ترتیب در حین محاسبه میبایست، شرایط مکرر را در نظر بگیرید:
IDF برابر است با لگاریتم (تعداد کل محتوا / تعداد محتوا T در آن)
برای نمونه، مثال ساده زیر را مشاهده کنید:
یک محتوا ۱۰۰ کلمه ای را در نظر بگیرید که کلمه “گربه” ۳ بار در آن ظاهر میشود. فرکانس اصطلاح (یا همان چگالی کلمات کلیدی) در آن برای کلمه “گربه” (۳/۱۰۰) است که معادل ۰.۰۳ میباشد. خب اکنون فکر کنید ما محتوایی ۱۰ میلیون کلمه ای داریم که کلمه “گربه” هزار بار در آن آمده است، پس فرکانس محتوای معکوس آن با لگاریتم معادل (۱۰۰۰/۱۰۰۰۰۰۰۰) برابر ۴ است.
بنابراین مقدار tf-idf این محتوا که از طریق ضرب این دو حاصل به دست میآید معادل ۰.۱۲ است.
چقدر این مطلب مفید بود ؟
یک ستاره <<>> پنج ستاره
میانگین رتبه ۴ / ۵. تعداد امتیازات ۳۴
تا کنون امتیازی ثبت نشده است . (اولین نفر باشید)
یک پاسخ
فوق العاده