-
- tf.idf
-
- سیگنال و نویز
-
- مقدار تمایز
یکی از پر کاربرد ترین روابط در حوزه بازیابی اطلاعات پارامتر tf.idf است که از حاصل ضرب فراوانی کلمه در فراوانی معکوس سند بدست می آید. این روشی است مبتنی بر چند سند که فراوانی کلمه، تعداد تکرار کلمه در یک سند خاص و فراوانی معکوس، تعداد اسنادی که این کلمه در آن اسناد ظاهر شده است را نشان می دهد. در این روش محاسبات کم است ولی نتایج قابل قبول.
در پارامتر سیگنال نویز هر چه احتمال رخداد کلمه بیشتر می شود بار اطلاعاتی کمتری برای آن در نظر گرفته می شود. کلمات با اهمیت که دارای توزیع متمرکز هستند یعنی تنها در بعضی از اسناد متنی ظاهر شده اند میزان نویز کمتری دارند.
در پارامتر مقدار تمایز استفاده کلمه ای از سند به عنوان کلمه کلیدی که باعث کاهش مشابهت این سند با
سایر اسناد می شود مدنظر است. هر چه مقدار تمایز بیشتر باشد بیانگر تخصصی تر بودن این کلمه و اهمیت بیشتر آن در متمایز کردن سندی از سایر اسناد است.
۲-۱۴-۵ بازیابی تحمل پذیر
منظور از بازیابی تحمل پذیر این است که موتور جستجو بتواند اشتباهات کاربر را در ورود کلیدواژه یا عبارات پیش بینی کند و آن را جبران کند و یا پیشنهاد اصلاح آن را به کاربر ارائه دهد[۵۷].
۲-۱۴-۶ الگوریتم کلی غلط یابی املایی در موتور های جستجو
در مرحله اول، زمانی که کاربر درخواست خود را اشتباه وارد می کند، کلمات متناظر با آن پیدا شده و به همراه کلمه غلط به مرحله بعدی ارسال می گردد. مثلاً اگر کاربر “ارتبات” را وارد کرد، نتایج جستجو هم بر اساس “ارتبات” یافت می شود و هم بر اساس “ارتباط”.
در مرحله دوم، اگر کلمه وارد شده در لغت نامه موجود نباشد باید مانند مرحله اول عمل نماید.
در مرحله سوم، مانند حالت اول عمل می نماید به شرطی که تعداد مستندات یافت شده در اثر درخواست وارد شده کمتر از مقدار از پیش تعیین شده ای باشد.
و در مرحله چهارم، وقتی که پرسش وارد شده تعداد مستنداتی کمتر از مقدار از پیش تعیین شده ای را باز گرداند در این صورت موتور جستجو پیشنهادی برای اصلاح کلمه به کاربر می دهد[۵۹].
۲-۱۴-۷ غلط یابی املایی
دو روش عمده برای غلط یابی املایی وجود دارد[۵۷ و ۵۹]:
-
- فاصله ویرایشی [۷۴]
-
- همپوشانی کی-گرم[۷۵]
دو شیوه خاص غلط یابی از دیدگاه کلمه و جمله عبارتند از[۵۷]:
-
- کلمه مجزا[۷۶]
-
- حساس به متن[۷۷]
اگر در خواست کابر شامل چند کلمه باشد عمل غلط یابی را هر بار بر روی کلمات آن به طور جداگانه
انجام می دهیم که به این روش، روش کلمه مجزا می گویند.
در روش حساس به متن، در کنار هم قرار گرفتن کلمات و تشکیل عبارت متداول، بررسی می شود. برای مثال کاربر “فروشگاه مهرآباد” تهران را وارد می کند، از نظر الگوریتم کلمه مجزا هیچ خطایی در این جستجو دیده نخواهد شد اما در الگوریتم حساس به متن “فرودگاه مهرآباد تهران” پیشنهاد خواهد شد.
۲-۱۴-۸ الگوریتم فاصله ویرایشی
فاصله ویرایشی بین دو رشته کاراکتر عبارت است از تعداد اعمالی که لازم است تا یکی را به دیگری تبدیل کند. این اعمال می توانند شامل حذف، درج و جابجایی باشند. تعدادی الگوریتم برای تعریف و محاسبه فاصله ویرایشی وجود دارد که عبارت اند از[۵۹]:
-
- Leveshtein distance
-
- Damerau-Leveshtein distance
-
- Jaro-Winker distance
-
- Ukkonen
-
- Hirshberg
یکی از الگوریتم های مهم الگوریتم Leveshtein است که از روش برنامه سازی پویا برای محاسبه فاصله بین دو رشته استفاده می کند.
برای مثال فاصله دو کلمه kitten و sitting برابر ۳ است.
-
- kitten –> sitten(substitution of ‘s’ for ‘k’)
-
- sitten –> sittin (substitution of ‘i’ for ‘e’)
-
- sittin –> sitting(substitution of ‘g’ at the end)
فرم در حال بارگذاری ...