- Continue;
- for each Word in Target_words
- if Translation.Meaning = Word
- if | SCounts[Translation.Word] - TCounts[Word] | ≤ ۱
- Score += SCounts[Translation.Word]
- OverlapWordsofSource (Translation.Word)
- OverlapWordsofTarget (Translation.Meaning)
- break;
- Word_Overlap_Ratio Score / Source_words.length
الگوریتم یافتن نرخ کلمات مشترک
انتخاب جفت جملات موازی از بین جفت جملات کاندید
در این مرحله، جفت جملات موازی از میان جفت جملات کاندیدای موازی بودن که در مرحله قبل بدست آمدند انتخاب میشوند. برای این کار از طبقهبند آنتروپی بیشینه استفاده میکنیم. این طبقهبند با بهره گرفتن از ویژگیهایی که برای یک جفت جمله در نظر گرفته میشود (که در ادامه معرفی خواهند شد) تعیین میکند که جفت جمله مورد نظر «موازی» یا «غیرموازی» است. در ادامه ابتدا شرح مختصری از طبقهبند آنتروپی بیشینه میآید و سپس ویژگیهایی را که میتوان برای یک جفت جمله در نظر گرفت تا در طبقهبندی به کار روند معرفی خواهند شد.
طبقهبند آنتروپی بیشینه[۲۹]
اصل آنتروپی بیشینه بیان میکند که با محدودیتهای داده شده، توزیع احتمالاتی که بیشترین آنتروپی (بی نظمی) را دارد، حالت جاری دانش را بهتر میتواند نمایش دهد. مدلهای آنتروپی بیشینهای که بر پایه این اصل هستند، به طور وسیعی در پردازش زبانهای طبیعی به کار گرفته میشوند از جمله در تگ گذاری، تجزیه جمله و تشخیص موجودیت اسمی [۴۷]. تقی پور و همکاران در [۴۸] برای فیلتر کردن جفت جملههای نویزی از پیکره موازی، از چهار طبقهبند استفاده کردند، و با ارزیابی آن چهار مدل نشان دادند که طبقهبند آنتروپی بیشینه از دیگر الگوریتمهای طبقهبند بهتر عمل میکند. ما در اینجا از طبقهبند آنتروپی بیشینه برای طبقهبندی کردن جفت جملهها به دو دسته «جفت جمله موازی» و یا «جفت جمله غیر موازی» استفاده میکنیم.
در مدل آنتروپی بیشینه بوسیله تعریف مجموعهای از توابع ویژگی، محدودیتهایی بر مدل دادهها اِعمال میشود. این توابع ویژگی، خصوصیاتی از دادهها را نشان میدهند که برای مدل سازی مفیدند. به طور مثال نرخ کلمات مشترک برای جفت جمله sp میتواند شاخص خوبی برای نشان دادن موازی بودن یا نبودن آن دو جمله باشد. بنابراین در اینجا تابع ویژگی f(sp) را داریم که مقدار آن برابر است با نرخ کلمات مشترک جفت جمله sp. اصل آنتروپی بیشینه میگوید شکل بهینه پارامتریک مدل دادهها، با توجه به محدودیتهای داده شده بوسیله توابع ویژگی عبارت است از ترکیب خطی لگاریتمی این توابع ویژگی. از اینرو برای مسئله طبقهبندی ما داریم:
که در آن c طبقه (موازی یا غیرموازی)، Z(sp) ضریب نرمال سازی و fiها توابع ویژگی هستند. مدل نتیجه شامل پارامترهای آزاد میشود که وزن ویژگیها هستند.
در اینجا باید توابع ویژگی در نظر گرفته شوند که وجه تمایزی باشند بین جفت جملههای موازی و غیر موازی. ویژگیهایی که استفاده میشود، در دو دسته ویژگیهای عمومی یک جفت جمله و ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله، قرار میگیرند. هر کدام از این ویژگیها در ادامه به تفصیل شرح داده میشوند.
ویژگیهای عمومی
ویژگیهای مبتنی بر طول دو جمله
تعداد کلمات هر کدام از جملههای یک جفت جمله، اختلاف این تعداد کلمات و نسبت آنها به یکدیگر، ویژگیهایی عمومی هستند که میتوان برای یک جفت جمله در نظر گرفت. اختلاف و نسبت طول دو جمله بر حسب تعداد کاراکترهای جمله ویژگیهایی هستند که در [۵] به کارگرفته شدهاند.
نرخ کلمات مشترک
این ویژگی به طور مفصل در بخش ۴-۲ شرح داده شد و الگوریتم به دست آوردن نرخ کلمات مشترک نیز در همان بخش آورده شد. با این تفاوت در کاربرد که در آنجا با تعیین یک حد آستانه بر روی نرخ کلمات مشترک جفت جملاتی که غیرموازی بودن آنها بدیهی است حذف میشوند. اما در اینجا از نرخ کلمات مشترک به عنوان یک ویژگی برای استفاده در طبقهبند آنتروپی بیشینه استفاده میشود. جفت جملههای موازی در مقایسه با جفت جملههای غیرموازی اغلب نرخ کلمات مشترک نسبتا بالاتری دارند. از اینرو میتوانند وجه تمایز خوبی بین جفت جملات موازی و جفت جملات غیرموازی باشند.
ویژگیهای مبتنی بر همترازی در سطح کلمه یک جفت جمله
در همترازی در سطح کلمه بین دو جمله، کلمات متناظر از دو جمله به دو زبان مختلف، شناسایی میشوند. از آنجایی که بین دو جمله موازی اکثر کلمات یک جمله، کلمه متناظری در جمله دیگر دارند، همترازی کلمات نسبت به همترازی بین دو جمله غیر موازی بهتر صورت میگیرد. بنابراین ویژگیهای مربوط به همترازی در سطح کلمه بین دو جمله برای تشخیص جملات موازی از جملات غیر موازی بسیار مفید خواهند بود. حال باید ببینیم کدام ویژگیها همترازی در سطح کلمه یک جفت جمله را بهتر توصیف میکنند. این ویژگیها در ادامه شرح داده میشوند.
کلمات همتراز نشده
به دلیل اینکه کلمات در جفت جملههای غیر موازی به میزان خیلی کمی با یکدیگر همتراز میشوند، تعداد کلماتی که در همترازی در سطح کلمه شرکت نکردهاند، ویژگی بسیار خوبی برای تشخیص جملات غیر موازی است. در اینجا تعداد کلمات همتراز نشده و نسبت این تعداد به کل طول جمله، به کارگرفته میشوند.
باروری[۳۰]
در همترازی خودکار در سطح کلمه بین دو جمله ممکن است کلمهای از یک جمله به بیش از یک کلمه از جمله مقابل متصل شود. در [۴۹] تعداد اتصالات یک کلمه در همترازی بین دو جمله «باروری» آن کلمه خوانده میشود. اما این اتفاق در همترازی خودکار بین دو جمله غیرموازی بیشتر رخ میدهد. زیرا همتراز کننده، کلمه متناظر مناسب را در جمله مقابل نیافته و ممکن است در عوض، همترازی را با چند کلمه رایج از جمله مقابل انجام دهد. از اینرو احتمال غیرموازی بودن جفت جملههایی که باروری بالایی دارند بیشتر است. نویسندگان در [۴۳] سه تا از بیشترین باروریها را به عنوان ویژگی برای طبقهبند آنتروپی بیشینه به کار میگیرند. مثال آورده شده در شکل ۴-۳ این موضوع را روشن میکند.
The
Lighthouse
Guided
Sailors
Into
The
Harbor
For
Over
۱۵۰۰
years
در
فرم در حال بارگذاری ...