وبلاگ

توضیح وبلاگ من

دانلود فایل ها در رابطه با مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی ...

 
تاریخ: 04-08-00
نویسنده: فاطمه کرمانی
  • Continue;

 

  • for each Word in Target_words

 

  • if Translation.Meaning = Word

 

  • if | SCounts[Translation.Word] - TCounts[Word] |  ۱

 

  • Score += SCounts[Translation.Word]

 

  • OverlapWordsofSource (Translation.Word)

 

  • OverlapWordsofTarget (Translation.Meaning)

 

  • break;

 

  • Word_Overlap_Ratio Score / Source_words.length

 

الگوریتم یافتن نرخ کلمات مشترک
انتخاب جفت جملات موازی از بین جفت جملات کاندید
در این مرحله، جفت جملات موازی از میان جفت جملات کاندیدای موازی بودن که در مرحله قبل بدست آمدند انتخاب می‌شوند. برای این کار از طبقه‌بند آنتروپی بیشینه استفاده می‌کنیم. این طبقه‌بند با بهره گرفتن از ویژگی‌هایی که برای یک جفت جمله در نظر گرفته می‌شود (که در ادامه معرفی خواهند شد) تعیین می‌کند که جفت جمله مورد نظر «موازی» یا «غیرموازی» است. در ادامه ابتدا شرح مختصری از طبقه‌بند آنتروپی بیشینه می‌آید و سپس ویژگی‌هایی را که می‌توان برای یک جفت جمله در نظر گرفت تا در طبقه‌بندی به کار روند معرفی خواهند شد.
پایان نامه - مقاله - پروژه
طبقه‌بند آنتروپی بیشینه[۲۹]
اصل آنتروپی بیشینه بیان می‌کند که با محدودیت‌های داده شده، توزیع احتمالاتی که بیشترین آنتروپی (بی نظمی) را دارد، حالت جاری دانش را بهتر می‌تواند نمایش دهد. مدل‌های آنتروپی بیشینه‌ای که بر پایه این اصل هستند، به طور وسیعی در پردازش زبان‌های طبیعی به کار گرفته می‌شوند از جمله در تگ گذاری، تجزیه جمله و تشخیص موجودیت اسمی [۴۷]. تقی پور و همکاران در [۴۸] برای فیلتر کردن جفت جمله‌های نویزی از پیکره موازی، از چهار طبقه‌بند استفاده کردند، و با ارزیابی آن چهار مدل نشان دادند که طبقه‌بند آنتروپی بیشینه از دیگر الگوریتم‌های طبقه‌بند بهتر عمل می‌کند. ما در اینجا از طبقه‌بند آنتروپی بیشینه برای طبقه‌بندی کردن جفت جمله‌ها به دو دسته «جفت جمله موازی» و یا «جفت جمله غیر موازی» استفاده می‌کنیم.
در مدل آنتروپی بیشینه بوسیله تعریف مجموعه‌ای از توابع ویژگی، محدودیت‌هایی بر مدل داده‌ها اِعمال می‌شود. این توابع ویژگی، خصوصیاتی از داده‌ها را نشان می‌دهند که برای مدل سازی مفیدند. به طور مثال نرخ کلمات مشترک برای جفت جمله sp می‌تواند شاخص خوبی برای نشان دادن موازی بودن یا نبودن آن دو جمله باشد. بنابراین در اینجا تابع ویژگی f(sp) را داریم که مقدار آن برابر است با نرخ کلمات مشترک جفت جمله sp. اصل آنتروپی بیشینه می‌گوید شکل بهینه پارامتریک مدل داده‌ها، با توجه به محدودیت‌های داده شده بوسیله توابع ویژگی عبارت است از ترکیب خطی لگاریتمی این توابع ویژگی. از اینرو برای مسئله طبقه‌بندی ما داریم:

 

 

 

 

که در آن c طبقه (موازی یا غیر‌موازی)، Z(sp) ضریب نرمال سازی و fiها توابع ویژگی هستند. مدل نتیجه شامل پارامترهای آزاد می‌شود که وزن ویژگی‌ها هستند.
در اینجا باید توابع ویژگی در نظر گرفته شوند که وجه تمایزی باشند بین جفت جمله‌های موازی و غیر موازی. ویژگی‌هایی که استفاده می‌شود، در دو دسته ویژگی‌های عمومی یک جفت جمله و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله، قرار می‌گیرند. هر کدام از این ویژگی‌ها در ادامه به تفصیل شرح داده می‌شوند.
ویژگی‌های عمومی
ویژگی‌های مبتنی بر طول دو جمله
تعداد کلمات هر کدام از جمله‌های یک جفت جمله، اختلاف این تعداد کلمات و نسبت آنها به یکدیگر، ویژگی‌هایی عمومی هستند که می‌توان برای یک جفت جمله در نظر گرفت. اختلاف و نسبت طول دو جمله بر حسب تعداد کاراکترهای جمله ویژگی‌هایی هستند که در [۵] به کارگرفته شده‌اند.
نرخ کلمات مشترک
این ویژگی به طور مفصل در بخش ۴-۲ شرح داده شد و الگوریتم به دست آوردن نرخ کلمات مشترک نیز در همان بخش آورده شد. با این تفاوت در کاربرد که در آنجا با تعیین یک حد آستانه بر روی نرخ کلمات مشترک جفت جملاتی که غیرموازی بودن آنها بدیهی است حذف می‌شوند. اما در اینجا از نرخ کلمات مشترک به عنوان یک ویژگی برای استفاده در طبقه‌بند آنتروپی بیشینه استفاده می‌شود. جفت جمله‌های موازی در مقایسه با جفت جمله‌های غیرموازی اغلب نرخ کلمات مشترک نسبتا بالاتری دارند. از اینرو می‌توانند وجه تمایز خوبی بین جفت جملات موازی و جفت جملات غیرموازی باشند.
ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله
در همترازی در سطح کلمه بین دو جمله، کلمات متناظر از دو جمله به دو زبان مختلف، شناسایی می‌شوند. از آنجایی که بین دو جمله موازی اکثر کلمات یک جمله، کلمه متناظری در جمله دیگر دارند، همترازی کلمات نسبت به همترازی بین دو جمله غیر موازی بهتر صورت می‌گیرد. بنابراین ویژگی‌های مربوط به همترازی در سطح کلمه بین دو جمله برای تشخیص جملات موازی از جملات غیر موازی بسیار مفید خواهند بود. حال باید ببینیم کدام ویژگی‌ها همترازی در سطح کلمه یک جفت جمله را بهتر توصیف می‌کنند. این ویژگی‌ها در ادامه شرح داده می‌شوند.
کلمات همتراز نشده
به دلیل اینکه کلمات در جفت جمله‌های غیر موازی به میزان خیلی کمی با یکدیگر همتراز می‌شوند، تعداد کلماتی که در همترازی در سطح کلمه شرکت نکرده‌اند، ویژگی بسیار خوبی برای تشخیص جملات غیر موازی است. در اینجا تعداد کلمات همتراز نشده و نسبت این تعداد به کل طول جمله، به کارگرفته می‌شوند.
باروری[۳۰]
در همترازی خودکار در سطح کلمه بین دو جمله ممکن است کلمه‌ای از یک جمله به بیش از یک کلمه از جمله مقابل متصل شود. در [۴۹] تعداد اتصالات یک کلمه در همترازی بین دو جمله «باروری» آن کلمه خوانده می‌شود. اما این اتفاق در همترازی خودکار بین دو جمله غیرموازی بیشتر رخ می‌دهد. زیرا همتراز کننده، کلمه متناظر مناسب را در جمله مقابل نیافته و ممکن است در عوض، همترازی را با چند کلمه رایج از جمله مقابل انجام دهد. از اینرو احتمال غیرموازی بودن جفت جمله‌هایی که باروری بالایی دارند بیشتر است. نویسندگان در [۴۳] سه تا از بیشترین باروری‌ها را به عنوان ویژگی برای طبقه‌بند آنتروپی بیشینه به کار می‌گیرند. مثال‌ آورده شده در شکل‌ ۴-۳ این موضوع را روشن می‌کند.
The
Lighthouse
Guided
Sailors
Into
The
Harbor
For
Over
۱۵۰۰
years
در


فرم در حال بارگذاری ...

« فایل های پایان نامه درباره :روش برنامه ریزی منابع ابر رایانه براساس الگوریتم رقابت استعماری۹۴- ...دانلود پژوهش های پیشین درباره تاثیر عوامل کلیدی موفق مدیر پروژه بر موفقیت پروژه های فناوری اطلاعات در ... »
 
مداحی های محرم