یک ضریب تشابه بسیار ساده. اندازه عبارات مشترک به کل عبارات.
ضریب همپوشانی[۴۰]
شبیه به ضریب تاس با این تفاوت که شباهت بین دو رشته را در حالی اندازه می گیرد که کلمه ای از یکی زیرمجموعه ای از دیگری باشد.
۲٫۵٫۲٫ تشابه بر پایه مجموعه
سنجش تشابه دو متن بر پایه مجموعه یک معیار سنجش تشابه معنایی است، که شباهت بین کلمات را بر اساس اطلاعات مفید موجود در یک مجموعه بدست می آورد. این مجموعه حجم انبوهی از دست نوشته ها و متون گفتاری است که برای تحقیقات زبانی مورد استفاده قرار می گیرند. می توان گفت که میزان تشابه وابسته به مجموعه ای است که کلمات و جملات از آنها استخراج شده است. شکل۲-۷ انواع روش های سنجش تشابه بر پایه مجموعه را نشان می دهد، که در ادامه به اختصار معرفی می شوند.
شکل۲- ۷- انواع الگوریتم های تشابه بر پایه مجموع
Hyperspace Analoue to Language (HAL)
در این روش یک فضای معنایی از کلمات موجود در مجموعه ساخته می شود به این شکل که یک ماتریس کلمه در کلمه تشکیل می شود. به طوری که مقادیر آن نشان دهنده میزان ارتباط بین کلمه سطر و ستون متناظر با آن مقدار است. سپس آنتروپی پایین در ستون ماتریس توسط کاربر استخراج می شود. در تجزیه تحلیل متن برای استخراج ماتریس یک قالب n کلمه ای را در نظر می گیریم.
(مثلا n=1 ) سپس فاصله وقوع هر کلمه با کلمه اولی شمارش می شود. وزن مقادیر ماتریس رابطه معکوس با فاصله وقوع هر کلمه با کلمه ابتدایی دارد .کلمه ای که به کلمه ابتدایی نزدیک تر باشد از نظر معنایی رابطه نزدیکتری و در نتیجه وزن بیشتری دارد. HAL همچنین به ترتیب قرارگیری نیز توجه می کند. یعنی اینکه همسایه قبل از کلمه مورد نظر است یا بعد از آن به این منظور حالت همسایه مختلف را ثبت می کند.
Latent Semantic Analysis (LSA )
تحلیل معنایی نهفته متداول ترین روش در میان روش های مبتنی بر مجموعه اصلی است. به ویژه برای تحلیل رابطه معنایی بین دستهای از متون مورد استفاده قرارمی گیرد. روش کار به اختصار اینگونه است ،که ابتدا ماتریس کلمه و سطر یا پاراگراف تشکیل می- شود، که ردیف ها نشان دهنده کلمات منحصر به فرد و ستون ها نشان دهنده سطرهاست. پس از روش تجزیه مقدار دهی منفرد [۴۱](SVD)به منظور کاهش سطر و ستون ماتریس در حالی که ساختار شباهت بین ردیف ها حفظ می شود، استفاده می کند.د پس از آن کلمات با محاسبه کسینوس رابطه بین دو بردار تشکیل شده توسط هر دو ردیف مقایسه می شوند. مقادیر هر چه به یک نزدیک تر باشد، دو کلمه به هم شبیه تر بوده و هر چه به صفر نزدیک- تر باشد، شباهت کمتری دارند.
تعمیم تحلیل معنایی نهفته[۴۲] GLSA
یک چارچوب برای محاسبه میزان اهمیت عبارات و سند حاوی آن . در این روش که بر پایه LSA است، توجه بر ارزش سند حاوی عبارت به جای روش ارائه شده در LSA شده که به تعداد کلمات موجود در سطرها و مقایسه آنها توجه کرد. GLSA به این منظور نیاز به محاسبه میزان تشابه معنایی بین عبارات و نیز استفاده از روش های کاهش ابعاد مورد مقایسه دارد. برای رسیدن به نتیجه مطلوب بهترین و کارآمدترین روش ها را با هم ترکیب می کند و در آخر ماتریس عبارات موجود در اسناد که در LSA معرفی شده، برای محاسبه وزن در ترکیب بردارهای خطی از عبارات مورد استفاده قرار می گیرد.
تحلیل معنایی صریح ESA[43]
معیاری برای محاسبه ارتباط معنایی بین دو متن دلخواه است. ESA به عنوان روشی برای بهبود طبقه بندی متون معرفی شده است. در این روش یک ماتریس tf-idf تشکیل می شود که مقادیر آن نشان دهنده رابطه معنایی میان دو متن است که توسط اندازه گیری کسینوسی محاسبه می شود.
تحلیل صریح معنایی متقابل زبانیCL-ESA[44]
یک تعمیم چند زبانه از ESAاست. که از یک متن چند زبانه به عنوان مرجع در مرکز چندین متن دیگر که از نظر زبانی مستقل هستند استفاده می کند. ارتباط این اسناد و میزان وابستگی آن ها به سن مرجع از طریق اندازه گیری کسینوسی محاسبه می شود. ویکیپدیا از این روش برای دسته بندی و اتصال اسناد متنی خود استفاده می کند.
بازیابی اطلاعات متقابل نقطه به نقطهPMI-IR[45]
روشی است برای محاسبه شباهت بین کلمات است. موتور جستجو آستاویستا از این روش برای محاسبه احتمال در جستجو پیشرفته استفاده می کند. دو کلمه که در یک صفحه وب نزدیک ترین موقعیت را نسبت به هم داشته باشد نمره تشابه بالاتری درPMI-IR خواهد داشت.
بازیابی اطلاعات متقابل نقطه به نقطه نوع دومSCO-PMI[46]
در این روش شباهت معنایی در واژه، با لیست کردن کلمات همسایه با آن در واژه در متن کلی انجام می شود. مزیت این روش در این است که می توان شباهت بین دو کلمه را که در همسایگی هم نیستند اما رابطه معنایی دارند را نیز اندازه گیری کرد.
فاصله نرمال گوگل NGD[47]
اندازه گیری شباهت معنایی که از بازدیدهای صورت گرفته به وسیله موتور جستجو گوگل برای یک مجموعه از کلمات کلیدی بدست آمده است. در موتور جستجو فاصله دو کلمه کلیدی با معنی یکسان یا نزدیک به هم در زبان طبیعی رابطه نزدیکتری نسبت به دو کلمه غیر هم معنی دارند و در اصلاح به هم نزدیکتر هستند.
M در اینجا تعداد صفحات وب جستجوشده به وسیلهGoogle، f(x)و f(y)تعداد موقعیت ها، در جستجو عبارتهایx و y هر دو وجود داشتند. اگر این دو کلمه به هم نزدیک نباشد وجدا از هم در صفحه ظاهر شوند، ضریب NGD بی نهایت است و چنانچه هر دو دائما کنار هم ظاهرشوندNGD آنها صفریا برابر با مقداری بین مربع x و مربع y خواهد بود.
استخراج توزیعی کلمات مشابه با بهره گرفتن از تکرار وقوع کلماتDISCO[48]
در این روش فرض بر این است که کلمات مشابه در زمینه های مشابه استفاده می شوند. بر همین اساس مجموعه های بزرگ متن مورد تجزیه و تحلیل آماری قرارمی گیرند تا شباهت توزیعی بین کلمات استخراج شود. درDISCO شباهت توزیعی بین کلمات با بهره گرفتن از یک قاب متحرک با اندازه۳± برای اندازه گیری دفعات پدیدار شدن کلمه، اندازه گیری می شود .دو معیار DISCO1 و DISCO2 نیز توسعه ای از معیار اصلی هستند به طوری که DISCO1 شباهت دو کلمه را بر اساس ترتیب مجموعه که کلمه در آن است محاسبه می کند و DISCO2 میزان تشابه را بر اساس مجموعه کلمات توزیع شده مشابه با کلمات مورد نظر محاسبه می کند.
۳٫۵٫۲٫تشابه بر پایه دانش
روش های مبتنی بر دانش بر اساس شناسایی میزان شباهت بین کلمات با بهره گرفتن از اطلاعات بدست آمده از شبکه های معنایی عمل می کنند. [۴۹]Wordnet متداول ترین شبکه معنایی است. Wordnet یک پایگاه بزرگ واژه ای در زبان انگلیسی است. اسمها، فعل ها، صفت ها و قیدها به صورت مجموعه ای از مترادف های مشابه دسته بندی شده اند(synsets) که هر کدام بیان کننده یک مفهوم مجزا هستند .
synsets ها با بهره گرفتن از روابط معنایی و مفهومی و روابط لغوی به هم متصل هستند. روش های اندازه گیری تشابه بر پایه دانش به دو گروه تقسیم می شوند: اندازه گیری شباهت معنایی و اندازه گیری ارتباط معنایی. اندازه گیری شباهت معنایی همان گونه که از اسمش بر می آید هنگامی قابل اندازه گیری است، که دو کلمه در رابطه معنایی بر پایه شباهت با یکدیگر باشند، دو کلمه همانند و متشابه یکدیگر باشند اما اندازه گیری بر پایه رابطه معنایی دو کلمه می پردازد. به عنوان مثال اینکه کلمه ای نوع خاصی از دیگری باشد، یا دو کلمه مخالف هم باشند، یکی بخشی از دیگری باشد یا غیره.
شکل۲- ۸- انواع الگوریتم های تشابه برپایه دانش
از میان نه روش ارائه شده اندازه گیری شباهت معنایی(شکل ۲-۸ ) سه روش بر پایه محتوا اطلاعات و سه روش بر پایه طول مسیر اندازه گیری می شوند سه روش بر پایه رابطه مفهومی به اندازه گیری شباهت می پردازند. معیار path عددی را به عنوان میزان شباهت دو کلمه بر می گرداند که بر کوتاه ترین مسیر مفهومی که دو کلمه را به هم متصل می کند ، دلالت دارد به عنوان مثال father و parent در شبکه جزء یک طبقه بندی متصل هستند یا نه و فاصله مفهومی بین این دو کلمه چقدر است. در روش HSO زنجیره ی لغوی بین دو کلمه پیدا شده و بر اساس آن رابطه دو کلمه در یکی از سه رشته ارتباطی تعریف می شود فوق العاده قوی- قوی- متوسط که حداکثر نتیجه برای یک رابطه عدد ۱۶ است.]۲۱[
۴٫۵٫۲٫ اندازه گیری شباهت ترکیبی
همانگونه که از اسم این روش ها بر می آید این روش ها با ترکیب روش های قبل سعی به از بین بردن نواقص و کاستی های هر روش با روش دیگر کرده اند تا معیارهای بهینه تری را ارائه دهند. بسیاری از تحقیق ها نیز در این حوزه صورت گرفته تا به حال هشت روش آزمایش شده ارائه شده که دوتای آنها بر پایه اندازه گیری بر اساس مجموعه، شش تای دیگر بر اساس اندازه گیری بر پایه دانش مطرح شده اند. روش ارائه شده در ]۲۲[ ابتدا شباهت معنایی بین کلمات از یک پایگاه دانش لغوی و مجموعه استخراج می شود و سپس در مرحله دوم تاثیر ترتیب و جای کلمه در معنای جمله را در نظر می گیرد.
در روش STS تشابه متن معنایی میزان شباهت بین کلمات را با ترکیب اطلاعات معنایی و نحوی اندازه گیری می کند. STS از دو روش شباهت خطی و شباهت معنایی به همراه روش انتخابی common word order بهره می گیرد.
STS در]۲۳[ روی سی جفت کلمه روش جدید را آزمایش کرده و با محاسبه ضریب همبستگی پیرسون[۵۰] نتایج را بهبود بخشید. در روش ]۲۴[ نیز از اندازه گیری معنایی بر اساس مجموعه همراه با میزان شباهت معنایی بر اساس دانش برای کلمات هم نقش در جملات مختلف استفاده شده است. مهمترین خصوصیات این روش استفاده از مدل های یادگیری ماشین مانند رگرسیون خطی و مدل bugging برای بدست اوردن یک درجه شباهت موثر بین جملات است.
در ]۲۵[ دو روش اندازه گیری مفهومی با بهره گرفتن از wordnetوNgram را با هم برای ارتباط دادن بین دو روش دستی و اتوماتیک انتخاب شده است.
همان طور که در قبل بیان شد، نمونه ها و بانک دادهای مورد استفاده در این تحقیق و به طور کل در مخازن خطا نرم افزار توسط یک گروه یا کاربر خاص تنظیم و ثبت نمی شوند . این داده ها توسط تمام کسانی که به نوعی در ارتباط با نرم افزار و پروژه هستند ثبت می شوند. پس طبیعی است که این متون از نظر نوع نگارش و دیکته لغات با الگو ویزه و اصولی نباشد. از سوی دیگر ممکن است این متون حاوی کلمات مشابه و هم معنا و حتی گاهی هم معنی اما غیر مربوط به هم باشند. در این شرایط برای استخراج دانش و فیلتر کردن داده ها نیاز به روشی است که این مشکلات تاثیر چندانی در نتایج آن نداشته باشد. همچنین در تشخیص جملات مشابه هم نیاز به دقت محاسباتی در روش های خطی و هم نیاز به دقت در معنا و نحو جملات و کلمات لازم است .
کلمات تخصصی در این متون پر اهمیت تر از کلمات متداول و اضافه هستند، پس نیاز است که اهمیت آنها به مراتب بیشتر از کلمات رایج در همه جملات است. روش مورد نظر پاسخگوی همه این نیاز ها خواهد بود همچنین در روش ]۲۳ [نه تنها شباهت ظاهری و معنایی و نحوی کلمات در نظر گرفته می شود بلکه به کلمات مجاور و حتی غیر مجاور آنها که در جمله یا متن ظاهر می شوند و روابط معنایی آنها با کلمه مورد نظر توجه می شود.
دلایل فوق باعث انتخاب روش اندازه گیری تشابه معنایی با بهره گرفتن از تشابه خطی وتشابه معنایی بر پایه مجموعه، در این تحقیق شده است. در ادامه به طور کامل این روش را توضیح می دهیم. روش مورد نظر شباهت بین دو متن را از نظر معنایی و اطلاعات نحوی (نظم متداول کلمات در زبان ) مورد بررسی قرار می دهد. برای این کار از سه تابع شباهت استفاده می شود.
اول، شباهت رشته ها و شباهت معنایی کلمات محاسبه می شود. سپس برای ترکیب محاسبات با شباهت نحوی از تابع شباهت کلمات متداول انتخابی استفاده می کنیم. در نهایت ضریب شباهت دو متن با ترکیب شباهت رشته، شباهت معنایی بین کلمات و شباهت کلمات رایج و نرمال سازی محاسبات بدست می آید این روش STS[51]نام دارد.
فرض کنید کلمه ای در دو جمله به کار رفته باشد که این دو جمله معنا و حوزه مفهومی یکسانی داشته باشد اما در یک جمله کلمه مورد نظر اشتباه نوشته شده باشد.
به عنوان مثال دو جمله زیر را در نظر بگیریید
۱٫Einstein was a German-born theoretical physieist.
۲٫Einstain was the scientist of physics at 19 century.
در دو جمله بالا Einstein در نقش اسم به کار رفته و هر دو جمله مفهومی نزدیک به هم دارند اما در جمله دوم این کلمه از نظر املایی درست نوشته نشده است. مگر از معیارهای تشابه مبنی بر فرهنگ لغات دیگر برای بررسی میزان تشابه دو جمله بالا استفاده کنیم به خاطر تفاوت دو کلمه، یا کلمات موجود در جمله میزان تشابه کمی را نشان می دهند در حالی که این دو جمله بر اساس رشته کلمات و مجموعه ای که کلمه مورد نظر در آن است شباهت را اندازه گیری کند. در ادامه به توضیح بخش های مختلف مورد استفاده در روش برگزیده خود می پردازیم.
فصل سوم
استفاده از تکنیکهای داده کاوی برای کشف و رفع خطاهای نرم افزار بر پایه ضریب تشابه معنایی متن و خوشه بندی
فرم در حال بارگذاری ...