“His” و"John"در جمله اول به یک موجودیت اشاره دارند در صورتی در جمله دوم"His” و"John” نمیتوانند به یک موجودیت اشاره داشته باشند. چون یک فرد به حمایت خودش نیاز ندارد.[۹۴]
با بهره گرفتن از این روش، ابتدا مسیرهای وابستگی میان دو عبارت اسمی استخراج میگردد. به عنوان نمونه مسیر وابستگی در مثال ۱۱، برابرست با <noun> needs <pronoun> friend که در آن دو عبارت اسمی مورد بررسی که همان پایانه[۱۲۰]ها هستند، حذف شدهاند. بدین ترتیب، تعداد دفعاتی که یک مسیر وابستگی خاص در پایگاه داده آموزشی دیدهشده و در آن دو عبارت پایانه هممرجع بودهاند. از طرف دیگر تعداد دفعاتی که این مسیر وابستگی دیده شده و دو عبارت پایانه هممرجع نبودهاند نیز محاسبه میشود. به علاوه اینکه این روش با بهره گرفتن از همین مسیرهای وابستگی اطلاعات جنس عبارات اسمی را نیز استخراج مینماید.
مزایا و معایب روشهای مبتنی بر پیکره:
مزیت اینگونه روشها در این است که میتوانند دانش مفیدی را از پیکرههای آموزشی کسب نمایند، که کسب آنها در سایر روشها نیازمند محاسبات سنگین و زمان بر و حتی گاهی اوقات غیر ممکن میباشد. با این وجود کسب چنین دانشی تنها از روی پیکرههای زبانشناسی بسیار بزرگ ممکن است. بهعلاوه، ابزارهای زبانشناسی مناسبی(مانند تجزیهگر آماری) برای پردازش پیکرهها نیاز است. چنین پیکرهها و ابزارهایی در بسیاری از زبانهای طبیعی بهخصوص زبان پارسی وجود ندارد.
۲-۱-۳-۴.روشهای جایگزین:
۲-۱-۳-۴-۱.روش همآموزی[۱۲۱]
همآموزی گونهای از یادگیری باناظر ضعیف میباشد که در آن دو ردهبند مجزا بر روی دو یا چند جنبه[۱۲۲]ی متفاوت از یک دادهی یکسان آموزش میبینند بنابراین فرایند یادگیری دارای افزونگی نخواهد بود.[۳] در سال ۲۰۰۱، مولر[۱۲۳] و همکاران از روش همآموزی در فرایند تشخیص مرجع مشترک استفادهنمودند که برای انجام آن دادهها به دو جنبه تقسیم میشوند.[۱۷] منظور از جنبهها در اینجا همان ویژگیها میباشد. (البته تقسیم آنها به دو بخش لزوما یک افراز معنادار برای ویژگیها محسوب نمیشود). در این روش دادهها براساس نوع عبارت اسمی به سه مجموعه تقسیم میشوند و با توجه به هر یک از این مجموعهها الگوریتم ارائه شده متفاوت عمل میکند. از طرفی دیگر، ان جی[۱۲۴] و کاردیه[۱۲۵] در سال ۲۰۰۳ با دیدی متفاوت این مسئله را مورد بررسی قرار دادند، چرا که نمیتوان با روش قبل یک افراز واضح و مشخص از ویژگیهای مورد استفاده در زنجیره های عبارتهای اسمی هممرجع داشت و یا اگر هم امکان پذیر باشد، یافتن چنیِن اِفرازی مشکل خواهد بود. بنابراین انجی و کاردیه الگوریتم خودراهاندازِ[۱۲۶] یک جنبهای را به کار بستند. براساس آزمایشات مشابهی که آنها بر روی مجموعه دادههای MUC-6 و MUC-7 انجام دادند، الگوریتم ارائه شدهی آنها بهتر از الگوریتم همآموزی ارائه شده توسط مولر و همکارانش عمل میکند.[۱۰۰]
در روشهای قبلی، از شیوههای حریصانه برای یافتن بهترین افراز ویژگیها استفاده میشد، ولی این روش به جای بهره بردن از چندین جنبه گوناگون، از یک جنبه به همراه چندین الگوریتم یادگیری متفاوت بهره میبرد. از آن جایی که عاملهای یادگیرنده متفاوت، گرایش[۱۲۷]های متفاوتی دارند، فرضیات متفاوتی از دادهها را در نظر میگیرند و در نتیجه خروجی آنها میتواند مکمل یکدیگر باشند. در نتایج ارائه شده در [۱۰۰]، الگوریتم خودراهاندازی که با چند عامل یادگیرنده عمل میکند، بسیار بهتر از عامل یادگیرندهی همآموزی است که بر روی چند جنبه متفاوت از دادهها عمل می نمایند. به طور کلی در این پژوهش از عامل یادگیرنده بِِیزین ساده و لیست های تصمیم[۱۲۸] به کار رفته است.
۲-۱-۳-۴-۲.مدل احتمالاتی مرتبه اول[۱۲۹]
در سال ۲۰۰۷، کولتا [۱۳۰]و همکارانش روشی ارائه دادند که از منطق مرتبه اول احتمالاتی برای نمایش ویژگیها استفاده مینماید. در منطق مرتبه اول احتمالی، به هر یک از مستندات[۱۳۱]، احتمالی تخصیص داده میشود. بنابراین یک پیکربندی[۱۳۲] برای مسئله میتواند با مجموعهای از مستندات نمایش داده شود که به هر یک، پارامتری تخصیص داده میشود و از طرفی دیگر، احتمال هر پیکربندی با ترکیب این مستندات وزندار متناسب میباشد.[۴]
استنتاج[۱۳۳]، در این روش مستقیماً بر روی مجموعهای از مستندات انجام میشود و تنها به یک جفت از عبارات اسمی محدود نیست. بنابراین میتوان ویژگیهایی را در نظر گرفت که برای تصمیم گیری کل مجموعه عبارات را در نظر میگیرند. که این در مورد روشهایی که بر اساس یک جفت عبارات اسمی عمل میکردند، قابل اعتماد نبود.
مدلی که کولتا و همکارانش ارائه دادند، از نظر قدرت نمایشی[۱۳۴]، قدرتی برابر با شبکههای منطقی مارکوف[۱۳۵][۶۶] دارد که در آن میتوان معادلات دلخواهی در منطق مرتبه اول ساخت. به این منوال فرایند تشخیص مرجع مشترک را توصیف مینماید و میتواند وزن نمونههای[۱۳۶] این معادلات را فرابگیرد. نویسندگان این مقاله، راهکارهایی برای انتخاب نمونههای آموزشی و تنظیم پارامترها ارائه داده اند که موجب بهبود و کارائی سیستم میشود.
مزایا و معایب مد ل احتمالی مرتبه اول
مزیت این مدل در این است که ویژگیها بر اساس مجموعهای از عبارات اسمی استخراج میکند و بنابراین میتواند ویژگیهای پیچیدهتری را در نظربگیرد. به عنوان مثال، یک ویژگی میتواند بررسیکند که آیا تمام عبارات اسمی موجود در یک مجموعه ضمیر هستند یا خیر در اینصورت از تشکیل زنجیره های هممرجعی که تمام عبارات اسمی آن ضمیر هستند، جلوگیری میشود. به علاوه، چون این مدل بر روی مجموعهای از عبارات اسمی تصمیم میگیرد، روابط متعدی نیز رعایت میشوند. از طرفی دیگر، مشکل این مدل در پیچیدگی آن میباشد.
۲-۱-۳-۴-۳.رتبهبندی[۱۳۷]
در سال ۲۰۰۷، دنیس[۱۳۸] و همکارانش، از روش رتبهبندی برای تشخیص مرجع ضمیر استفاده کردند. همانطور که در بخش ردهبندی اشاره شد، روشهای ردهبندی در هر زمان تنها یک یا دو مقدم کاندیدا را برای یک عبارت اسمی در نظر میگیرند، در حالیکه رتبهبندی اجازه میدهد تا تمامی کاندیداها با یکدیگر ارزیابی شوند. با بهره گرفتن از این روش خطا تا ۹.۷% نسبت به بهترین روشهای ردهبندی که مدل کاندیداهای دودوئی[۱۳۹] [۱۰۹]است، کاهش مییابد. [۷۴]
برای اینکه مسئله تشخیص مرجع مشترک را در قالب یک مسئله ردهبندی در بیاوریم، جفت عبارات مقدم و تالی را در نظر گرفته و آنرا در دو دستهی«هممرجع» و «غیر هممرجع» ردهبندی میکنیم. سپس با بهره گرفتن از یکی از روشهای خوشهبندی «اول-بهترین» و یا «اول-نزدیکترین[۱۴۰]» یکی از مقدمها به عنوان مرجع نهائی انتخاب میشود.
مشکل اصلی در استفاده از روش ردهبندی، در این است که مقدمهای کاندیدا به صورت مستقل ارزیابی میشوند. احتمالی که به هر جفتِ مقدم و تالی نسبت داده میشود، احتمال هممرجع بودن این جفت را بررسی میکند. به بیان دیگر، روش ردهبندی بررسی نمیکند که با در نظر گرفتن سایر کاندیداها، این کاندیدا، مناسبترین مرجع است یا خیر. به همین دلیل مدل کاندیداهای دوتائی به عنوان بهبودی برای این روش ارائه شدهاست. مدل کاندیداهای دوتائی مستقیماً دو جفت از کاندیداها را با یکدیگر مقایسه مینماید، و هنگام آموزش به ازای هر عبارت اسمی تالی، یک مقدم هممرجع و یک مقدم غیر هممرجع در نظر میگیرد. به این ترتیب، کارائی روش ردهبندی برای انتخاب مراجع مشترک مناسب افزایش مییابد.[۱۰۹]
راه آسانتر و کاراتری که در آن میتوان کاندیداهای مختلف را با یکدیگر مقایسه نمود، حل مسئله تشخیص مرجع مشترک در قالب یک مسئله رتبهبندی است. الگوریتمهای آموزشی تبعیضی متفاوتی مانند مدل حداکثر آنتروپی، ماشین بردار پشتیبان و پرسپترون[۱۴۱] میتوانند برای آموزش رتبهبندیکننده تشخیص مرجع مشترک به کار روند. از آنجائیکه با وجود داشتن ویژگیهای ساده، احتمال اینکه هر عبارت اسمی بتواند با چندین کاندیدای قبلی خود پیوند داشتهباشد، زیاد است، بهتر است کاندیداها را به صورت مجزا در نظر نگیریم و این قابلیت را فراهمآوریم که تمام کاندیداها را به طور مستقیم با یکدیگر مقایسه شوند.
مزایای رتبهبندی
مزیت این روش در این است که تمام کاندیداها را مستقیماً با یکدیگر مقایسه میکند. بنابراین میتواند بهترین مرجع و یا مقدم کاندیدا را برای تالی مورد بررسی انتخاب نماید.
۲-۱-۳-۴-۴. فیلدهای تصادفی شرطی[۱۴۲]
مک کالوم[۱۴۳] و همکارانش در سال ۲۰۰۴ فیلدهای تصادفی شرطی را برای حل مسئلهی اسامی هممرجع به کار بردند. مدل ارائه شده توسط آنها، نمونهای از مدلهای گرافی غیر جهتدار بود. این روشها برخلاف اکثر روشهای ارائه شده از نوع رابطهای بوده است. بنابراین در آنها نیازی به این فرض نیست که تصمیم گیری دربارهی جفت عبارات اسمی به صورت مستقل از یکدیگر انجام شود. از طرفی دیگر، بر خلاف سایر مدلهای رابطهای که تولیدی[۱۴۴] هستند، مدل شرطی معرفی شدهی مک کالوم از نوع تبعیضی[۱۴۵] است. این مدل، ویژگیهای متنوع بسیاری از دادههای ورودی را در نظر میگیرد، بدون اینکه نگران وابستگیهای میان آنها باشد. به این ترتیب میتوان از مزایای فیلد تصادفی شرطی و مدل مارکوف پنهان[۱۴۶] به طور همزمان بهرهبرد[۷]
معمولا برای فرایند تشخیص مراجع، هر جفت از عبارات اسمی به صورت مستقل در نظر گرفته میشود. به این ترتیب به ازای هر جنسیت، معیار فاصلهای تعیین میگردد. البته این معیار فاصله ذاتاَ دارای خطا میباشد و پاسخ هر یک از تصمیماتی که به ازای هر جفت از عبارات گرفته میشود، مستقل از دیگری نیست.[۷]
در پژوهش انجام شده توسط مک کالوم، سه مدل متفاوت ارائه شده است:
مدل اول، یک مدل کلی تبعیضی میباشد که در آن ساختار وابستگی نامحدود است. در این مدل تصمیمات هممرجع بودن و ویژگیهای هر موجودیت، بهعنوان متغیرهای تصادفی در نظر گرفته میشوند. این تصمیمات و ویژگیها، بر عبارتهای اسمیای که بر یک موجودیت اشاره دارند، مقید میشوند. توابع ویژگی نیز به متغیر تصمیم هممرجع بودن، y، مجموعهای از ویژگیهای هر موجودیت، a، تمام عبارات اسمی که مرجع واحد دارند، x، بستگی دارد.
در مدل دوم، وابستگی میان متغیرهای تصمیم، y، حذف شده و با متغیر تصادفی دودویی Yij به ازای هر جفت از عبارات اسمی جایگزین شدهاست. در این مدل، گروههای اسمی به گروههای دوتایی محدود شدهاند، در حالیکه در مدل پیشین تمام عبارات اسمیِ هممرجع، یک گروه را تشکیل میدادند.
مدل سوم شبیه مدل دوم است با این تفاوت که از ویژگیهای موجودیتها، بهعنوان متغیر تصادفی استفادهنشده است. به این ترتیب از پیچیدگی مدل دوم کاستهشده است. نویسندگان این مقاله تنها مدل سوم را پیادهسازی کردهاند و بر اساس نتایج ارائه شدهی آنها این مدل بهتر از روش کاردیه [۱۰۱]عمل میکند.
مزایا و معایب روش فیلد تصادفی شرطی
فیلدهای تصادفی شرطی وابستگی میان دادهها را در نظر میگیرند و تصمیم گیری در مورد جفت عبارتهای اسمی به صورت مستقل انجامنمیشود. در نتیجه میتوان گفت از مسائلی همچون ناسازگاریِ سهگانه جلوگیری جلوگیری نمود. مشکل روش فیلدهای تصادفی شرطی در پیچیدگی محاسباتی و پیادهسازی آن است.
۲-۱-۳-۴-۵. خوشهبندی
یکی از پر کاربردترین روشها برای انجام فرایند تحلیل مرجع مشترک، استفاده از انواع الگوریتمهای خوشهبندی میباشد. استفاده از این روش تقریباً با تولد تحلیل مرجع مشترک شروع شد و تا کنون نیز به عنوان یک روش مناسب مورد توجه اغلب پژوهشگران میباشد. نخستین بار کاردیه و همکارانش بودند که در سال ۱۹۹۹، استفاده از خوشهبندی را پیشنهاد دادند. روش پیشنهادی آنها به اینترتیب بود که هر یک از عبارات اسمی با یک بردار ویژگی نمایش دادهشده و سپس الگوریتم خوشهبندی بر روی این بردارهای ویژگی اعمال میشود. پس از اجرای خوشهبندی، عبارتهای اسمی موجود در یک خوشه به عنوان زنجیرهای از عبارتهای اسمی هممرجع در نظر گرفتهمیشوند. این روش، یک روش بدوننظارت[۱۴۷] کامل نمیباشد، چرا که معیار فاصلهای که برای مقایسه استفاده شدهاست، از ضرایب ثابتی استفاده میکند که به صورت اکتشافی[۱۴۸] تنظیم شدهاند.[۱۵] کاردیه و همکارش در سال ۲۰۰۲، استفاده از خوشهبندی با نظارت دیگری به نام خوشهبندی اولین-بهترین را پیشنهاد نمودند. این الگوریتم برای هر عبارت اسمی، از راست به چپ، به دنبال عبارت اسمی هممرجع میگردد و در نهایت عبارت اسمی انتخاب میشود که نسبت به عبارتهای اسمی ماقبل خود، دارای بیشترین مقدار تشابه[۱۴۹] باشد.
در سال ۲۰۰۳، وگستاف[۱۵۰]، گونهی دیگری از الگوریتمهای خوشهبندی را برای مسئله تشخیص مرجع مشترک ارائه نمود که خوشهبندی اجباری یا محدودشده[۱۵۱] نامیدهمیشود. در این الگوریتم محدودیتهایی به الگوریتم خوشهبندی اضافه میشود. از جمله مهمترین آنها، محدودیت«باید متصل شوند» و محدودیت «نمیتوانند متصل شوند» میباشد. محدودیت اول، مشخص میکند که کدامیک از عبارات اسمی باید در یک خوشه قراربگیرند. در حالیکه محدودیت دوم، مشخص میکند که کدامیک از عبارات اسمی نباید در یک خوشه قرار بگیرند. بطور کلی بیشتر محدودیتهای ارائه شده در این پژوهش، از نوع محدودیت «نمیتوانند متصل شوند» بودند که هر یک از این محدودیتها نیز به نوبه خود یکی از محدودیتهای زبانی را مدل میسازد. بهعنوان مثال مطابقت جنس، عدد و کلاس معنایی میتوانند در قالب این محدودیت مدل شوند.[۵۶]
انگلوتا[۱۵۲] و همکارنش در سال ۲۰۰۴، نیز مانند [۱۵]، از روش خوشهبندی سلسله مراتبی[۱۵۳] پایین به بالا برای تحلیل مرجع مشترک استفاده کردند.به این ترتیب که در ابتدا هر عبارت اسمی به خودی خود یک خوشهی یگانه را تشکیل میداد و در نهایت خوشههایی که به اندازه کافی با یکدیگر مشابه بودند با یکدیگرادغام میشدند.[۷۹]
در سال ۲۰۰۵، فینلی[۱۵۴] و همکارش، گونه دیگری از خوشهبندی با نظارت، برای تشخیص مرجع مشترک ارائه نمودند. در مدل ارائه شده توسط آنها با بهره گرفتن از معیار مشابهتی الگوریتم، آموزش داده میشود. به این ترتیب بوسیله آن، خوشهبندیهای مورد نظر تولید میشوند. این شیوه با شیوهی ردهبندی جفت عبارتها تفاوت دارد و این مفهوم آموزش داده میشود که «آیا به یک خوشه تعلق دارد یا خیر» این روش مانند سایر روش های خوشهبندی گفتهشده، رابطهی تعدی را در نظرمیگیرد و هدف آن حداکثر کردن مرز میان خوشههاست.[۹۵] تابع هدف این روش همانند تابع هدف روش بانسل[۱۵۵] و همکارانش میباشد.[۷۲]اما مشکلی که در این روش وجود دارد، این است که تعداد محدودیتها با افزایش تعداد عبارتهای اسمی، به صورت نمایی افزایش مییابند و بهینه کردن تابع هدف مسئلهای از نوع NP-Complete میباشد؛ در نتیجه به جای جواب مسئله سعی در بدست آوردن تخمینی از آن است.
در سال ۲۰۰۷ نیز اِنگای[۱۵۶] و همکارش از خوشهبندی K-means ویرایش شده برای مسیریابی و شناسایی موجودیتها در زبان چینی استفاده نمودند[۱۵۷] آنها بر خلاف انگلوتا، یک الگوریتم سلسله مراتبی بالا به پایین ارائه دادند، که از خوشهبندی K-means تکرار شونده استفاده میکند. انگای و همکارانش از رویکرد ارائه شده توسط فلوراین[۱۵۸] پیروی میکردند. به این ترتیب که در گام نخست به شناسایی موجودیتها پرداخته و در گام دوم، موجودیتهایی که به شخص، مکان و… ثابت اشاره داشتند را در یک گروه قرار میدهند.[۳۵]
بر خلاف پژوهشهای پیشین، حقیقی و کلین در سال ۲۰۰۷، برای نخستین بار استفاده از روش بدون نظارت کامل را برای تحلیل مرجع مشترک پیشنهاد دادند، روش آنها در [۵]بر مبنای یک فرایند سلسله مراتبی بود که مراجع هر اشاره را در متن پیدا میکرد. حقیقی و کلین در نهایت روش پیشنهادی خود را برای تحلیل مرجع مشترک در متون متقاطع به کار بستند. یک سال بعد، انجی[۱۵۹] نیز فرایند تحلیل مرجع مشترک را به عنوان یک مسئله بدون نظارت در نظر گرفت، اما او برای فرضیه خود الگوریتم EM[160] را پیشنهاد داد( که در آن تعداد خوشهها از پیش مشخص نشده بود) در روش او به جای اینکه برای توزیع یکنواخت خوشهها مقداردهی اولیه شود، الگوریتم خوشهبندی به دو مرحله تقسیم میشود. در مرحله اول، مدل با تعداد کمی از دادههای برچسب دار مقداردهی شده تا این دادهها به عنوان ورودی مرحله اول(اولین تکرار از این الگوریتم) محسوب شوند، به این ترتیب مقدارN محاسبه شده و در مرحلهی دوم به عنوان پارامتر ورودی الگوریتم EMدر نظر گرفته میشود.[۹۸]پس از آن پون[۱۶۱] و همکارش، یک مدل بدون نظارت دیگری پیشنهاد دادند که تلفیقی از خوشهبندی EM و شبکه منطقی مارکوف[۱۶۲] بود.[۴۲] عملکرد مدلهای ارائه شده توسط اِن جی و پون بسیار بهتر از مدل ارائه شده توسط حقیقی بود .این عملکرد بهتر به این دلیل بود که مدل اِن جی و پون، امکان استفاده از ویژگیهای بیانی بیشتری (به عنوان نمونه، بدل یا عطف بیان) داشت.
درسال ۲۰۱۰، استونایو[۱۶۳] و همکاران از الگوریتم یادگیری پرسپترون به عنوان ردهبند استفاده کردند و سپس الگوریتم خوشهبندی سلسله مراتبی تک پیوندی[۱۶۴] بر روی جفت عبارتهای مثبت اعمال نموده و نسبتاً به نتایج مناسبی دستیافتند.[۱۰۲]
یک سال بعد، نیز چن[۱۶۵] و همکارانش از روش خوشهبندی برای پیدا کردن زنجیره عبارتهای اسمی هممرجع استفاده کردند. مدل ارائه شدهی آنها، بر ویژگیهای زبانشناسی غنی و شناسایی عبارات اسمی استوار است؛ به این ترتیب که محدوده عبارات اسمی با بهره گرفتن از ردهبند حداکثر آنتروپی شناسایی شده و در نهایت با بهره گرفتن از الگوریتم خوشهبندی اولین بهترین[۱۶۶]، هر اشاره با تمام اشارههای پیش از خود مقایسه میشود و با در نظر گرفتن مقایسهی ضریب اطمینان[۱۶۷] بدست آمده از ردهبند و مقایسه آن با یک آستانه ثابت، و با توجه به بیشترین احتمال خوشهبندی صورت میگیرد. هر اشاره که احتمال آن بالاتر از حد آستانه باشد در خوشهای جدید قرار خواهد گرفت.[۲۲]
۲-۳. معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند
روش ردهبندی
روشهای افراز
امتیاز
Cai et al, 2011
Compute hyper edge weights on 30% of training data
Recursive 2-way Spectral clustering
(Agarwal, 2005)
فرم در حال بارگذاری ...