فاصله
این ویژگیها، فاصله میان دو عبارت اسمی(mi , mj) را در قالب تعداد جملات بین دو عبارت، تعیین میکنند.
تطبیق
این ویژگیها، تطبیق عدد و جنس دو عبارت اسمی(mi , mj) را مشخص می نمایند.
نوع عبارت اسمی
این ویژگیها، نوع عبارات اسمی را بررسی میپردازند که میتواند هم از طریق تحلیل نحوی و هم از طریق رویکردهای سطحی مشخص شود. عموما انواع عبارات اسمی به سه دسته اسم عام، اسم خاص، ضمایر تقسیم میشوند.[۸۲]
*شناسایی نوع عبارتهای اسمی در زبان انگلیسی ساده تر از زبان پارسی است. به عنوان نمونه اسامی خاص در زبان انگلیسی با حرف بزرگ شروع میشوند در صورتی که در زبان پارسی چنین نیست.
نحوی سطحی
در این حالت برخی از ویژگیهای نحوی مورد بررسی قرار میگیرند؛ به عنوان نمونهایا mj به عنوان بدل یا عطف بیان برای mi محسوب میشود.
نحوی عمقی
برخی از پژوهشگران، از تجزیهگر برای اینکار استفاده می نمایند. آنها از درختهای تجزیه و یا زیر درختهای تجزیه به عنوان ویژگیهای نحوی عمقی بهره میبرند.به عنوان نمونه [۴۵] خلاصههای مفیدی مانند مسیر وابستگی میان گرههای ریشه و هر کدام از mi و mj را محاسبه می نمایند. همچنین میتوان از برخی از محدودیتهای اتصال مانند آنچه در بخش مشابهت نحوی روشهای زبانشناسی گفته شد نیز استفاده نمود.
تطابق رشته ای
این ویژگی میتواند برای عبارتهای اسمی کامل و اسامی بسیار مفید باشد. اینکه این تطبیق چه به صورت کامل درنظر گرفته شود چه به صورت جزئی، میتواند مانند [۱۰۳] از ورژن قویتری مانند «تطابق هسته» پیروی کند. به این ترتیب که در این رویکرد تمامی وابستهها حذف شده و تنها به تطابق رشتهای هستهها در mi و mj پرداخته میشود. البته در گاهی اوقات مانند اسامی انسانهایی که در وابسته ی پیشین خود با یکدیگر متفاوت هستند(آقای اسمیت و جانت اسمیت) و یا نامهای برخی از سازمانها میتوان از «تطابق اسم مستعار[۸۳]» نیز استفاده کرد.یکی از تکنیکهای ماهرانه در این خصوص، روش [۶۵] میباشد که استفاده از تکنیک فاصله ویرایش حداقل[۸۴] را ارائه نموده است.
تطابق اسم مستعار
این ویژگیها، به بررسی میکند آیا یکی از دو عبارت اسمی mi ، نام مستعار mj هست یا خیر.
تطابق کلاس معنایی
این ویژگیها، تطبیق کلاس معنایی هستههای دو عبارت اسمی (mi , mj) را بررسی مینماید در برخی موارد این تطابق بر اساس سلسله مراتب شبکه واژگان[۸۵] بررسی میشود. گاهی اوقات تحلیل مرجع مشترک نیاز به بررسی دایره المعارف دارد(مانند Wikipedia) تا از این طریق بتواند به استدلال ارتباط بین عبارتهای مختلف بپردازد.
روال کار تولید نمونههای آموزشی
فرض کنید زنجیره اشارههای M را داریم { m1-m2-m3-m4}=M به طوری که اعضای این زنجیره از یک متن آموزشی نشانهگذاری شده، استخراج شده باشد و همه به یک مرجع واحد اشاره داشته باشند:
برای تولید نمونههای آموزشی مثبت، هر اشاره در یک زنجیره را با اشارهی مجاورش در همان زنجیره، بهعنوان یک نمونه آموزشی مثبت در نظر میگیریم. بهعنوان مثال m2-m3 را در نظر میگیریم. از طرفی دیگر، برای تعیین نمونههای منفی فرض میکنیم که عبارات زیر به ترتیب از متن آموزشی استخراج شدهاند. …- m1-b1-c3-a-m2 که در آن b1 وc3 به زنجیره های اسمی دیگری تعلق دارند و a نیز جزئی از هیچ زنجیره اسمی (هممرجع) نمیباشد. بنابراین جفتهای b1-m2 ، c3-m2 ، a-m2 و… نمونههای منفی را تشکیل میدهند.[۱۳] شکل ۲-۱ یک مثال از روال تولید نمونههای آموزشی مثبت و منفی توسط درخت تصمیم را نمایش میدهد.
شکل ۲-۱ .نمونهای از نمونههای مثبت و منفی که توسط C4.5 تولید شده است[۳۱]
۲-۱-۳-۲-۱.ردهبندی جفت عبارتهای اسمی:
الگوریتمهای ردهبندی[۸۶] مانند سایر روشهای با ناظر[۸۷]، به استفاده از یک پایگاه داده نیاز دارند که در آن زنجیرهای از اشارههایی که به یک موجودیت واحد ارجاع میپردازند، نشانهگذاری شده باشد. هرچند که میتوان هر یک از الگوریتمهای ردهبندی را به منظور تشخیص مرجع مشترک به کار برد، اما همان طور که گفته شد، پیش از استفاده از آنها باید متن ورودی توسط چند پیمانه مورد پردازش قرار بگیرد، تا تمامی اشارههای موجود در آن شناسایی شوند. سپس به ازای هر اشاره (mi)، مجموعهای از اشارههای هممرجع کاندیدا میشوند. در ادامه با جفت کردن اشاره با تمام کاندیداهای موجود در زنجیره، جفت اشارهها تعیین میگردد.
پس از تولید آنها، به ازای هر جفت، یک بردار ویژگی تشکیل شده و در قالب نمونههای آموزشی به الگوریتم یادگیری داده میشود. سپس الگوریتم براساس بردار ویژگی داده شده آموزش میبیند که آیا جفت اشارههای مورد بررسی به یک موجودیت مشترک ارجاع دارند یا خیر، و یا اینکه احتمال هممرجع بودن آنها چقدراست. به این ترتیب میتوان یک ردهبند مناسب ایجاد نمود. عموماً برای انجام این کار از انواع متفاوت ویژگیها مانند آنچه در جدول ۲-۲ گفته شد، استفاده میشود، که با توجه به تعداد ویژگیهای به کار رفته، اندازه های متفاوتی برای بردارهای ویژگی رقم زده میشود. از پژوهشهای انجام شده میتوان به کاردیه[۸۸] با ۵۳ ویژگی، مک کارتی[۸۹] با ۸ ویژگی ، گریست[۹۰] با ۱۳ ویژگی واستویانو[۹۱] با بیش از ۸۰ ویژگی اشاره نمود. در ادامه به بررسی ردهبندی درخت تصمیم میپردازیم. [۵۲،۵۷،۱۰۱]
۲-۱-۳-۲-۱-۱.درخت تصمیم
برای نخستین بار در سال ۱۹۹۵، مک کارتی از روش درخت تصمیم برای تشخیص مرجع مشترک استفاده نمود[۵۲]،اما در سال ۲۰۰۱ بود که سون[۹۲] و همکارانش توانستند استفاده از آن را بهعنوان یک روش مطرح و موفق، ارائه نمایند[۱۰۵]. به دنبال آنها، [۱۲،۳۹،۴۰،۷۵،۹۹،۱۰۱،۱۰۸]، نیز از درخت تصمیم استفاده کردهاند. در سال ۲۰۱۰،کوبدانی و همکارش یک سیستم پیمانههای برای تشخیص مرجع مشترک ارائه دادند، آنها با بررسی نتایج ردهبندهای مختلفی مانند درخت تصمیم، نیو بیز، ماشین بردار پشتیبان و حداکثر آنتروپی برای زبانهای آلمانی و انگلیسی، ردهبند درخت تصمیم را برگزیدند[۳۹]. یک سال بعد نیز آنها، سیستم پیشنهادی خود را تحت عنوان سیستم خودراه انداز تحلیل مرجع مشترک، توسعه دادند و از ویژگیهایی مانند شبکه واژگان استفاده کردند تا به طور خودکار، باهمآیی واژگان نشانهگذاری شود.[۴۰]در سال ۲۰۱۲، بانسال و کلین نیز ویژگیهای تحت وب را گسترش داده و برای انجام ردهبندی به کار بستند. میتوانید اطلاعات بیشتر را در [۱۲]مطالعه نمائید.
همانطورکه در بخش قبل گفته شده، آموزش ردهبند درخت تصمیم با بهره گرفتن از متون آموزشی انجام میشود. پس از آموزش ، نوبت به مرحله آزمایش آن بر روی متون آزمایشی میرسد. طبق پژوهشهای ارائه شده، فرایند ردهبندی جفت اشارهها میتواند به صورتهای ذیل صورت پذیرد:
نخست، پیش از فرایند تصمیم گیری، لازم است تا در یک یا چند پیمانه پیش پردازشی، تمامی اشارههای موجود در متن آزمایشی استخراج شوند. سپس برای هر یک از اشارهها که بهعنوان تالی انتخاب میشود، تمامی اشارههای ما قبل آن بررسی شده تا بهعنوان کاندیداهایی، برای عبارت مقدم یا عبارت اسمی هممرجع در نظر گرفته شوند. (این عمل از راست به چپ انجام خواهد شد) در ادامه به ازای هر جفت اشاره، یک بردار ویژگیها تولید میشود و این بردار بهعنوان ورودی به ردهبند داده خواهد شد. این فرایند، برای هر اشاره به طور مداوم انجام میشود تا زمانی که ردهبند اعلام نماید که دو اشاره با هم، هممرجع هستند و یا اینکه دیگر اشارهای قبل از تالی وجود نداشته باشد. به این ترتیب، تمامی زنجیره های اسمی متن آزمایشی یافت خواهند شد.[۱۰۵]
کاردیه و همکارانش در پژوهشی دیگر، گسترش دیگری بر روش [۱۰۵]ارائه کردند که در آن به ازای هر عبارت اسمی، بررسی میشود که آیا آن عبارت اسمی، دارای مرجع هست یا خیر و آنها برای تعیین این مسئله از مدل حداکثر آنتروپی[۹۳] استفاده کردند.
یانگ[۹۴] و همکارانش، گونهای از یادگیری رقابتی[۹۵] را در زمینه تشخیص مرجع مشترک، به کار گرفتند. در روش ارائه شده توسط آنها، نمونههای آموزشی به این ترتیب فراهم میشوند که به ازای هرتالی، یک جفت مقدم کاندیدا در نظر گرفته میشود؛ بطوریکه یکی از آنها مرجع تالی باشد ولی دیگری با تالی در یک زنجیره با مرجع مشترک قرار نداشته باشد. اینگونه نمونههای آموزشی، باعث میشوند که عامل یادگیرنده، تفاوت میان کاندیداهای هممرجع و غیرهممرجع را آموزش ببیند و برای مقایسه میان کاندیداهای مختلف، توانمندتر عمل نماید.[۱۰۹]
۲-۱-۳-۲-۲. افراز:
در اکثر روشهایی که اخیراً ارائه شده، مرحله ردهبندی یکسان بوده است که با کمک یکی از روشهای درخت تصمیم، [۵۲،۱۰۱،۱۰۵] حداکثر آنتروپی[۹۶]، مدل احتمالی تولیدی [۷۳]و یا ماشین بردار پشتیبان[۲۸،۳۵،۵۷،۹۱] پیاده سازی شده است[۹۶]. روش ارائه شده توسط[۱۰۵]، بیش از سایر ردهبندهای ارائه شده، مورد توجه و استفاده پژوهشگران قرار گرفته است. اما آنچه پژوهشهای ارائه شده را از یکدیگر متمایز میسازد، ویژگیهای استفاده شده و روش افراز جفت اشارهها است. به عنوان مثال، کاردیه و همکارانش، چند راهکار برای افراز و بهبود کارائی روش [۱۰۵] ارائه دادند:
فرم در حال بارگذاری ...