وبلاگ

توضیح وبلاگ من

پژوهش های انجام شده در مورد چارچوبی جدید برای تشخیصِ مرجعِ‏مشترک واسمِ اشاره در متون پارسی- فایل ۱۰

 
تاریخ: 04-08-00
نویسنده: فاطمه کرمانی

فاصله

 

این ویژگی‏ها، فاصله میان دو عبارت اسمی(mi , mj) را در قالب تعداد جملات بین دو عبارت، تعیین می‏کنند.

 

 

 

تطبیق

 

این ویژگی‏ها، تطبیق عدد و جنس دو عبارت اسمی(mi , mj) را مشخص می‏ نمایند.

 

 

 

نوع عبارت اسمی

 

این ویژگی‏ها، نوع عبارات اسمی را بررسی می‏پردازند که می‏تواند هم از طریق تحلیل نحوی و هم از طریق رویکردهای سطحی مشخص شود. عموما انواع عبارات اسمی به سه دسته اسم عام، اسم خاص، ضمایر تقسیم می‏شوند.[۸۲]
*شناسایی نوع عبارت‏های اسمی در زبان انگلیسی ساده تر از زبان پارسی است. به عنوان نمونه اسامی خاص در زبان انگلیسی با حرف بزرگ شروع می‏شوند در صورتی که در زبان پارسی چنین نیست.

 

 

 

نحوی سطحی

 

در این حالت برخی از ویژگی‏های نحوی مورد بررسی قرار می‏گیرند؛ به عنوان نمونه‏ایا mبه عنوان بدل یا عطف بیان برای mi محسوب می‏شود.
مقاله - پروژه

 

 

 

نحوی عمقی

 

برخی از پژوهشگران، از تجزیه‏گر برای اینکار استفاده می‏ نمایند. آن‏ها از درخت‏های تجزیه و یا زیر درخت‏های تجزیه به عنوان ویژگی‏های نحوی عمقی بهره می‏برند.به عنوان نمونه [۴۵] خلاصه‏های مفیدی مانند مسیر وابستگی میان گره‏های ریشه و هر کدام از mi و mرا محاسبه می‏ نمایند. همچنین می‏توان از برخی از محدودیت‏های اتصال مانند آنچه در بخش مشابهت نحوی روش‏های زبان‏شناسی گفته شد نیز استفاده نمود.

 

 

 

تطابق رشته ای

 

این ویژگی می‏تواند برای عبارت‏های اسمی کامل و اسامی بسیار مفید باشد. اینکه این تطبیق چه به صورت کامل درنظر گرفته شود چه به صورت جزئی، می‏تواند مانند [۱۰۳] از ورژن قوی‏تری مانند «تطابق هسته» پیروی کند. به این ترتیب که در این رویکرد تمامی وابسته‏ها حذف شده و تنها به تطابق رشته‏ای هسته‏ها در mi و mپرداخته می‏شود. البته در گاهی اوقات مانند اسامی انسان‏هایی که در وابسته ی پیشین خود با یکدیگر متفاوت هستند(آقای اسمیت و جانت اسمیت) و یا نامهای برخی از سازمان‏ها می‏توان از «تطابق اسم مستعار[۸۳]» نیز استفاده کرد.یکی از تکنیک‏های ماهرانه در این خصوص، روش [۶۵] می‏باشد که استفاده از تکنیک فاصله ویرایش حداقل[۸۴] را ارائه نموده است.

 

 

 

تطابق اسم مستعار

 

این ویژگی‏ها، به بررسی می‏کند آیا یکی از دو عبارت اسمی mi ، نام مستعار mj هست یا خیر.

 

 

 

تطابق کلاس معنایی

 

این ویژگی‏ها، تطبیق کلاس معنایی هسته‏های دو عبارت اسمی (mi , mj) را بررسی می‏نماید در برخی موارد این تطابق بر اساس سلسله مراتب شبکه واژگان[۸۵] بررسی می‏شود. گاهی اوقات تحلیل مرجع مشترک نیاز به بررسی دایره المعارف دارد(مانند Wikipedia) تا از این طریق بتواند به استدلال ارتباط بین عبارت‏های مختلف بپردازد.

 

 

 

روال کار تولید نمونه‏های آموزشی
فرض کنید زنجیره اشاره‏های M را داریم { m1-m2-m3-m4}=M به طوری که اعضای این زنجیره از یک متن آموزشی نشانه‏گذاری شده، استخراج شده باشد و همه به یک مرجع واحد اشاره داشته باشند:
برای تولید نمونه‏های آموزشی مثبت، هر اشاره در یک زنجیره را با اشاره‏ی مجاورش در همان زنجیره، به‏عنوان یک نمونه آموزشی مثبت در نظر می‏گیریم. به‏عنوان مثال m2-m3 را در نظر می‏گیریم. از طرفی دیگر، برای تعیین نمونه‏های منفی فرض می‏کنیم که عبارات زیر به ترتیب از متن آموزشی استخراج شده‏اند. …- m1-b1-c3-a-m2 که در آن bوc3 به زنجیره های اسمی دیگری تعلق دارند و a نیز جزئی از هیچ زنجیره اسمی (هم‏مرجع) نمی‏باشد. بنابراین جفت‏های b1-m2 ، c3-m2 ، a-mو… نمونه‏های منفی را تشکیل می‏دهند.[۱۳] شکل ۲-۱ یک مثال از روال تولید نمونه‏های آموزشی مثبت و منفی توسط درخت تصمیم را نمایش می‏دهد.

 

 

 

 

 

 

شکل ۲-۱ .نمونه‏ای از نمونه‏های مثبت و منفی که توسط C4.5 تولید شده است[۳۱]

 

 

 

۲-۱-۳-۲-۱.رده‏بندی جفت عبارت‏های اسمی:
الگوریتم‏های رده‏بندی[۸۶] مانند سایر روش‏های با ناظر[۸۷]، به استفاده از یک پایگاه داده نیاز دارند که در آن زنجیره‏ای از اشاره‏هایی که به یک موجودیت واحد ارجاع می‏پردازند، نشانه‏گذاری شده باشد. هرچند که می‏توان هر یک از الگوریتم‏های رده‏بندی را به منظور تشخیص مرجع مشترک به کار برد، اما همان طور که گفته شد، پیش از استفاده از آن‏ها باید متن ورودی توسط چند پیمانه مورد پردازش قرار بگیرد، تا تمامی اشاره‏های موجود در آن شناسایی شوند. سپس به ازای هر اشاره (mi)، مجموعه‏ای از اشاره‏های هم‏مرجع کاندیدا می‏شوند. در ادامه با جفت کردن اشاره با تمام کاندیداهای موجود در زنجیره، جفت اشاره‏ها تعیین می‏گردد.
پس از تولید آن‏ها، به ازای هر جفت، یک بردار ویژگی تشکیل شده و در قالب نمونه‏های آموزشی به الگوریتم یادگیری داده می‏شود. سپس الگوریتم براساس بردار ویژگی داده شده آموزش می‏بیند که آیا جفت اشاره‏های مورد بررسی به یک موجودیت مشترک ارجاع دارند یا خیر، و یا اینکه احتمال هم‏مرجع بودن آن‏ها چقدراست. به این ترتیب می‏توان یک رده‏بند مناسب ایجاد نمود. عموماً برای انجام این کار از انواع متفاوت ویژگی‏ها مانند آنچه در جدول ۲-۲ گفته شد، استفاده می‏شود، که با توجه به تعداد ویژگی‏های به کار رفته، اندازه های متفاوتی برای بردارهای ویژگی رقم زده می‏شود. از پژوهش‏های انجام شده می‏توان به کاردیه[۸۸] با ۵۳ ویژگی، مک کارتی[۸۹] با ۸ ویژگی ، گریست[۹۰] با ۱۳ ویژگی واستویانو[۹۱] با بیش از ۸۰ ویژگی اشاره نمود. در ادامه به بررسی رده‏بندی درخت تصمیم می‏پردازیم. [۵۲،۵۷،۱۰۱]
۲-۱-۳-۲-۱-۱.درخت تصمیم
برای نخستین بار در سال ۱۹۹۵، مک کارتی از روش درخت تصمیم برای تشخیص مرجع مشترک استفاده نمود[۵۲]،اما در سال ۲۰۰۱ بود که سون[۹۲] و همکارانش توانستند استفاده از آن را به‏عنوان یک روش مطرح و موفق، ارائه نمایند[۱۰۵]. به دنبال آن‏ها، [۱۲،۳۹،۴۰،۷۵،۹۹،۱۰۱،۱۰۸]، نیز از درخت تصمیم استفاده کرده‏اند. در سال ۲۰۱۰،کوبدانی و همکارش یک سیستم پیمانه‏های برای تشخیص مرجع مشترک ارائه دادند، آن‏ها با بررسی نتایج رده‏بندهای مختلفی مانند درخت تصمیم، نیو بیز، ماشین بردار پشتیبان و حداکثر آنتروپی برای زبان‏های آلمانی و انگلیسی، رده‏بند درخت تصمیم را برگزیدند[۳۹]. یک سال بعد نیز آن‏ها، سیستم پیشنهادی خود را تحت عنوان سیستم خودراه انداز تحلیل مرجع مشترک، توسعه دادند و از ویژگی‏هایی مانند شبکه واژگان استفاده کردند تا به طور خودکار، باهم‏آیی واژگان نشانه‏گذاری شود.[۴۰]در سال ۲۰۱۲، بانسال و کلین نیز ویژگی‏های تحت وب را گسترش داده و برای انجام رده‏بندی به کار بستند. می‏توانید اطلاعات بیشتر را در [۱۲]مطالعه نمائید.
همانطور‏که در بخش قبل گفته شده، آموزش رده‏بند درخت تصمیم با بهره گرفتن از متون آموزشی انجام می‏شود. پس از آموزش ، نوبت به مرحله آزمایش آن بر روی متون آزمایشی می‏رسد. طبق پژوهش‏های ارائه شده، فرایند رده‏بندی جفت اشاره‏ها می‏تواند به صورت‏های ذیل صورت پذیرد:
نخست، پیش از فرایند تصمیم‏ گیری، لازم است تا در یک یا چند پیمانه پیش پردازشی، تمامی اشاره‏های موجود در متن آزمایشی استخراج شوند. سپس برای هر یک از اشاره‏ها که به‏عنوان تالی انتخاب می‏شود، تمامی اشاره‏های ما قبل آن بررسی شده تا به‏عنوان کاندیداهایی، برای عبارت مقدم یا عبارت اسمی هم‏مرجع در نظر گرفته شوند. (این عمل از راست به چپ انجام خواهد شد) در ادامه به ازای هر جفت اشاره، یک بردار ویژگی‏ها تولید می‏شود و این بردار به‏عنوان ورودی به رده‏بند داده خواهد شد. این فرایند، برای هر اشاره به طور مداوم انجام می‏شود تا زمانی که رده‏بند اعلام نماید که دو اشاره با هم، هم‏مرجع هستند و یا اینکه دیگر اشاره‏ای قبل از تالی وجود نداشته باشد. به این ترتیب، تمامی زنجیره های اسمی متن آزمایشی یافت خواهند شد.[۱۰۵]
کاردیه و همکارانش در پژوهشی دیگر، گسترش دیگری بر روش [۱۰۵]ارائه کردند که در آن به ازای هر عبارت اسمی، بررسی می‏شود که آیا آن عبارت اسمی، دارای مرجع هست یا خیر و آن‏ها برای تعیین این مسئله از مدل حداکثر آنتروپی[۹۳] استفاده کردند.
یانگ[۹۴] و همکارانش، گونه‏ای از یادگیری رقابتی[۹۵] را در زمینه تشخیص مرجع مشترک، به کار گرفتند. در روش ارائه شده توسط آن‏ها، نمونه‏های آموزشی به این ترتیب فراهم می‏شوند که به ازای هرتالی، یک جفت مقدم کاندیدا در نظر گرفته می‏شود؛ بطوریکه یکی از آن‏ها مرجع تالی باشد ولی دیگری با تالی در یک زنجیره با مرجع مشترک قرار نداشته باشد. اینگونه نمونه‏های آموزشی، باعث می‏شوند که عامل یادگیرنده، تفاوت میان کاندیداهای هم‏مرجع و غیرهم‏مرجع را آموزش ببیند و برای مقایسه میان کاندیداهای مختلف، توانمندتر عمل نماید.[۱۰۹]
۲-۱-۳-۲-۲. افراز:
در اکثر روش‏هایی که اخیراً ارائه شده، مرحله رده‏بندی یکسان بوده است که با کمک یکی از روش‏های درخت تصمیم، [۵۲،۱۰۱،۱۰۵] حداکثر آنتروپی[۹۶]، مدل احتمالی تولیدی [۷۳]و یا ماشین بردار پشتیبان[۲۸،۳۵،۵۷،۹۱] پیاده سازی شده است[۹۶]. روش ارائه شده توسط[۱۰۵]، بیش از سایر رده‏بندهای ارائه شده، مورد توجه و استفاده پژوهشگران قرار گرفته است. اما آنچه پژوهش‏های ارائه شده را از یکدیگر متمایز می‏سازد، ویژگی‏های استفاده شده و روش افراز جفت اشاره‏ها است. به عنوان مثال، کاردیه و همکارانش، چند راهکار برای افراز و بهبود کارائی روش [۱۰۵] ارائه دادند:


فرم در حال بارگذاری ...

« سیاست ‌های مناسب توسعه‌ی کارآفرینی مبتنی بر فناوری اطلاعات- فایل ۵طرح های پژوهشی انجام شده در مورد بررسی عوامل موثر بر ساخت برند در سطح خرده فروشی پوشاک ... »
 
مداحی های محرم