دادهها اصولاً به صورت پایگاه داده نیمه ساختار یافته و نه به طور کاملاً ساختار یافته و نه بدون ساختار در طبیعت ذخیره میشوند. برای ردهبندی دادههای متنی به کلاسها از پیش تعریف شده لازم و ضروری است. مجموعه مورد نظر به صورت دستی به کلاسهای متفاوت جهت آزمون و صحت ردهبندی افراز گردد. این افراز به کمک کارشناسان دامنه صورت میپذیرد. خصیصههای طبقهبندی مجموعهای از ویژگیهای کلاس یا متغیر هدف است. در این پژوهش این کار با کمک کارشناسان حوزه که درک درستی از زمینههای دادههای متنی و معنای شرایط تعریف شده در اسناد متنی دارند صورت پذیرفته است. در واحد سطح سوم ردهبندیهای متفاوت استفاده میشوند که جهت مطالعه تأثیرات شرایط ردهبندی دادههای متنی به دو کلاس مختلف که میتواند ساخت ردهبندی مستندات را با دقت بیشتری بهبود دهد. ردهبندیهای خاص مطرح شده در پژوهش جاری عبارتاند از اول درخت تصمیمگیری (C 4.5)، دوم نزدیکترین همسایه (K-NN)، سوم بیز ساده (NaiveBayes) و چهارم ماشینهای پشتیبان بردار (SVMs). نتیجه این آزمون ردهبندیهای متفاوت به وسیله تغییرپذیری مبتنی بر انتخاب متغیرهای اطلاعاتی بر روی محدوده معیارهای فاصلهایی متفاوت، از معیار فاصله اقلیدسی ساده تا متدهای مبتنی بر هسته روش ارائه شده در پژوهش مذکور است. هدف از ردهبندی، اعتبارسنجی فرضیه مبتنی بر متد ارائهشده بر روی MKTPKS جهت بهبود صحت ردهبندی بر روی الگوریتمهای ردهبندی است.[۱۵۳]
۳-۷-۳- تحلیل و طراحی
الگوریتم تحلیل درخت تصمیم اکثراً برای مشکلات ردهبندی و فرایند ساخت شروع درخت تصمیم به وسیله انتخاب گره تصمیم و جداسازی آن به زیر گره و برگ مورد استفاده قرار میگیرد. الگوریتم درخت تصمیم C4.5 توسعهیافته الگوریتم ID3 است. این الگوریتم مبتنی بر ساخت درخت تصمیم و جداسازی به وسیله گرههای تصمیم به وسیله انتخاب جداسازهای بهینه و ادامه جستجو در حد امکان میباشد. برای استفاده از مفاهیم بهرهاطلاعاتی و کاهش آنتروپی جهت کسب تقسیم مطلوب از رابطههای ذیل استفاده مینماییم. فرض نمایید متغیر X ارزش K احتمال ممکن p1,p2,…,pk را داشته باشد آنگاه آنتروپی X از رابطه زیر محاسبه میگردد. فرمول ۳-۲:
H(X)= -∑pjlog2(pj)
برای محاسبه میانگین مورد نیاز اطلاعات میتوان از مجموع وزندار آنتروپی برای زیرمجموعههای فردی (مجزا) استفاده نمود. فرمول ۳-۳:
Hs (X)=∑i=1k Pi Hs(Ti)
لازم به ذکر است Pi نشاندهنده نسبت رکوردها در زیرمجموعههای i است. برای محاسبه بهره اطلاعاتی از رابطه زیر استفاده نمود.
فرمول ۳-۴:
information gain IG(S)=H(T)-Hs(T)
۳-۷-۳-۱- الگوریتم نزدیکترین همسایه (K-NN)
الگوریتم نزدیکترین همسایه تکنیکی است که میتوانید جهت ردهبندی دادهها به وسیله استفاده از معیار فاصله استفاده نمایید. [۶۴] الگوریتم نزدیکترین همسایه از طریق نمونههای آموزشی کار می کند که در این روش مجموعه نه تنها شامل دادهها میگردد بلکه طبقهبندی مورد نظر برای هریک از آیتمها صورت میپذیرد. در واقع دادههای آموزش مدل میشوند. الگوریتم K-NN در اصل به وسیله پیدا کردن حداقل فاصله از نمونههای ورودی جدید از نمونههای آموزشی کار می کند. بر اساس معیار فوق هر نمونه ورودی جدید در کلاس مربوط به خود قرار میگیرد. معمولترین تابع محاسبه فاصله، فاصله اقلیدسی است که در فرمول ۱ به آن اشاره گردیده است.
۳-۷-۳-۲- الگوریتم بیز ساده (Naïve Bayes)
الگوریتم بیز ساده یک روش سهل و خوب شناخته شده ردهبندی است که برای حل مشکلات حوزه عملی مورد استفاده قرار میگیرد. [۶۴] ردهبندی بیز ساده برای یافتن احتمالات مشترک از کلمات و کلاسها از مجموعه رکوردها استفاده میگردد. این رویکرد مبتنی بر تئوری بیز ساده است. احتمال کلاس c در مستند dj از رابطه زیر به دست میآید.. در این الگوریتم فرض براین است که طبقات مستقل از یکدیگر هستند که با عنوان استقلال مشروط کلاس مطرح میگردد. فرمول ۳-۵:
P(c /dj)= j=1,2,3,…,m
۳-۷-۳-۳- الگوریتم ماشینهای پشتیبان بردار (SVMs)
الگوریتم SVM اولین بار در سال ۱۹۶۰ در روسیه توسعه داده شد. این الگوریتم ردهبندی غیرخطی است که از متدهای غیرخطی استفاده میکند و دادهها را از فضای ورودی یا فضای پارامتری به فضای ویژگیهایی با ابعاد زیاد نگاشت می کند. [۶۴] هدف این الگوریتم انتخاب ابرصفحه جداساز بهینه جهت حداکثرسازی حاشیه بین دو کلاس است. برای حل مشکل طبقهبندی دودویی که در آن W1 و W2 نشاندهنده دو کلاس در یک مجموعه دادههای آموزشی هستند، مجموعه X={x1,x2,…,xn} به همراه برچسب کلاس ارائه شده است. ابرصفحهایی که دادههای مجزا را به دو کلاس طبقهبندی می کند به شرح زیر است.
فرمول ۳-۶:
f(x)=sgn(<w,x> + b)
در رابطه بالا w بردار ضریب و b میزان تمایل به یکطرف (چولگی) ابرصفحه و sgn مخفف تابع دوقطبی است. مشکل بهینهسازی که منجر به تولید ابرصفحه میگردد به صورت زیر نوشته میگردد.
فرمول ۳-۷:
Minimizew,x 1/2||w||2
فرمول ۳-۸:
Yi(<w,xi>+b)>=1, for i= 1,2,…,N
بزرگتر شدن حاشیه باعث بهترشدن توانائی تعمیم انتظار میگردد. درخت تصمیم (C 4.5)، نزدیکترین همسایه، بیز ساده و ماشینهای پشتیبان بردار که در مراحل قبل در مورد آنها توضیحاتی ارائه شد جهت ردهبندی دادههای متنی در این پژوهش مورد استفاده قرار گرفتهاند. الگوریتم روی مجموعه دادههای منتقل شده از مجموعه ویژگیهای کاندید و خصیصهها اعمال میگردد و یک کاربرد ترکیبی (Hybrid) از سطح ۱ (واحد ذخیرهسازی و پردازش دانش) و سطح ۲ (واحد پالایش دانش) صورت میپذیرد. نتایج کاربرد این رویکرد ترکیبی ساخت مجموعه MKTPKS است. این عمل با بهره گرفتن از رویکرد خوشهبندی صورت میپذیرد. در نتیجه یک فضای وجود یا عدم وجود برای عبارات کلیدی در اسناد ساخته میشود. هر نماینده بردار از اسناد با بهره گرفتن از مجموعه MKTPKS 3TermSets انجام میپذیرد. رابطه لیستی از عبارات کلیدی تشکیل شده و وجود آنها را در اسناد و نماینده مربوط به کلاسها در شکل ۳-۵ نشان داده شده است.[۱۵۴] (اگر نامزد مجموعه باشد مقدار ۱ و در غیراینصورت مقدار ۰ به خود اختصاص داده است)
Ci: برچسب کلاس با توجه به دادههای آموزشی
Fm: نماینده مجموعه MKTPKS 3TermSets
Fm | …………………… | F5 | F4 | F3 | F2 | F1 |
Ci | ۱ |
فرم در حال بارگذاری ...