۳-۴- خلاصه فصل
در این فصل جزئیات مختلف راهکار پیشنهادی بیان گردید. همانطور که در فصل قبل توضیح داده شد الگوریتم IVC دارای معایبی نظیر عدم تشخیص تناظر بین خوشهها، یکسان در نظر گرفتن رأی خوشهبندیهای اولیه میباشد. ما در راهکار پیشنهادی برای هر یک از مسائل راهحلی ارائه نمودیم.
جهت تشخیص نظیر به نظیر بودن خوشهها در خوشهبندیهای مختلف، یک خوشهبندی را به عنوان خوشهبندی مرجع در نظر گرفته و با بهره گرفتن از الگوریتم تشخیص نظیر به نظیر بودن مشخص میگردد که هر یک از خوشههای یک خوشهبندی متناسب کدام خوشه در خوشهبندی مرجع میباشند. سپس با بهره گرفتن از شاخص DB هر یک از خوشهبندیها وزندار میگردند. ترکیب خوشهبندیها و تولید یک خوشهبندی نهایی نیز با بهره گرفتن از الگوریتم خوشهبندی توافقی وزنی انجام میشود.
اجتماع خوشهبندیها با بهره گرفتن از خوشهبندی زیر مجموعههایی از صفات خاصه تشکیل میگردد. در حالتی که خوشهبندیها بر روی دادههای توزیع شده ناهمگن ایجاد گردند میتوان انتظار داشت که یک یا چند خوشهبندی (با توجه به صفات خاصهای که دارا میباشند) از کیفیت پایینتری نسبت به دیگر خوشهبندیها برخوردار باشند. از اینرو، روش پیشنهادی که بر اساس وزن تخصیص یافته به هر خوشهبندی عمل میکند میتواند کارایی بالاتری نسبت به دیگر روشهای خوشهبندی توافقی داشته باشد که به طور معمول اجازهی تأثیرگذاری برابری را به خوشهبندیهای اولیه میدهند.
فصل چهارم
پیادهسازی راهکار پیشنهادی و نتایج ارزیابی آن
۴-۱- مقدمه
در این فصل نتایج بدست آمده در ارزیابی الگوریتم پیشنهادی جهت انجام خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن، ارائه میگردد. ابتدا ۴ معیار که در این ارزیابی مورد استفاده قرار گرفتهاند شامل معیار دقت،DB ، Rand و میانگین اطلاعات دوجانبه نرمال سازی شده (ANMI)، بررسی میشوند. پس از آن جزئیات لازم در مورد مجموعههای دادهای استفاده شده در آزمایشات و شرایط مختلف خوشهبندی آنها بیان میگردد. در نهایت نیز نتایج بدست آمده در ارزیابیها در مقایسه با ۴ الگوریتم دیگر (IVC، CSPA، HGPA و MCLA)، ارائه شده و مورد تحلیل قرار میگیرند.
۴-۲- معیارهای ارزیابی
در این بخش به بررسی معیارهای استفاده شده جهت ارزیابی نتایج در این پایان نامه میپردازیم. همانطور که در فصل قبل اشاره گردید، معیارهای ارزیابی خوشهبندی به دو گروه معیارهای داخلی و معیارهای خارجی تقسیم میشوند. ما از سه معیار داخلی جهت ارزیابی نتایج بدست آمده از خوشهبندی توافقی بر روی دادههای توزیع شده ناهمگن و یک معیار خارجی جهت بررسی میزان توافق نتیجهی بدست آمده با اجتماع خوشهبندیها، استفاده مینماییم.
معیارهای داخلی استفاده شده در این ارزیابی شامل معیارهای دقت، شاخص Davies-Bouldin و Rand میباشند. هر یک از این معیارها، اطلاعاتی در مورد خوشهبندی تولید شده توسط راهکار پیشنهادی ارائه میدهند که میتواند نشاندهندهی کیفیت خوشهبندی نیز باشد. البته لازم به ذکر است که شاخص Rand در فصل ۳ به عنوان یک معیار خارجی معرفی شد، اما در ارزیابیها از نوع تغییر یافتهای استفاده شده است که قابلیت ارزیابی یک خوشهبندی را دارا
میباشد. تنها معیار خارجی استفاده شده در این ارزیابیها معیار ANMI میباشد که جزئیات محاسبهی این معیار نیز در فصل ۳ ارائه گردید. این معیار میانگین میزان توافق خوشهبندی نهایی را با اجتماع خوشهبندیها نشان میدهد. در ادامه به معرفی هر یک از معیارهای ذکر شده و ارائه جزئیات لازم جهت محاسبهی آنها میپردازیم.
لازم به ذکر است که هیچ یک از معیارهایی که تاکنون در مقالات به عنوان معیارهای ارزیابی خوشهبندیها معرفی شدهاند، به تنهایی نمیتوانند با قطعیت بهتر بودن یک الگوریتم خوشهبندی خاص را نسبت به سایر الگوریتمها در تمامی شرایط نشان دهند. از اینرو، استفاده از معیارهای ارزیابی گوناگون میتواند امکان بررسی نتیجهی خوشهبندی را از جنبهه ای مختلف بوجود آورد.
۴-۲-۱- معیار دقت
معیار دقت یکی از متداولترین معیارهای ارزیابی خوشهبندی میباشد. معیار دقت [۷۶] بر روی بیشترین تعداد اشیاء دادهای از یک کلاس داده در هر خوشه متمرکز میشود. در برخی مقالات نظیر [۷۶] این معیار با نام معیار خلوص[۱۵۳] نیز مطرح شده است. روابط (۴-۱) و (۴-۲) نحوهی محاسبه این معیار را نشان میدهند.
(۴-۱) | ||
(۴-۲) |
در روابطه (۴-۱) و (۴-۲)، π خوشهبندیای بر روی N داده با K خوشه به صورت π={C1, C2, …, CK} میباشد. مجموعه دادهای دارای تعدادی برچسب کلاس است و هر یک از دادهها دارای یکی از این برچسبها میباشند. هر کدام از این برچسبها نیز با Lj نشان داده میشوند.
معیار دقت یا خلوص، دقت الگوریتم خوشهبندی را در گروهبندی اشیاء داده با توجه به کلاس واقعی آنها نشان میدهد. به عنوان مثال اگر مجموعه دادهای دارای سه گروه باشد و الگوریتم خوشهبندی نیز اشیاء داده را در سه خوشه قرار داده و هر خوشه تنها شامل اشیاء دادهای از یک گروه خاص باشد، این خوشهبندی دارای دقت ۱۰۰% خواهد بود. لازم به ذکر است که جابهجایی اشیاء داده بین خوشهها به همان میزان میتواند سبب کاهش دقت خوشهبندی گردد.
نتیجهی ارزیابی معیار دقت، عددی بین صفر و یک است. مقدار یک زمانی بدست میآید که هر خوشه تنها شامل دادههای از یک کلاس مشخص باشد. به عنوان مثال، شکل ۴-۱ نتیجهی خوشهبندی بر روی ۱۷ شئ داده با ۳ کلاس را نشان میدهد. تعداد بیشینهی کلاسها در هر خوشه عبارتست از: ×، ۵ (خوشه ۱)، o، ۴ (خوشه ۲) و ◊، ۳ (خوشه ۳). با توجه به شکل و روابط (۴-۱) و (۴-۲)، دقت خوشهبندی انجام شده به صورت ۰٫۷۱(۳+۴+۵)×(۱۷/۱) محاسبه میگردد. البته ذکر این نکته نیز ضروری است که این معیار از برچسب کلاس جهت انجام ارزیابی استفاده میکند اما از این برچسبها در زمان انجام خوشهبندی هیچ استفادهای نمیشود.
خوشه ۱
خوشه ۲
خوشه ۳
شکل ۴-۱ خوشهبندی ۱۷ شئ داده با سه کلاس [۷۵]
۴-۲-۲- شاخص Davies-Bouldin
همانطور که در فصل ۳ مطرح گردید شاخص DB میزان فشردگی و تفکیک شدگی خوشهها را نشان میدهد. هر چه مقدار این شاخص کوچکتر باشد خوشهبندیای با خوشههای فشردهتر و تفکیک شدهتری در اختیار خواهیم داشت. جزئیات محاسبهی شاخص DB در بخش ۳-۲-۲ آورده شد، بنابراین از تکرار آن در این بخش خودداری میکنیم. در این پایان نامه از شاخص DB، هم برای وزندار نمودن خوشهبندیهای اولیه و هم برای ارزیابی نتایج بدست آمده استفاده میگردد.
۴-۲-۳- شاخص Rand
معیار یا شاخص Rand میزان شباهت بین دو خوشهبندی را اندازهگیری میکند. مقدار این شاخص عددی بین صفر و یک میباشد، صفر نشاندهندهی این است که دو خوشهبندی هیچ شباهتی در تصمیم گیریهایشان با یکدیگر ندارند و یک نشاندهندهی این است که دو خوشهبندی به طور کامل مشابه یکدیگرند. اما از معیار Rand در این پایان نامه به عنوان معیاری جهت اندازهگیری نرخ تصمیمات صحیح اتخاذ شده در خوشهبندی استفاده میگردد (یعنی به صورت یک معیار داخلی). از اینرو، مقدار صفر نشاندهندهی این است که هیچ تصمیم صحیحی در خوشهبندی اتخاذ نشده است و یک نیز نشاندهندهی این است که تصمیمات اتخاذ شده در خوشهبندی به طور کامل صحیح میباشد. نحوهی محاسبه شاخص Rand در رابطه (۴-۳) آورده شده است.
(۴-۳) |
فرم در حال بارگذاری ...