- استقرار طرح
- نظارت و نگهداری
- آمادهسازی گزارش نهایی
- مرور پروژه
پس از آشنا شدن با نحوهی اجرای پروژههای دادهکاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی دادهکاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیکهای دادهکاوی داشته باشیم.
وظایف دادهکاوی
دادهکاوی بطور کلی به دو شکل هدایت شده[۴۲] و غیرهدایت شده[۴۳] وجود دارد(شهرابی ۱۳۹۰a). در دادهکاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص میگردیم، بطوری که در دادهکاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروههایی از اطلاعات است. اگر بخواهیم تکنیکهای دادهکاوی را بر اساس فعالیت و وظیفه تقسیمبندی کنیم، شش عمل زیر را خواهیم داشت(Larose 2005):
- دستهبندی[۴۴]
- تخمین[۴۵]
- پیشبینی[۴۶]
- همبستگی[۴۷]
- خوشهبندی[۴۸]
- توصیف[۴۹]
در این تقسیمبندی سه مورد اول دادهکاوی هدایت شده هستند، همبستگی و خوشهبندی جزو دادهکاوی غیر هدایت شده است و توصیف و نمایهسازی نیز میتواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفهها میپردازیم.
دستهبندی
تکنیکهای دستهبندی از جمله تکنیکهای رایج و پرکاربرد در دادهکاوی است. دستهبندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از کلاسهای از قبل تعیین شده است(شهرابی ۱۳۹۰a). به عبارت دیگر، در مسائل دستهبندی هدف شناسایی ویژگیهایی از دادهها است که گروهی که داده به آن تعلق دارد را نشان میدهند. از این مدل هم میتوان برای درک دادههای موجود استفاده کرد وهم میتوان آن را برای پیشبینی اینکه دادههای جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگیهای شناسایی شده متغیرهای پیشگو[۵۰] و به برچسب کلاسها متغیر هدف[۵۱] گفته میشود.
برای ایجاد یک مدل دستهبندی نیاز به مجموعه دادههای تاریخی است. این مجموعه داده که مجموعه داده آموزشی[۵۲] نامیده میشود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد میگیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط میشوند. سپس، مدل آموزش دیده شده میتواند کلاس مجموعه دادههای تست[۵۳] را که هیچ اطلاعی از متغیر هدف آنها نداریم، پیشبینی کند. (معمولا کارایی مدلهای دستهبندی را با مجموعه دادههای اعتبارسنجی[۵۴] اندازهگیری میکنند.)
از جمله تکنیکهای دستهبندی میتوان به درخت تصمیم، دستهبند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.
تخمین
تخمین شبیه دستهبندی است با این تفاوت که متغیر هدف بجای این که دستهای باشد بصورت عددی است (Larose 2005). مانند دستهبندی، یک مدل تخمین با بهره گرفتن از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته میشود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده میشود.
مدلهای رگرسیون و شبکه عصبی از جمله تکنیکهای مناسب دادهکاوی برای تخمین هستند.
پیشبینی
پیشبینی مانند تخمین و دستهبندی است بجز اینکه در پیشبینی نتایج به آینده مربوط میشود(Larose 2005). تمامی تکنیکهای استفاده شده در دستهبندی و تخمین را میتوان تحت شرایط خاص برای پیشبینی بکار گرفت. پیشبینیهایی که بر اساس مدلهای دستهبندی ارائه میشوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیشبینی میکنند.
پیشبینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیشبینی است که به عنوان مثال میتوان به پیشبینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکههای عصبی تکنیکهایی هستند که در این نوع پیشبینیها قابل استفاده هستند. نوع دیگری از پیشبینیها، پیشبینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیشبینی سطح سهام بازار در ۳۰ روز آینده بر اساس دادههای ۶ ماه گذشته مثالی از این نوع پیشبینیها است. این گونه پیشبینیها به کمک سریهای زمانی و تکنیکهای رگرسیون انجام میشود.
همبستگی
قوانین همبستگی[۵۵] که گروهبندی شباهت[۵۶] نیز نامیده میشوند برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. به عبارت دیگر، گروهبندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین می کند(شهرابی ۱۳۹۰a). با توجه به مقیاسپذیری الگوریتمهای قوانین همبستگی و حجم دادهها که دائما در حال افزایش است، میتوان قوانین همبستگی را یکی از ابزارهای ضروری دادهکاوی جهت استخراج دانش از دادهها قلمداد کرد.
تحلیل سبد خرید[۵۷] یکی از بارزترین کاربردهای قوانین همبستگی بشمار میرود. در این تحلیل سعی میشود تا از طریق یافتن روابط و وابستگیهای موجود بین اجناس خریداری شده توسط مشتریها، الگوهای خرید شناسایی و تحلیل شوند(شهرابی and شجاعی ۱۳۸۸). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابتهای بازاریابی و نیز چیدمان مناسب اجناس در فروشگاهها یاری میرساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی[۵۸] و اطمینان[۵۹] استفاده میشود.
پشتیبانی: درصدی از تراکنشهایی است که شامل هم مقدم و هم تالی قانون باشند (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد کل تراکنشها.
اطمینان: درصدی از تراکنشهایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد تراکنشهایی که شامل مقدم هستند.
خوشهبندی
خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشههای همگن گفته میشود(شهرابی ۱۳۹۰a). وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد. در خوشهبندی هیچ دسته از پیش تعیین شدهای وجود ندارد و دادهها صرفا بر اساس تشابه گروهبندی میشوند. بنابراین، برای اینکه بتوانیم دادهها را خوشهبندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با بهره گرفتن از مقیاسهای اندازهگیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام میشود.
چنانچه مشخص است، تعداد حالتهای زیادی برای خوشهبندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشهها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشهبندی داریم. فشردگی و تفکیکپذیری دو ویژگی اساسی و جالب در مورد خوشهها هستند که میتوانند به عنوان شاخص اعتبار خوشه محاسبه شوند(شهرابی and شجاعی ۱۳۸۸).
فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی دادهها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی دادهها بیشتر است. میتوان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.
تفکیکپذیری: بوسیله این ویژگی، مجزا بودن خوشهها را ارزیابی میکنیم. یکی از روشهای تعیین تفکیکپذیری، محاسبه فواصل بین خوشهای است.
بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشهها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشهها داشته باشند. به عبارت دیگر، ساختاری را مطلوب میپنداریم که در آن مقادیر فواصل درون خوشهای کم و مقادیر فواصل بین خوشهای زیاد باشد.
در کتاب هان و کرامبر روشهای خوشهبندی به پنج دسته تقسیم شده است: روشهای بخشبندی، روشهای سلسلهمراتبی، روشهای مبتنی بر تراکم، روشهای مبتنی بر Grid و روشهای مبتنی بر مدل (Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته ها میپردازیم.
خوشهبندی مبتنی بر بخشبندی[۶۰]: در این نوع خوشهبندی اساس کار یک تابع هدف مشخص است که کمینهسازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون میسازد (شهرابی and شجاعی ۱۳۸۸). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینهسازی را میتوان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمیداند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسبترین فرم برای تابع هدف با دشواریهای فراوانی همراه است. بطور معمول، در این گروه از الگوریتمها، تعداد خوشهها را از قبل تعیین کرده و کار را با بهینهسازی تابع هدف ادامه میدهند.
الگوریتمهایی مانند [۶۱]CLARA، [۶۲]CLARANS، k – means، c – means و [۶۳]PAM نمونههایی از الگوریتمهای این گروه هستند (Mitra and Acharya 2003).
خوشهبندی سلسلهمراتبی: در این نوع از روشهای خوشهبندی، دادهها در درختی از خوشهها گروهبندی میشوند. به طور کلی روشهای سلسلهمراتبی را میتوان به دو دسته تقسیم کرد: روشهای جمعکننده[۶۴] و روشهای تقسیمکننده[۶۵] (شهرابی and شجاعی ۱۳۸۸). روشهای جمعکننده در ابتدا هر داده را در خوشهای جداگانه قرار میدهند. سپس خوشهها را با هم ادغام کرده و خوشههای بزرگتری ایجاد میکنند. این کار تا زمانی ادامه مییابد که یا تمام دادهها در یک خوشه واحد قرار گیرند و یا شرط معینی برقرار شود، مثلاً تعداد خوشهها به مقدار دلخواه برسد. در هر مرحله خوشههایی به هم متصل میشوند که بیشترین شباهت را با هم دارند. برای بررسی میزان شباهت خوشهها الگوریتمهای مختلفی وجود دارد. دسته دوم که روشهای تقسیمکننده نامیده میشوند عکس روش فوق را اعمال میکنند، یعنی درخت را از بالا به پایین میسازند.
برای بررسی میزان شباهت خوشهها میتوان فاصله بین خوشهها را معیار مناسبی در نظر گرفت. روشهای مختلفی مانند روش تکاتصالی[۶۶]، اتصالی کامل[۶۷] و اتصال میانگین گروهی[۶۸] برای محاسبه فاصله بین خوشهها استفاده میشود (شهرابی and شجاعی ۱۳۸۸).
خوشهبندی مبتنی بر تراکم: بسیاری از روشهای بخشبندی، دادهها را بر اساس فاصله آنها با یکدیگر خوشهبندی میکنند. چنین روشهایی فقط خوشههای کروی شکل را پیدا میکنند (مانند k – means). در خوشهبندهایی که بر اساس تراکم دادهها انجام میشود، میتوان خوشههایی پیدا کرد که دارای شکلهای پیچیدهتری هستند. ایده اصلی این روشها به این صورت است که یک خوشه تا زمانی که تراکم همسایگی تمامی اشیاء مرزی آن از حد معینی کمتر نشده گسترش مییابد. منظور از تراکم همسایگی یک شیء، تعداد اشیائی است که در فاصله ε از آن شیء قرار گرفتهاند. چنین روشهایی برای فیلتر کردن نویزها و یافتن خوشههایی با شکلهای دلخواه به کار میرود (Han, Kamber et al. 2011). الگوریتمهای DBSCAN[69]، OPTICS[70]، DENCLUE و [۷۱]CLIQUE در این دسته از الگوریتمها قرار میگیرند (شهرابی and شجاعی ۱۳۸۸).
خوشهبندی مبتنی بر Grid: در این نوع خوشهبندی فضای اشیاء را به تعداد محدودی سلول کوانتیزه میکنند که این سلولها یک Grid را بوجود میآورند. تمامی اعمال خوشهبندی بر روی ساختار این Grid (ساختار مشبک) انجام میشود. مزیت مهم این روش سرعت بالای آن است که مستقل از تعداد اشیاء بوده و فقط به تعداد سلولها در هر بعد از فضای کوانتیزه شده بستگی دارد. الگوریتمهای [۷۲]STING و CLIQUE نمونههایی از این الگوریتمها هستند.
خوشهبندی مبتنی بر مدل: الگوریتمهای این دسته، برای هر خوشه مدلی را در نظر گرفته و سعی میکنند به بهترین نحو دادهها را به آن مدلها انطباق دهند. دو راه عمده برای این کار وجود دارد: راه اول روشهای آماری مانند COBWEB و CLASSIT و راه دوم شبکههای عصبی مانند [۷۳]SOM است.
توصیف
گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب میکند و درک ما را از مردم، محصولات و یا فرآیندهایی که دادهها در مرحله اول تولید کردهاند، افزایش میدهد.
مدلهای دادهکاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدلهای دادهکاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدلهای دادهکاوی دارای تفسیر شفافتری نسبت به دیگر مدلها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانهای از نتایج خود فراهم میآورد؛ در حالی که شبکههای عصبی با ارائه مدلهای پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکههای عصبی جعبه سیاه گفته میشود.
فرم در حال بارگذاری ...