برای گردآوری اطلاعات از استخراج دادهها از سیستم استفادهشده است . روش کتابخانهای در ادبیات تحقیق و دادههای مربوط به جمع آوری اطلاعات برای تأیید یا فرضیه تحقیق بکار گرفتهشده است .
نحوه آمادهسازی دادهها
برای اجرای مدلهای هوشمند نیاز است که در ابتدا دادههایی برای یادگیری مدل فراهم شود. تا با بهره گرفتن از این دادهها مدل آموزش داده شود و سپس مدل آموزشدیده در عمل بهکاررفته شود. درصورتیکه دادههایی که در این مرحله به دست میآید فاقد نویز و دارای کیفیت مطلوب باشد مرحله بعدی که فاز یادگیری مدل است بهخوبی انجام میشود و دقت مدل زیاد میشود، ولی درصورتیکه این مرحله بهدرستی انتخاب نشود فاز یادگیری ممکن است که اصلاً بهدرستی صورت نگیرد. کارهای پردازشی زیادی بر رویدادهها میتوان انجام داد که کیفیت دادهها به حد مطلوب برسد. برخی از مهمترین آنها را در ادامه نام میبریم(Kamber and Han 2011) (صنیعی آباده ۱۳۹۱).
جمع آوری داده و یکسان کردن دادهها
در این مرحله از آمادهسازی، باید دادهها را از منابع مختلف جمع آوری کرده و آنها را بهصورت یک فرم یکسان درآوریم. برای مثال اگر دادههای ما روی چندین سرور پراکندهشدهاند آنها را باید جمع آوری کرده و در یک سرور قرار داد.
پاکسازی داده
بعدازاینکه دادهها جمع آوری شدند باید آنها را ازلحاظ کیفیت بررسی کنیم و درصورتیکه مشکلاتی در آنها وجود داشته باشد آنها را پاکسازی کنیم. در مرحله پاکسازی باید به موارد زیر توجه داشته باشم.
الف - حذف نویز: هرگونه تغییر و تخریب غیرعمدی که ماهیت اصلی دادهها را از بین ببرد بهعنوان نویز شناخته میشود و باید آنها را از بین برد.
ب - نمونههای پرت: دادههایی هستند که مقادیر آنها در یک یا چند ویژگی با بقیه نمونهها دارای اختلاف فاحشی است. قرار دادن این نمونهها در مدلهای یادگیری میتواند مدل را دچار اشتباه کند. برای مثال اگر سن ورودی افرادی که در کنکور شرکت کردهاند را در نظر بگیریم و یک نفر در سن ۹۰ سالگی در کنکور شرکت کرده باشد بهعنوان داده پرت شناخته میشود. باید توجه داشت که دادههای پرت را از دادههای نویز دار تشخیص داد. زیرا در بعضی موارد هدف پیدا کردن همین دادههای پرت میباشد.
ج - مقادیر مفقودشده: در برخی از رکوردها ممکن است مقادیر یک یا چند ویژگی به دلایلی وجود نداشته باشد، وجود مقادیر گمشده در دادهها به صورتهای مختلف میتواند شکل پذیرد. برای مثال ممکن است افراد از واردکردن سن و وزن خود اجتناب کنند.
برای رفع مقادیر مفقودشده روشهایی وجود دارد که عبارتاند از:
حذف کردن: در این روش کل رکوردی که دارای مقدار مفقودشده در یک یا چند ویژگی است حذف میشود.
تخمین زدن: در این روش مقادیر مفقودشده، با روشهای ابتکاری تخمین زده میشود. زمانی که ویژگیها باهم، همبستگی داشته باشد میتوانیم از این روش استفاده کنیم.
نادیده گرفتن: رکوردهایی که حاوی ویژگیهای مفقودشده هستند، نادیده گرفته میشوند.
جایگزین کردن: در این روش مقادیر مفقودشده با یک مقدار پر خواهد شد. برای دادههای کم و گرانبها میتوان از این روش استفاده کرد. میتوان از مقادیر تصادفی، مقادیر از قبل تعیینشده، میانگین مقادیر، تخمین از روی بقیه مقادیر استفاده کرد.
د - دادههای تکراری: دادههایی هستند که رکوردهای آنها بار اطلاعاتی جدیدی ندارد و اطلاعات در آنها تکرار زیادی دارد. این رکوردها باید از مجموعه دادهها حذف شوند.
انتخاب ویژگی
انتخاب زیرمجموعهای، از ویژگیها است، از بین تمام ویژگیهایی که وجود دارد برخی از آنها هستند که بار اطلاعاتی زیادی ندارد و وجود آنها در الگوریتمها نمیتواند تأثیرگذار در نتایج آن باشد. برای مثال اگر تمام کسانی که ثبتنام کردهاند مرد باشند در نظر گرفتن ویژگی جنسیت امری بیمورد است. یا برای کسانی که در مدرسه ثبتنام میکنند ویژگی ضربان قلب شاید بیمورد باشد. وجود ویژگی که دارای محتویات دادهای کمتری هستند زمان اجرای الگوریتمهای هوشمند را زیاد میکند و بهتر است آنها را از مجموعه دادهها حذف کرد. روشهایی برای این کار وجود دارد که عبارتاند از:
روش ناآگاهانه: تمام زیرمجموعههای ویژگیها انتخاب، و الگوریتم موردنظر روی بخشی از آن انجام میشود.
روش توکار: در این روش بهصورت همزمان در حین آموزش مدل انتخاب ویژگی هم انجام میگیرد.
روش فیلترینگ: در این روش ابتدا مجموعهای از ویژگیها انتخاب و بعد الگوریتم موردنظر روی آن اجرا میشود.
روش انحصاری: در این روش ما تنها انتخاب ویژگی را انجام میدهیم و کاری به یادگیری مدل نخواهیم داشت. هدف در این کار پیدا کردن ویژگیها و ارتباط بین آنها است.
نمونهبرداری
یکی از روشهای اصلی در بین تمام نمونه است. شاید وجود تمام دادهها که بهعنوان دادههای آموزشی وجود دارند در الگوریتمها نیاز نباشد و زمان آنها را بیهوده بالا ببرد. منتهی نمونههایی که انتخاب میشود باید طوری باشد که کل دادهها را در برگیرد. برخی از روشهای نمونهبرداری در زیر آورده شدهاند:
نمونهبرداری تصادفی ساده: با یک تابع احتمالی دادهها انتخاب میشوند. در این حالت احتمال انتخاب هر نمونه با بقیه یکسان است.
نمونهبرداری متوازن: از نمونههایی که در مجموعه داده وجود دارد با همان نسبتی که دردادهها وجود دارد انتخاب شود. برای مثال اگر کار دستهبندی انجام میدهیم و ۳۰۰ نمونه مثبت و۷۰۰ نمونه منفی داریم و میخواهیم ۱۰۰ نمونه انتخاب کنیم این نسبت باید حفظ شود(۳۰ نمونه مثبت و ۷۰ نمونه منفی). الگوریتمهای مختلفی برای نمونهبرداری وجود دارند که عبارتاند از:
نمونهبرداری بدون جایگزین: در این روش هر رکوردی که انتخاب میشود از مجموعه رکوردهای انتخابی حذف میشود.
نمونهبرداری با جایگزینی: هرگاه رکوردی انتخاب میشود آن رکورد از مجموعه حذف نخواهد شود و احتمال انتخاب دوباره آن وجود دارد.
تبدیل داده
در عملیات تبدیل داده از یک تابع استفادهشده است و کل مجموعه ویژگیها را به مجموعه جدیدی از مقادیر نگاشت میکند. این کار به این صورت است که هر یک از مقادیر در مجموعه دادهها به مقادیر دیگر بر طبق یک تابع مانند یا تبدیل میشود. نکتهای که وجود دارد این است که باید از توابعی استفاده کنیم که مقدار جدید را بتوان به مقدار قبلی برگرداند. برخی از این تبدیلها عبارتاند از:
خلاصهسازی کردن: دادهها جمع و خلاصهسازی میشود. برای مثال فروش دادههای روزانه به ماهانه و یا سالانه تبدیل میشود.
تعمیم دادن: تعمیم دادن دادهها با یک مفهوم به سطحی بالاتر تعمیم داده شود. برای مثال تبدیل سن افراد که بهصورت عددی واردشده به مفاهیمی مانند جوانی، میانسالی و یا نوجوانی تبدیل کنیم.
نرمالسازی: توابعی وجود دارند که دادهها را به شکلی جدید تبدیل میکنند مانند max-min.(Jiawei and Kamber 2006)
علت استفاده از این دوره زمانی در وهله اول به خاطر در دسترس بودن و در وهله دوم به دلیل کافی بودن تعداد آنها بهاندازهای که بتوان هم شبکه را آموزش داده و آزمایش نمود میباشد .
بنابراین بعد از جمع آوری دادهها یکسری عملیات آمادهسازی روی آنها انجام گردید ابتدا کنترل اینکه قلمی جا نیفتاده باشد و یا اینکه عددی بهاشتباه درج نشده باشد در مرحله بعد دادهها در دو بازه (۰و۱) و (۱ و-۱) مقیاس بندی و نرمال شدهاند .
نرمالسازی یا مقیاس بندی دادهها معمولاً به نحوی صورت میگیرد که میانگین سری زمانی صفر و انحراف معیار برابر یک گردد (جانوس کویشیوس ، ۲۰۰۳) برای این منظور از فرمول زیر استفاده گردیده است:
:مقدار داده در مقیاس جدید
:مقدار داده خام
Scaleو offset از طریق فرمول زیر محاسبه میشوند .
: ماکزیمم هدف ، که در اینجا( )
: مینیم هدف ، که در اینجا ( )
: ماکزیمم دادههای خام
: مینیم دادههای خام
فرم در حال بارگذاری ...