وبلاگ

توضیح وبلاگ من

ﻧﮕﺎرش ﻣﻘﺎﻟﻪ ﭘﮋوهشی در رابطه با تعیین اهداف جذب منابع با رویکرد منطق فازی و شبکه‌های ...

 
تاریخ: 04-08-00
نویسنده: فاطمه کرمانی

برای گردآوری اطلاعات از استخراج داده‌ها از سیستم استفاده‌شده است . روش کتابخانه‌ای در ادبیات تحقیق و داده‌های مربوط به جمع‌ آوری اطلاعات برای تأیید یا فرضیه تحقیق بکار گرفته‌شده است .
پایان نامه - مقاله - پروژه

نحوه آماده‌سازی داده‌ها
برای اجرای مدل‌های هوشمند نیاز است که در ابتدا داده‌هایی برای یادگیری مدل فراهم شود. تا با بهره گرفتن از این داده‌ها مدل آموزش داده شود و سپس مدل آموزش‌دیده در عمل به‌کاررفته شود. درصورتی‌که داده‌هایی که در این مرحله به دست می‌آید فاقد نویز و دارای کیفیت مطلوب باشد مرحله بعدی که فاز یادگیری مدل است به‌خوبی انجام می‌شود و دقت مدل زیاد می‌شود، ولی درصورتی‌که این مرحله به‌درستی انتخاب نشود فاز یادگیری ممکن است که اصلاً به‌درستی صورت نگیرد. کارهای پردازشی زیادی بر روی‌داده‌ها می‌توان انجام داد که کیفیت داده‌ها به حد مطلوب برسد. برخی از مهم‌ترین آن‌ها را در ادامه نام می‌بریم(Kamber and Han 2011) (صنیعی آباده ۱۳۹۱).

جمع‌ آوری داده و یکسان کردن داده‌ها
در این مرحله از آماده‌سازی، باید داده‌ها را از منابع مختلف جمع‌ آوری کرده و آن‌ها را به‌صورت یک فرم یکسان درآوریم. برای مثال اگر داده‌های ما روی چندین سرور پراکنده‌شده‌اند آن‌ها را باید جمع‌ آوری کرده و در یک سرور قرار داد.

پاک‌سازی داده
بعدازاینکه داده‌ها جمع‌ آوری شدند باید آن‌ها را ازلحاظ کیفیت بررسی کنیم و درصورتی‌که مشکلاتی در آن‌ها وجود داشته باشد آن‌ها را پاک‌سازی کنیم. در مرحله پاک‌سازی باید به موارد زیر توجه داشته باشم.
الف - حذف نویز: هرگونه تغییر و تخریب غیرعمدی که ماهیت اصلی داده‌ها را از بین ببرد به‌عنوان نویز شناخته می‌شود و باید آن‌ها را از بین برد.
ب - نمونه‌های پرت: داده‌هایی هستند که مقادیر آن‌ها در یک یا چند ویژگی با بقیه نمونه‌‌ها دارای اختلاف فاحشی است. قرار دادن این نمونه‌ها در مدل‌های یادگیری می‌تواند مدل را دچار اشتباه کند. برای مثال اگر سن ورودی افرادی که در کنکور شرکت کرده‌اند را در نظر بگیریم و یک نفر در سن ۹۰ سالگی در کنکور شرکت کرده باشد به‌عنوان داده پرت شناخته می‌شود. باید توجه داشت که داده‌های پرت را از داده‌های نویز دار تشخیص داد. زیرا در بعضی موارد هدف پیدا کردن همین داده‌های پرت می‌باشد.
ج - مقادیر مفقودشده: در برخی از رکوردها ممکن است مقادیر یک یا چند ویژگی به دلایلی وجود نداشته باشد، وجود مقادیر گم‌شده در داده‌ها به صورت‌های مختلف می‌تواند شکل پذیرد. برای مثال ممکن است افراد از واردکردن سن و وزن خود اجتناب کنند.
برای رفع مقادیر مفقودشده روش‌هایی وجود دارد که عبارت‌اند از:
حذف کردن: در این روش کل رکوردی که دارای مقدار مفقودشده در یک یا چند ویژگی است حذف می‌شود.
تخمین زدن: در این روش مقادیر مفقودشده، با روش‌های ابتکاری تخمین زده می‌شود. زمانی که ویژگی‌ها باهم، هم‌بستگی داشته باشد می‌توانیم از این ‌روش استفاده کنیم.
نادیده گرفتن: رکوردهایی که حاوی ویژگی‌های مفقودشده هستند، نادیده گرفته می‌شوند.
جایگزین کردن: در این روش مقادیر مفقودشده با یک مقدار پر خواهد شد. برای داده‌های کم و گران‌بها می‌توان از این ‌روش استفاده کرد. می‌توان از مقادیر تصادفی، مقادیر از قبل تعیین‌شده، میانگین مقادیر، تخمین از روی بقیه مقادیر استفاده کرد.
د - داده‌های تکراری: داده‌هایی هستند که رکوردهای آن‌ها بار اطلاعاتی جدیدی ندارد و اطلاعات در آن‌ها تکرار زیادی دارد. این رکورد‌ها باید از مجموعه داده‌ها حذف شوند.

انتخاب ویژگی
انتخاب زیرمجموعه‌ای، از ویژگی‌ها است، از بین تمام ویژگی‌هایی که وجود دارد برخی از آن‌ها هستند که بار اطلاعاتی زیادی ندارد و وجود آن‌ها در الگوریتم‌ها نمی‌تواند تأثیرگذار در نتایج آن باشد. برای مثال اگر تمام کسانی که ثبت‌نام کرده‌اند مرد باشند در نظر گرفتن ویژگی جنسیت امری بی‌مورد است. یا برای کسانی که در مدرسه ثبت‌نام می‌کنند ویژگی ضربان قلب شاید بی‌مورد باشد. وجود ویژگی که دارای محتویات داده‌ای کمتری هستند زمان اجرای الگوریتم‌‌های هوشمند را زیاد می‌کند و بهتر است آن‌ها را از مجموعه داده‌ها حذف کرد. روش‌هایی برای این کار وجود دارد که عبارت‌اند از:
روش ناآگاهانه: تمام زیرمجموعه‌های ویژگی‌ها انتخاب، و الگوریتم موردنظر روی بخشی از آن انجام می‌شود.
روش توکار: در این روش به‌صورت هم‌زمان در حین آموزش مدل انتخاب ویژگی هم انجام می‌گیرد.
روش فیلترینگ: در این روش ابتدا مجموعه‌ای از ویژگی‌ها انتخاب و بعد الگوریتم موردنظر روی آن اجرا می‌شود.
روش انحصاری: در این روش ما تنها انتخاب ویژگی را انجام می‌دهیم و کاری به یادگیری مدل نخواهیم داشت. هدف در این کار پیدا کردن ویژگی‌ها و ارتباط بین آن‌ها است.

نمونه‌برداری
یکی از روش‌های اصلی در بین تمام نمونه است. شاید وجود تمام داده‌ها که به‌عنوان داده‌های آموزشی وجود دارند در الگوریتم‌ها نیاز نباشد و زمان آن‌ها را بیهوده بالا ببرد. منتهی نمونه‌هایی که انتخاب می‌شود باید طوری باشد که کل داده‌ها را در برگیرد. برخی از روش‌های نمونه‌برداری در زیر آورده شده‌اند:
نمونه‌برداری تصادفی ساده: با یک تابع احتمالی داده‌ها انتخاب می‌شوند. در این حالت احتمال انتخاب هر نمونه با بقیه یکسان است.
نمونه‌برداری متوازن: از نمونه‌هایی که در مجموعه داده وجود دارد با همان نسبتی که درداده‌ها وجود دارد انتخاب شود. برای مثال اگر کار دسته‌بندی انجام می‌دهیم و ۳۰۰ نمونه مثبت و۷۰۰ نمونه منفی داریم و می‌خواهیم ۱۰۰ نمونه انتخاب کنیم این نسبت باید حفظ شود(۳۰ نمونه مثبت و ۷۰ نمونه منفی). الگوریتم‌‌های مختلفی برای نمونه‌برداری وجود دارند که عبارت‌اند از:
نمونه‌برداری بدون جایگزین: در این روش هر رکوردی که انتخاب می‌شود از مجموعه رکوردهای انتخابی حذف می‌شود.
نمونه‌برداری با جایگزینی: هرگاه رکوردی انتخاب می‌شود آن رکورد از مجموعه حذف نخواهد شود و احتمال انتخاب دوباره آن وجود دارد.

تبدیل داده
در عملیات تبدیل داده از یک تابع استفاده‌شده است و کل مجموعه ویژگی‌ها را به مجموعه جدیدی از مقادیر نگاشت می‌کند. این کار به این صورت است که هر یک از مقادیر در مجموعه داده‌ها به مقادیر دیگر بر طبق یک تابع مانند یا تبدیل می‌شود. نکته‌ای که وجود دارد این است که باید از توابعی استفاده کنیم که مقدار جدید را بتوان به مقدار قبلی برگرداند. برخی از این تبدیل‌ها عبارت‌اند از:
خلاصه‌سازی کردن: داده‌ها جمع و خلاصه‌سازی می‌شود. برای مثال فروش داده‌های روزانه به ماهانه و یا سالانه تبدیل می‌شود.
تعمیم دادن: تعمیم دادن داده‌ها با یک مفهوم به سطحی بالاتر تعمیم داده شود. برای مثال تبدیل سن افراد که به‌صورت عددی واردشده به مفاهیمی مانند جوانی، میان‌سالی و یا نوجوانی تبدیل کنیم.
نرمال‌سازی: توابعی وجود دارند که داده‌ها را به شکلی جدید تبدیل می‌کنند مانند max-min.(Jiawei and Kamber 2006)
علت استفاده از این دوره زمانی در وهله اول به خاطر در دسترس بودن و در وهله دوم به دلیل کافی بودن تعداد آن‌ها به‌اندازه‌ای که بتوان هم شبکه را آموزش داده و آزمایش نمود می‌باشد .
بنابراین بعد از جمع‌ آوری داده‌ها یکسری عملیات آماده‌سازی روی آن‌ها انجام گردید ابتدا کنترل اینکه قلمی جا نیفتاده باشد و یا این‌که عددی به‌اشتباه درج نشده باشد در مرحله بعد داده‌ها در دو بازه (۰و۱) و (۱ و-۱) مقیاس بندی و نرمال شده‌اند .
نرمال‌سازی یا مقیاس بندی داده‌ها معمولاً به نحوی صورت می‌گیرد که میانگین سری زمانی صفر و انحراف معیار برابر یک گردد (جانوس کویشیوس ، ۲۰۰۳) برای این منظور از فرمول زیر استفاده گردیده است:
:مقدار داده در مقیاس جدید
:مقدار داده خام
Scaleو offset از طریق فرمول زیر محاسبه می‌شوند .
: ماکزیمم هدف ، که در اینجا( )
: مینیم هدف ، که در اینجا ( )
: ماکزیمم داده‌های خام
: مینیم داده‌های خام


فرم در حال بارگذاری ...

« منابع تحقیقاتی برای نگارش مقاله ارائه روشی جدید جهت بهبود بازدهی تخصیص پهنای باند پویا در شبکه های ...تحقیقات انجام شده با موضوع : بررسی رابطه وسواس مذهبی ـ اخلاقی با نشانه‌های وسواس فکری ... »
 
مداحی های محرم