پژوهش های پیشین درباره ارائه مدل مفهومی مدیریت دانش زنجیره تأمین تجارت الکترونیکی G2C- ...

داده‌ها اصولاً به صورت پایگاه داده نیمه ساختار یافته و نه به طور کاملاً ساختار یافته و نه بدون ساختار در طبیعت ذخیره می‌شوند. برای رده‌بندی داده‌های متنی به کلاس‌ها از پیش تعریف شده لازم و ضروری است. مجموعه مورد نظر به صورت دستی به کلاس‌های متفاوت جهت آزمون و صحت رده‌بندی افراز گردد. این افراز به کمک کارشناسان دامنه صورت می‌پذیرد. خصیصه‌های طبقه‌بندی مجموعه‌ای از ویژگی‌های کلاس یا متغیر هدف است. در این پژوهش این کار با کمک کارشناسان حوزه که درک درستی از زمینه‌های داده‌های متنی و معنای شرایط تعریف شده در اسناد متنی دارند صورت پذیرفته است. در واحد سطح سوم رده‌بندی‌های متفاوت استفاده می‌شوند که جهت مطالعه تأثیرات شرایط رده‌بندی داده‌های متنی به دو کلاس مختلف که می‌تواند ساخت رده‌بندی مستندات را با دقت بیشتری بهبود دهد. رده‌بندی‌های خاص مطرح شده در پژوهش جاری عبارت‌اند از اول درخت تصمیم‌گیری (C 4.5)، دوم نزدیک‌ترین همسایه (K-NN)، سوم بیز ساده (NaiveBayes) و چهارم ماشین‌های پشتیبان بردار (SVMs). نتیجه این آزمون رده‌بندی‌های متفاوت به وسیله تغییرپذیری مبتنی بر انتخاب متغیرهای اطلاعاتی بر روی محدوده معیارهای فاصل‌هایی متفاوت، از معیار فاصله اقلیدسی ساده تا متدهای مبتنی بر هسته روش ارائه شده در پژوهش مذکور است. هدف از رده‌بندی، اعتبارسنجی فرضیه مبتنی بر متد ارائه‌شده بر روی MKTPKS جهت بهبود صحت رده‌بندی بر روی الگوریتم‌های رده‌بندی است.^[۱۵۳]

۳-۷-۳- تحلیل و طراحی

الگوریتم تحلیل درخت تصمیم اکثراً برای مشکلات رده‌بندی و فرایند ساخت شروع درخت تصمیم به وسیله انتخاب گره تصمیم و جداسازی آن به زیر گره و برگ مورد استفاده قرار می‌گیرد. الگوریتم درخت تصمیم C4.5 توسعه‌یافته الگوریتم ID3 است. این الگوریتم مبتنی بر ساخت درخت تصمیم و جداسازی به وسیله گره‌های تصمیم به وسیله انتخاب جداسازهای بهینه و ادامه جستجو در حد امکان می‌باشد. برای استفاده از مفاهیم بهره‌اطلاعاتی و کاهش آنتروپی جهت کسب تقسیم مطلوب از رابطه‌های ذیل استفاده می‌نماییم. فرض نمایید متغیر X ارزش K احتمال ممکن p1,p2,…,pk را داشته باشد آنگاه آنتروپی X از رابطه زیر محاسبه می‌گردد. فرمول ۳-۲:
H(X)= -∑pjlog2(pj)
برای محاسبه میانگین مورد نیاز اطلاعات می‌توان از مجموع وزن‌دار آنتروپی برای زیرمجموعه‌های فردی (مجزا) استفاده نمود. فرمول ۳-۳:
Hs (X)=∑i=1k Pi Hs(Ti)
لازم به ذکر است Pi نشان‌دهنده نسبت رکوردها در زیرمجموعه‌های i است. برای محاسبه بهره اطلاعاتی از رابطه زیر استفاده نمود.
فرمول ۳-۴:
information gain IG(S)=H(T)-Hs(T)

۳-۷-۳-۱- الگوریتم نزدیک‌ترین همسایه (K-NN)

الگوریتم نزدیک‌ترین همسایه تکنیکی است که می‌توانید جهت رده‌بندی داده‌ها به وسیله استفاده از معیار فاصله استفاده نمایید. [۶۴] الگوریتم نزدیک‌ترین همسایه از طریق نمونه‌های آموزشی کار می کند که در این روش مجموعه نه تنها شامل داده‌ها می‌گردد بلکه طبقه‌بندی مورد نظر برای هریک از آیتم‌ها صورت می‌پذیرد. در واقع داده‌های آموزش مدل می‌شوند. الگوریتم K-NN در اصل به وسیله پیدا کردن حداقل فاصله از نمونه‌های ورودی جدید از نمونه‌های آموزشی کار می کند. بر اساس معیار فوق هر نمونه ورودی جدید در کلاس مربوط به خود قرار می‌گیرد. معمول‌ترین تابع محاسبه فاصله، فاصله اقلیدسی است که در فرمول ۱ به آن اشاره گردیده است.

۳-۷-۳-۲- الگوریتم بیز ساده (Naïve Bayes)

الگوریتم بیز ساده یک روش سهل و خوب شناخته شده رده‌بندی است که برای حل مشکلات حوزه عملی مورد استفاده قرار می‌گیرد. [۶۴] رده‌بندی بیز ساده برای یافتن احتمالات مشترک از کلمات و کلاس‌ها از مجموعه رکوردها استفاده می‌گردد. این رویکرد مبتنی بر تئوری بیز ساده است. احتمال کلاس c در مستند dj از رابطه زیر به دست می‌آید.. در این الگوریتم فرض براین است که طبقات مستقل از یکدیگر هستند که با عنوان استقلال مشروط کلاس مطرح می‌گردد. فرمول ۳-۵:
P(c /dj)= j=1,2,3,…,m

۳-۷-۳-۳- الگوریتم ماشین‌های پشتیبان بردار (SVMs)

الگوریتم SVM اولین بار در سال ۱۹۶۰ در روسیه توسعه داده شد. این الگوریتم رده‌بندی غیرخطی است که از متدهای غیرخطی استفاده می‌کند و داده‌ها را از فضای ورودی یا فضای پارامتری به فضای ویژگی‌هایی با ابعاد زیاد نگاشت می کند. [۶۴] هدف این الگوریتم انتخاب ابرصفحه جداساز بهینه جهت حداکثرسازی حاشیه بین دو کلاس است. برای حل مشکل طبقه‌بندی دودویی که در آن W1 و W2 نشان‌دهنده دو کلاس در یک مجموعه داده‌های آموزشی هستند، مجموعه X={x1,x2,…,xn} به همراه برچسب کلاس ارائه شده است. ابرصفحه‌ایی که داده‌های مجزا را به دو کلاس طبقه‌بندی می کند به شرح زیر است.
فرمول ۳-۶:
f(x)=sgn(<w,x> + b)
در رابطه بالا w بردار ضریب و b میزان تمایل به یک‌طرف (چولگی) ابرصفحه و sgn مخفف تابع دوقطبی است. مشکل بهینه‌سازی که منجر به تولید ابرصفحه می‌گردد به صورت زیر نوشته می‌گردد.
فرمول ۳-۷:
Minimizew,x 1/2||w||2
فرمول ۳-۸:
Yi(<w,xi>+b)>=1, for i= 1,2,…,N
بزرگ‌تر شدن حاشیه باعث بهترشدن توانائی تعمیم انتظار می‌گردد. درخت تصمیم (C 4.5)، نزدیک‌ترین همسایه، بیز ساده و ماشین‌های پشتیبان بردار که در مراحل قبل در مورد آن‌ها توضیحاتی ارائه شد جهت رده‌بندی داده‌های متنی در این پژوهش مورد استفاده قرار گرفته‌اند. الگوریتم روی مجموعه داده‌های منتقل شده از مجموعه ویژگی‌های کاندید و خصیصه‌ها اعمال می‌گردد و یک کاربرد ترکیبی (Hybrid) از سطح ۱ (واحد ذخیره‌سازی و پردازش دانش) و سطح ۲ (واحد پالایش دانش) صورت می‌پذیرد. نتایج کاربرد این رویکرد ترکیبی ساخت مجموعه MKTPKS است. این عمل با بهره گرفتن از رویکرد خوشه‌بندی صورت می‌پذیرد. در نتیجه یک فضای وجود یا عدم وجود برای عبارات کلیدی در اسناد ساخته می‌شود. هر نماینده بردار از اسناد با بهره گرفتن از مجموعه MKTPKS 3TermSets انجام می‌پذیرد. رابطه لیستی از عبارات کلیدی تشکیل شده و وجود آن‌ها را در اسناد و نماینده مربوط به کلاس‌ها در شکل ۳-۵ نشان داده شده است.^[۱۵۴] (اگر نامزد مجموعه باشد مقدار ۱ و در غیراینصورت مقدار ۰ به خود اختصاص داده است)
Ci: برچسب کلاس با توجه به داده‌های آموزشی
Fm: نماینده مجموعه MKTPKS 3TermSets

……………………

فرم در حال بارگذاری ...

فید نظر برای این مطلب

وبلاگ

توضیح وبلاگ من

پژوهش های پیشین درباره ارائه مدل مفهومی مدیریت دانش زنجیره تأمین تجارت الکترونیکی G2C- ...

۳-۷-۳- تحلیل و طراحی

۳-۷-۳-۱- الگوریتم نزدیک‌ترین همسایه (K-NN)

۳-۷-۳-۲- الگوریتم بیز ساده (Naïve Bayes)

۳-۷-۳-۳- الگوریتم ماشین‌های پشتیبان بردار (SVMs)