حالتهایی که هنگام اضافه شدن راس به گروه رخ می دهند، در زیر دستهبندی شده اند.
و
و
و
واضح است که در حالت اول راس به گروه افزوده خواهد شد. رئوسی که در حالت دوم صدق می کنند، در واقع گرههای دور افتاده هستند. در حالت سوم تصمیم گیری کمی مشکل است. زیرا که این رئوس دارای ارتباطات سنگین با رئوس درون و بیرون از گروه به صورت همرمان هستند. رئوسی با درجه بالا که با رئوس درون یا بیرون گروه ارتباط دارند را در اصطلاح هاب مینامند. در اینجا علاقه به حضور این رئوس در گروه نداریم. در ابتدا قضاوت برای اینکه راسی، هاب است زود است. به همین دلیل در ابتدا این رئوس را به گروه اضافه میشوند و در انتها هر یک از رئوس دوباره برای هاب بودن بررسی می شود.
این الگوریتم دارای دو فاز اصلی است. در فاز اول که کشف[۷۳] نام دارد به دنبال رئوسی با L’ ماکزیمم میگردد و آنها را به گروه اضافه می کند. در فاز دوم که فاز تست[۷۴] نام دارد هر یک از رئوس اضافه شده را مورد بررسی قرار میدهد و تنها رئوسی که در شرط اول صدق می کنند نگه میدارد و ما بقی را دور میریزد.
پیچیدگی این الگوریتم برابر با kd|S|) میباشد. که در آن d میانگین درجات رئوس و k اندازه مجموعه D است. این الگوریتم قابلیت اجرا بر روی گرافهای درختی بسیاری هستند را ندارد. زیرا در این گرافها رئوس با درجه اندک بسیار مشاهده می شود. همچنین امکان گیر کردن در مینیمم (ماکزیمم) محلی وجود دارد.
بدون بهینه سازی هیچ معیاری
این روشها بر اساس بهینهسازی هیچ معیاری عمل نمیکنند و به دنبال وجود زیر اجزا [۷۵] با ساختارهای از پیش تعیینشده[۷۶] میگردند[۲۹]. نمونه بارز این دسته روش Clique [29] مییاشد که در گراف شبکه، برای پیدا کردن ساختارهایی نظیر k-clique جستجو می کنند و بیان می کنند که تشکلهای موجود، با این ساختارها تناظر دارند. در علم کامپیوتر مسئله کلیک اشاره به یافتن زیرگرافهای کامل دارد، یعنی مجموعه ای از عناصر که دو به دو بههم متصل هستند.
روشهای مبتنی بر مدل
گروهی از روشهای مبتنی بر مدل [۷۷] نیز در دسته اول جای دارند. بسیاری از این روشها برای تخمین پارامترهای مدل از مقادیر بسیار نزدیک[۷۸] به پارامترها استفاده میکنند که این روشها به دلیل وجود نویز[۷۹] در دنیای واقعی پایدار و قابلاطمینان نیستند، اما در روش DSBM[80] [۱۶]برای تخمین پارامترها از رفتار بیزی[۸۱] استفادهشده که علاوه بر نشان دادن عدم قطعیت[۸۲] در مقادیر پارامترها نسبت به عوامل خطا ساز نیز پایدارتر است.
نمونه دیگری از این روش، مدل GSB (بلوک تصادفی عمومی[۸۳]) است. این مدل که نوعی از مدل بلوک تصادفی است، می تواند احتمال (likelihood) تولید لینک در شبکه های جهتدار و یا بدون جهت را بر اساس ایده استفاده از لینک برای شناسایی جوامع را مدل کند. در اینجا نشان دهنده تعداد یال جهتدار در شبکه میباشد. همچنین فرض میکنیم که یک جفت تشکل نهان[۸۴] توسط هر لینک با احتمال تشکیل می شود. گره با احتمال توسط تشکل و گره با احتمال توسط تشکل نمونهبرداری میشوند. در مدل GSB فرض می شود که احتمال ایجاد یک پیوند بین دو گره مرتبط است با وجود ارتباط بین خود جوامع. با این فرض، مدلGSB قادر به کشف جوامع به طور عمومی تر میباشد. همچنین پارامتر این مدل توسط الگوریتم EM[85] بدست می آید[۳۰] . نمایش گرافیکی این مدل در شکل ۲-۳ آورده شده است.
شکل ۲-۳- نمایش گرافیکی مدل GSB.
دایرههای توپر نشان دهنده مقادیر دیده شده و دایرههای توخالی نشان دهنده مقادیر پنهان هستند. خط پر به همراه فلش بین گرههای و نشان دهنده وجود یک یال جهتدار بین آنها است. خطچینهایی که دو دایره را به هم مرتبط می کنند، بیان میکنندکه رابطه بین این عناصر دیده نشده هستند و باید توسط مقادیر دیده شده یاد گرفته شوند. فلشها نشاندهنده جهت رابطه هستند.
روشهی مبتنی بر محتوا
در این قسمت به ارائه دو روش اکتفا میکنیم.
روش [۸۶]CUT
این روش که از محتوای پستهای الکترونیکی برای شناسایی تشکلها استفاده میکند، نمونه ای از الگوریتمهای موجود برای دسته دوم است. در این روش تشکلها بر اساس ترکیبهای تصادفی از مدل کاربران که از علایق آنها بهدست می آید، مدل میشوند. اما این روش از اطلاعات ارتباطات در گراف شبکه استفاده نمیکند، بنابراین مدلهایی شبیه CUT برای زمانی که اعضای تشکل فعالانه باهم در ارتباط باشند مناسب هستند و در غیر این صورت جواب قابل قبولی ارائه نمیدهند[۵]. نمایش گرافیکی این روش در شکل ۲-۴ نشان داده شده است.
شکل ۲-۴- نمایش گرافیکی روش CUT.
روش LTCA[87]
این روش نیز مثال دیگری از الگوریتمهای دسته دوم است. در این روش فرض میشود افرادی که باهم در یک تشکل قرار میگیرند، به طور نزدیکی[۸۸] با یکدیگر در ارتباط هستند و موضوعهای پنهان[۸۹] مشترکی را به اشتراک میگذارند[۳۱] بنابراین سعی میکند تشکلهایی را استخراج کند که افراد در آن موضوعات شبیه به همی را به اشتراک میگذارند.
فصل سوم
ارائه راه حل و روش های پیشنهادی
ارائه راه حل و روشهای پیشنهادی
مقدمه
روشی که در اینجا ارائه خواهیم داد بر خلاف اغلب روشها که برای تشخیص تشکل ها در شبکه های اجتماعی، تنها با بهره گرفتن از ساختار[۹۰] شبکه، تلاش در بهینه کردن سراسری [۹۱] یک معیار از پیش تعیین شده دارند، اساسا بر مبنای استفاده از اطلاعات مفهومی موجود در شبکه های اجتماعی در کنار اطلاعات ساختاری است. به طور کلی، در این روش، در ابتدا بر اساس یک روش مبتنی بر مدل و با بهره گرفتن از اطلاعات ساختاری یک تخمین اولیه مناسب از تشکل ها به دست می آید، سپس بر اساس روش های پیمایش متن[۹۲] و با بهره گرفتن از اطلاعات مفهومی سعی می شود کاربران به تشکل هایی منتقل شوند که به لحاظ مفهومی با محتوای متن های منتسب به آن کاربر، شباهت داشته باشند.
انگیزه اصلی برای ارائه روشی مبتنی بر محتوا و لینک از آنجا ناشی می شود که وب سایتهای مربوط به شبکه های اجتماعی نظیر DBLP[93] در کنار هر کاربر[۹۴] یک سند[۹۵] قرار دارد که محتوای[۹۶] موجود در آن به شناسایی بهتر و دقیقتر تشکل آن کاربر کمک می کند زیرا طبق تعریف جدید، یک تشکل به مجموعه ای از کاربران گفته می شود که به هم اتصالات[۹۷] های زیادی دارند و موضوعات مشابهی را یه اشتراک میگذارند. برای مثال، با بهره گرفتن از این روش فردی که به تازگی وارد موضوع شناسایی تشکل ها شده و تا کنون به شخص دیگری لینک نداده است نیز در تشکل سایر افرادی که در این زمینه کار می کنند قرار میگیرد.
روشی که در اینجا ارائه دادهایم تعمیم مدل پایدار[۹۸] مطرح شده در[۳۲] میباشد که استفاده از محتوا را در کنار این روش مبتنی بر مدل قرار میدهد.
در ادامه به ارائه موضوع شناسایی تشکل های پنهان، مفاهیم مرتبط و روش پیشنهادی خواهیم پرداخت.
پیش از هر چیز، علایم ریضی بکار رفته در ادامه بحث را در جدول ۳-۱ نشان دادهایم.
جدول ۳-۱ علائم و تعاریف بکار رفته
تعریف | علامت |
تعداد رشته کلمات[۹۹] | W |
لینکهای شبکه اجتماعی | L |
کاربران شبکه اجتماعی | U |
تعداد عنوانها | K |
فرم در حال بارگذاری ...