پیش فرضهای رگرسیون لجستیک
-
- مهم ترین پیش فرضرگرسیون لجستیک زوجی بودن متغیر وابسته میباشد.
-
- در رگرسیون لجستیک نیازی به این نیست که رابطه بین ضرایب متغیر وابسته و ضرایب متغیرهای مستقل یک رابطه خطی باشد در صورتی که رگرسیون چندگانه به این صورت نیست.
-
-
- متغیرهای مستقل میتوانند هم در سطح کمی و هم در سطح کیفی طبقه بندی شده باشند.اما چنانچه یک یا چند متغیر مستقل در سطح اسمی /ترتیبی بودند حتما باید ابتدا این متغیرها را به متغیرهای مجازی تبدیل کنیم ( یعنی ۰ و ۱) البته در رگرسیون لجستیک ،کادری به نام Categoricalوجود دارد که با نتخاب و اجرای آن متغیرهای ترتیبی به طور خودکار به متغیرهای مجازی تبدیل میشوند بنابراین نیازی به کدگذاری مجدد آنها توسط محقق نیست[۱۹۴].
-
-
- لزوم تبعیت داده های متغیرهای مستقل از توزیع نرمال ضروری نیست(متریک یا غیرمتریک).اما چنانچه این متغیرها دارای توزیع نرمال چندمتغیره باشند،در آن صورت برازش مدل بهتر خواهد بود.
-
- چندهم خطی نبودن متغیرهای مستقل از دیگر مفروضات رگرسیون لجستیک است.چرا که صورت چند هم خطی بودن این متغیرها براوردها دارای اریب بوده و خطاهای استاندارد نیز نوسان زیادی خواهند داشت .ترسیم نمودار پراکنش به ما کمک می کند تا از چند هم خطی بودن یا نبودن متغیرهای مستقل اطمینان حاصل کنیم.
روشهای انتخاب متغیرها در رگرسیون لجستیک
در رگرسیون لجستیک روشهای متعددی برای انتخاب و ورود متغیرها به مدل وجود دارد که به ما کمک میکند تا مشخص کنیم که چگونه متغیرهای مستقل وارد تحلیل شوند و نیز بتوانیم مدلهای رگرسیونی متفاوتی را بر روی یک مجموعه متغیر یکسان ایجاد کنیم.
-
- روش همزمان[۱۹۵]:در این روش تمامی متغیرها در یک مرحله وارد مدل میشوند.
-
- روش پیشرو مشروط[۱۹۶]: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معنی داری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال این آماره و با توجه به برآورد پارامتر مشروط انجام میگیرد.
-
- روش پیش رو نسبت درست نمایی[۱۹۷]: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معناداری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال این آماره وبا توجه به برآوردهای حداکثر درست نمایی جزئی استفاده میشود.
-
- روش پیش رو والد[۱۹۸]: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل براساس معنی داری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال آماره والد انجام میگیرد.
-
- روش حذف پس رو مشروط[۱۹۹]: نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل براساس احتمال آماره نسبت درست نمایی و با توجه به براوردهای پارامتر مشروط انجام میگیرد.
-
- روش حذف پسرو نسبت درست نمایی[۲۰۰]: نوعی روش گام به گام پسرو استکه در آن خروج متغیرها از تحلیل براساس احتمال آماره نسبت درست نمایی و با توجه به براورد حداکثر درست نمایی جزیی انجام میگیرد.
-
- روش حذف پسرو والد[۲۰۱]: نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل براساس احتمال والد انجام میگیرد.
مفاهیم پایه در رگرسیون لجستیک
بختها: Odds
بختها عبارت میباشند از احتمال رخ دادن یک واقعه بر احتمال رخ ندادن آن واقعه.بختها از طریق فرمول زیر محاسبه میشوند که در آن pi احتمال رخ دادن یک واقعه و۱-pi احتمال رخ ندادن آن واقعه است.
برای درک بهتر مفهوم بختها به مثال زیر توجه کنید(در رابطه با شرکت مردان و زنان در انتخابات).
بخت شرکت مردان در انتخابات عبارت است از تعداد مردانی که در انتخابات شرکت کرداند p1 نسبت به تعداد مردانی که در انتخابات شرکت نکردهاند۱-p1 به عنوان مثال نسبت همچنین در گروه زنان نیز بخت شرکت زنان در انتخابات برابر است با تعداد زنانی که در انتخابات شرکت کرده اند p0 نسبت به تعداد زنانی که در انتخابات شرکت نکرده اند نکرده اند ۱-p0 به عنوان مثال .
نسبت بختها Odds ratio
در رگرسیون لجستیک برای تعیین میزان تاثیر هر متغیر مستقل بر متغیر وابسته،از آمارهای به نام نسبت بختها OR استفاده می شود[۲۰۲].نسبت بختها در واقع نسبت دو بخت به همدیگر است و به معنای نسبت احتمال وقوع یک پیامد با فرض عضویت در گروه اول به احتمال وقوع آن پیامد با فرض عضویت در گروه دوم میباشد. به عبارتی نسبت بختها نشان دهنده، یک واحد تغییر در بختهای وقوع یک پیامد به ازای یک واحد تغییر در متغیر مستقل است.از این رو نسبت بختها را میتوان معادل β در رگرسیون خطی دانست .
که در آن
p1 احتمال وقوع یک پیامد با فرض عضویت در گروه اول (۱)
p0 احتمال وقوع یک پیامد با فرض عضویت در گروه دوم (۰)
برای درک بهتر نحوه محاسبه نسبت بختها مثال مربوط به بختها را بار دیگر تکرار میکنیم در این مثال برای محاسبه نسبت بختها ابتدا لازم است بخت شرکت در انتخابات در دو گروه مردان و زنان را محاسبه کنیم.در محاسبه بختها ملاحظه کردیم که بخت شرکت مردان در انتخابات برابر و بخت آن برای زنان برابر با است.
حال اگر مقدار دو بخت را بر یکدیگر تقسیم کنیم نسبت بختها برابر است با یعنی در زنان نسبت شرکت در انتخابات نزدیک به دو برابر مردان است.
نکات:
نسبت بختها در فرمول با نماد OR ودر خروجی SPSS با نماد EXP(B)مشخص شده است.
در تفسیر نتایج نسبت بختها باید قواعد زیر را رعایت کنیم
*-هرگاه نسبت بختها بزرگتر از عدد یک باشد تغییر(اثر) متغیرهای مستقل و وابسته مثبت و هم جهت است. یعنی با افزایش مقدار متغیر مستقل مقدار متغیر وابسته نیز افزایش مییابد.
*- هرگاه نسبت بختها کوچکتراز عدد یک باشد تغییر متغیرهای مستقل و وابسته منفی و در جهت خلاف هم است.
*- هرگاه نسبت بختها برابر با عدد یک باشد متغیر مستقل تاثیر معناداری بر متغیر وابسته ندارد و مقدار بتا با اثرآن صفر است.
۳. نسبت بختها را میتوانیم به دو شیوه تفسیر کنیم؛
*. در شیوه اول همانطور که در بالا اشاره شد براساس نسبت تغییر در متغیر وابسته به ازای یک واحد تغییر در متغیر مستقل تعریف میکنیم.به عنوان مثال نسبت بختهای۱٫۷۸ در مثال مربوط به شرکت مردان و زنان در انتخابات نشان میدهد که زنان دو برابر مردان در انتخابات شرکت کرده اند.
*. در شیوه دوم میتوانیم نسبت بختها را به صورت درصد تفسیر کنیم. برای این کار ابتدا نسبت بختها را از عدد یک کم میکنیم و سپس در عدد صد ضرب میکنیم به عنوان مثال اگر نسبت بختهای ۱٫۷۸ از عدد یک کم کنیم و در صد ضرب کنیم حاصل آن ۷۸ درصد خواهد بود که نشان میدهد با افزایش یک واحد در متغیر جنسیت بخت شرکت در انتخابات به اندازه ۷۸ درصد افزایش مییابد.
مقادیر لجیتی:
اینکه مطمئن شویم، مقادیر پیش بینی شده خارج از محدوده ۰ و ۱ قرار نمیگیرند. میبایست تبدیلاتی انجام گیرد.
تبدیلات لجستیک این فرایند را دو مرحله انجام می دهند:
*.نشان دادن احتمالات با عنوان odds: که در مطالب قبل توضیح داده شد.
*. به دست آوردن مقادیر لجیتی:
-
- برای بدست آوردن یک متغیر متریک با مقادیر مثبت و منفی ما نیاز داریم که مقدار جدیدی را بدست آوریم به این دلیل که odds مقادیر منفی اختیار نمیکند بنابراین مقادیر لجیتی را معرفی می کنیم که از لگاریتم گرفتن از odds بدست می آید
ضرایب و تفسیر
یکی از مزیت های رگرسیون لجستیک این است که برای تعریف یک ارزش دوتایی برای متغیر وابسته فقط نیاز داریم که یک رویداد اتفاق می افتد یا خیر .وقتی که ما این اطلاعات را آنالیز می کنیم از تبدیلات لجیتی استفاده می شود،در حالی که رگرسیون لجستیک و ضرایبش معنایی متفاوت با رگرسیون چندگانه دارد.اینکه ضرایب لجستیک را در فرم اصلی آن تفسیر کنیم کار مشکلی است به این دلیل که این ضرایب به صورت اصطلاحات لگاریتمی بیان شده اند.بنابراین اکثر برنامه های کامپیوتری یک ضرایب لجستیکی نمایی[۲۰۳] در نظر گرفتهاند.که به صورت آنتی لگاریتم از ضرایب اصلی تعریف می شود.
فرم در حال بارگذاری ...