مقدمه ای بر رگرسیون چند متغیری
رگرسیون چند متغیری چیست ؟
رگرسیون چند متغیری ( multiple regression ) روشی آماری است که اجازه می دهد نمره یک فرد در یک متغیر را بر اساس نمره های او در چندین متغیر دیگر پیش بینی کنیم . ارائه مثالی در این زمینه می تواند سودمند باشد . فرض کنید می خواهیم پیش بینی کنیم یک فرد از شغلش چقدر لذت می برد . متغیرهایی مانند درآمد ، میزان تحصیلات ، سن ، جنسیت ، سابقه خدمت و وضعیت اقتصادی – اجتماعی ، همه می تواند به رضایت شغلی کمک کند . اگر داده های مربوط به این متغیرها را فرضاً به وسیله نظر سنجی از چند صد عضو از اعضاء جامعه جمع آوری کنیم ، خواهیم دید که از میان متغیرهای ذکر شده کدامیک رضایت از شغل را می تواند پیش بینی کند و کدامیک این کار را دقیق تر می تواند انجام دهد . شاید بتوانیم نشان دهیم که نوع حرفه ، حقوق و سابقه خدمت رضایت شغلی را می توانند دقیق تر پیش بینی کنند ، در حالی که سایر متغیرها در پیش بینی رضایت از شغل کمکی به ما نمی کنند .
هنگام استفاده از رگرسیون چند متغیری در روانشناسی بسیاری از محققین اصطلاح « متغیر مستقل » را برای شناسایی متغیرهایی که می پندارد بر تعدادی از « متغیرهای وابسته » اثر می گذارد به کار می برند . ما ترجیح می دهیم که از اصطلاح متغیرهای پیش بین برای متغیرهایی که امکان دارد در پیش بینی نمره های سایر متغیرها که ما به آنها متغیر ملاک می گوییم به ما کمک کنند استفاده کنیم . بنابراین در مثال ذکر شده قبلی نوع شغل ، حقوق و سابقه خدمت متغیرهای پیش بین معنی دار هستند و به ما اجازه می دهند تا متغیر ملاک یعنی میزان رضایت شخص از شغل خود را تخمین بزنیم . همان طور که قبلاً اشاره کردیم رفتار انسان به طور ذاتی پیچیده است و بنابراین پیش بینی دقیق آن ممکن است اما رگرسیون چند متغیری این امکان را می دهد که مجموعه ای از متغیرهای پیش بینی را شناسای کنیم که با هم برآورد مفیدی را از نمره احتمالی فرد در متغیر ملاک ارائه می دهند .
ارتباط رگرسیون چند متغیری و تحلیل واریانس
در یکی از بخش های قبلی همبستگی و رگرسیون را برایتان توضیح دادیم . اگر دو متغیر همبسته باشند دانستن نمره یک متغیر به شما اجازه پیش بینی نمره متغیر دیگر را می دهد . هر چه میزان همبستگی بیشتر باشد نمرات به خط رگرسیون نزدیک تر و بنابراین پیش بینی دقیق تر خواهد بود . رگرسیون چند متغیری گسترش این اصل است که یک متغیر را بر اساس چندین متغیر دیگر پیش بینی کنیم . هنگام پیش بینی رفتار آدمی داشتن بیش از یک متغیر پیش بین سودمند است زیرا اعمال افکار و هیجان ها همه احتمالاً به وسیله ترکیبی از عوامل مختلف تحت تاثیر قرار می گیرند . با استفاده از رگرسیون چند متغیری می توانیم به آزمون نظریه ها ( یا مدل ها ) بپردازیم تا ببینیم کدام دسته از متغیرها به طور تقریباً دقیق رفتار ما را تحت تاثیر قرار می دهند. همان طور که در بخش 1 فصل 6 در تحلیل واریانس گفته شد رفتار انسان متغیر است و بنابراین به سختی می تواند مورد پیش بینی قرار گیرد . آنچه در تحلیل واریانس و رگرسیون چند متغیری انجام می دهیم جستجو برای یافتن عوامل تاثیر گذار بر واریانس نمرات مشاهده شده است در مثال قبل افراد در میزان رضایت از شغل خود ممکن است با یکدیگر تفاوت زیادی داشته باشند تعدادی از این تفاوت ها به دلیل متغیرهایی است که ما شناسایی کردیم . به عنوان مثال شاید بتوانیم بگوییم که میزان حقوق سهم عمده ای از واریانس رضایت شغلی را تشکیل می دهد ، بنابراین برای پیش بینی رضایت شغلی افراد دانستن میزان حقوق آنان بسیار سودمند است . حال می توانیم درک کنیم که نکات گفته شده در اینجا تا حدودی مشابه با اهداف تحلیل واریانس است در تحلیل وایانس سعی می کنیم تعیین کنیم چه مقدار از واریانس ناشی از دستکاری ما در متغیر مستقل است ( به نسبت درصدی از واریانس که نمی توانیم به حساب آوریم . )
در رگرسیون چند متغیری متغیرهای مستقل را مستقیماً دستکاری نمی کنیم . به جای آن سطوح طبیعی رخ دادن متغیرها اندازه گیری می شوند تا ببینیم آیا این موضوع در پیش بینی نمره متغیر وابسته ( یا متغیر ملاک ) به ما کمک می کند یا خیر . بنابراین تحلیل واریانس مثال محدود و خاصی از روش های عمومی به کار گرفته شده است در رگرسیون چند متغیره است .
به عبارت دیگر در تحلیل واریانس می توانیم مستقیماً عوامل رادستکاری کرده و تغییرات حاصل در متغیروابسته را اندازه گیری کنیم . در حالی که در رگرسیون چند متغیری روی دادن طبیعی نمرات را در تعدادی از متغیرهای پیش بین اندازه گیری می کنیم . و سعی در تعیین این امر داریم که کدام دسته از متغیرهای مشاهده شده ، در پیش بینی متغیر ملاک موفق ترند .
روالی که فعلاً بر حیطه آمار حاکم است بر تشابه بین رگرسیون چند متغیری و تحلیل واریانس و نیز تشابه بین همبستگی و آزمون تی تاکید می رورزد . تمام این روش های آماری در اصل سعی دارند یک کار را انجام دهند . توضیح واریانس در سطح یک متغیر بر پایه سطح یک یا چند متغیر دیگر . این متغیرهای دیگر ممکن است طی آزمایش کنترل شده مستقیماً مورد دستکاری و یا طی نظر سنجی ها و یا پژوهش های مشاهده ای مورد مشاهده قرار می گیرد . اما اصول اصل یکی است .
در چه شرایطی می توان از رگرسیون چند متغیری استفاده کرد ؟
هنگامیکه می توانید از روش آماری استفاده کنید که بین متغیرهای پیش بین و ملاک رابطه خطی وجود داشته باشد . یعنی ارتباط ، خط مستقیمی را تشکیل می دهد ( برای تعیین ارتباط غیر خطی ، روش های مخصوص مورد استفاده قرار می گیرند . )
متغیر ملاکی که به دنبال پیش بینی آن هستید باید بر اساس مقیاس پیوسته ( مانند مقیاس فاصلهای و نسبی ) اندازه گیری شده باشد . روشهای متفاوت سنجش رگرسیون که رگرسیون لوجستیک ( logistic regression ) نامیده می شوند . برای متغیرهای وابسته دو بخشی ( dichotomous ) مورد استفاده قرار می گیرد .
متغیر پیش بینی انتخاب شده باید براساس مقیاس نسبی ، فاصله ای ، و یا رتبه ای مورد اندازه گیری قرار گرفته باشد . متغیر پیش بین اسمی فقط هنگامی که می تواند مورد استفاده قرار گیرد که به صورت دو بخشی باشد . یعنی بیش از دو طبقه نداشته باشد . مثلاً جنسیت قابل قبول است ( جایی که مذکر رمز 1 و مونث رمز 2 را به خود اختصاص داده است . ) اما هویت جنسی ( زنانه ، مردانه و دو جنسیت ) را نمی توان به عنوان یک متغیر واحد رمز گذاری کرد . به جای آن سه متغیر متفاوت را که هر یک دارای دو سطح باشند می توانید ایجاد کنید .
رگرسیون چند متغیری به تعداد زیادی مشاهده نیاز دارد . تعدادموارد باید حتماً بیش از تعداد متغیرهای پیش بینی باشند که در رگرسیون از آن استفاده می کنید . حداقل مطلق این است که شرکت کنندگان باید پنج برابر متغیرهای پیش بین باشند . میزان قابل قبول تر نسبت ده به یک است اما عده ای ادعا می کنند برای بعضی از روش های آماری انتخابی این نسبت باید چهل به یک باشد .
اصطلاح شناسی
اصطلاح های خاصی وجود دارند که برای درک نتایج این روش آماری باید توضیح داده شوند .
بتا ( ضریب استاندارد شده رگرسیون ) Beta ( standardized regression coefficient)
اصطلاح بتا مقیاسی است برای تعیین مقدار متغیرهای پیش بین بر متغیر ملاک .بتا بر اساس واحد انحراف استانداد اندازه گیری می شود . به عنوان مثال مقدار بتای 5/2 مشخص می کند که میزان تغییر یک انحراف استاندارد در متغیر پیش بین منجر به تغییر 5/2 انحراف استاندارد در متغیر ملاک می شود . بنابراین هر چه قدر مقدار بتا بزرگتر باشد اثر متغیر پیش
بین بر متغیر ملاک بیشتر خواهد بود .
وقتی در مدل مورد استفاده خود فقط یک متغیر پیش بین داشته باشید بتا برابر با ضریب همبستگی بین متغیر پیش بین و متغیر ملاک خواهد بود . این برابری منطقی است زیرا نشان دهنده همبستگی بین دو متغیر است . هنگامی که بیش از یک متغیر پیش بیندارید نمی توانی به سادگی با مقایسه ضرایب همبستگی سهم هر یک از متغیرهای پیش بین را در پیش بینی متغیر ملاک با یکدیگر مقایسه کنید . ضریب همبستگی بتا به این خاطر محاسبه می شود که به شما اجازه دهد تا چنین مقایسه ای را انجام دهید و قدرت رابطه بین هر یک از متغیرهای پیش بین را با متغیر ملاک بسنجید .
آر ، مجذور آر، مجذور آر تنظیم شده ( R, R Square, adjested R )
آر اندازه همبستگی بین مقدار مشاهده شده و مقدار پیش بینی شده متغیرملاک است . در مثال قبلی نشان دهنده همبستگی بین سطوح رضایت شغلی گزارش شده توسط شرکت کنندگان و سطوح پیش بینی شده برای آنان توسط متغیر پیش بین است . مجذور آر یعنی آر به توان 2 مربع این مقیاس همبستگی است و سهم واریانس در متغیر ملاک را نشان می دهد که توسط مدل انتخاب شده ما در نظر گرفته شده است . در اصل این مقیاسی است که نشان می دهد با شناختن متغیرهای پیش بین به چه میزان می توان نسبت به پیش بینی متغیرهای ملاک اقدام کرد در هر حال مجذور آر میزان موفقیت مدل انتخاب شده را هنگام کاربرد آن در محیط واقعی تا حدودی بیش از اندازه تخمین می زند ، بنابراین مجذور آر تنظیم شده محاسبه می شود که تعداد متغیرهای به کار گرفته شده در مدل و تعداد مشاهداتی که مدل انتخاب شده بر آن پایه گذاری شده اند را به حساب می آورد . مجذور آر تنظیم شده سودمندترین مقیاس موفقیت مدل انتخاب شده را نشان می دهد . به عنوان مثال اگر مقدار مجذور آر تنظیم شده 75/0 باشد می توانیم بگوییم که مدل انتخاب شده 75درصد واریانس در متغیر ملاک را به حساب آورده است .
ملاحظات
همخطی چند گانه ( muticollinearty )
هنگام انتخاب متغیر پیش بین باید متغیری انتخاب شود که همبستگی با متغیرملاک راداشته باشد ولی با ساسیرمتغیرهای پیش بین ارتباط قوی نداشته باشد . همبستگی بین متغیرهای پیش بین غیرعادی نیست . اصطلاح هم خطی چند گانه ( یا هم خطی ) برای توضیح وضعیتی به کار می رود که بین دو یا تعداد بیشتری از متغیرهای پیش بین همبستگی بالایی مشاهده شود . چنین همبستگی هایی هنگام استنتاج درباره اثر هر یک از متغیرهای پیش بین در موفقیت مدل ایجاد اشکال می کن . spss شمارا به ابزاری برای بررسی این امر مجهز کرده است که درباره آن تو1ضیح داده می شود .
روش های انتخاب
راههای متفاوتی برای تعیین سهم نسبی هر یک از متغیرهای پیش بین وجود دارد . در روش « هم زمان » که spss آن را روشenter خوانده است پژوهشگر مجموعه ای از متغیرهای پیش بین را مشخص می کند که مدل را می سازند سپس میزان موفقیت این مدل در پیش بینی متغیر ملاک تعیین می شود . د روش های سلسله مراتبی بر عکس روش قبلی متغیرها را به ترتیب خاصی به درون مدل وارد می کنند . ترتیب مخص شده نشان دهنده ملاحظات نظری یا یافته های قبلی می باشد . اگر برای اهمیت یک متغیر نسبت به سایر متغیرها دلیلی در دست ندارید . نباید از این روش ها استفاده کنید . با وارد شدن هر یک از متغیرها به درون مدل میزان سهم آن نیز تعیین می شود . اگر اضافه شدن یک متغیر باعث افزایش معنی دار قدرت پیش بینی مدل نشود آن متغیر حذف می گردد . در روش های آماری ترتیب ایجاد شده برای وارد کردن متغیرهای پیش بین به درون مدل ( یا خارج از آن ) بر اساس قدرت همبستگی آنها با متغیر ملاکی تعیین می شود . در واقع ویرایش های متفاوتی از این روش وجود دارد که آنها را انتخاب پیش رو(FORWARD ) انتخاب پس رو ( backward ) و انتخاب قدم به قدم ( stepwise selection ) می نامند . در انتخاب پیش رو spss متغیرها را یکی یکی بر اساس ترتیب قدرت تعیین شده برای همبستگی آنها با متغیر ملاک به مدل وار می کند . اثر اضافه شدن هر یک از آنها هنگام وارد کردن آنها به مدل تعیین می شود و متغیرهایی که به صورت معنی داری توان موفقیت مدل را افزایش نمی دهند حذف می شود .