تجزیه و تحلیل رگرسیون: تفسیر ضریب تعیین (R²) و ضریب تعیین تعدیل شده
چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟
رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه می کند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.
یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.
قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R۲) را می توان بررسی نمود.
ضریب تعیین R۲ چیست؟
R۲ اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R۲، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.
تعریف ضریب تعیین (R۲) نسبتاً ساده است: “ضریب تعیین (R۲) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”
ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:
۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمی کند.
۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین می کند.
نمایش گرافیکی از ضریب تعیین (R۲)
نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.
مدل رگرسیون سمت چپ R۲=۳۸.۰% و مدل سمت راست دارای R۲=۸۷.۴% است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R۲=۱۰۰.۰% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.
محدودیت های کلیدی ضریب تعیین (R۲)
ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R۲) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R۲) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین (R۲) بالا ممکن است برای برازش داده ها مناسب نباشد!
آیا ضریب تعیین (R۲) پایین ذاتاً بد است؟
نه! دو دلیل مهم که چرا مقادیر ضریب تعیین (R۲) پایین می تواند بد نباشد، وجود دارد.
در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین (R۲) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین (R۲) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.
به علاوه، ممکن است ضریب تعیین (R۲) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین (R۲) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.
ضریب تعیین (R۲) پایین بر روی تفسیر متغیرهای معنادار تاثیر نمی گذارد.
یک ضریب تعیین (R۲) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین (R۲) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین (R۲) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین (R۲) کوچک) نیز قابل استفاده خواهد بود.
آیا ضریب تعیین (R۲) بالا ذاتاً خوب است؟
نه! ضریب تعیین (R۲) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.
نمودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R۲) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.
با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.
حرف پایانی در خصوص ضریب تعیین (R۲)
ضریب تعیین (R۲) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R۲)، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.
در حالی که ضریب تعیین (R۲) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.
در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R۲) تنها ناقص است دو نوع ضریب تعیین دیگر adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.
یه سوال داشتم، چه رابطه ای بین R2 و Radjust وجود دارد؟
ضریب تعیین نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود.این ضریب در رگرسیون کاربرد زیادی دارد.
آیا R² معیار مناسبی برای تبیین میزان تاثیر متغیر مستقل بر متغیر وابسته است؟ خیر
چرا؟ چون با افزایش مشاهدات و هم چنین با افزایش متغیر های مستقل میزان R² افزایش می یابد این افزایش ممکن است کاذب باشد.
برای رفع این مشکل چه کنیم؟
به R² تعدیل شده نیاز داریم ،R² تعدیل شده میزان R² را با توجه به متغیرهای مستقل اضافه شده به خط رگرسیون وبا توجه به عرض از مبدا های جدید، تعدیل و اصلاح می کند.
هرچه تفاوت میان R² و R² تعدیل شده کمتر باشد نشان میدهد که متغیر های مستقل که به مدل اضافه شده اند به درستی انتخاب شده اند.
تفاوت ضریب تعیین( R-squared)و ضریب تعیین تعدیل شده(R^2 adjusted)
تفاوت مهم میان ضریب تعیین و ضریب تعیین تعدیل شده این است که ضریب تعیین فرض می کند که هر متغیر مستقل مشاهده شده در مدل ، تغییرات موجود در متغیر وابسته را تبیین می کند . بنابراین درصد نشان داده شده توسط ضریب تعیین با فرض تاثیر همه متغیرهای مستقل بر متغیر وابسته می باشد. در صورتی که درصد نشان داده شده توسط ضریب تعییین تعدیل شده فقط حاصل از تاثیر واقعی متغیرهای مستقل مدل بر وابسته است و نه همه متغیرهای مستقل . تفاوت دیگراین است که مناسب بودن متغیرها برای مدل توسط ضریب تعیین حتی با وجود مقدار بالا قابل مشخص نیست در صورتی که می توان به مقدار براورد شده ضریب تعیین تعدیل شده اعتماد کرد.
تفاوت بین ضریب همبستگی(r)و ضریب تعیین (R2) چیست؟
مقدار r، با نام ضریب همبستگی خطی یا linear correlation coefficient، قدرت و جهت یک رابطه خطی را بین دو متغیر بیان میکند. این مقدار گاهی اوقات به افتخار کارل پیرسون به نام ضریب همبستگی پیرسون هم خطاب میشود.
مقدار r در بازه:
-۱ < r < +۱
است. علامت های مثبت و منفی برای همبستگی خطی مثبت و منفی به کار میرود.
ضریب تعیین و یا همان r2، به دلیل اینکه نسبت واریانس و یا همان نوسان یک متغیر (که میتواند توسط متغیر دیگری پیش بینی شود) را ارائه میکند بسیار به دردبخور است. این تخمین به ما این اجازه را میدهد که تعیین کنیم چگونه یک مقدار معین توسط یک نمودار و یا مدل معین پیش بینی شود.
- ضریب تعیین، نسبت تغییرات تشریح شده به کل تغییرات است.
- بازه مقدار R2 به قرار زیر است:
۰<R2<1
که بیان کننده قدرت ارتباط خطی بین x و y است.
برای اینکه متوجه بشیم مدلی که به داده ها fit کردیم، مدلی مناسب است یا نه باید آزمون معنی داری را انجام بدیم؟یا ضریب تعیین؟
برای بررسی این موضوع که آیا مدل برازش شده مناسب است یا خیر از آزمون معنی داری باید استفاده کرد.
خواستم بدونم اینکه ضریب تعیین در پایان نامه من ۰/۹۳ به دست آمده، این مسئله از نظر آماری مشکلی داره ؟
مقدار ضریب تعیین هر مقدار به یک نزدیک تر باشد بهتره، اما مشکل ضریب تعیین این است که با اضافه شدن تعداد متغیر مستقل نمی تواند کم شود بهتر است در کنار ضریب تعیین، مقدار ضریب تعیین تعدیل شده هم گزارش شود که این ضریب با توجه به تعداد متغیرهای مستقل تعدیل می شود.