ارزیابی چند مدل رگرسیون خطی متناسب و فرضیات

آخرین مطالب

امکانات وب

ارزیابی چند مدل رگرسیون خطی متناسب و فرضیات

در این قسمت ، متناسب و فرضیات مدل های رگرسیون خطی چندگانه را بررسی خواهیم کرد. ما از پسوند به $ r^2 $ برای چند مدل رگرسیون خطی ، تنظیم شده $ r^2 $ ($ r^2_ $) استفاده خواهیم کرد. ما همچنین یاد می گیریم که در مورد رگرسیون چند خطی چندین فرضیه رگرسیون خطی را ارزیابی کنیم.

اندازه گیری مناسب با استفاده از $ r^2_ $

در قسمت رگرسیون خطی ساده در مورد فرضیات مدل ، ما آموخته ایم که $ r^2 $ نسبت تنوع را در متغیر نتیجه که توسط متغیر توضیحی توضیح داده می شود ، تعیین می کند. در زمینه رگرسیون چند خطی ، یک احتیاط به $ r^2 $ ظهور می شود: اضافه کردن متغیرهای توضیحی به مدل ما همیشه $ r^2 $ افزایش می یابد ، حتی اگر متغیرهای توضیحی مربوط به متغیر پاسخ نباشد. بنابراین ، هنگام تفسیر خروجی از قله () ، به $ r^2_ $ نگاه کنید. این یک $ r^2 $ برای تعداد متغیرهای موجود در مدل اصلاح شده است. در بعضی موارد ، معیارهای تعدیل شده و غیر قابل تنظیم (نزدیک) برابر خواهند بود. در موارد دیگر ، اختلافات بزرگتر خواهد بود.

ورزش

مقدار تنظیم شده R-Squared را برای خروجی قله مدل hemoglobin_age_sex ما از قسمت 2 پیدا کنید. آیا مدل ما بیشتر تغییرات در هموگلوبین را تشکیل می دهد؟

راه حل

hemoglobin_age_sex  داده %>% فیلتر کردن(سن > 17) %>% lm(فرمول = هموگلوبین ~ سن * ارتباط جنسی) قله(hemoglobin_age_sex, قاطع کردن = درست است، واقعی)

اطلاعات مدل: مشاهدات: 5995 (502 مشاهده مفقود شده حذف شده) متغیر وابسته: هموگلوبین نوع: OLS مدل رگرسیون خطی متناسب: F (3،5991) = 1026. 31 ، P = 0. 00 R² = 0. 34 Adj. R² = 0. 34 خطاهای استاندارد: OLS ------------------------------------------------------------- است. 2. 5 ٪ 97. 5 ٪ T Val. پ ----------------- ------- ------- ------- -------- ----------------------------------------------------

از آنجا که $ r^2_ = 0. 34 $ ، مدل ما تقریباً 34 ٪ از تغییرات هموگلوبین را تشکیل می دهد. مدل ما 34 ٪ از تغییرات هموگلوبین را توضیح می دهد ، که مدلی که همیشه پیش بینی می کند میانگین آن را پیش بینی نمی کند.

ارزیابی فرضیات مدل رگرسیون خطی چندگانه

ما یاد گرفتیم که شش فرض را در قسمت رگرسیون خطی ساده در مورد فرضیات مدل ارزیابی کنیم. این فرضیات همچنین در زمینه رگرسیون خطی متعدد وجود دارد ، اگرچه در بعضی موارد ارزیابی آنها کمی گسترده تر است. در زیر ما ارزیابی این فرضیات را انجام خواهیم داد.

اعتبار

به یاد بیاورید که فرض اعتبار بیان می کند که این مدل برای سوال تحقیق مناسب است. اعتبار از طریق سه سوال ارزیابی می شود:

الف) آیا متغیر نتیجه منعکس کننده پدیده علاقه است؟ب) آیا این مدل شامل کلیه متغیرهای توضیحی مربوطه است؟ج) آیا این مدل به پرونده مورد علاقه ما تعمیم می یابد؟

ورزش

از شما خواسته می شود از مدل FEV1_AGE_SMOKENOW برای پاسخ به سؤال تحقیق زیر استفاده کنید:

"آیا تأثیر سن بر FEV1 با وضعیت سیگار کشیدن در بزرگسالان آمریکایی متفاوت است؟"

با استفاده از سه نکته فوق ، اعتبار این مدل را برای سؤال تحقیق ارزیابی کنید.

راه حل

الف) سوال تحقیق در مورد FEV1 است که متغیر نتیجه ما است. بنابراین متغیر نتیجه ما نشان دهنده پدیده علاقه است. ب) سؤال تحقیقاتی ما می پرسد که آیا اثر سن با وضعیت سیگار کشیدن متفاوت است ، که می تواند با استفاده از تعامل بین سن و Smokenow آزمایش شود. از آنجا که مدل ما این تعامل را شامل نمی شود ، مدل ما شامل تمام متغیرهای توضیحی مربوطه نمی شود. ج) از آنجا که داده های NHANES از افراد در ایالات متحده جمع آوری شده است ، مدل ما باید به پرونده مورد علاقه ما تعمیم دهد.

نمایندگی

به یاد بیاورید که فرض نمایندگی بیان می کند که نمونه نماینده جمعیتی است که ما یافته های خود را عمومی می کنیم. این فرض به همان روشی که در مورد مدل رگرسیون خطی ساده ارزیابی می شود ، ارزیابی می شود ، بنابراین ما در این مرحله تمرین دیگری را طی نخواهیم کرد. توجه داشته باشید که وقتی نمایندگان نقض می شوند ، گاهی اوقات با اضافه کردن متغیر نادرست به مدل به عنوان یک متغیر توضیحی اضافی می توان این مسئله را حل کرد.

خطی و افزودنی

به یاد بیاورید که این فرض بیان می کند که متغیر نتیجه ما دارای رابطه خطی و افزودنی با متغیرهای توضیحی است.

مولفه خطی به همان روشی که در مورد رگرسیون خطی ساده ارزیابی می شود. به عنوان مثال، به یاد بیاورید که رابطه بین فشار خون ترکیبی دیاستولیک (BPDiaAve) و سن در ماه (AgeMonths) منحنی بود (این قسمت از درس رگرسیون خطی ساده را ببینید). افزودن یک عبارت مربع به مدل به ما کمک کرد تا این رابطه غیرخطی را مدل کنیم. ما می توانیم یک عبارت جنسیت اضافه کنیم تا منحنی های غیرخطی جداگانه را به این داده ها منطبق کنیم:

BPdiaAve_AgeMonthsSQ_Sex  lm(BPdiaAve ~ AgeMonths + I(AgeMonths^2) + ارتباط جنسی, داده ها = داده) interact_plot(BPdiaAve_AgeMonthsSQ_Sex, پیش = AgeMonths, modx = ارتباط جنسی, طرح. نقاط = درست است، واقعی, فاصله = درست است، واقعی, نقطه. اندازه = 0.7) + یلب("فشار خون دیاستولیک ترکیبی") + xlab("سن در ماه")

رابطه غیر خطی اکنون به طور جداگانه برای سطوح یک متغیر طبقه بندی شده مدل شده است.

به یاد بیاورید که جزء افزایشی فرض خطی بودن و افزایشی به این معنی است که تأثیر هر متغیر توضیحی بر متغیر نتیجه به متغیر توضیحی دیگری در مدل بستگی ندارد. به عبارت دیگر، مدل ما شامل تمام تعاملات لازم بین متغیرهای توضیحی است. در مثال بالا، به نظر نمی رسد که جزء افزایشی نقض شده باشد: به نظر نمی رسد که داده ها به تعامل بین سن و جنس نیاز داشته باشند. با این حال، برای اطمینان از این موضوع، می توانیم تناسب مدل مدل ها را با و بدون تعامل با استفاده از ابزارهای مورد بحث در این قسمت مقایسه کنیم.

ورزش

در مثال بالا دیدیم که یک مدل با یک متغیر توضیحی مربعی نیز می تواند شامل رهگیری های جداگانه برای سطوح یک متغیر طبقه ای باشد.

مدل child_logWeight_Height_lm ما را از درس قبلی که رابطه بین لاگ وزن کودک و قد کودک را مدلسازی کرده بود به یاد بیاورید:

child_logWeight_Height_lm  داده %>% فیلتر کردن(سن  18) %>% lm(فرمول = ورود به سیستم(وزن) ~ ارتفاع) اثر_طرح(child_logWeight_Height_lm, پیش = ارتفاع, طرح. نقاط = درست است، واقعی, فاصله = درست است، واقعی, خط. رنگ ها = c("ارغوانی"))

این مدل را با افزودن فاصله های جداگانه برای سطوح متغیر جنسیت گسترش دهید. مدل را با استفاده از ()interact_plot تجسم کنید. آیا فکر می کنید که شامل تعامل بین قد و جنسیت ضروری است؟

راه حل

child_logWeight_Height_Sex  داده %>% فیلتر کردن(سن  18) %>% lm(فرمول = ورود به سیستم(وزن) ~ ارتفاع + ارتباط جنسی) interact_plot(child_logWeight_Height_Sex, پیش = ارتفاع, modx = ارتباط جنسی, طرح. نقاط = درست است، واقعی, فاصله = درست است، واقعی, نقطه. اندازه = 0.7)

شواهد کمی از طرح مبنی بر اینکه تأثیر قد بر وزن بین جنس ها متفاوت است وجود دارد، به این معنی که اصطلاح تعاملی لازم نیست. اما می توانیم تناسب مدل را با و بدون تعامل برای بررسی ارزیابی کنیم.

خطاهای مستقل

به یاد بیاورید که وقتی مشاهدات در داده های ما گروه بندی می شود ، این می تواند منجر به نقض فرض خطاهای مستقل شود. اگر در متغیر گروه بندی ما چند سطح وجود داشته باشد (مثلاً کمتر از 6) ، ممکن است با قرار دادن متغیر گروه بندی به عنوان یک متغیر توضیحی در مدل خود ، بر نقض غلبه کنیم. اگر متغیر گروه بندی سطوح بیشتری داشته باشد ، ممکن است یک رویکرد مدل سازی پیچیده تر از رگرسیون خطی چندگانه را انتخاب کنیم.

ورزش

در کدام یک از سناریوهای زیر در معرض خطر نقض فرض خطاهای مستقل هستیم؟در این موارد ، آیا باید با یک متغیر توضیحی اضافی کار کنیم؟

الف) ما در حال الگوبرداری از تأثیر متوسط کالری روزانه بر BMI در جمعیت بزرگسالان انگلستان هستیم. ما برای هر شرکت کننده یک مشاهده داریم و شرکت کنندگان شناخته شده اند که متعلق به یکی از پنج براکت درآمدی است. ب) ما در حال الگوبرداری از تأثیر سن بر قدرت گرفتن در زنان بالغ در انگلستان هستیم. اینکه شرکت کنندگان از نظر جسمی فعال باشند شناخته شده است. ج) ما می پرسیم که آیا سرعت اسپری مردم پس از شرکت در یک دوره دو و میدانی افزایش می یابد یا خیر. داده های ما شامل اندازه گیری 100 سرعت اسپرینت شرکت کننده قبل و بعد از دوره است.

راه حل

الف) از آنجا که ما در هر براکت درآمدی چندین مشاهدات داریم ، مشاهدات ما مستقل نیست. پنج سطح در متغیر براکت درآمدی وجود دارد ، بنابراین ما ممکن است تصمیم بگیریم که براکت درآمد را به عنوان یک متغیر توضیحی بگنجانیم. ب) از آنجا که ما در هر سطح فعالیت بدنی چندین مشاهدات داریم ، مشاهدات ما مستقل نیست. از آنجا که در متغیر فعالیت بدنی دو سطح وجود دارد ، ما می توانیم از فعالیت بدنی به عنوان یک متغیر توضیحی در مدل خود استفاده کنیم. ج) این داده ها دارای دو سطح گروه بندی است: در افراد (دو اندازه گیری در هر فرد) و زمان بندی (قبل از/بعد از دوره). در حالی که زمان بندی می تواند به عنوان یک متغیر توضیحی (دو سطح) درج شود ، مناسب نیست که افراد را به عنوان یک متغیر توضیحی (100 سطح) درج کنید. در این سناریو ما یک روش مدل سازی پیچیده تر (یک مدل اثر مختلط) را انتخاب می کنیم.

واریانس برابر خطاها (homoscedasticity)

این فرض بیان می کند که میزان تغییر در باقیمانده ها در مقادیر متناسب یا هر متغیر توضیحی متفاوت نیست. نکته مهم ، هنگامی که تعامل در مدل گنجانده شده است ، مقیاس باقیمانده ها باید در سطح تعامل بررسی شود. در مورد تعامل بین متغیرهای توضیحی مداوم و طبقه بندی ، این به معنای رنگ آمیزی نقاط در باقیمانده در مقابل طرح متغیر توضیحی توسط سطح یک متغیر طبقه بندی شده است.

به عنوان مثال ، در زیر ما توطئه های تشخیصی را برای مدل hemoglobin_age_sex ایجاد می کنیم. ما توطئه های باقیمانده در مقابل متناسب (P1) ، باقیمانده در مقابل سن (P2) و باقیمانده در مقابل جنس (P3) ایجاد می کنیم. توجه کنید که در طرح باقیمانده در مقابل سنی ، ما با استفاده از رنگ = رابطه جنسی ، نقاط را با استفاده از جنس رنگ می کنیم. این به ما اجازه می دهد تا ارزیابی کنیم که آیا باقیمانده ها به طور همگن در سن پراکنده هستند ، که توسط جنس گروه بندی می شوند (یعنی در سطح تعامل). توجه داشته باشید که / در P1 / P2 / P3 به بسته بندی Patchwork که بارگیری می شود متکی است و منجر به این می شود که سه نمودار در دنباله عمودی ترسیم شود.

باقیمانده  با هم(باقیمانده = باقیمانده(hemoglobin_age_sex), متناسب = متناسب(hemoglobin_age_sex), سن = hemoglobin_age_sex$مدل$سن, ارتباط جنسی = hemoglobin_age_sex$مدل$ارتباط جنسی) p1  GGPLOT(باقیمانده, ایز(x = متناسب, y = باقیمانده)) + نقطه geom_point(الفا = 0.3) + Geom_smooth() + یلب("باقیمانده") + xlab("مقادیر مناسب") p2  GGPLOT(باقیمانده, ایز(x = سن, y = باقیمانده, رنگ = ارتباط جنسی)) + نقطه geom_point(الفا = 0.3) + Geom_smooth() + یلب("باقیمانده") + xlab("سن") p3  GGPLOT(باقیمانده, ایز(x = ارتباط جنسی, y = باقیمانده)) + Geom_violin() + Geom_Jitter(الفا = 0.3, عرض = 0.2) + یلب("باقیمانده") + xlab("ارتباط جنسی") p1 / p2 / p3

ورزش

یک همکار در حال مطالعه سطح تستوسترون در کودکان است. آنها یک مدل رگرسیون خطی متعدد از تستوسترون به عنوان تابعی از سن ، جنس و تعامل آنها متناسب هستند. داده ها و مدل آنها مطابق شکل زیر به نظر می رسد:

این همکار به شما برای افکار خود در مورد توطئه های تشخیصی زیر ، که برای ارزیابی فرض همسایه استفاده می شود ، به شما نزدیک می شود.

الف) چه مواردی را می توانید در توطئه های تشخیصی شناسایی کنید؟ب) چگونه می توان توطئه های تشخیصی را آموزنده تر بهبود بخشید؟

راه حل

الف) به نظر می رسد که باقیمانده ها با افزایش مقادیر یا افزایش سن ، طرفدار هستند. به نظر نمی رسد که باقیمانده ها در رابطه جنسی همگن باشند ، زیرا طرح ویولن برای مردان بسیار طولانی تر از زنان است. ب) نقاط موجود در پراکندگی سن می تواند با استفاده از رابطه جنسی برای ارزیابی فرض همسایه در سطح تعامل رنگ شود:

نرمال بودن خطاها

به یاد بیاورید که این فرض بیان می کند که خطاها از توزیع عادی پیروی می کنند. هنگامی که این فرض به شدت نقض شود ، پیش بینی های مدل قابل اعتماد تر است. انحرافات کوچک از نرمال بودن ممکن است کمتر مسئله ای را مطرح کند. این فرض به همان روشی که در مورد مدل رگرسیون خطی ساده ارزیابی می شود ، ارزیابی می شود ، بنابراین ما در این مرحله تمرین دیگری را طی نخواهیم کرد.

امتیاز کلیدی

اندازه گیری مربع تنظیم شده R تضمین می کند که متریک به دلیل افزودن یک متغیر به سادگی افزایش نمی یابد. متغیر باید برای افزایش مدل R تنظیم شده ، متناسب با مدل را بهبود بخشد.
همان فرضیات برای رگرسیون خطی ساده و چندگانه وجود دارد ، اما مراحل بیشتری در ارزیابی فرضیات در زمینه رگرسیون خطی چندگانه دخیل است.< Span> به یاد بیاورید که این فرض بیان می کند که خطاها از توزیع عادی پیروی می کنند. هنگامی که این فرض به شدت نقض شود ، پیش بینی های مدل قابل اعتماد تر است. انحرافات کوچک از نرمال بودن ممکن است کمتر مسئله ای را مطرح کند. این فرض به همان روشی که در مورد مدل رگرسیون خطی ساده ارزیابی می شود ، ارزیابی می شود ، بنابراین ما در این مرحله تمرین دیگری را طی نخواهیم کرد.

خبرهای فارکس...

ما را در سایت خبرهای فارکس دنبال می کنید

برچسب : نویسنده : شهره لرستانی بازدید : 33 تاريخ : چهارشنبه 15 شهريور 1402 ساعت: 11:30

ارزیابی چند مدل رگرسیون خطی متناسب و فرضیات

آخرین مطالب

امکانات وب