آخرین خبرها
خانه / تجزیه و تحلیل رگرسیون: بازبینی مدل و رگرسیون خطی چندگانه

تجزیه و تحلیل رگرسیون: بازبینی مدل و رگرسیون خطی چندگانه

تجزیه و تحلیل رگرسیون: بازبینی مدل و رگرسیون خطی چندگانه

۱٫۱ نگرشی کلی بر یک مدل آماری

این واقعیت در درجه اول اهمیت است که بدانیم تجزیه و تحلیل رگرسیون، بابرازش یک مدل به وسیله کوچکترین توان های دوم، با به دست آوردن فاصله های اطمینان، و بالاخره با آزمون فرض های متعدد کامل نمی شود. این گام ها فقط بیان نیمی از این داستان است که استنباط های آماری را وقتی می توان انجام داد که مدل مفروض مناسب باشد. در بیشتر مطالعات مربوط به علوم اجتماعی و علوم طبیعی، روابط بین متغییرها شکل تجربی دارند، به نحویکه هیچ وقت نمی توانیم مطمئن باشیم که مدل خاصی صحیح است. بنابراین، باید استراتژی زیر را اختیار نماییم:
الف) به طور آزمایشی مدلی را بپذیریرم.
ب) برآوردهای کوچک ترین توان های دوم را به دست آوریم و مانده ها را محاسبه کنیم.
ج) به وسیله بررسی کردن مانده ها به انتقاد از مدل بپردازیم.
در اکثر تحقیقات، مرحله(ج)، روشهایی را القا می نماید که به طور مناسب مدل را اصلاح می کنند. آنگاه با مراجعه مجدد به مرحله (الف)، مدل اصلاح شده را می پذیریم، و این تکرار را ادامه می دهیم تا مدلی به دست آید که برای آن داده ها با فرض هایی که درباره مدل کرده ایم متناقض به نظر نیاید.

۲٫۱ بررسی مانده ها

اکنون فنون انتقاد از مدل را مورد بحث قرار می دهیم، که نه تنها در مورد مدل خط مستقیم بلکه در تمام گسترش های بعدی این مبحث نیز به کار می روند. به محض آن که مدلی را به وسیله کوچک ترین توان های دوم برازاندیم، تمام اطلاعات مربوط به تغییراتی که نمی توانند به وسیله مدل توضیح داده شوند مشمول در مانده ها، یعنی

1
هستند، که در آن 3، مقدار مشاهده شده و2  مقدار پیش بینی شده متناظر با آن به وسیله مدل برازیده است. برای مثال، در حالت مدل رگرسیون خطی ساده، 4از بررسی مدل خط مستقیم در بخش قبل، به یاد آورید که فرض های استقلال، واریانس ثابت، و توزیع نرمال برای مولفه های خطا را قبول کردیم. شیوه های استنباط، مبتنی بر این فرض ها هستند. وقتی مدل صحیح است، مانده ها را می توان به عنوان برآوردهای خطاهای12که هر کدام به صورت 6 توزیع شده اند در نظر گرفت.
برای تعیین شایستگی مدلی که به طور آزمایشی پذیرفته شده است، می توانیم مانده ها را با رسم آنها بر صفحه نمودار بررسی کنیم. آنگاه اگر تشخیص دهیم که الگویی سیستماتیک، به وسیله مانده های رسم شده به وجود می آید، می توانیم نسبت به اعتبار بعضی از فرض های مربوط به مدل مشکوک باشیم. برای رسم کردن مانده ها، بسته به اینکه چه جنبه ای باید بررسی شود، راه های زیادی وجود دارند. در اینجا تعداد کمی از این راه ها را برای شرح دادن فنون، ذکر می کنیم.

بافت نگار یا نمودار نقطه ای

برای تجسم رفتار کلی مانده ها، می توان بافت نگاری را با فاصله های رده ای مناسب، برای تعداد زیادی از مشاهدات رسم کرد و یا نموداری نقطه ای را بر روی یک خط، برای تعداد کمتری از مشاهدات ترسیم نمود. به عنوان مثال، در یک نمودار نقطه ای نظیر ۱٫۱ (الف)، الگوی داده ها شبیه به نمونه ای از یک جامعه نرمال به نظر می آید و در آن مشاهدات (دورافتاده ای) دیده نمی شود. در مقایسه با آن، شکل ۱٫۱ (ب) موقعیتی را نشان می دهد که در آن توزیع کاملا نرمال به نظر می آید، مگر برای یک مانده تکی که به فاصله دوری در سمت راست سایر مانده ها قرار دارد. معمولا باید به شرایطی که این مشاهده مربوطه را تولید کرده است توجهی جدی داشت تا مطمئن شد که مشاهده مزبور نفوذ زیادی را بر روی مدل برازیده اعمال نمی کند.

013

مانده در برابر مقدار پیش بینی شده
رسم مانده های 7، در برابر مقدار پیش بینی شده 8، اغلب به کشف ناشایستگی های یک رابطه مفروض، یا به کشف تخطی از فرض واریانس خطای ثابت کمک می کند. شکل ۱-۲ چند پدیده نوعی را نشان می دهد. اگر نقاط، مثال شکل ۱-۲ (الف)، یک نوار افقی در اطراف صفر تشکیل دهند، آنگاه نشانه ای از غیر عادی بودن وجود ندارد. اگر مثل شکل ۱-۲ (ب)، عرض نوار با افزایش مقادیر 9به طور قابل توجهی افزایش یابد، دلالت بر این دارد که واریانس خطا،10 ، با افزایش سطح پاسخ افزایش می یابد. در این صورت نسبت به اعتبار فرض واریانس ثابت در مدل، مشکوک می شویم. راه هایی برای تبدیل داده ها وجود دارد که موجب پایداری واریانس می شوند، ولی در اینجا از آنها بحث نمی کنیم. شکل ۱-۲ (ج)، نشان می دهد که مانده ها به شکل یک الگوی سیستماتیک در آمده اند، و به جای اینکه به طور تصادفی در اطراف محور 11 توزیع شوند، ابتدا میل به افزایش تدریجی دارند و بعد از آن کاهش می یابند. این مطلب به ما القا می کند که نسبت به شایستگی مدل مشکوک باشیم و یک رابطه درجه دوم و یا مدل غیر خطی دیگری را مورد توجه قرار دهیم.

مانده در برابر ترتیب زمان

در مبحث تجزیه و تحلیل رگرسیون رابطه خطی ساده اشاره کردیم که تخطی خیلی جدی از فرض ها موقعی رخ می دهد که خطاهای 12 مستقل نباشند. عدم استقلال اغلب در کاربردهای بازرگانی و اقتصاد رخ می دهد، جایی که مشاهدات در یک دنباله زمانی جمع آوری می شوند تا برای فنون رگرسیون جهت پیش بینی روندهای آینده به کار روند. در بسیاری از آزمایش های دیگر، امتحان ها به طور متوالی در

014

طول زمان انجام می گیرند. در هر پیشامدی، تا وقتی که زمان به طور اساسی در جریان یک آزمایش تغییر می کند، رسم مانده ها در برابر ترتیب زمان اغلب تخطی از فرض استقلال را آشکار می نماید. برای مثال، نمودار شکل ۳٫۱ یک الگوی سیستماتیک را نمایش می دهد. که در آن رشته ای از مقادیر بزرگ به دنبال رشته ای از مقادیر کوچک آمده است. این مطلب نشان می دهد که مانده های متوالی ( به طور مثبت ) همبسته هستند، و گمان تخطی از فرض استقلال وجود دارد. استقلال را می توان به وسیله رسم کردن زوج های متوالی13نیز بازبینی کرد، که در آن 14 نشان دهنده مانده از اولین مقدار مشاهده شده  15 نشان دهنده

015

دومی، و الی آخر هستند. اگر نمودار پراکنش، یک خوشه بی الگو باشد فرض وجود استقلال را القا می کند، در حالی که اگر نقاط در طول خطی خوشه ای شوند، عدم استقلال در بین مشاهدات مجاور وجود دارد.
باید به خاطرداشته باشیم که اطمینان ما به شیوه های استنباط آماری، بستگی به اعتبار فرض های مربوط به آنها دارد. استنباطی که به صورت مکانیکی انجام می شود در موقع وجود تخطی شدید از فرض ها، ممکن است گمراه کننده باشد. بررسی مانده ها قسمت مهمی از تجزیه و تحلیل رگرسیون است، زیرا به کشف هر نوع ناسازگاری در بین داده ها و مدل پذیرا شده کمک می کند. اگر در این فرآیند امری غیر عادی مشاهده نشود، آن گاه می توان مدل را شایسته دانست و کار را با استنباط های مربوطه ادامه داد. در غیر این صورت، باید مدل مناسب تری را جستجو کرد.

شرح فنون استانداردی که در درستکاری داده ها به هنگام بروز تخطی از بعضی فرض ها به کار می روند، خارج از هدف این مطلب است. در عوض، هدف با ارزش تر، تاکید بر اهمیت بازبینی فرض ها و معرفی بعضی روش های توصیفی برای به کار بردن آن ها در مطالعه مانده هاست.

۳٫۱ بازبینی های بیشتر، روی مدل خط مستقیم

اکنون با بررسی این که چه مقدار از تغییر در مقادیر متغییر پاسخ را می توان به وسیله مدل برازیده بیان کرد، شایستگی مدل خط مستقیم را تعیین می کنیم. بعد از به دست آوردن برآوردهای کوچک ترین توان های دوم 16می توان هر 17 ی مشاهده شده را در برگیرنده دو مولفه زیر در نظر گرفت:

18

در یک موقعیت ایدآل که در آن تمام نقاط دقیقا بر روی خط قرار می گیرند، مانده ها همه صفر هستند، و مقادیر y به طور کامل به وسیله بستگی خطی با x بیان شده اند.
به عنوان یک اندازه کلی از اختلاف یا تغییر خطی بودن، می توانیم مجموع توان دوم مانده ها، یعنی

1

را در نظر بگیریم، که شکل آخر این رابطه را در مبحث تجزیه و تحلیل رگرسیون رابطه خطی ساده بخش ۷٫۱ به دست آوردیم. خاطر نشان می کنیم که نماد اختصاری SSE به جای مجموع توان های دوم ناشی از خطا به کار می رود، که آن را مجموع توان های دوم مانده ها نیز می گویند. کل تغییر پذیری مقادیرy در مجموع توان های دوم
20
منعکس است، که 2 یک قسمت آن، و 1قسمت دیگر آن را تشکیل می دهد. اکنون که انگیزه تجزیه مشاهده17را می دانیم، تجزیه تغییر پذیری مقادیر y را مورد توجه قرار می دهیم:

untitled

اولین جمله سمت راست این برابری را مجموع توان های دوم حاصل از رگرسیون خطی می نامند. اگر مدل خط مستقیم را به عنوان برازش خوبی برای داده ها در نظر بگیریم، آنگاه SS حاصل از رگرسیون خطی باید قسمت بزرگی از 24 را شامل شود و فقط قسمت کوچکی برای SSE باقی می ماند. در حالت ایدآل که در آن تمام نقاط داده ها بر روی خط قرار می گیرند، SSE صفر می شود. در این صورت 24 می تواند به طور کامل به وسیله این واقعیت بیان شود که مقادیر x، در طول آزمایش تغییر می کنند، و رابطه خطی بین y و x به تنهایی پاسخگوی تغییر پذیری در مقادیر y است.
بنابراین به عنوان شاخصی از میزان خوب بودن برازش مدل خط مستقیم، معقول است که نسبت زیر را در نظر بگیریم.
25
که در آن26نسبت تغییرپذیری را نشان می دهد که به وسیله رابطه خطی با x بیان شده است. به خاطر آوریم که 27 را به صورت زیر به دست آوردیم:
28
به قسمی که26را می توان به شکل زیر نوشت
29
ضمنا، اشاره می کنیم که30، ضریب همبستگی نمونه ای بین مقادیر مشاهده شده x و y ی داده ها نامیده می شود. توان دوم ضریب همبستگی، به عنوان معیاری از نزدیکی رابطه به خطی بودن، به کار می رود.
مثال: اکنون می خواهیم شایستگی مدل خط مستقیم برای داده های مربوط به کاهش اکسید ازت داده شده در جدول ۲٫۱ را مورد بررسی قرار دهیم.
نتایج حاصل برای داده های زیر
31

عبارتنداز:
32

 خط برازیده:

33
چه مقدار از تغییر پذیری در y، به وسیله مدل رگرسیون خطی بیان شده است؟
برای جواب دادن به سوال، 26 را محاسبه می کنیم:
34
معنی جواب بالا این است که ۸۹% از تغییرپذیری در y به وسیله رگرسیون خطی بیان شده است، و به نظر می رسد که از این لحاظ مدل خطی رضایت بخش باشد.
وقتی مقدار 26 کوچک است، فقط می توانیم نتیجه بگیریم که رابطه خط مستقیم برازش خوبی برای داده ها فراهم نمی کند. چنین حالتی ممکن است به دلایل زیر پیش آید:
الف) همانطوری که در شکل۴٫۱ (الف) دیده می شود، رابطه ضعیفی بین متغییرها وجود دارد، به این معنی که نمودار پراکنش هیچ الگویی را نشان نمی دهد. در این حالت انتظار نمی رود که هر نوع مدل رگرسیون دیگری غیر از آنچه به کار بردیم مقدار SSE را کاهش دهد و یا قسمت اصلی 24 را بیان کند.
ب) رابطه مشهودی وجود دارد ولی طبیعت آن غیر خطی است؛ یعنی، پراکنش در اطراف یک منحنی، به جای یک خط، به صورت نواری در آمده است. بخشی از 24 که به وسیله رگرسیون خط مستقیم بیان شده کوچک است زیرا مدل مناسب نیست. رابطه های دیگری ممکن است به طور اساسی برازش را اصلاح کنند. شکل ۴٫۱ (ب) چنین حالتی را نشان می دهد، که در آن SSE، خود قسمتی را شامل است که ناشی از عدم برازش مدل خطی است، ولی این قسمت را می توان با برازاندن یک منحنی مناسب به داده ها توجیه کرد. قسمت دیگر SSE، که SS خطای محض خوانده می شود، تغییر پذیری ذاتی مقادیر y در مشاهدات تکرار شده را وقتی x تغییر نمی کند منعکس می نماید.
اگر آزمایش فقط یک بار برای هر سطح مختلف x اجرا شود، مولفه های عدم برازش و خطای محض SSE را نمی توان از هم جدا کرد. برای درک تغییرپذیری ذاتی مقادیر y باید آزمایش را طوری طرح ریزی کنیم که، حداقل برای بعضی از مقادیر x، مشاهدات

016

تکرار شدهy در دسترس باشند. داده های داده شده در مثال ۱٫۱ طرحی را نشان می دهند که در آن مقادیر X=1 , 4 , 6 تکرار شده اند. با چنین طرحی، امکان جدا کردن دو منبع سازندهSSE و آزمون عدم برازش مدل خطی وجود دارد، اصل زیر بنایی برای فرمول بندی این نوع آزمون را در قسمت ۴٫۱ شرح داده ایم، که در آن یک مثال عددی هم فراهم شده است. نکته مهم قابل ذکر این است که بعضی امتحان های آزمایشی تکرار شده، برای آزمون عدم برازش لازم اند.

۴٫۱ آزمون کردن عدم برازش مبتنی بر آزمایش های تکراری

در این قسمت روش اجرای آزمون عدم برازش را بر حسب برازاندن مدل خط مستقیم شرح می دهیم. این مفهوم را می توان به هر مدل برازیده دیگری هم تعمیم داد، اما در ارائه مطلب برای اولین بار، احتمالا بهترین کار این است که با آشناترین مدل شروع کنیم. فرض کنید که k سطح مختلف1 از متغییر مستقل در آزمایش وارد شده اند و مشاهدات y را برای این سطوح x، به ترتیب 35 مرتبه تکرار کرده ایم. جدول ۱٫۱ طبیعت داده های نتیجه شده را نشان می دهد. در هر سطر جدول، مقدار x ثابت است، به طوری که تغییر پذیری مقادیر y، به تنهایی ناشی از مولفه خطایی است که واریانس آن 43 است. از هر سطر می توان مجموع توان های دوم انحراف های از میانگین را محاسبه کرد، که وقتی آن را بر درجه آزادی تقسیم کنیم برآورد43به دست می آید. برای مثال،

36

که در آن 37 میانگین مقادیر y در اولین سطر جدول ۱٫۱ است.
مجموع توان های دوم انحراف ها و درجه های آزادی در دو ستون آخر جدول داده شده اند. کل این مجموعه های توان های دوم، یعنی
38
جدول ۱٫۱ الگوی داده هایی با آزمایش های تکراری
39

را مجموع توان های دوم خطای محض می نامند، و درجه آزادی مربوط به آن،40 است، که در آن n تعداد کل مشاهدات y است. میانگین توان دوم41 به وسیله

42
تعریف می شود که بدون توجه به هر مدلی از رابطه y با x ، برآورد نااریبی از واریانس خطای43 را به دست می دهد.
با اختیار n نقطه از داده ها، می توانیم یک خط رگرسیون را برازنده، مجموع توان دوم مانده هایSSE را طبق معمول به وسیله

44
محاسبه کنیم. شکل  ۵٫۱ تفکیک SSE را به دو مولفه نشان می دهد: یکی 45 که هم اینک شرح آن داده شد و دیگری مقدار مانده 46، که آن را مجموع توان های دوم عدم برازش می نامند. درجه آزادی مربوط نیز به نحوی مشابه تجزیه شده است تا 47را برای عدم برازش بدهد.
اکنون قرار می گذاریم
48
اگر مدل خطی صحیح باشد، مقدار49نیز واریانس خطای 43 را درست مثل 50برآورد می کند. به عبارت دیگر، اگر یک مدل غیر خطی مناسب باشد، آنگاه49، 43 را

017

زیادتر برآورد می کند و به نظر می رسد که به طور معنی داری از50 بزرگ تر است.
بنابراین آزمون عدم برازش برای مدل خطی را می توان با محاسبه نسبت F انجام داد

51
اگر این آزمون F بر معنی دار بودن دلالت کند. نتیجه می گیریم که عدم برازش برای مدل خط مستقیم معنی دار و آنگاه باید در جستجوی مدل دیگری برای رابطه باشیم. اگر F معنی دار نباشد، به کار بردن مدل پیچیده تری چندان مفید نخواهد بود. این واقعیت به تنهایی ما را مطمئن نمی کند که مدل خط مستقیم شایستگی دارد. شایستگی مدل خطی به وسیله مقدار 26که قبل از این شرح دادیم تعیین می شود.
مثال ۲٫۱ پنج سطح از متغییر مستقل x را در آزمایشی وارد کرده ایم. که بعضی از آنها تکرار شده اند و ۱۱ نقطه، داده های جدول ۲٫۱ را فراهم کرده اند.
جدول ۲٫۱ داده ها با آزمایش های تکراری

52

یک خط مستقیم رگرسیون را به داده ها ببرازانید و آزمونی برای عدم برازش انجام دهید.
داده ها را همان طور که نشان داده ایم در دو ستون اول جدول ۳٫۱ از نو مرتب می کنیم.
جدول ۳٫۱ محاسبات برای آزمون عدم برازش
53

برای x=2 میانگین y برابر ۵ است و مجموع توان های دوم محاسبه شده است:
54
محاسبات مشابه را برای هر یک از سطرهای جدول ۳٫۱ انجام می دهیم تا
55
به دست آیند. از فرمول های داده شده در قسمت قبل برای برازاندن یک خط مستقیم به ۱۱ زوج مقادیر (x,y) استفاده می کنیم و

56  را با 57به دست می آوریم. بنابراین، 58 بنابراین معیار عدم برازش
59
به میزان زیادی معنی دار است، زیرا نقطه ۵% مقادیر جدول بندی شده F ، با 60 برابر با ۷۶ / ۴ است. این موضوع نشان دهنده معنی دار بودن عدم برازش مدل خط مستقیم است. نمودار پراکنش داده های جدول ۲٫۱ را در شکل ۶٫۱ رسم کرده ایم. نتیجه ای که می توان از آزمون عدم برازش به دست آورد به وسیله یک بررسی عینی این نمودار پراکنش به وضوح دیده می شود و حاکی از آن است که نمودار. رابطه منحنی الخط را نشان می دهد. پس در این مرحله کار آموزنده این است که برای دیدن چگونگی وجود عدم برازش، مانده ها را رسم کنیم.

012

شکل ۶٫۱ نمودار پراکنش داده های ارائه شده در جدول ۲٫۱ و خط برازیده رابطه به وسیله منحنی خط چین، بهتر معرفی شده است.
در مبحث بعدی، امکان تبدیل کردن رابطه های معینی را در نظر می گیریم به طوری که با این تبدیل ها رابطه ها به صورت خطی درآیند.

۵٫۱ رابطه های غیر خطی و تبدیل های خطی کننده

تا کنون، موقعیت هایی را مطالعه کرده ایم که در آنها به طور معقولی می توانستیم رابطه زیر بنایی بین متغییر وابسته y و متغییر مستقل x را بر حسب یک مدل رگرسیون خطی فرمول بندی کنیم. مدل خط مستقیم، علاوه بر سادگی، بخصوص به این دلیل در عمل مورد استقبال قرار می گیرد که شیوه های استنباط آماری خوش رفتار و ساده ای برای آن به صورتی آماده وجود دارند.
گر چه، بحث مربوط به این شیوه ها، نباید این احساس را به وجود آورد که به کار بردن مدل خط مستقیم برای اکثر مجموعه های داده های مربوط به زندگی روزمره، مناسب است. در بسیاری از موقعیت ها، رسم داده ها در نمودار پراکنش نشان می دهد که یک رابطه، هر چند وجود دارد، ولی از خطی بودن دور است. این مطلب را می توان به وسیله بازبینی این که مقدار مشاهده شدهدر برازاندن خط مستقیم کوچک است، یا به وسیله انجام دادن آزمون عدم برازش که اندکی پیش در قسمت ۴٫۱ شرح دادیم، بر پایه ای آماری اثبات کرد. شیوه های آماری برای دستکاری رابطه های غیر خطی به مراتب پیچیده تر از شیوه هایی است که برای رابطه های خطی به کار می روند. البته، عملیات مربوط به یک نوع مدل مشخص که مدل رگرسیون چند جمله ای نامیده می شود، و آن را در قسمت بعدی مورد بحث قرار می دهیم این پیچیدگی را ندارد. لیکن در بعضی موقعیت ها، امکان تبدیل متغییرهای x و یا y وجود دارد به نحویکه رابطه جدید به خطی بودن نزدیک شود. در این صورت مدل رگرسیون خطی را می توان بر حسب متغییرهای تبدیل یافته فرمول بندی کرد، و تجزیه و تحلیل مناسب را بر مبنای داده های تبدیل یافته نیز باشد، زیرا اینک فرض های خطاهای نرمال مستقل با واریانس ثابت، در مورد مدل تبدیل یافته به کار می روند.
برای نشان دادن این خط استدلال، مسئله تعیین رابطه بین y، رشد در مهارت، و x، طول مدت یک دوره آموزشی را در نظر بگیرید که برای بار اول در قسمت ۱٫۱ شرح دادیم. به طور واضح تر فرض کنید که x نمایانگر تعداد ساعت آموزش به یک تکنسین است، و y زمانی است که طول می کشد تا او یک قطعه پیچیده ماشینی را مونتاژ کند. انتظار داریم y، زمان لازم برای تمام کردن این کار، با افزایش X ، مدت دوره آموزش، کاهش یابد، ولی به نقطه ای می رسیم که y را با وجود افزایش مدت آموزش نمی توانیم کاهش دهیم. ممکن است رابطه ای به صورت
61
را مورد توجه قرار دهیم که نمودار آن، در شکل ۷٫۱ (الف)، چنین رفتاری را نشان دهد.

این رابطه کاملا غیر خطی است.
اگر به جای x، متغییر تبدیل یافته 62را در نظر بگیریم، در این مدل به63تبدیل می شود، و همان طوری که در شکل ۷٫۱ (ب) می بینیم یک خط مستقیم است. به این ترتیب می توانیم تجزیه و تحلیل داده های رشد در مهارت را به وسیله تجزیه و تحلیل رگرسیون خطی ساده ای از y، و متغییر جدید64که عکس تعداد ساعات آموزش است انجام دهیم.
تعدادی از مدل های غیر خطی و تبدیل های خطی کننده متناظر با آنها، در جدول ۴٫۱ داده شده اند.
در بعضی موقعیت ها یک رابطه غیر خطی معینی چه به وسیله داده ها و چه به وسیله یک بررسی از لحاظ نظری به وضوح پیشنهاد می شود. حتی وقتی که اطلاع اولیه ای درباره شکل رابطه نداریم، مطالعه نمودار پراکنش اغلب نشانگر تبدیل خطی کننده مناسبی خواهد بود. می توان از رسم نقاط 65بر روی انواع کاغذهای نمودارهای مختلف کمک گرفت، مثل کاغذ نیم لگاریتمی یا کاغذ لگاریتمی مضاعف، تا بتوانیم هر گونه رابطه تبدیلی را که به خطی کننده نزدیک باشد ببینیم. برای مثال، رابطه (الف) در جدول ۴٫۱ بر روی کاغذ نیم لگاریتمی به صورت خط مستقیمی رسم می شود. گهگاه، موقعی نمودار پراکنش

018

019

رابطه ای به صورت منحنی را نشان می دهد که در آن مقادیر y در مقایسه با مقادیر x با سرعت زیادی افزایش می یابند،رسم66یا بعضی توان های کسری از y، به خطی کردن رابطه کمک می کنند. این موقعیت در مثال ۳٫۱ نشان داده شده است. بعضی راهنمایی های تحلیلی برای تعیین توان مناسب در این نوع تبدیل ها وجود دارند، ولی بحث درباره آنها خارج از هدف های این مطلب است.
مثال ۳٫۱ برای تعیین بیشینه توانایی متوقف شدن اتومبیل ها در موقع استفاده کامل از ترمز، ده اتومبیل را با سرعت های معین می رانند و فاصله ای را که هر اتومبیل نیاز دارد تا کاملا متوقف شود اندازه می گیرند. سرعت های اولیه مختلف انتخابی برای هر یک از ده اتومبیل، و مسافت های متوقف شدن آن ها در جدول ۵٫۱ آمده است. نمودار پراکنش این داده ها در شکل ۸٫۱ نشان داده شده است.
جدول ۵٫۱ داده های مربوط به سرعت و مسافت های توقف
untitled

021
رابطه از خط مستقیم منحرف می شود و y ، به صورت کاملا بارزی برای مقادیر بزرگ x، در مقایسه با مقادیر کوچکx ، خیلی سریع تر افزایش می یابد. مطلب اخیر این طرز فکر را به وجود می آورد که می توان به وسیله رسم66یا بعضی از توان های کسری Y برحسب x، خطی کردن رابطه را آزمون. رسم داده های تبدیل شده 66 در جدول ۶٫۱ آمده است، و نمودار پراکنش این داده ها که نمایشگر یک رابطه خطی تقریبی است، در شکل ۹٫۱ نشان داده شده است.
جدول ۶٫۱ داده های مربوط به سرعت و ریشه دوم مسافت توقف
untitledبه کمک یک برنامه کامپیوتری استاندارد برای تجزیه و تحلیل رگرسیون، نتایج زیر به دست می آیند.
untitled

022

بنابراین معادله خط برازیده به صورت زیر است
1
نسبتی از تغییرات71که به وسیله مدل خط مستقیم بیان می شود عبارت است از:
2
برای مرور مطلب لازم است به خاطر داشته باشیم که تمام استنباط های مربوط به مدل تبدیل شده، بر مبنای فرض های یک رابطه خطی و خطاهای نرمال مستقل با واریانس ثابت هستند. قبل از اینکه بتوانیم به این استنباط ها اعتماد کنیم، این مدل تبدیل شده را باید برای تعیین اینکه هیچگونه تخطی جدی از فرض ها رخ نداده است به طور دقیق بررسی نماییم.
الگویی که به وسیله نمودار پراکنش تعیین می شود اغلب نشانگر وجود یک رابطه غیر خطی است. بعضی اوقات امکان تهیه تبدیل هایی از داده های اولیه وجود دارد، به طوری که رابطه متغییرهای جدید تقریبا خطی باشد. اگر چنین امکانی وجود داشته باشد، انگاه می توانیم تجزیه و تحلیل رگرسیون خط مستقیم معمولی را انجام دهیم و به کمک مدل تبدیل شده، استنباط هایی را استخراج کنیم. فرض های مربوط به ساختار خطای متغییرهای تبدیل شده باید به وسیله روش های معمولی بازبینی شوند.

۶٫۱ رگرسیون خطی چندگانه

تنها موقعیت بسیار مهمی که به اصطلاح مدل خط مستقیم می انجامد به آسانی به صورت زیر بیان می شود. بعد از به کار بردن تجزیه و تحلیل رگرسیون خطی معمولی بین y و x ، ممکن است مقدار کوچکی برای26به دست آوریم ولی با بررسی نمودار پراکنش، یا آزمون عدم برازش موفق نشویم که رابطه خطی را به دلیل وجود یک واریانس خطای بزرگ بی اعتبار وجود متغییرهای علتی دیگری غیر از x را آشکار کنند که در متغییر پاسخ y نفوذ دارند و در تجزیه و تحلیل رگرسیون خطی ساده از آن ها چشم پوشی شده است. اگر تغییر در این متغییر های نافذ در طول آزمایش بدون کنترل مانده باشد، ممکن است رابطه حقیقی بین y و x به علت افزایش واریانس خطای 43روشن نباشد. اگر عامل های نفوذ کننده نظیر سرعت متوسط، طول مدت بیکار ماندن ماشین و درجه حرارت محیط در طول آزمایش آزادانه تغییر کنند، نمودار پراکنش y در برابر x، ممکن است نوسانات زیادی را نشان دهد و SSE می تواند کاملا بزرگ شود.
هر اطلاعی که درباره این عامل های اضافی در دسترس باشد امکان دارد در اصطلاح پیش بینی به کار گرفته شود.
بنابراین، علاوه بر به دست آوردن برآوردکننده های نااریب و کارای پارامترها، به منظور تهیه یک مدل پیش بینی مفید باید داده های مربوط به تمام متغییرهایی را که معلوم شده است در متغییر پاسخ y نفوذ دارند ثبت کرده، آنها را به طور صریحی در تجزیه و تحلیل رگرسیون شرکت دهیم. برای تصریح بیشتر، فرض کنید که انتظار می رود متغییر پاسخ y در یک آزمایش، تحت تاثیر سه متغییر علتی1باشد، و داده های مربوط به این متغییرهای علتی، همراه با اندازه های y ثبت شده باشند. به وسیله قیاس با مدل رگرسیون خطی ساده، می توانیم به طور آزمایشی مدل ساده ای را برای رابطه y با 1فرمول بندی کنیم.

72

از این مدل می توان فهمید که جدا از مولفه های خطا، تابع پاسخ در رابطه با هر کدام از متغییرهای مستقل، وقتی که دو متغییر دیگر ثابت بمانند، به طور خطی تغییر می کند. در نتیجه، نمایش این تابع پاسخ با دو پیش بین، یک صفحه و با بیش از دو پیش بین یک فوق صفحه است. به واسطه وجود بیش از یک متغییر پیش بین، این مدل را مدل رگرسیون چندگانه می نامند.
اگر چه نمودار پراکنش را نمی توان رسم کرد، ولی اصل کوچک ترین توان های دوم در برآورد کردن پارامترهای رگرسیون مفیدند. در این مدل، برای کمیت سازی مجموع توان های دوم انحراف های
73
لازم است به طور همزمان74را تغییر دهیم. می توان تحقیق کرد که برآوردهای کوچک ترین توان های دوم75جواب های دستگاه معادلات نرمال زیرند که تعمیم معادلات مربوط به تعیین جواب های کوچک ترین توان های دوم مدل خط مستقیم داده شده در قسمت ۷٫۱ هستند:
untitled
که در آنها 77، و غیره مجموع توان های دوم و ضرب های برداری متغییر های الحاقی هستندو می توان آنها را درست مثل حالت مدل رگرسیون خط مستقیم محاسبه کرد، زیرا بیشینه ای از دو متغییر می تواند در هر S وارد شود. برای تعیین برآورد فاصله ای، آزمون فرض ها، آزمون عدم برازش مدل و تعیین اینکه کدام یک از متغییر های x به قدر کافی برای دخالت دادن در مدل مهم است و کدام یک می تواند حذف شود روش هایی وجود دارند. در اصل، این روش ها شبیه به آنهایی هستند که در مدل رگرسیون ساده به کار می روند، ولی هر چقدر که تعداد متغییر های x افزایش می یابد فرمول های جبری بیشتری لازم می شوند. بررسی کامل تجزیه و تحلیل آماری این روش ها خارج از مبحث ما است. البته، بررسی مانده ها برای مدل رگرسیون چندگانه، دقیقا مثل مدل رگرسیون خط مستقیم است و برای مدل های برازیده با کوچک ترین توان های دوم، وسیله تحقیق مهمی را توسط کامپیوتر فراهم می کند.
اینقسمت را با مثالی پایان می دهیم که روش محاسبه برای برازاندن یک مدل خطی با دو متغییر پیش بینی را ارائه می دهد.
مثال ۴٫۱ می خواهیم فشار خون سیستولیک y را در رابطه با78، وزن ( بر حسب پوند) و79، سن، برای رده ای از مردان تقریبا هم قد مطالعه کنیم. از ۱۳ نفری که از روی وزن و سن قبلا برگزیده شده اند، داده های فهرست شده در سه ستون اول جدول ۷٫۱ به دست می آیند. مدل رگرسیون چندگانهuntitledرا به داده ها ببرازانید.
جدول ۷٫۱ داده ها و محاسبات تجزیه و تحلیل رگرسیون چندگانه در مثال

023

تجزیه و تحلیل رگرسیون چندگانه معمولا به کمک برنامه های استاندارد کامپیوتری انجام می گیرد و این برنامه ها، هم برآوردهای کوچک ترین توان های دوم و هم مانده ها را به دست می دهند. البته، به منظور تشریح هدف ها، جزئیات این نوع محاسبات در جدول ۷٫۱ آمده اند. تمام درایه های بعد از سومین ستون با استفاده از کامپیوتر محاسبه شده اند.
از مجموعه های ستونی، در جدول ۷٫۱ نتیجه می گیریم که

81
و غیره، به طوری که معادلات نرمال عبارت اند از:
82
با ضرب کردن اولین معادله در ۱۵۳۳٫۸ و دومین معادله در ۲۰۷۸٫۹ ، و با جمع کردن دو معادله حاصل،83را حذف می کنیم. با حل این معادله85به دست می آید، و بعد از روی هر کدام از دو معادله اول86 نتیجه می شود. بالاخره، معادله سوم مقدار88به دست می دهد. در ستون آخر جدول ۷٫۱ مقادیر پیش بینی شده که از برآوردهای کوچک ترین توان های دوم اخیر، یا
89
نتیجه می شوند فهرست شده اند. معنی معادله بالا این است که اگر سن،90، ثابت باقی بماند با یک واحد افزیشبرای78، میانگین فشار خون ۱٫۰۷۷ واحد افزایش می یابد. به طور مشابه، اگر وزن ثابت نگه داشته شود، با افزایش یک سال سن، میانگین فشار خون ۰٫۴۲۵ واحد افزایش پیدا می کند. در این مرحله برای ملاحظه این که می توان الگویی سیستماتیک معین کرد، آموزنده است که مانده ها را محاسبه کنیم.

۷٫۱ نمودارهای دیگری از رگرسیون چندگانه

مدل رگرسیون خطی چندگانه به خاطر قابلیت کاربردی وسیعش، نقش قابل توجهی در دامنه کار یک آماردان دارد. هر چند در اینجا تجزیه و تحلیل کاملی نمی توان ارائه کرد، ولی بعضی از نمودهای رگرسیون چندگانه مستلزم توجه بیشتری است. مثال های این قسمت روشنگر نکات زیر اند:
الف) اگر متغییری مهم در مدل وارد نشده باشد، برآورد کننده نااریب نخواهند بود.
ب) ضرایب رگرسیون منفرد91را باید به دقت تفسیر کرد.

ج) اگر طرح آزمایشی چنان ضعیف باشد که یک متغییر وارد شده در مدل را بتوان به وسیله جمع مضارب ثابتی از دیگر متغییرها به دست آورد، آن گاه ابهامی در مسئله تولید می شود.
مثال ۵٫۱ اگر خط مستقیمی برازیده شود، وقتی پاسخ واقعی به متغییر دیگری هم بستگی دارد، برآورد کننده ها نااریب نخواهند بود. فرض می کنیم که میانگین واقعی برابر92است که در آن

93

ولی محقق به دلایلی فقط78را ثبت کرده است، و94را برازانده است. برآوردکننده های کوچک ترین توان های دوم عبارت اند از
96
و نه97، که مقدار واقعی است. مدل خط مستقیم ساده ناکافی است، و مدل پیچیده تری مورد نیاز است.

مثال ۶٫۱ تفسیر ضرایب رگرسیون: در مدل رگرسیون چندگانه
98
مقدار99موقعی که90ثابت است نفوذ78را بیان می کند. این پاسخ در شکل ۱۰٫۱ نشان داده شده است. اگر90ثابت باشد، انگاه یک رابطه خط مستقیم بین101 وجود دارد.
با در نظر گرفتن رگرسیون برآورد شده، فرض کنید که102را بر مبنای ۲۰ مشاهده به دست آورده ایم. هر چند که ۳٫۶ نفوذ برآورد شده78را ، وقتی90ثابت است بیان می کند، ولی نمی توانیم نتیجه بگیریم که 78 بیشتر از 90 اهمیت دارد.
در واقع ، اگر 105به طور معمولی با مولفه دوم، بیشتر از دو برابر مولفه اول رخ دهد، عکس این مطلب ممکن است درست باشد. همچنین می توانیم104را، برای تعیین اهمیت نسبی105به کار بریم.

024

مثال ۷٫۱ یک حالت طرح ضعیف که در آن ضرایب یکتا نیستند: فرض کنید که امید ریاضی پاسخ106و برای تمام امتحان ها1 مقادیر2عبارت اند از:

3

در اینجا110به طوری که نمی توانیم 112را از113، یا از هر تعداد دیگری از انتخاب ها متمایز کنیم. تعجب آور نیست، که این ابهام در مورد برآوردها هم وجود دارد، و هر دو متغییر نمی توانند در مدل ابقاء شوند.
قبلا این مطلب را ذکر کرده ایم که اکثر تجزیه و تحلیل های کوچک ترین توان های دوم مدل های رگرسیون خطی چندگانه به کمک کامپیوتر انجام می گیرند. برای پیاده کردن این تجزیه و تحلیل، برنامه ها تنها نیاز به این دارند که محقق برای هر کدام از امتحان ها i=1.2,…,n مقادیر پاسخ115و p متغییر116را که در تجزیه و تحلیل دخالت دارند، به دست آورد. اگر ۱، مقداری معلوم از یک متغییر ساختگی اضافی وارد شده در مدل، و متناظر با a باشد، با نوشتن a.1 مدل به صورت زیر در می آید.
025
کمیت های پایه ای را که با حروف سیاه نشان داده شده اند، می توان به صورت آرایه های زیر مرتب کرد:

027

برای تعیین برآوردهای کوچک ترین توان های دوم117که

118

را کمیت می سازند، فقط به آرایه های X,Y نیاز است.آرایه ورودی X را ماتریس طرح می نامند.
با همین خط مشی، با قرار دادن

119

می توانیم مدل را به صورت پیشنهادی زیر ارائه دهیم

120
که پایه ای برای یک بحث کامل و خیلی پیشرفته از اعمال رگرسیونی را تشکیل می دهد.