تجزیه و تحلیل رگرسیون: رابطه خطی ساده

[checklist][/checklist]

تجزیه و تحلیل رگرسیون: رابطه خطی ساده

۱٫۱ هدفهای تجزیه و تحلیل رگرسیون

در بسیاری از زمینه های بررسی علمی، تغییرات اندازه های آزمایشی یک متغییر، به طور وسیعی به سبب متغییرهای وابسته دیگری است که مقادیر آنها در جریان آزمایش تغییر می کنند.

با شرکت دادن صریح داده های این متغییرهای نافذ در تجزیه و تحلیل آماری، اغلب امکان دارد که از طبیعت رابطه این متغییرها مطلع شده، آنگاه از این اطلاع برای اصلاح توصیف و استنباط های مربوط به متغییر اولیه مورد علاقه بهره گیری کنیم. از نقطه نظر دیگری هم کاوش رابطه بین متغییرها مهم است، بدین معنا که مقدار یک متغییر را می توان از روی مشاهدات سایر متغییرها پیش بینی کرد، و یا حتی کنترل نمود، و به وسیله دستکاری عامل های نافذ بهینه ساخت.

تجزیه و تحلیل رگرسیون قسمتی اصلی از روش های آماری است که در ارتباط با فرمول بندی مدل های ریاضی است، مدل هایی که تعیین کننده شکل روابط بین متغییرهاست. تجزیه و تحلیل رگرسیون با استفاده از این رابطه های مدل بندی شده، با پیش بینی و سایر استنباط های آماری سروکار دارد. این که چگونه به چنین وسیله جدید و قدرتمند آماری، نام دور از انتظار ( رگرسیون (برگشت) ) را داده اند به توضیحی نیاز دارد و از نظر تاریخی، کلمه ( رگرسیون) با زمینه فنی کنونی اش برای اولین بار به وسیله سرفرانسیس گالتن، کسی که قد پسران و متوسط قد والدینشان را تجزیه و تحلیل کرد، به کار برده شد. گالتن از روی مشاهداتش نتیجه گرفت که قد پسران متعلق به والدین خیلی قد بلند ( یا کوتاه )، به طور کلی بلندتر ( کوتاهتر ) از قد متوسط بوده است، ولی البته نه به بلندی ( یا کوتاهی )قد والدینشان. این نتیجه گیری در سال ۱۸۸۵ تحت عنوان ( برگشت قد ارثی به سوی حد متوسط) منتشر شد. در این متن، اصطلاح رگرسیون اشاره بر این داشت که قد پسران به جای میل به مقادیر فرینتر به سوی مقدار متوسط می گراید.

با توجه به این نقطه شروع، اصطلاح تجزیه و تحلیل رگرسیون با این مفهوم توسعه یافت، که شامل تجزیه و تحلیل داده های درگیر دو متغییر یا بیشتر، برای کشف ماهیت رابطه میان آنها و آنگاه تحقیق برای هدف های پیش بینی است. مطالعه روابط میان متغییرها در زمینه های زیادی از فعالیت های علمی، متداول است. مدیر تبلیغات یک شرکت تجارتی علاقه مند به شناخت رابطه بین پول خرج شده برای تبلیغات و افزایش فروش است. مسئله مهم مورد توجه در رادیوتراپی، موضوع میزان صدمه به سلول ها در اثر مدت و شدت قرار گرفتن در معرض اشعه است. برای پیش بینی سیل ها ، متخصص آب شناسی باید نرخ تخلیه اندازه گیری شده آب رودخانه را در محل خاصی، در رابطه با بارندگی های کنونی و نرخ تخلیه رودخانه در فواصل زمانی مناسب در محل های واقع در بالای رودخانه، مطالعه نماید. در مطالعه آگاهی سیاسی مردم، جامعه شناس ممکن است مایل باشد رابطه درصد مردم واجد شرایط برای رای دادن را با عامل های اجتماعی – سیاسی از قبیل ساختار سنی، سطح سواد، و متوسط در آمدشان تعیین کند. بخش های کارگزینی کارخانه ها، اغلب رابطه بین نمرات ارزیابی مقدماتی کارکنان در هنگام مصاحبه استخدام و میزان مهارت کاری آنها را بررسی می کنند. در برخورد با گوناگونی ماهیت روابط ممکن بین متغییرها، یک رده بندی وسیع و بعضی مثال ها می توانند طرحی از دامنه و دور نمای موضوع تجزیه و تحلیل رگرسیون را ارائه دهند.

رابطه تعیینی

متغییرها اغلب به وسیله قانونی که می توان آن را با تابع دقیق ریاضی بیان کرد به یکدیگر مربوط اند. بعضی مبانی نظری شناخته شده، به طور عمومی توجیه کننده شکلی تابعی هستند، و هر انحراف مشاهده از این رابطه به عنوان خطای آزمایشی در نظر گرفته می شود.

برای مثال، اگر x  ریال به حساب پس اندازی بگذاریم، و سود آن با نرخ سالانه ۱۰۰%r از طریق مرابحه مرکب محاسبه شود و اگر y را مقدار این پس انداز بعد از n سال بگیریم، آنگاه y در رابطه با x ، r و n دقیقا دارای فرمول

1

است، که قانون ربح مرکب است. به عنوان مثال دوم، اگر یک گلوله فلزی از ارتفاع h رها شود تا به زمین برسد و t فاصله زمانی برای طی این مسافت به وسیله گلوله باشد، طبق قانون فیزیکی جاذبه داریم

Untitled

که در آن g شتاب ثقل ثابت است. در ابتدا گالیه فرض کرد که h با متناسبuntitledاست و برآوردهای درست g را به عهده آزمایشگران بعدی گذاشت. مقادیر حاصل از فرمول ها طوری هستند که، برای اغلب هدف ها، به آزمایش بیشتر و تجزیه و تحلیل داده ها نیازی نیست. این حالت ها از دامنه بحث تجزیه و تحلیل رگرسیون خارج اند.

رابطه نیمه تعیینی

در حالت های دیگر، نظریه ای که به خوبی بنیان گرفته است شکلی برای قانون ارتباط متغییرها بیان می کند، ولی مقادیر مخصوص پارامترهایی را که در رابطه ظاهر می شوند تعیین نمی نماید. برای کسب اطلاع درباره مقادیر این پارامترها، باید آزمایش هایی اجرا کرد. محدودیت دقت ابزار اندازه گیری، غیر قابل کنترل بودن اختلالات شرایط آزمایشی، و عوامل دیگر، خطاهای آزمایشی را در داده ها دخالت می دهند که معمولا این خطاهای آزمایشی تغییری را در رابطه واقعی موجب می شوند.

مثال ۱٫۱ هر گازی نسبت گرمای yی مخصوص به خود را دارد. اگر آزمایشی را طوری اجرا کنیم که گرما ثابت بماند، وقتی حجم گاز، یعنی V را تغییر می دهیم و فشار آن ،P، را اندازه می گیریم، بر اساس قانون ایدآل گازها

Untitled

که در آن نسبت گرمای مشخص y، باید از روی داده های آزمایشی مربوط به P و V برآورد شود.

دو مثال دیگر از این نوع، برآورد ثابت های نرخ در شکلی شناخته شده از معادله نرخ برای یک واکنش شیمیایی، و برآورد انبساط گرمایی یک آلیاژ جدید است.

در بعضی موقعیت ها یک زمینه نظری جزئی، شکلی موجه از رابطه را تلقین می کند، اما مبانی نظری، دقیق یا به طور عمومی قابل قبول نیستند. بعلاوه، نوساناتی اضافی، اغلب به وسیله متغییرهای غیر قابل کنترلی که در رابطه دخالتی ندارند به وجود می آیند.

مثال ۲٫۱ فرض کنید در یک کارخانه کالایی را در بسته بندی هایی تولید می کنند و مدیر تولید می خواهد هزینه تولید بسته y را با گنجایش بسته x مربوط نماید. صرف نظر از گنجایش یک بسته، حداقل برای یک دامنه واقعی از تغییرات x، بعضی از مولفه های مخارج عملا مقادیر ثابتی هستند. هزینه های مربوط به ساختمان و حقوق مدیریت و نظارت، در این رسته از عوامل قرار دارند، و این هزینه ثابت را جمعا به وسیله F نشان می دهیم. مولفه دومی هم وجود دارد که مستقیما متناسب با تعداد واحدهای تولید است. برای مثال، مواد خام و نیز تعداد کارگر لازم برای تولید محصول، در این رسته جای دارند. متغییر هزینه تولید یک واحد کالا را با c نشان می دهیم. با چشم پوشی از دیگر عوامل ممکن، می توان انتظار وجود یک رابطه تعیینی بین گنجایش و هزینه را به صورت فرمول زیر داشت

Y = F + cx

اما، مولفه سومی از هزینه را هم باید در نظر بگیریم که مقدار آن به دلیل ماهیتش قابل پیش بینی نیست. اغلب اوقات در هنگام تولید، ماشین ها خراب می شوند، که نتیجه آن افزایش مدت بیکاری و تولید هزینه تعمیر است. نوسانات در کیفیت مواد خام موضوع دیگری است که در کاهش فرآیند تولید اثر دارد. بنابراین مولفه های شانس که از این عوامل و دیگر عوامل کشف نشده به وجود می آیند، پوششی برای رابطه تعیینی هستند. در نتیجه؛ رابطه بین x و y باید به وسیله یک تجزیه و تحلیل آماری از داده های مربوط به هزینه و گنجایش بسته، مورد بررسی قرار گیرد.

رابطه تجربی

در مقایسه با موقعیت های بالا، بسیاری از پدیده های طبیعی شامل متغییرهایی هستند که رو به رو با هم در رابطه اند، یک متغییر، به تعدادی از متغییرهای نافذ یا سببی دیگر وابسته است، که یک قانون فیزیکی دقیق بر رابطه آنها حاکم نیست. رسم بعضی مقادیر مشاهده شده از چنین متغییرهایی بر رابطه آنها حاکم نیست. رسم بعضی مقادیر مشاهده شده از چنین متغییر هایی بر روی صفحه نمودار؛ به صورت شکلی نسبتا خام؛ رابطه ای از دو متعییر را که به طور تقریبی به هم پیوند شده اند، با نوساناتی شانسی تعریف می کند. تعداد کمی از مثال هایی که در زیر مطرح می شوند موقعیت هایی را بیان می کنند که در آنها شکل رابطه زیر بنایی کاملا نامعلوم است. بعد از به دست آوردن آگاهی کافی درباره رابطه تجربی؛ امکان دارد آزمایشگر بتواند یک نظریه را طوری فرمول بندی کند که به یک فرومول ریاضی منجر شده و بنابراین به حالت رابطه نیمه تعیینی بیانجامد.

مثال ۳٫۱ برای مبارزه با آلودگی ناشی از اتومبیل، مطالعاتی انجام می گیرد تا ترکیب شیمیایی یک ماده اضافه شونده به بنزین را که موجب اصلاح کیفیت انتشار گازهای حاصل از سوخت می شود تعیین کنند. یکی از جنبه های تحقیق این است که رابطه بین مقدار یک ماده خاص اضافه شونده و مقدار کاهش انتشار اکسید ازت را مطالعه نمایند. سایر اجزاء ترکیبی نیز ممکن است اثرهایی را موجب شوند، ولی مقادیر آنها در طول مطالعه ثابت نگه داشته می شوند. تعدادی از اتومبیل های نوی پیکان را به عنوان واحدهای آزمایشی بر می گزینند. مقدار اکسید ازت را در لوله اگزوز هر یک از ماشین ها ابتدا بدون اضافه کردن ماده اضافی و آنگاه با اضافه کردن مقدار مشخص x از ماده مزبور به بنزین؛ اندازه می گیرند، کاهش مقدار اکسید ازت در اثر ماده اضافی به عنوان پاسخ، با y نشان می دهیم. به دلیل پیچیدگی های واکنش های شیمیایی و شرایط داخل موتور اتومبیل، ارائه فرمولی تعیین در باره رابطه y و x ، و رای دانش کنونی است.

مثال ۴٫۱ فرض کنید در یک آزمایش کشاورزی، قرار است Y، میزان محصول گیاه گوجه فرنگی، در رابطه با x ، مقدار مصرف نوعی کود مطالعه شود، به طوری که سایر عوامل دیگری که در آزمایش وارد می شوند، نظیر آبیاری و نحوه کاشت و پرورش، تا حد ممکن ثابت باشند. آزمایش شامل استفاده از مقادیر مختلفی کود در کرتهای مختلف، در مساحتی مورد نظر، و سپس ثبت مقدار محصول گوجه فرنگی حاصل از این کرتهاست. به طور نوعی، مصرف مقادیر مختلف کود، محصول متفاوتی را تولید می کند، ولی انتظار نمی رود که رابطه این دو از یک فرمول ریاضی دقیق تبعیت نماید. جدا از تغییرات شانسی غیر قابل پیش بینی، شکل زیربنایی رابطه را نمی توان در این حالت به وسیله یک پایه نظری معین کرد.

مثال ۵٫۱ استعداد یک متصدی آموزش دیده جدید برای یک شغل حرفه ای، هم به طول دوره آموزش و هم به طبیعت برنامه آموزشی بستگی دارد. برای ارزیابی کارایی دوره آموزشی، باید مطالعه ای آزمایشی درباره رابطه بین y، رشد مهارت یا یادگیری، و x، طول دروه آموزش انجام گیرد. به خاطر این حقیقت ساده که هیچ دو انسانی دقیقا مثل هم نیستند، به نظر می رسد که رابطه بین x و y تعیین باشد. در اینجا نیز تجزیه و تحلیلی از داد ه های دو متغییر می تواند به ما کمک کند تا طبیعت رابطه را تعیین کنیم و از آن برای ارزیابی و طرح ریزی چنین برنامه آموزشی استفاده نماییم.

این مثال ها دامنه و کاربرد تجزیه و تحلیل رگرسیونی را به زمینه ای نسبتا ساده برای تعیین چگونگی ارتباط یک متغییر با متغییر دیگر نشان می دهند. در حالت های پیچیده تر، ممکن است متغییرهای متعددی در رابطه متقابل با یکدیگر باشند، یا ممکن است یک متغییر که بیشتر مورد توجه است وابسته به متغییر های نافذ متعددی باشد، و مطالعه چنین روابطی به مشاهده و تجزیه و تحلیل تمام این متغییرها نیاز دارد، در مثال ۵٫۱ رشد فراگیری ممکن ایت در رابطه با ضریب هوش IQ، نمره آزمون استعداد اولیه، تعداد افراد کلاس و تعداد دوره های آموزشی آزمایشگاهی و غیره مورد مطالعه قرار گیرد. به طور مشابهی، عملکرد یک فرآیند شیمیایی ممکن است در رابطه با متغییر های متعددی از قبیل درجه حرارتی که در سیستم برقرار شده است.، غلظت اولیه اجزای ترکیبی، یا نرخ خنک کردن آزمایش، مورد مطالعه واقع شود. سودمندی تجزیه و تحلیل رگرسیون، با این مسائل چند متغییره گسترش می یابد. تجزیه و تحلیل رگرسون، روش های ساختن مدل ها برای چنین رابطه هایی را فراهم می کند، و برآورد کردن پارامترهای نامعلوم، تعیین متغییرهای با اهمیت ، و تعیین متغییرهای قابل حذف را میسر می سازد، و بلاخره نحوه به کارگیری این مدل ها را برای پیش بینی کنترل توجیه می کند.

۲٫۱ یک مسئله ساده رگرسیون

برای نشان دادن مفاهیم پایه ای ، موضوع را با آزمایشی آغاز می کنیم که رابطه بین دو متغییر x و y را تعیین می کند؛ x به عنوان متغییر مستقل عمل می نماید که مقادیر آن به وسیله آزمایشگر کنترل می شود، در حالی که y وابسته به x بوده. در معرض منابع غیر قابل کنترل خطا قرار دارد.

متغییر مستقل یا کنترل شده را متغییر پیش بین نیز می نامند و آن را با X نشان می دهند. متغییر اثر یا پاسخ با y نشان داده می شود.

بستگی y به x یک طرفه است به طوری که در ابتدا به موقعییت هایی توجه می کنیم که در آنها مقادیر x دور از خطای محسوسی مشخص شده اند. ( حالت هایی که در آن ها x و y هر دو نمی توانند در کنترل آزمایشگر باشند و فقط می توان با نمونه گیری تصادفی آن ها را مشاهده کرد، در همین مبحث، کمی بعد، مورد بررسی واقع شده اند) برای بحثی عینی تر، فرض می کنیم در آزمایش مثال ۳٫۱ که شرح آن داده شد، n اتومبیل به کار می رود. کمیت اکسید ازتی که هر اتومبیل منتشر می کند ابتدا بدون اضافه کردن ماده مورد نظر اندازه گیری می شود. آنگاه یک مقدار مشخص x از ماده اضافه شونده را به مخزن پر از بنزین اضافه کرده، مقدار اکسید ازت منتشر شده را دوباره اندازه می گیرند. کاهش مقدرا اکسید ازت را می توان به عنوان y، متغییر پاسخ ثبت کرد. داده ها را می توان به شکل جدول ۱٫۱ مرتب نمود.

Untitled

برای ارائه مثال عددی، داده های جدول ۲٫۱ را در نظر می گیریم که در آن مشاهدات از آزمایشی با n=10 اتومبیل به دست آمده اند. X، مقدار ماده اضافی، و y مختلف x است و بعضی از این سطوح برای پیش از یک اتومبیل تکرار شده است.

مطالعه اجمالی جدول نشان می دهد که با افزایش x به طور کلی y افزایش می یابد، ولی مشکل است که درباره شکل رابطه بین y وx فقط با نگاه کردن به داده های جدول ادعای بیشتری کرد.

004

۳٫۱ رسم داده ها

در مطالعه رابطه بین دو متغییر، اولین قدم منطقی، رسم داده ها به صورت نقاطی بر روی یک صفحه نمودار است. شکل حاصل که نمودار پراکنش نامیده می شود، چگونگی خوشه ای شدن نقاط در اطراف یک خط مستقیم با یک نوع منحنی مشخص را نشان می دهد و نیز برداشتی عینی از میزان پراکندگی داده ها پیرامون خط یا منحنی را فراهم می کند. در بیشتر موقعیت ها رابطه نظری پیشین معلومی وجود ندارد که آن را به کار بریم، بنابراین، اطلاع منعکس در نمودار پراکنش برای جستجوی یک مدل ریاضی مناسب مفید است.

نمودار پراکنش مشاهدات جدول ۲٫۱ در شکل ۱٫۱ دیده می شود. این نمودار

004

پراکنش بازگوکننده این موضوع است که طبیعت رابطه تقریبا خطی است؛ یعنی، به نظر می آید که نقاط در اطراف خط مستقیمی به صورت خوشه ای در آمده اند چون رابطه خطی ساده ترین رابطه ای است که می توان از نظر ریاضی سرو کار داشت، شرح جزئیات تجزیه و تحلیل رگرسیون آماری را برای این حالت ارائه می دهیم. حالت های دیگر را نیز می توانیم اغلب به وسیله تبدیل های مناسب یک یا هر دو متغییر، به این حالت برگردانیم.

این بخش را با یادآوری زیر تمام می کنیم:

اولین قدم در تجزیه و تحلیل

در بررسی رابطه ی بین دو متغییر، رسم نمودار پراکنش قدم مقدماتی مهمی است که باید قبل از انجام یک تجزیه و تحلیل آماری رسمی انجام شود. نمودار پراکنش، بینشی درباره ماهیت رابطه ای که به وسیله داده ها نمایش داده می شود فراهم می کند.

۴٫۱ مدل رگرسیونی خط مستقم

به خاطر می آوریم که اگر نمایش رابطه بین y وx دقیقا خط مستقیمی باشد، آن گاه متغییر ها به وسیله فرمول زیر به یکدیگر مربوط می شوند.

1

که در آن، a عرض از مبدا خط و 1 شیب یا تغییر Y بر حسب تغییر یک واحد از X را نشان می دهد( شکل ۲٫۱ را ببینید).

005

در موقعیتی که رابطه تعیینی نباشد معقول است این اصل موضوع را بپذیریم که رابطه زیر بنایی خطی، به وسیله اختلال های تصادفی یا خطاهای آزمایشی پنهان مانده است. با چنین دیدگاهی مدل رگرسیون خطی زیر را می توان به عنوان یک نمایش آزمایشی از چگونگی رابطه بین Y و X فرمول بندی کرد، و آنگاه به تجزیه و تحلیل آماری مبادرت ورزید.

مدل آماری

فرض می کنیم که پاسخ 1 ، به مقدار 2 از متغییر کنترل شده ، به وسیله

3

مربوط است ، که در آن

الف) 4مجموعه مقادیر متغییر کنترل شده ی x هستند که آزمایشگر برای مطالعه برگزیده است.

ب) 5مولفه های خطای نامعلومی هستند که بر رابطه خطی واقعی اعمال نفوذ فوق العاده ای می کنند. این ها متغییر های تصادفی غیر قابل مشاهده اند، که فرض می کنیم مستقل بوده، به طور نرمال یا میانگین صفر و واریانس نامعلوم 8 توزیع شده اند.

ج) پارامتر های 1و a ، که با هم موقعییت خط مستقم را مشخص می کنند، و نامعلوم هستند.

 

مطابق این مدل 1 هر مشاهده که متناظر با سطح 2 از متغییر کنترل شده است، یک نمونه تصادفی یک مشاهده ای از توزیعی نرمال، با میانگین 10 و انحراف معیار 3 است.

تعبیر این موضوع این است که وقتی می خواهیم مقدار واقعی را بر روی خط مشاهده کنیم، طبیعت، خطای تصادفی a را به این کمیت اضافه می کند. ساختار این خطا در شکل ۳٫۱، که چند توزیع نرمال y را نشان می دهد داده شده است. این توزیع ها دارای واریانس برابر بوده، میانگین های آن ها بر روی خط مستقیم واقعی نامعلوم 6 قرار دارند. غیر از این واقعیت که 3 نامعلوم است، خطی که میانگین های این توزیع های نرمال بر آن واقع اند نیز نامعلوم است. در واقع، هدف مهم تجزیه و تحلیل آماری، برآورد کردن این خط است.

۵٫۱ روش کوچک ترین توان های دوم

اگر به طور آزمایشی فرض کنیم که فرمول بندی قبلی مدل صحیح است، می توانیم برای برآورد کردن خط رگرسیون و حل چند مسئله استنباطی مربوط اقدام کنیم. مسئله برآورد

006

پارامترهای رگرسیون  a و 1 را می توان به عنوان برازش بهترین خط مستقیم برای نمودار پراکنش درنظر گرفت. یک روش ساده برای این منظور جابه جا کردن خط کشی شفاف بر روی نمودار پراکنش است تا به طریق بصری خط مستقیمی را تعیین کنیم که با دقت برازنده داده ها باشد. هرچند که به کار بردن این روش ساده است، ولی این روش ( برآورد چشمی ) زیان های جدی دارد. چنان که این شیوه را به کار بریم، آنگاه حوزه ای برای استنباط های آماری، نظیر بنای فاصله های اطمینان و آزمون های فرض وجود نخواهد داشت. در ثانی، این روش را نمی توان برای پیش از دو متغییر به کار برد، زیرا نمودار پراکنش را برای چنین حالتی نمی توان رسم کرد. حتی اگر به نظر رسد که رابطه به جای یک خط، به یک منحنی شبیه است، آن گاه به کار بردن این روش برای دو متغییر هم آسان نیست. روش کوچک ترین توان های دوم، که در اینجا شرح می دهیم، روشی عینی، و کارا برای برآورد پارامترهای رگرسیون است و کار بردش محدود به مدل خط مستقیم نیست.

فرض کنید که خط دلخواه 5، مثل شکل ۴٫۱ بر روی نمودار پراکنش رسم شده است. برای مقدار از متغییر کنترل شده، مقدار y ی پیش بینی شده به وسیله این خط، برابر  6 است، در حالی که مقدار y ی مشاهده شده، است. اختلاف بین این دو مقدار عبارت است از  7، که فاصله قائم نقطه از خط است.،با توجه به این اختلاف ها در تمام n نقطه، مقدار

8

را به عنوان اندازه کل اختلاف نقاط مشاهده شده از خط برازیده می گیریم. مقدار D به طور آشکار به خط رسم شده بستگی دارد؛ به دو کمیت a و b که خط را

007

معیین می کنند وابسته است، یک برازش خوب، D را تا حد ممکن کوچک می سازد حال در زیر، اصلی پایه ای را که در این جا از آن پیروی شده است بیان می کنیم، ابتدا به صورت کلی، تعمیم کاربردهای آن را به سایر مدل ها شرح می دهیم.

اصل کوچک ترین توان های دوم

اصل کوچک ترین توان های دوم عبارت از تعیین مقادیری برای پارامترهای نامعلوم است، به طوری که اختلاف کل، برای تمام نقاط کمینه گردد.

اختلاف کل D به صورت زیر تعریف می شود:

9

که در آن پاسخ پیش بینی شده، شامل پارامترهای نامعلوم مدل است.

مقادیر پارامترهایی که به این ترتیب تعیین می شوند، به برآوردهای کوچک ترین توان های دوم موسوم اند.

 

برای مدل خط مستقیم، پاسخ پیش بینی شده 10 است که با پاسخ مشاهده شده 1 متناظر است و اصل کوچک ترین توان های دوم مقادیر a و b را به گونه ای تعیین می کند که مقدار 11

کمینه شود. کمیت های a و b را که به وسیله این اصل تعیین می شوند، به ترتیب 12 نشان می دهند و آن ها را برآوردهای کوچک ترین توان های دوم a و β ، یعنی پارامترهای رگرسیون می نامند. بنابراین بهترین خط مستقیم برازیده، به وسیله معادله زیر داده می شود

13

برای توضیح ایده کوچک ترین توان های دوم، داده هایی را که در جدول ۲٫۱ داده شده اند، برای محاسبه D در جدول ۳٫۱ ، و برای دو انتخاب a و b : a=2 ,   b=1   ,   a=0   b=0/5 ,به کار می بریم. از جدول ۳٫۱ می توان دید که انتخاب

a=2       , b=0/5     از انتخاب a=0 , b=1 بهتر است، زیرا مقدارD برای آن کوچک تر است. خوشبختانه

008

مجبور نیستیم برای به دست آوردن برآوردهای کوچک ترین توان های دوم، 12، با روش آزمون و خطا که در جدول۳٫۱ به آن اشاره شده است، عمل کنیم.

برای برآورد کوچک ترین توان های دوم در مدل رگرسیون خط مستقیم راهی تحلیلی وجود دارد. برای ساده تر شدن ارائه این راه حل چند نماد پایه ای را معرفی می کنیم:

009

کمیت های 17، میانگین های نمونه ای مقادیر x و y ؛ و 18 و مجموعه توان های دوم انحراف ها از میانگین ها می باشد. قبلا در ارتباط با تعریف واریانس نمونه با این عبارات آشنا شده ایم. در اینجا، به هر حال، مقادیر x به وسیله ی آزمایشگر 19 تعیین می شوند. عبارت از مجموعه حاصلضرب های برداری انحراف هاست، و شکل دوم آن را می توان از شکل اول آن یا نوشتن

20

و جمع کردن جمله به جمله به دست آورد.

۶٫۱ تعیین برآوردهای کوچک ترین توان های دوم

مطابق با اصل کوچک ترین توان های دوم، باید کمیت های a و b را طوری تعیین کنیم که 21 کمینه شود. ابتدا می نویسیم

22

با مربع کردن دو طرف داریم

23

اکنون هر دو طرف رابطه را بر روی مقادیر 24 جمع بندی می کنیم و توجه می نماییم که دو جمله آخر سمت راست فرمول، بعد از جمع بندی حذف می شود، زیرا

25

 بنابراین داریم

26

اکنون می توانیم جملات را از نو مرتب کنیم تا به شکل توان دوم درآیند.

27

آخرین جمله، شامل a و b نیست. بنابراین اگر قرار دهیم 28 می توانیم دو جمله اول را به کوچک ترین مقدار، یعنی صفر کاهش دهیم.

۷٫۱ خط رگرسیون کوچک ترین توان های دوم

نتیجه گیری ارائه شده در قسمت ۶٫۱ ، فرمول های برآوردهای کوچک ترین توان های دوم را فراهم می کند:

برآورد کوچک ترین توان های دوم، برای 19

برآورد کوچک ترین توان های دوم، برای 20

بنابراین برآوردهای 12 را می توان برای تعیین بهترین خط برازش بکار برد:

خط رگرسیون کوچک ترین توان های دوم: 34

با استفاده از این برآوردهای کوچک ترین توان های دوم، مقدار کمینه D عبارت است از:

32

این مقدار را مجموعه توان های دوم مانده ها یا مجموع توان های دوم ناشی از خطا می نامند و آن را با SSE نشان می دهند. بنابراین

مجموع توان های دوم مانده ها یا مجموع توان های دوم ناشی از خطا عبارت است از:

23

که در آن شکل دوم فرمول از این واقعیت نتیجه می شود که این مقدار، عبارت است اختلاف کل مشاهدات در اطراف خط رگرسیون برآزیده   است. هر انحراف مشاهده از خط برازیده را مانده می نامند. مانده، علاوه بر تهیه راه دیگری برای محاسبه SSE، در بازبینی فرض های مدل نقشی اصلی دارند.

مانده ها= 25

در به کار بردن روش کوچک ترین توان های دوم برای یک مجموعه از داده های مفروض ابتدا مناسب است که مقادیر پایه ای 26 را که در قسمت ۵٫۱ معرفی شدند، محاسبه کنیم. آنگاه فرمول های قبلی را می توان برای به دست آوردن خط رگرسیون کوچک ترین توان های دوم، مانده های و مقدار SSE به کار برد. این محاسبات برای داده های جدول ۲٫۱ ، در جدول ۴٫۱ ارائه شده اند.

010

011

بنابراین معادله خط برازیده به روش کوچک ترین توان های دوم به صورت زیر است

27

شکل۵٫۱ رسم داده ها را همراه با خط رگرسیون کوچک ترین توان های دوم نشان می دهد.

انحراف های مقادیر مشاهده شده y از خط برازیده، یعنی ،27 در ستون آخر جدول ۴٫۱ محاسبه شده اند. در ستون مانده ها، حفظ ارقام اعشاری اضافی، برای اجرای محاسبه دیگر SSE از روی مجموع مربعات مانده ها ضروری است. فرمول دوم به دست می آوریم

011

29

اختلاف بین ۷۳۷۶ /۰ و ۷۴ /۰ ناشی از گرد کردن است. به طور نظری، مجموع مانده ها باید صفر باشد، و اختلاف بین ۰۰۷ / ۰ و صفر نیز نتیجه گرد کردن است. این طریقه محاسبه ممکن است برای ماشین های حساب الکترونیکی بیشتر مناسب باشد.

۸٫۱ خواص برآورد کننده های کوچک ترین توان های دوم

باید به یاد داشته باشیم که خط  30، که به وسیله اصل کوچک ترین توان های دوم به دست می آید؛ برآوردی مبتنی بر داده های نمونه برای خط رگرسیون واقعی نامعلوم 31  است. در مسئله انتشار آلودگی به وسیله اتومبیل ( مثال اولیه ی ۳٫۱ )، خط برآورد شده عبارت است از ۲+۰٫۳۸۷x این نتیجه می گوید هر واحد از ماده اضافه شده، بهبود بی معادل ۳۸۷/۰ ، در میانگین کاهش اکسید ازت دارد. اگر، برای مثال، ۲/۳= xواحد از ماده اضافی امتحان شود، می توان از خط رگرسیون برازیده برای محاسبه مقدار کاهش برآورد شده استفاده کرد، که این مقدار کاهش ۲+۰٫۳۸۷(۳,۲)=۳,۲ است.

در این مورد طبیعتا دو سوال درباره این برآوردها پیش می آید:

الف) با توجه به مقدار ۰,۳۸۷ برای 35، آیا می تواند 34 باشد، به طور که y به x بستگی نداشته باشد؟ چه مقادیری برای 1 قابل قبول هستند؟

ب) چه میزانی از عدم یقیق را می توان به برآورد ۲+۰,۳۸۷(۳,۲)=۳,۲۴ که، مربوط به نقطه( a+1 (3,2 واقع بر خط رگرسیون واقعی است نسبت داد؟

برای پاسخ به این سوال ها و سوال های مربوطه دیگر، باید درباره توزیع های نمونه ای برآورد کننده های کوچک ترین توان های دوم 12 اطلاعاتی داشته باشیم. برای اجتناب از محاسبات طولانی جبری، صرفا این توزیع ها و خواص آنها را بدون اثبات بیان می کنیم.

الف) برآورد کنننده های کوچک ترین توان های دوم نااریب هستند؛ یعنی

38

ب)39

ج) توزیع های 41 به ترتیب با میانگین های 40 نرمال هستند؛ انحراف معیارها ریشه دوم واریانس هایی هستند که در قسمت (ب) داده شده اند.

د) 42برآوردکننده نااریبی از 43 است.

به علاوه 44 دارای توزیع 45 بوده، مستقل از 41 است.

ه) با جایگزین کردن 43 در (ب) توسط برآورد نمونه ای ، و در نظر گرفتن ریشه دوم واریانس ها، خطاهای معیار برآورد شده برای 41 به دست می آیند:

46

47

و)

untitled

ضمنا، در اینجا یک امتیاز اصل کوچک ترین توان های دوم را علاوه بر قابل قبول بودن حسی آن، بدون دلیل ذکر می کنیم. برآورد کننده های 41نه تنها نااریب اند، بلکه در بین تمام برآورد کننده های نااریب، دارای کوچک ترین واریانس ممکن نیز هستند. به عبارت دیگر،41 بهترین برآورد کننده های نااریب اند. این خاصیت ریاضی اغلب برای توجیه روش کوچک ترین توان های دوم ارائه می شود.

۹٫۱ مسائل استنباطی مهم

اکنون به نحوه آزمون فرض ها، ساختن فاصله های اطمینان، و پیش بینی در زمینه مدل رگرسیون خطی توجه می کنیم.

۱٫۹٫۱ استنباط مربوط به شیب 1

در مسئله تجزیه و تحلیل رگرسیون، موضوعی که ممکن است مورد توجه مخصوص قرار گیرد این است که تعیین کنیم آیا امید ریاضی پاسخ، با تغییر مقدار متغییر کنترل شده تغییر می کند یا یا نه. بر طبق مدل، امید ریاضی پاسخ، با سطح متغییر کنترل شده، به وسیله تساوی زیر در ارتباط است.

1

که در آن 51 به این معناست که پاسخ y منتاظر با سطح داده شده x از متغییر کنترل شده است. امید ریاضی 52 پاسخ با تغییر x، تغییر نمی کند اگر و فقط اگر 34 باشد.

بنابراین می توانیم فرض صفر60را در برابر یک فرض مقابل یک طرفه یا دو طرفه، بسته به ماهیت رابطه مورد انتظار، آزمون کنیم. با مراجعه به خاصیت (و) که در قسمت ۸٫۱ د اده شده است، فرض صفر 60 باید به وسیله

1

آزمون شود.

مثال ۶٫۱ آیا داده های جدول ۲٫۱ گواهی نیرومند بر این است که ماده اضافه شده، مقدار اکسید ازت در دامنه مورد مطالعه را کاهش می دهد؟

در جواب به این سوال، باید آزمون  60را در برابر 55 مورد نظر قرار دهیم.

چون  56، مقدار آماره آزمون عبارت است از

untitled

در جدول، برای d.f.=8 مقدار tی ۵% بالایی، برابر با ۱,۸۶۰ است. بنابراین مقدار tی مشاهده شده خیلی معنی دار است، و 59رد می شود، یعنی وقتی ماده اضافی به کار می رود کاهش معنی داری در مقدار اکسید ازت رخ می دهد.

نکته ای که باید در اینجا ذکر کرد مربوط به تفسیر آزمون 60است. اگر 59 رد نشود، ممکن است اغوا شویم و نتیجه بگیریم که y به x بستگی ندارد. چنین بیان نامناسبی می تواند غلط باشد. اولا، فقط عدم وجود یک رابطه خطی در دامنه مقادیر x آزمایش تایید شده است، و هیچ پایه ای برای استخراج نتایجی درباره رابطه مقادیر xی که در خارج از دامنه مشاهده شده قرار دارند موجود نیست. ثانیا، تفسیر عدم بستگی فقط در حالتی اعتبار دارد که فرمول بندی مدل، صحیح باشد. اگر نمودار پراکنش، رابطه ای به شکل منحنی را نشان دهد و ما نا آگانه مدل خطی را فرمول بندی کرده و 60را آزمون کنیم، نتیجه پذیرفتن 59 باید به این معنی تفسیر شود که ( رابطه خطی وجود ندارد ) نه این که بگوییم ( هیچ رابطه ای وجود ندارد).

به طور کلی تر، ممکن است برابری β را با مقدار پذیرا شده 1، که لزوما صفر نیست، آزمون کنیم.

آزمون برای

1

بر مبنای

2

است.

علاوه بر آزمون فرض ها، می توان فاصله اطمنانی برای پارامترهای β با استفاده از توزیع t به دست آورد. به عنوان مثال،

فاصله طمنان ۹۵% برای β :

untitled

که در آن 1 نقطه ۲,۵% بالایی توزیع t با 2 است.

مثال ۷٫۱ برای داده های کاهش اکسید ازت ارائه شده در جدول ۲٫۱ فاصله اطمنان ۹۵% برای β به وسیله

3

داده می شود. یعنی ۹۵% اطمینان داریم که با اضافه کردن یک واحد بیشتر از ماده اضافی، به میانگینی از کاهش اکسید ازت که بین۰/۲۷۷ , ۰/۴۹۷ دست می یابیم.

۲٫۹٫۱ استنباط درباره a

هر چند شیوه های استنباط، نظیر آنهایی که در بخش ۱٫۹٫۱ داده شده اند، در عمل برای پارامتر a از اهمیت کمتری برخوردارند، ولی می توان چنین شیوه هایی را با استفاده از توزیع t با درجه آزادی n-2 که در خاصیت (و) قسمت ۸٫۱ در مورد1بیان شد برای پارامتر a اعمال کرد. به عنوان مثال،

فاصله اطمنان ۹۰% برای a:

untitled

به علاوه برای آزمون کردن

آژمون بر مبنای

72

است.

۳٫۹٫۱ پیش بینی میانگین پاسخ برای یک مقدار معین x

مهمترین هدف در مطالعه رگرسیون ممکن است استفاده از مدل رگرسیون برازیده برای تعیین برآورد امید ریاضی پاسخ متناظر با یک سطح معین از متغییر کنترل شده باشد. به عنوان مثال، ممکن است بخواهیم امید ریاضی کاهش اکسید ازت برای مقدار معین 1 از ماده اضافه شده را، در مورد تمام پیکان ها،با استفاده از مدل رابطه خطی برآورد کنیم. بر طبق مدلی خطی که در قسمت ۴٫۱ بررسی شد، امید ریاضی پاسخ، به ازای یک مقدار1از متغییر کنترل شده x به وسیله 80 داده می شود. یک برآورد کننده نااریب این مقدار برابر با 76 است، زیرا 41به ترتیب برآورد کننده های نااریب a و β هستند. به عبارت دیگر، نقطه ای از خط رگرسیون برازیده متناظر با مقدار1 از x ؛ برآوردی نااریب از امید ریاضی پاسخ را به دست می دهد. خواص دیگر برآورد کننده عبارت اند از:

برای برآورد کردن 80، برآورد کننده 76را به کار برآید:

1

دارای توزیع t با d.f. = n-2 است.

این توزیع t را می توان برای ساختن فاصله های اطمینان یا آزمون فرض ها با روش معمولی به کار برد.

فاصله اطمینان ۹۵% برای امید ریاضی پاسخ 80 عبارت است از:

1

برای آزمون فرض 2، که در آن 83مقدار معینی است، توزیع t را به کار می بریم:

1

 

مثال ۸٫۱ مجداد موضوع داده های کاهش اکسید ازت ارائه شده در جدول ۲٫۱ و محاسبات مربوط به تجزیه و تحلیل رگرسیون داده شده در جدول ۴٫۱ را در نظر بگیرید. خط رگرسیون برازیده عبارت است از:

1

امید ریاضی کاهش متناظر با مقدار2 از ماده اضافی، به صورت ریز برآورد می شود:

 3

4

بنابراین، فاصله اطمینان ۹۵% برای میانیگن کاهش اکسید ازت به ازای2 عبارت است از:

1

۹۵% اطمینان داریم که میزان دسترسی به کاهش اکسید ازت بین ۳,۳۳ و ۳,۷۷ است.

فرض کنید که مایلیم میانگین کاهش در 2را هم برآورد کنیم. با انجام همان مراحل، برآورد نقطه ای عبارت است از:

3

فاصله اطمینان ۹۵% عبارت است از:

4

فرمول خطای معیار پیش بینی نشان می دهد وقتی 95 نزدیک است، خطای معیار کوچک تر از موقعی است که1 خیلی دورتر از96 قرار دارد. این موضوع به وسیله مثال ۸٫۱ تایید می شود، که در آن خطای معیار پیش بینی برای 2، بیشتر از دو برابر خطای معیار در 2است. در نتیجه، فاصله اطمینان در حالت دوم عرض تر هم هست. بنابراین می توان نتیجه گرفت که، در حالت کلی، پیش بینی در نقاط نزدیک میانگین 96، نسبت به مقادیر متغییر x که دور از میانگین اند، به مراتب دقیق تر است.

به علاوه، فرمول مربوط به خطای معیار پیش بینی، منعکس کننده قدرت فنون رگرسیون است، زیرا برای1 در مرکز96 مربوط به مقادیر x، مقدار آن برابر با1 است.

به عبارت دیگر، روش های رگرسیون نه تنها ما را قادر می سازد که تعیین کنیم x چگونه y را توجیه می کند، بلکه بیان می کند واریانس برآوردی از میانگین1 ، مساوی واریانس برای حالتی است که در تمام مشاهداتش همان تک مقدار ماده اضافی را برای همه امتحان ها به کار بریم.

توجه. در تعمیم خط رگرسیون برازیده، برای انجام پیش بینی های با دامنه طویل، در خارج دامنه مقادیر x مشمول در آزمایش، جدا باید محتاط بود. در این حالت ها، نه تنها فاصله اطمینان به قدری عریض است که پیش بینی بر مبنای آن بسیار غیر قابل اعتماد می شود، بلکه حتی، خطر بزرگ تری هم وجود دارد. اگر شکل رابطه بین متغییرها در یک فاصله از مقادیر x شدیدا تغییر کند، داده ها هیچ اطلاعی که با آن بتوان چنین تغییری را بررسی کرد به دست نمی دهند.

شکل ۶٫۱ این حالت را نشان می دهد. اگر آزمایش را برای مقادیر فاصله ۵ تا ۱۰ انجام دهیم رابطه خطی خوبی را مشاهده می کنیم، اما اگر خط برازیده را برای برآورد پاسخ، در2 به کار بریم، آنگاه برآورد شدیدا توام با خطاست.

۴٫۹٫۱ پیش بینی یک تک پاسخ برای مقدار معین x

فرض کنید مقدار معین1 از ماده اضافه شده را برای کی اتومبیل پیکان به کار بریم و بخواهیم مقدار کاهش اکسید ازت را پیش بینی کنیم. این مسئله با آنچه که در قسمت ۳٫۹٫۱ بحث کردیم و در آن می خواستیم میانگین کاهش برای جامعه تمام پیکان ها را در ازای یک مقدار1 از ماده اضافی برآورد کنیم فرق دارد. این بار هم پیش بینی از روی خط برازیده تعیین می شود؛ یعنی، مقدار پیش بینی شده پاسخ،untitled است که در حالت قبل نیز همین بود، ولی به مقدار خطای معیار پیش بینی در این حالت افزوده می شود، زیرا یک مشاهده تکی خیلی نامطمئن تر از میانگین تعداد زیادی از مشاهدات است. اکنون فرمول خطای معیار برآورد شده برای این حالت را ارائه می دهیم.

وقتی یک مشاهده تکی yرا به ازای1 مفروضی پیش بینی می کنیم خطای معیار برآورد شده عبارت است از:

2

فرمول فاصله اطمینان بر طرق این خطای معیار باید اصلاح شود.

مثال ۹٫۱ یک بار دیگر، به داده های کاهش اکسید ازت داده شده در جدول ۲٫۱ توجه کنید. امتحان جدیدی را می خواهیم بر روی یک پیکان تنها با 103انجام دهیم.

کاهش پیش بینی شده در اکسید ازت عبارت است از:

1

و فاصله اطمینان ۹۵% برای کاهش اکسید ازت در این پیکان به صورت زیر است:

2

یا

(۳,۰۰   , ۴,۴۸)

معنی فاصله بالا این است که ۹۵% اطمینان داریم وقتی ۴,۵ واحد ماده اضافی به کار بریم، کاهش مقدار اکسید ازت در این اتومبیل جدید بین ۳ و ۴,۴۸ خواهد بود. این ادعا به این دلیل درست است که ۹۵% فاصله های اطمینانی که با این طریق بر مبنای تکرار نمونه ها محاسبه می شودند اندازه جدید را در بر خواهند گرفت.

۱۰٫۱ اگر متغییر پیش بین به وسیله آزمایشگر قابل کنترل نباشد چه باید کرد؟

تجزیه و تحلیل مدل رگرسیون خطی که در قسمت  های قبلی معرفی شد بر مبنای این فرض بود که متغییر مستقل x تصادفی نباشد. آزمایشگر مقادیر x را که آزمایش شامیل آنها می شد بر می گزید، و سپس متغییر تصادفی yی متناظر با این سطوح مختلف انتخاب شده x را مشاهده می کرد. این نوع شیوه در خیلی از آزمایش های کنترل شده مناسب است، مانند مطالعات رابطه بین y ، افزایش وزن، و x ، مقدار کربوهیدارت مصرف شده، y میزان محصول غله، و x مقدار کود داده شده یا y، زمان واکنش، و x، مقدار ضربه محرک. سطوح متغییر علتی x به وسیله آزمایشگر در دامنه واقع گرایانه ای، از قبل مشخص، و پاسخ y در یک سطح ثابت x ، به عنوان یک متغییر تصادفی با توزیع نرمال در نظر گرفته می شود. همان طوری که قبلا در شکل ۳٫۱ نشان داده شده است.

در مطالعات آزمایشی دیگر که شامل دو متغییر x و y است، هر چند که متغییر x ممکن است به عنوان متغییر علتی در پاسخ y موثر باشد، آزمایشگر ممکن است قادر به انتخاب های کنترل شده ای از مقادیر x نباشد. در جامعه واحدهای آزمایشی، x و y هر دو به عنوان متغییر هایی تصادفی در نظر گرفته می شوند که توزیع احتمال توامی حاکم بر تغییرات آنهاست. آزمایشگر یک نمونه تصادفی از n واحد آزمایشی را برمی گزیند و زوج های مقادیر 5را مشاهده می کند. هدف آزمایش هنوز هم به کار بردن این نوع داده ها برای فرمول بندی یک مدل پیش بینی امید ریاضی مقدار y به ازای مقدار معین x است. برای مثال، مدیر یک برنامه آموزشی ممکن است بخواهد رابطه بین x، نمره شرکت کنندگان در آزمون پذیرش و y، نحوه کار آنها را در طول برنامه به دست آورد. یک مدل پیش بینی y بر حسب x ، باید به همان اندازه که در پیش بینی نتیجه برنامه سازگار است نیز سودمند باشد. مجموعه داده ها باید شامل نمرات x و نمرات y برای یک نمونه تصادفی، متشکل از n شرکت کننده باشد؛ به وضوح، آزمایشگر در این موقعیت هیچ کنترلی روی مقادیر x ندارد.

وقتی x و y هر دو متغییرهای تصادفی هستند به وسیله نمونه گیری تصادفی مشاهده می شوند، فرمول بندی ریاضی مدل پیش بینی و شرایط وابسته به آن بر مبنای توزیع احتمال نرمال دو متغییره است. در هر صورت، تا وقتی که x را به عنوان متغییری علنی می شناسیم که در y نفوذ دارد، و هدف نمونه گیری، پیش بینی مقدار y از روی مقدار x است. به عبارت دیگر، مقادیر مشاهده شده x به عنوان سطوح ثابتی تلقی می گردند که برای آنها آزمایش انجام گرفته است، و نتایچ به صورت شرطی روی مجموعه مشاهده شده مقادیر X تفسیر می شوند. متقابلا، در موقعیت هایی که خطاهای اندازه گیری قابل توجهی در ثبت مقادیر x و همچنین مقادیر y وجود داشته باشد فنون مخصوصی را باید به کار برد.

۱۱٫۱ ملاحظاتی درباره مدل

شیوه های اساسی استنباط آماری وابسته به مدل رگرسیون خطی با یک متغییر مستقل، در قسمت ۹٫۱ شرح داده شد. در هر صورت، باید به یاد داشته باشیم که اعتبار این شیوه ها و مفید بودن نتایج آن ها مشروط به فرض هایی است که در فرمول بندی مدل قبول کرده ایم. مطالعه رگرسیون به وسیله اجرای تعداد کمی از آزمون های فرض و یا ساختن فاصله های اطمینان عادی برای پارامترها، بر پایه فرمول های داده شده در مبحث ۹٫۱ هدایت نمی شود. اگر فرض هایی که درباره فرمول بندی مدل منظور شده اند شدیدا با داده ها ناسازگار باشند. چنین نتایجی به طور جدی گمراه کننده خواهند بود به این دلیل یک کار اساسی، بازبینی دقیق داده ها برای تشخیص هر گونه تخطی از فرمول هاست. برای نگرشی دوباره، فرض هایی را که در فرمول بندی مدل خط مستقیم دخالت دارند مجددا به اختصار ذکر می کنیم:

الف) خطی بودن رابطه زیر بنایی.

ب) استقلال خطاها.

ج) ثابت بودن واریانس.

د) نرمال بودن توزیع.

البته وقتی ماهیت کلی رابطه بین x و y به جای خط مستقیم، یک منحنی را بسازد، پیش بینی های حاصل از یک مدل خط مستقیم برازیده به داده ها، مممکن است نتایچی بی معنی به وجود آورد. اغلب یک تبدیل مناسب داده ها، رابطه ای غیر خطی را تقریبا به شکل خطی تبدیل می کند. تخطی از فرض استقلال، شاید چدیدترین نوع خطا باشد، زیرا نتایج حاصل از آزمون های t و احکام اطمنان مربوط به برآورد فاصله ای را می تواند به طور جدی تحریف نماید. مفهوم فرض های (ج) و (د) قبلا در شکل ۳٫۱ نشان داده شده اند. اگر نمودار پراکنش نوساناتی را با اندازه های متفاوت در مقادیر y، به ازای سطوح مختلف x نشان دهد، آنگاه از فرض ثابت بودن واریانس تخطی شده است. در اینجا هم باز، تبدیل مناسبی از داده ها اغلب به ثابت نگه داشتن واریانس کمک می کند. بالاخره، به کار بردن توزیع t در آزمون فرض و برآورد فاصله اطمینان تا وقتی اعتبار دارد که خطاها به طور تقریب به صورت نرمال توزیع شده باشند.

البته، انحراف خفیفی از فرض نرمال بودن، به خصوص وقتی که مجموعه داده بزرگ است، نتایج را خراب نمی کند، به عبارت دیگر، به تنهایی تخطی از فرض (د)، به اندازه تخطی از فرض های دیگر جدی نیست.

لازم است که باز به جنبه مهمی از مسئله رگرسیون برگردیم: چه مقادیری از3 1 2 را باید در آزمایش وارد کنیم؟ فاصله 111که مقادیر x باید در آن قرار گیرند و تعداد مشاهداتی که باید جمع آوری گردد نوعا توسط مسئله تحت بررسی تعیین می شوند. موضوعی که در طرح آزمایش ها مطرح می شود این است که چگونه n مقدار X را در فاصله 111اتنخاب کنیم تا دقیق ترین استنباط ها را به دست آوریم. چون تمام فرمول های خطای معیار که در قسمت ۸٫۱ داده شده اند شامل3=2 در مخرج کسر هستند، با بزرگ کردن2 تا حد ممکن، دقیق ترین برآوردها به دست می آید. وقتی n عدد زوجی باشد، مقدار بیشینه2 به وسیله جا دادن نصف مقادیر x در هر یک از دو نقطه پایانی فاصله111 فراهم می شود. بر طبق این استدلال، برای تهیه دقت بیشینه در برآورد، آزمایش باید فقط به ازای دو مقدار متمایز x که در دو نقطه انتهایی دامنه مورد نظر قرار دارند تکرار شود. اما، این توصیه قابل اجرا نیست، زیرا به ندرت از قبل می دانیم که مدل خط مستقیم صحیح است، و هر گاه تمام مشاهدات y، متناظر با فقط دو مقدار متمایز x باشند، غیر ممکن است بتوان صحیح بودن رابطه خطی را تعیین کرد. برای تعیین مناسب بودن مدل خط مستقیم یا مدل دیگری، به جای اینکه تمام مقادیر x را در دو سر فاصله جای دهیم اساسا باید مقادیر x را در دامنه مورد نظر پراکنده کنیم.

[highlight][/highlight]