معیار اطلاعات آکائیک (AIC)

*معیار اطلاعات آکائیک

*تعریف معیار در ویکی

معیار اطلاعات آکائیک (AIC)

یک میزان از کیفیت نسبی مدل آماری از یک مجموعه از داده‌ها می‌باشد. در واقع معیار اطلاعات آکائیک (AIC) ابزاری برای انتخاب مدل است.AIC یک معادله بین برازش و پیچیگی مدل را توضیح می‌دهد. این آماره بر اساس پراکنش اطلاعات بنا شده است.

وقتی که مدل انتخابی را برای ارائه فرآیند تولید داده استفاده می‌شود، یک برآورد وابسته به اطلاعات از دست رفته پیشنهاد می کند.

AIC یک آزمون برای صحت فرض صفر ما نیست به عنوان مثال AIC نمی تواند چیزی در مورد کیفیت مطلق مدل ارائه کند. اگر همه مدل های انتخابی برازش ضعیفی داشته باشند AIC نمی تواند هشداری در این مورد نخواهد داد.

تعریف : به صورت کلی AIC را اینگونه می نویسیم . AIC = 2 K – ۲ ln L

وقتی که K تعداد پارامترها در مدل آماری و L ماکزیمم تابع در درستنمایی مدل برآورده می باشد. بین چند مدل انتخابی برای داده ها، آماری ارجاع می باشد که کمترین مقدار AIC  را داشته باشد.

با این وجود AIC  به تنهایی نیکویی برازش مدل را نشان نمی‌دهد. اما شامل خطایی است که با ازای آن تعداد پارامترهای برآوردگر افزایش می‌یابد. این خطا به نوعی مانع Overfitting  می‌شود.

( افزایش تعداد پارامترهای آزاد در مدل نیکویی برازش را بهبود می‌بخشد صرف نظر از تعداد پارامترهای آزاد در فرآیندهای آزاد در فرآیندهای تولید داده.)

AIC  بر اساس نظریه داده‌ها بنا شده است. ما به طور قطع نمی‌توانیم انتخاب کنیم به خاطر اینکه ما f رو نمی‌شناسیم. آکائیک نشان داد که با وجود اینکه می‌نویسیم برآورد کنیم بوسیله AIC   که چه مقدار اطلاعات کمتر یا بیشتر بوسیله G از دست رفته است.

این نیز قابل توجه است که نتایج AIC   چقدر ساده است

پس برآورد تنها به صورت مجانی ارزش دارد. اگر تعداد دادها کم باشد تصحیح مورد نیاز است.

روش اجراء :

برای اجرای AIC  ما شروع می‌کنیم با یک مجموعه مدل‌های انتخابی و سپس پیدا می‌کنیم مقادیر AIC مدل‌ها را غالبا در انتخاب یک مدل مقداری از اطلاعات برای توصیف مدل واقعی از دست می‌روند.

و ما مایل به انتخاب حدی هستیم که کمترین اطلاعات از دست رفته را داشته باشد. ما با قطعیت نمی‌توانیم انتخاب کنیم ولی می توانیم کاهش اطلاعات را مینیمم کنیم.

فرض کنیم مقادیر AIC به صورت AIC1, AIC2, … AICi,… AICn برای n مدل انتخابی باشند. آنگاه  را مینیمم این مقادیر باشد. سپس می‌تواند مقدار احتمال مینیمم سازی از دست دادگی اطلاعات را برای iامین مدل نشان می‌دهد.

به عنوان مثال فرض کنید که سه مدل داریم که آماره AIC برای این سه مدل به مقادیر زیر منتج شده‌اند ۱۰۰ و ۱۰۲ و ۱۱۰٫ بنابراین مدل دوم EXP((100-102)/2)=0.368 برابر برای مینیمم سازی از دست دادن اطلاعات محتمل تر است و مدل سوم EXP((100-110)/2)=0.007 برابر محتمل از مدل اول است برای مینیمم کردن از دست دادن اطلاعات.

در این مثال ما می‌توانیم مدل سوم را از ادامه بررسی خارج کنیم و حالا سه نکته پیش رو داریم :

۱-    ما می‌توانیم  داده‌های بیشتری جمع آوری کنیم و امیدوار باشیم که این امر می‌تواند به روشن شدن تفاوت دو مدل اول.

۲-    ما می‌توانیم به سادگی نتیجه بگیریم که این داده‌ها به اندازه کافی برای انتخاب مدل حمایت دارند.

۳-    ما می‌توانیم یک میانگین وزنی برای دو مدل اول به صورت ۱ و ۳۶۸/۰ اختیار کنیم و استنباط آماری را بر اساس مدل چندگانه وزن انجام دهیم.

مقدار  احتمال نسبی مدل i ام می‌باشد.

اگر همه مدلهای مورد بررسی دارای تعداد پارامترهای یکسان باشند AIC ممکن است خیلی شبیه آزمون نسبت درستنمایی به نظر برسد. به طور خاص، آزمون نسبت درستنمایی فقط برای مدل های تودرتو ارزشمند است در حالی که AIC این محدودیت را ندارد. وقتی مدل نمونه کوچک می‌باشد از اصلاح زیر استفاده می کنیم.

در حالتی که n (حجم نمونه) کوچک و یا K (تعداد پارامتر) بزرگ باشد این اصلاح ترجیح داده می‌شود .

ارتباط با کی دو

ما معمولاً  مایل هستیم که در بین چند مدل، مدلی را انتخاب کنیم که تابع درستنمایی در آن فرض نرمال بودن توزیع خطاها (با میانگین صفر) و مستقل از هم. این فرض باعث برازش مدل کی‌دو می‌شود. برای برازش کی‌دو تابع درستنمایی به صورت زیر داریم:

که در آن C یک مقدار ثابت و مستقل در مدل است و متغیر وابسته فقط در استفاده از داده های خاص است. برای مثال آن تغییر نمی‌کند اگر داده‌ها تغییر نکند. بنابراین AIC برابر است با

به عنوان تنها تفاوت در AIC معنی دار می‌باشد و ثابت C می‌تواند نادیده گرفته شود و به ما اجازه می‌دهد که از  برای مقایسه مدل استفاده کنیم.

از ویکی‌پدیا، دانشنامهٔ آزاد

معیار اطلاعاتی آکائیکه (به انگلیسی: Akaike information criterion، یا به طور مخفف AIC)

معیاری برای سنجش نیکویی برازش است. این معیار بر اساس مفهوم انتروپی بنا شده‌است و نشان می‌دهد که استفاده از یک مدل آماری به چه میزان باعث از دست رفتن اطلاعات می‌شود. به عبارت دیگر، این معیار تعادلی میان دقت مدل و پیچیدگی آن برقرار می‌کند. این معیار توسط هیروتسوگو آکائیکه برای انتخاب بهترین مدل آماری پیشنهاد شد.[۱]

با توجه به داده‌ها، چند مدل رقیب ممکن است با توجه به مقدار AIC رتبه بندی شوند و مدل دارای کمترین AIC بهترین است. از مقدار AIC می‌توان استنباط نمود که به عنوان مثال سه مدل بهتر وضعیت نسبتاً یکسانی دارند و بقیه مدل‌ها به مراتب بدتر هستند، اما معیاری برای انتخاب مقدار آستانه‌ای برای AIC که بتوان مدلی را به واسطه داشتن AIC بزرگتر از این مقدار رد کرد وجود ندارد.[۲]

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *