Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Выбор наилучшей линейной модели: критерий Акаике и Шварца

Приведем пример использования информационных критериев при выборе наилучшей спецификации линейной модели.

Рассматривалась задача оценки влияния различных индексов цен на среднедушевое потребление бензина в США. (Исходные данные взяты из книги Green W., "Econometric Analysis", 3th edition, International Edition, pp.327).

Файл в системе STATISTICA выглядит следующим образом:

Рассматриваемые переменные:

YEAR – время,
G – среднедушевое потребление бензина (общие расходы на бензин, деленные на индекс цен),
Pg – индекс цен на бензин,
Y – чистый среднедушевой доход населения,
Pnc – индекс цен на новые автомобили,
Puc – индекс цен на подержанные автомобили,
Ppt – индекс цен на услуги общественного транспорта,
Pd – индекс цен на товары долговременного пользования,
Pn – индекс цен на скоропортящиеся товары,
Ps – индекс цен на услуги.

Будем рассматривать различные спецификации линейных моделей. В качестве зависимой переменной выберем среднедушевое потребление бензина. На первом этапе в качестве регрессоров будем использовать все остальные переменные. Результаты регрессии в этом случае:

Воспользуемся теперь процедурой пошагового исключения статистически незначимых регрессоров из модели, доступной в модуле STATISTICA "Множественная регрессия". Процедура последовательно исключает регрессоры, у которых значения t-статистик оценок коэффициентов ниже критического уровня.

Окончательная спецификация в этом случае включает кроме свободного члена три регрессора: YEAR, Pg, Ps. Результаты оценки модели:

Наконец, применим метод пошагового включения статистически значимых переменных в модель. Процедура последовательно включает регрессоры в модель, если значения t-статистик оценок коэффициентов получаются выше критического уровня.

В этом случае в модель вошли все переменные, кроме Pnc – индекса цен на новые автомобили. Результаты оценки модели:

Возникает вопрос: какая из рассмотренных спецификаций предпочтительнее? Ответим на этот вопрос, используя сравнение моделей по критериям Akaike и Schwartz. Для расчета критериев была написана программа на STATISTICA Visual Basic.

Для спецификации, включающей все регрессоры, число ограничений на степени свободы равно десяти, сумма квадратов ошибок 448.831. Значение критериев:

AIC = ln(448.831/27) + 2*10/27 = 3.551.
Schwartz = ln(448.831/27) + 10*ln(27)/27 = 4.031.

Для спецификации, в которой в модели присутствуют лишь статистически значимые регрессоры (YEAR, Pg, Ps) число ограничений на степени свободы равно четырем, сумма квадратов ошибок 939.361. Значения критериев:

AIC = ln(939.361/27) + 2*4/27 = 3.845.
Schwartz = ln(939.361/27) + 4*ln(27)/27 = 4.037.

Спецификация, полученная в результате процедуры пошагового включения (вошли все регрессоры, кроме Pnc – индекса цен на новые автомобили, число ограничений на степени свободы равно девяти, сумма квадратов остатков 470.52. Значения критериев:

AIC = ln(470.52/27) + 2*9/27 = 3.524.
Schwartz = ln(470.52/27) + 9*ln(27)/27 = 3.956.

Спецификация, включающая все регрессоры, кроме индекса цен на новые автомобили, показывает меньшие значения критериев. Следовательно, делаем вывод о том, что данная спецификация предпочтительнее остальных.

Рассмотрим другой пример: подгонка функции полиномами различных степеней. В качестве исходных данных взят временной ряд длиной 20 наблюдений. Будем подгонять этот ряд линейными регрессиями, в которых регрессоры будут являться полиномами различных степеней – Х, Х2...Х7.

Наша задача – выбрать оптимальную степень наибольшего полинома. Будем сравнивать модели с различными степенями полиномов по критериям Akaike и Schwartz. Модель, показывающую наименьшие значения критериев, будем считать оптимальной.

Результаты для регрессии Y = a0 + a1X + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + а7Х7 + e:

График наблюдаемых и предсказанных значений

Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + а7Х7 + а8Х8 + e:

График наблюдаемых и предсказанных значений

Сравнительный график предсказаний для моделей со степенями полиномов n=7 и n=8

Результаты показывают, что минимум значений критериев Akaike и Schwartz наблюдается при самой высокой степени полинома, равной семи. Следовательно, делаем вывод о том, что при подгонке исследуемого ряда целесообразно использовать спецификацию с наивысшей степенью полинома, равной семи.

Дополнительным доводом в пользу такого выбора спецификации может служить значение скорректированного R2, которое является наибольшим из всех рассматриваемых.

Графический анализ качества подгонки полиномами неизвестной функции дает следующий результат: при повышении степени полинома с n=1 до n=7 улучшение объясняющих свойств модели можно наблюдать визуально.

На изображенных графиках предсказанные значения приближаются к реальным данным с увеличением степени полинома. При использовании полинома восьмой степени качество подгонки практически не улучшается.

На приведенном сравнительном графике предсказаний для моделей со степенями полинома n=7 и n=8 графики предсказанных значений сливаются, следовательно, использование полинома восьмой степени избыточно и практически не улучшает прогнозных свойств модели.

Этот вывод и подтверждается ростом значения критерия Akaike.


Связанные определения:
Линейная регрессия
Матрица плана
Общая линейная модель
Регрессия

В начало

Содержание портала