Приведем пример использования информационных критериев при выборе наилучшей спецификации линейной модели.
Рассматривалась задача оценки влияния различных индексов цен на среднедушевое потребление бензина в США. (Исходные данные взяты из книги Green W., "Econometric Analysis", 3th edition, International Edition, pp.327).
Файл в системе STATISTICA выглядит следующим образом:
Рассматриваемые переменные:
YEAR – время,
G – среднедушевое потребление бензина (общие расходы на бензин, деленные на индекс цен),
Pg – индекс цен на бензин,
Y – чистый среднедушевой доход населения,
Pnc – индекс цен на новые автомобили,
Puc – индекс цен на подержанные автомобили,
Ppt – индекс цен на услуги общественного транспорта,
Pd – индекс цен на товары долговременного пользования,
Pn – индекс цен на скоропортящиеся товары,
Ps – индекс цен на услуги.
Будем рассматривать различные спецификации линейных моделей. В качестве зависимой переменной выберем среднедушевое потребление бензина. На первом этапе в качестве регрессоров будем использовать все остальные переменные. Результаты регрессии в этом случае:
Воспользуемся теперь процедурой пошагового исключения статистически незначимых регрессоров из модели, доступной в модуле STATISTICA "Множественная регрессия". Процедура последовательно исключает регрессоры, у которых значения t-статистик оценок коэффициентов ниже критического уровня.
Окончательная спецификация в этом случае включает кроме свободного члена три регрессора: YEAR, Pg, Ps. Результаты оценки модели:
Наконец, применим метод пошагового включения статистически значимых переменных в модель. Процедура последовательно включает регрессоры в модель, если значения t-статистик оценок коэффициентов получаются выше критического уровня.
В этом случае в модель вошли все переменные, кроме Pnc – индекса цен на новые автомобили. Результаты оценки модели:
Возникает вопрос: какая из рассмотренных спецификаций предпочтительнее? Ответим на этот вопрос, используя сравнение моделей по критериям Akaike и Schwartz. Для расчета критериев была написана программа на STATISTICA Visual Basic.
Для спецификации, включающей все регрессоры, число ограничений на степени свободы равно десяти, сумма квадратов ошибок 448.831. Значение критериев:
AIC = ln(448.831/27) + 2*10/27 = 3.551.
Schwartz = ln(448.831/27) + 10*ln(27)/27 = 4.031.
Для спецификации, в которой в модели присутствуют лишь статистически значимые регрессоры (YEAR, Pg, Ps) число ограничений на степени свободы равно четырем, сумма квадратов ошибок 939.361. Значения критериев:
AIC = ln(939.361/27) + 2*4/27 = 3.845.
Schwartz = ln(939.361/27) + 4*ln(27)/27 = 4.037.
Спецификация, полученная в результате процедуры пошагового включения (вошли все регрессоры, кроме Pnc – индекса цен на новые автомобили, число ограничений на степени свободы равно девяти, сумма квадратов остатков 470.52. Значения критериев:
AIC = ln(470.52/27) + 2*9/27 = 3.524.
Schwartz = ln(470.52/27) + 9*ln(27)/27 = 3.956.
Спецификация, включающая все регрессоры, кроме индекса цен на новые автомобили, показывает меньшие значения критериев. Следовательно, делаем вывод о том, что данная спецификация предпочтительнее остальных.
Рассмотрим другой пример: подгонка функции полиномами различных степеней. В качестве исходных данных взят временной ряд длиной 20 наблюдений. Будем подгонять этот ряд линейными регрессиями, в которых регрессоры будут являться полиномами различных степеней – Х, Х2...Х7.
Наша задача – выбрать оптимальную степень наибольшего полинома. Будем сравнивать модели с различными степенями полиномов по критериям Akaike и Schwartz. Модель, показывающую наименьшие значения критериев, будем считать оптимальной.
Результаты для регрессии Y = a0 + a1X + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + а7Х7 + e:
График наблюдаемых и предсказанных значений
Результаты для регрессии Y = a0 + a1X + а2Х2 + а3Х3 + а4Х4 + а5Х5 + а6Х6 + а7Х7 + а8Х8 + e:
График наблюдаемых и предсказанных значений
Сравнительный график предсказаний для моделей со степенями полиномов n=7 и n=8
Результаты показывают, что минимум значений критериев Akaike и Schwartz наблюдается при самой высокой степени полинома, равной семи. Следовательно, делаем вывод о том, что при подгонке исследуемого ряда целесообразно использовать спецификацию с наивысшей степенью полинома, равной семи.
Дополнительным доводом в пользу такого выбора спецификации может служить значение скорректированного R2, которое является наибольшим из всех рассматриваемых.
Графический анализ качества подгонки полиномами неизвестной функции дает следующий результат: при повышении степени полинома с n=1 до n=7 улучшение объясняющих свойств модели можно наблюдать визуально.
На изображенных графиках предсказанные значения приближаются к реальным данным с увеличением степени полинома. При использовании полинома восьмой степени качество подгонки практически не улучшается.
На приведенном сравнительном графике предсказаний для моделей со степенями полинома n=7 и n=8 графики предсказанных значений сливаются, следовательно, использование полинома восьмой степени избыточно и практически не улучшает прогнозных свойств модели.
Этот вывод и подтверждается ростом значения критерия Akaike.
Связанные определения:
Линейная регрессия
Матрица плана
Общая линейная модель
Регрессия
Скачать
Актуальные курсы