Модуль «Множественная регрессия»
Рассматривается важная практическая задача – установление зависимости между компонентами и выделяющимся теплом при отвердевании портландского цемента.
Имеются табличные результаты экспериментального исследования тепла, выделяющегося про отвердевании портландского цемента.
Цифры устанавливают связь между количеством четырех компонент (3CaO·Al2O3, 3CaO·SiO2, 4CaO·Al2O3·Fe2O3, 2CaO·SiO2) в клинкерах, из которых изготовлен цемент, и выделившемся теплом.
Независимые переменные (предикторы):
Зависимая переменная:
Исходные данные
Из первой строки таблицы, например, видно, что при значениях
Х_1 = 7, Х_2 = 26, Х_3 = 6, Х_4 = 60 выделяется 78,5 калорий тепла
Из третье строки видно, что при значениях
Х_1 = 11, Х_2 = 56, Х_3 = 8, Х_4 = 20 выделяется 104,3 калории тепла.
Для повышения качества цемента важно найти зависимость между компонентами цемента и выделяющимся теплом.
Предсказательные модели можно построить в ряде модулей STATISTICA, мы начнем работать в модуле множественная регрессия.
В меню «Анализ» выбираем модуль «Множественная регрессия» и запускаем его.
В открывшемся диалоговом окне нажимаем на кнопку «Переменные»: в качестве зависимой переменной выбираем X_5, в качестве независимых – X_1, X_2, X_3 и X_4.
Во вкладке «Дополнительно» ставим галочку напротив «Пошаговая или гребневая регрессия».
С помощью этой опции можно автоматизировать процесс выбора наиболее информативной в смысле R2 (доля объясненной дисперсии) модели регрессии.
Далее откроется диалоговое окно «Определение модели».
В строке «Процедура» выбираем «Пошаговая с включением».
Нажимаем «ОК», программа проведет вычисления и выдаст окно результатов, поеказанное ниже.
Просмотрим это окно, двигаясь сверху вниз.
В верхней части окна приведены:
Нажимаем кнопку «Итоговая таблица регрессии» для просмотра таблиц:
Из таблицы «Итоговые статистики» следует, что значение коэффициента детерминации R2 близко к 1, а p-значение меньше 0,05, значит модель регрессии (коэффициенты взяты из столбца «В» таблицы «Итоги регрессии для зависимой переменной»)
X_5 = 71,64831 + 1,45195·X_1 + 0,41611·X_2 – 0,23654·X_4
признается значимой, и очень хорошо объясняет дисперсию переменной X_5.
В столбце «t(9)» стоят значения статистики Стьюдента для проверки гипотезы о равенстве нулю соответствующего коэффициента, а в столбце «р-знач.» - соответствующие уровни значимости отклонения этой гипотезы.
Достаточно малым этот уровень является только для коэффициента при X_1. В то же время данная модель наиболее информативная в смысле R2, значит она информативней, чем модель с одним регрессором X_1.
Это говорит о том, что следуют продолжить изучение линейной связи между X_5 и (X_1, X_2, X_3, X_4), анализируя как их содержательный смысл, так и матрицу парных корреляций.
Дополним результаты регрессии анализом нормальности остатков.
Для этого перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения» диалогового окна «Результаты множественной регрессии».
Далее нажимаем кнопку «Анализ остатков», а в появившемся окне на вкладке «Диаграммы рассеяния» нажимаем кнопку «Предсказанные и остатки».
Также следует построить «Гистограмму остатков», которая находится во вкладке «Остатки» диалогового окна «Анализ остатков», и «Нормальный график остатков», который находится во вкладке «Вероятностные графики».
Имеется всего 13 наблюдений, гистограмма остатков и нормальный график остатков никакой существенной информации не дадут.
График «Предсказанные значения и остатки» говорит о несмещенности оценки остатков:
Перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения».
Далее нажимаем кнопку «Описательные статистики», а в появившемся окне на вкладке «Быстрый» или «Дополнительно» нажимаем кнопку «Корреляции».
Из матрицы видно, что переменные X_2 (трикальций-силикат 3CaO·SiO2) и X_4 (дикальций-силикат 2CaO·SiO2) сильно коррелированны, имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему числу, иными словами, сократить размерность задачи.
Рассмотрим две регрессионные модели:
Опять воспользуемся модулем «Множественная регрессия».
В качестве зависимой переменной выбираем X_5, а в качестве независимых в первом случае X_1 и X_2, а во втором случае X_1 и X_4.
Проделаем уже описанные шаги для этих моделей и получим следующие результаты:
1. регрессоры X_1, X_2:
Уравнение регрессии:
X_5 = 52,57735 + 1,46831·X_1 + 0,66225·X_2
График «Предсказанные значения и остатки»:
2. регрессоры X_1, X_4:
Уравнение регрессии:
X_5 = 103,0974 + 1,4400·X_1 - 0,6140·X_4
График «Предсказанные значения и остатки»:
Как мы видим, в обеих моделях коэффициент детерминации R2 (0,978678375 и 0,972471048) близок к коэффициенту детерминации (0,982335451) в модели с тремя регрессорами (X_1, X_2, X_4), но в этих моделях оба коэффициента при регрессорах значимы.
Распределение точек на графиках «Предсказанные значения и остатки» говорит о несмещенности оценкок ошибок.
Поэтому следует отдать предпочтение модели с двумя регрессорами, а именно с X_1 и X_2, так как R2 в этом случае больше, чем в модели с регрессорами X_1, X_4.
Приведем таблицу предсказанных значений и остатков для выбранной модели с регрессорами X_1, X_2. Для этого перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения» диалогового окна «Результаты множественной регрессии».
Далее нажимаем кнопку «Анализ остатков», а в появившемся окне на вкладке «Быстрый» или «Дополнительно» нажимаем кнопку «Остатки и предсказанные».
Получаем следующую таблицу:
Итак, на основе проведенного регрессионного анализа была построена предсказательная модель:
X_5 = 52,57735 + 1,46831·X_1 + 0,66225·X_2
В отличие от моделей с большим числом регрессоров, в данной модели все коэффициенты являются значимыми на уровне α = 0,05.
Также данная модель является наилучшей в смысле R2 среди моделей с не более чем двумя регрессорами.
Однако, анализ показал, что есть модели с очень близкими значениями коэффициентов детерминации и объясненной дисперсии, поэтому окончательный выбор модели следует делать исходя из дополнительной информации, наример физической природе переменных и их характерных особенностях.
Литература
Скачать
Курсы по промышленности