Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Случайная цитата


Ум заключается не только в знании, но и в умении прилагать знание на деле. (Аристотель)

Построение предсказательных моделей в STATISTICA: выделение тепла при отвердении портлэндского цемента

Постановка Задачи

Исходные данные

Анализ

Модуль «Множественная регрессия»

Результаты регрессии

Итоговая таблица

Анализ нормальности остатков

Парные корреляции

Сравнение моделей с регрессорами (X_1, X_2) и (X_1, X_4)

Таблица предсказанных значений

Вывод

Постановка Задачи

Рассматривается важная практическая задача – установление зависимости между компонентами и выделяющимся теплом при отвердевании портландского цемента.

Имеются табличные результаты экспериментального исследования тепла, выделяющегося про отвердевании портландского цемента.

Цифры устанавливают связь между количеством четырех компонент (3CaO·Al2O3, 3CaO·SiO2, 4CaO·Al2O3·Fe2O3, 2CaO·SiO2) в клинкерах, из которых изготовлен цемент, и выделившемся теплом.

Исходные данные

Независимые переменные (предикторы):

  • X_1 – количество трикальций-алюмината 3CaO·Al2O3;
  • X_2 – количество трикальций-силиката 3CaO·SiO2;
  • X_3 – количество тетракальций-алюминиум-феррита 4CaO·Al2O3·Fe2O3;
  • X_4 – количество дикальций-силиката 2CaO·SiO2

Зависимая переменная:

  • Y = X_5 – выделившееся тепло в калориях на грамм цемента;
  • X_1, X_2, X_3 и X_4 измеряются в процентах от веса клинкера, из которого производится цемент.

Исходные данные

Из первой строки таблицы, например, видно, что при значениях

Х_1 = 7, Х_2 = 26, Х_3 = 6, Х_4 = 60 выделяется 78,5 калорий тепла

Из третье строки видно, что при значениях

Х_1 = 11, Х_2 = 56, Х_3 = 8, Х_4 = 20 выделяется 104,3 калории тепла.

Для повышения качества цемента важно найти зависимость между компонентами цемента и выделяющимся теплом.

Предсказательные модели можно построить в ряде модулей STATISTICA, мы начнем работать в модуле множественная регрессия.


Анализ

Модуль «Множественная регрессия»

В меню «Анализ» выбираем модуль «Множественная регрессия» и запускаем его.

В открывшемся диалоговом окне нажимаем на кнопку «Переменные»: в качестве зависимой переменной выбираем X_5, в качестве независимых – X_1, X_2, X_3 и X_4.

Во вкладке «Дополнительно» ставим галочку напротив «Пошаговая или гребневая регрессия».

С помощью этой опции можно автоматизировать процесс выбора наиболее информативной в смысле R2 (доля объясненной дисперсии) модели регрессии.

Далее откроется диалоговое окно «Определение модели».

В строке «Процедура» выбираем «Пошаговая с включением».

Нажимаем «ОК», программа проведет вычисления и выдаст окно результатов, поеказанное ниже.

Результаты регрессии

Просмотрим это окно, двигаясь сверху вниз.

В верхней части окна приведены:

  • название зависимой переменной, число наблюдений;
  • коэффициент множественной корреляции, коэффициент детерминации R2, скорректированный R2;
  • значение F-статистики для проверки гипотезы H0 : линейная связь между зависимой и независимыми переменными отсутствует,
  • степени свободы распределения Фишера сс, уровень значимости р, соответствуюший F-статистике;
  • стандартная ошибку оценки, значение свободного члена, значение t-статистики для проверки гипотезы о равенсте свободного члена нулю, соответствующий уровень значимости p.

Итоговая таблица

Нажимаем кнопку «Итоговая таблица регрессии» для просмотра таблиц:

Из таблицы «Итоговые статистики» следует, что значение коэффициента детерминации R2 близко к 1, а p-значение меньше 0,05, значит модель регрессии (коэффициенты взяты из столбца «В» таблицы «Итоги регрессии для зависимой переменной»)

X_5 = 71,64831 + 1,45195·X_1 + 0,41611·X_2 – 0,23654·X_4

признается значимой, и очень хорошо объясняет дисперсию переменной X_5.

В столбце «t(9)» стоят значения статистики Стьюдента для проверки гипотезы о равенстве нулю соответствующего коэффициента, а в столбце «р-знач.» - соответствующие уровни значимости отклонения этой гипотезы.

Достаточно малым этот уровень является только для коэффициента при X_1. В то же время данная модель наиболее информативная в смысле R2, значит она информативней, чем модель с одним регрессором X_1.

Это говорит о том, что следуют продолжить изучение линейной связи между X_5 и (X_1, X_2, X_3, X_4), анализируя как их содержательный смысл, так и матрицу парных корреляций.

Анализ нормальности остатков

Дополним результаты регрессии анализом нормальности остатков.

Для этого перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения» диалогового окна «Результаты множественной регрессии».

Далее нажимаем кнопку «Анализ остатков», а в появившемся окне на вкладке «Диаграммы рассеяния» нажимаем кнопку «Предсказанные и остатки».

Также следует построить «Гистограмму остатков», которая находится во вкладке «Остатки» диалогового окна «Анализ остатков», и «Нормальный график остатков», который находится во вкладке «Вероятностные графики».

Имеется всего 13 наблюдений, гистограмма остатков и нормальный график остатков никакой существенной информации не дадут.

График «Предсказанные значения и остатки» говорит о несмещенности оценки остатков:

Парные корреляции

Перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения».

Далее нажимаем кнопку «Описательные статистики», а в появившемся окне на вкладке «Быстрый» или «Дополнительно» нажимаем кнопку «Корреляции».

Из матрицы видно, что переменные X_2 (трикальций-силикат 3CaO·SiO2) и X_4 (дикальций-силикат 2CaO·SiO2) сильно коррелированны, имеет место дублирование информации, и потому, по-видимому, есть возможность перехода от исходного числа признаков (переменных) к меньшему числу, иными словами, сократить размерность задачи.

Сравнение моделей с регрессорами (X_1, X_2) и (X_1, X_4)

Рассмотрим две регрессионные модели:

  1. с регрессорами X_1, X_2;
  2. с регрессорами X_1, X_4.

Опять воспользуемся модулем «Множественная регрессия».

В качестве зависимой переменной выбираем X_5, а в качестве независимых в первом случае X_1 и X_2, а во втором случае X_1 и X_4.

Проделаем уже описанные шаги для этих моделей и получим следующие результаты:

1. регрессоры X_1, X_2:

Уравнение регрессии:

X_5 = 52,57735 + 1,46831·X_1 + 0,66225·X_2

График «Предсказанные значения и остатки»:

2. регрессоры X_1, X_4:

Уравнение регрессии:

X_5 = 103,0974 + 1,4400·X_1 - 0,6140·X_4

График «Предсказанные значения и остатки»:

Как мы видим, в обеих моделях коэффициент детерминации R2 (0,978678375 и 0,972471048) близок к коэффициенту детерминации (0,982335451) в модели с тремя регрессорами (X_1, X_2, X_4), но в этих моделях оба коэффициента при регрессорах значимы.

Распределение точек на графиках «Предсказанные значения и остатки» говорит о несмещенности оценкок ошибок.

Поэтому следует отдать предпочтение модели с двумя регрессорами, а именно с X_1 и X_2, так как R2 в этом случае больше, чем в модели с регрессорами X_1, X_4.

Таблица предсказанных значений

Приведем таблицу предсказанных значений и остатков для выбранной модели с регрессорами X_1, X_2. Для этого перейдем во вкладку «Остатки/предсказанные/наблюдаемые значения» диалогового окна «Результаты множественной регрессии».

Далее нажимаем кнопку «Анализ остатков», а в появившемся окне на вкладке «Быстрый» или «Дополнительно» нажимаем кнопку «Остатки и предсказанные».

Получаем следующую таблицу:


Вывод

Итак, на основе проведенного регрессионного анализа была построена предсказательная модель:

X_5 = 52,57735 + 1,46831·X_1 + 0,66225·X_2

В отличие от моделей с большим числом регрессоров, в данной модели все коэффициенты являются значимыми на уровне α = 0,05.

Также данная модель является наилучшей в смысле R2 среди моделей с не более чем двумя регрессорами.

Однако, анализ показал, что есть модели с очень близкими значениями коэффициентов детерминации и объясненной дисперсии, поэтому окончательный выбор модели следует делать исходя из дополнительной информации, наример физической природе переменных и их характерных особенностях.

Литература

  1. Боровиков В. П., Ивченко Г. И. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере. – М.: Финансы и статистика, 1999.
  2. Боровиков В. П. STATISTICA. Искусство анализа данных на компьютере: для профессионалов. 3-е изд. – СПб.: Питер, 2003

В начало

Содержание портала