Обобщённые линейные модели (Generalized Linear Models) – универсальный метод построения регрессионных моделей, позволяющий учитывать взаимодействие между факторами, вид распределения зависимой переменной и предположения о характере регрессионной зависимости.
Метод может быть использован во всех областях применения прикладной статистики – медицина, экология, демография, сельское хозяйство, геология, археология, психология, социология и др. Однако наибольшее применение обобщённые линейные модели получили в страховании.
GLM являются хорошо разработанным и простым для понимания способом построения моделей. Благодаря компьютерным технологиям, построение GLM не требует от исследователя глубинных знаний в математической статистике; поэтому всё большее количество пользователей применяют этот метод для построения адекватных моделей.
Основными преимуществами GLM по сравнению с традиционными методами являются следующие особенности анализа:
GLM твердо обосновались в статистической теории и предлагают практические методы построения адекватных моделей.
Модуль Обобщённые линейные и нелинейные модели системы STATISTICA содержит большое количество средств для построения обощённых линейных моделей.
На этапе задания анализа пользователь имеет возможность
После построения модели пользователь имеет доступ ко всем результатам работы модуля: как к таблицам, отражающим ход построения модели, так и непосредственно к анализу построенной модели.
Большое количество встроенных критериев и средств визуализации позволяет исследователю
В рамках данного обзора мы опишем все элементы анализа и продемонстрируем применение метода на примерах.
На начальном этапе работы с модулем Обобщённые линейные и нелинейные модели необходимо задать анализ.
Принципиально возможно три способа задания; выбрать наиболее подходящий способ можно с помощью соответствующей опции в окне модуля.
Способ 1. Диалог. При таком подходе Вы задаёте все параметры анализа в двух окнах системы.
Способ 2. Мастер анализа. В этом случае Вы сможете по шагам с помощью последовательных диалогов определить анализ. Для неопытных пользователей такой способ является более предпочтительным.
Способ 3. Редактор кода. При таком способе модель будет определена в диалоге Редактор кода GLZ. В этом диалоге Вы можете программно задать анализ; быстрому заданию способствуют различные опции для определения планов и изменения различных параметров вычислений. Вы можете также открыть существующий текстовый файл с кодом или сохранить код в файле для дальнейшего использования.
Задание анализа состоит из следующих элементов (звёздочкой помечены обязательные шаги).
Можно задать следующие распределения зависимой переменной: нормальное, Пуассона, гамма, биномиальное, полиномиальное, полиномиальное для порядковой шкалы и обратное нормальное.
Выбор распределения чаще всего диктуется типом зависимой переменной.
Вполне оправдано предварительное тестирование гипотезы о виде функции распределения с помощью модуля Подгонка распределения и визуальных методов (гистограмма, а также для непрерывных распределений графики квантиль – квантиль и вероятность - вероятность), а также, в случае нормального распределения, коэффициентов асимметрии и эксцесса.
Однако следует иметь в виду, что гипотеза о виде распределения зависимой переменной рассматривается для каждого набора предикторных переменных в модели и, поэтому тестирование переменной отклика по всем наблюдениям лишено смысла.
После выбора распределения нужно указать функцию связи; для разных распределений свой набор доступных функций связи. Например, для нормального распределения можно указать логарифмическую, степенную или тождественную функции.
Важной особенностью программы STATISTICA является возможность задания неканонической функции связи (для каждого распределения существует своя, наиболее естественная функция связи, которую называют канонической). Использование неканонического «спаривания» может привести к существенно более хорошей модели.
Некоторый набор «спарок» доступен на вкладке Быстрый:
Приведём несколько примеров расшифровки названий моделей:
и т. д.
В списке Вид анализа выберите тип плана, на основе которого вы хотите провести анализ. Отметим, с помощью опции Общие пользовательские планы вы можете определить любой вид анализа.
Все возможные ситуации можно классифицировать следующим образом:
1) все независимые переменные – категориальные
a) если переменная только одна, то следует использовать однофакторный план;
b) если переменных несколько, то
2) все независимые переменные – непрерывные
a) если переменная только одна, то следует использовать простую регрессию;
b) если переменных несколько, то
3) в модели есть как категориальные, так и непрерывные переменные
Альтернативным подходом для задания вида анализа, реализованным в Общих пользовательских планах и Мастере анализа, является явное указание характера взаимодействия между переменными.
Пользователь может указать в качестве объясняющих переменных как все переменные, которые присутствуют в таблице, так и некоторый набор переменных. Кроме того, можно задать проведение анализа только для наблюдений с определенными значениями категориальных предикторов (задать коды переменных).
Зачастую исследователю может быть непонятно, какие факторы следует включать в модель, а какие - нет.
Наиболее распространённый способ решения этой проблемы состоит в следующем подходе: сначала в модель включаются все возможные переменные и эффекты их взаимодействия, потом из модели исключается переменная, которая влияет на модель наименьшим образом (и это влияние незначимо) и модель строится заново; затем удаляется следующая переменная и т.д. до тех пор, пока в модели не останутся только значимые факторы. В системе STATISTICA эту последовательность действий можно провести автоматически, задав соответствующий метод построения модели.
В системе STATISTICA пользователю предоставляется три принципиальные возможности выбора метода построения модели:
1) Все эффекты – в этом случае при построении будут использованы все факторы, заданные пользователем на предыдущих шагах.
2) Итеративные процедуры (пошаговый с включением, пошаговый с исключением, только включение, только исключение) – в этом случае модель будет строиться либо при поэтапном исключении из модели (см. описание этой процедуры выше), либо при поэтапном включении в модель. Кроме того, если выбрана опция Пошаговый с включением, то STATISTICA на каждом шаге будет анализировать сразу и "включение", то есть добавление переменной или эффекта в модель и "исключение", то есть удаление ранее добавленной переменной или эффекта из модели.
3) Метод наилучших подмножеств – при таком подходе будет выполнен поиск среди всех подмножеств эффектов в текущем плане и определён такой набор эффектов, при котором получается модель, наиболее адекватно описывающая зависимость.
Итеративные процедуры и метод наилучших подмножеств допускают задание дополнительных параметров, оказывающих влияние на процедуру построения модели.
Регулируя параметры итеративных процедур, можно увеличивать или уменьшать количество переменных в модели, и, тем самым, регулировать сложность модели.
Для метода Поиск наилучших подмножеств можно указать критерий, по которому будет определяться лучшие подмножества: статистика меток, метод максимума правдоподобия или критерий Акаике.
Сразу отметим, что изменять технические параметры рекомендуется только опытным пользователям.
Пользователь имеет возможность указать (изменить) следующие параметры:
1) нужно ли использовать сигма – ограниченную модель для параметризации категориальных предикторов (по умолчанию используется сверхпараметризованная модель);
2) следует ли прибавлять к линейной комбинации предикторов свободный член.
Кроме того, пользователь может задать технические параметры, которые будут использованы при решении системы уравнений.
Вы можете явно указать переменную сдвига (вектор «параметров сдвига»); указание этой переменной диктуется содержательным смыслом задачи.
Одним из способов тестирования адекватности моделей является резервирование части наблюдений в качестве кросс – проверочной выборки; эти наблюдения не используются для построения моделей, а по завершению работы алгоритма «пропускаются» через построенные модели (вычисляются значения, которые прогнозируются моделями).
Затем истинные и предсказанные значения сопоставляются и выбирается модель, предсказанные по которой значения наиболее близки к истинным.
В рамках данного обзора мы опишем возможности, которые содержатся в окне результатов работы модуля Обобщённые линейные и нелинейные модели.
Примеры интерпретации результатов Вы можете найти в разделе Примеры.
В окне результатов Вы можете получить исчерпывающую информацию о параметризации категориальных переменных и взаимодействий переменных, которые использовались при построении модели.
Для каждой переменной и каждого эффекта взаимодействия, используемых в модели, Вы можете вычислить простейшие описательные статистики нажатием одной кнопки из окна результатов.
Кроме того, можно вычислить матрицу корреляций между переменными, используемыми в модели. Эта информация может оказаться весьма полезной при принятии решения об изменении набора предикторов и эффектов.
После завершения процесса построения модели, можно посмотреть значения оценок параметров модели и параметра масштаба, доверительные интервалы для оценок параметров модели, значимость переменных и эффектов, а также получить информацию об итеративном процессе нахождения этих параметров.
Значимость предикторов определяется посредством статистики Вальда и статистики меток; значимые предикторы (т.е. предикторы, p-уровень проверки соответствующей гипотезы для которых меньше 5%) подсвечиваются красным цветом.
Информация о значимости предикторов является важной для определения параметров, которые следует включать в модель. Однако может оказаться, что, например, две из четырёх переменных описывающих взаимодействие двух категориальных переменных, значимы, а другие две – нет. Невольно возникает вопрос: нужно ли включать такое взаимодействие в модель?
Для ответа на этот вопрос из окна результатов можно вызвать таблицы, содержащее значения статистики Вальда, статистики меток и статистики хи – квадрат для каждой переменной.
В окне результатов можно получить дополнительную информацию о процедуре выбора наилучшего подмножества. Такая информация, а именно, важные параметры каждого из шагов содержится в таблице Результаты построения моделей:
Анализируя такую таблицу (особенно важен последний столбец), можно понять, какой набор предикторных переменных и эффектов является оптимальным для данной модели.
При построении модели методом Пошаговый с включением на каждом шаге производится добавление переменных в модель. Пользователю доступна информация о том, какие переменные были добавлены на шагах и все технические параметры работы алгоритма.
Анализируя такую таблицу, можно принимать решения об упрощении/усложнении модели – например, если исследователю хочется получить более простую модель, то он может оставить в модели только те переменные, которые были выделены на первых шагах работы алгоритма.
При нажатии на кнопку Критерий согласия отображается таблица с численными значениями параметров, показывающих адекватность построенной модели:
Естественным средством для визуального анализа качества подгонки является диаграмма рассеяния между предсказанными и наблюдаемыми значениями зависимой переменной.
Помимо обычных остатков вычисляется ряд других характеристик отличий предсказанных значений от наблюдаемых – остатки Пирсона, остатки отклонений, рычаг, стьюдентизированные остатки, расстояния Кука.
Окно результатов работы модуля Обобщённые линейные и нелинейные модели содержит большое количество графических возможностей для тестирования качества модели – пользователь имеет возможность визуально проверять качество подогнанной модели.
Некоторое представление о качестве подгонки можно получить, подсчитав для каждой переменной по каждому уровню средние величины исходных и предсказанных значений.
Средние значения и 95-процентные доверительные интервалы для средних значений можно эффектно визуализировать на диаграмме диапазонов:
Связанные определения:
Обобщенная линейная модель
Функция связи
Скачать
Курсы по актуарной математике