Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Обобщенные линейные модели (GLM)

Обобщённые линейные модели (GLM) - общепризнанный метод статистической обработки данных в страховании. Благодаря компьютерным технологиям, GLM широко признаны страховыми компании Европы, и быстро завоевывают признание профессионалов в США и Канаде.

GLM являются хорошо разработанным и простым для понимания способом построения моделей для анализа претензий и для прогнозирования продления старых/заключения новых страховых договоров.

Назначение GLM

Методология построения GLM

Структура данных

Литература

Назначение GLM

Сегодня GLM - общепризнанный метод статистической обработки данных в автомобильном и других видах страхования.

Большинство европейских страховых компаний используют GLM для анализа портфелей. GLM используются в Италии, Голландии, Испании, Португалии, Бельгии, Швейцарии, Южной Африке, Израиле, Австралии и в скандинавских странах.

Метод становится популярен в Канаде, Японии, Корее, Бразилии, Сингапуре, Малайзии и странах восточной Европы.

Основными приложениями GLM в страховании являются разработка тарифов и андеррайтинг (Андеррайтинг - принятие страховой ответственности за заявленные убытки или повреждения за вознаграждение - страховую премию). Кроме того, GLM часто используется для анализа целевого маркетинга.

Методология построения GLM

Обобщённые линейные модели включают в себя большое количество моделей, в том числе и все линейные модели.

GLM, в отличие от линейных моделей, не предполагают нормальность, равенство дисперсий и аддитивность эффектов.

Вместо этого

    1) вводится предположение о принадлежности зависимой переменной экспоненциальному семейству распределений;

    2) допускается изменение дисперсии при изменении среднего;

    3) наконец, влияния ковариат на зависимую переменную предполагается аддитивным в преобразованном масштабе.

Таким образом, вводятся следующие три предположения GLM:

  • Предположение случайности: все компоненты отклика независимы, их распределение принадлежит экспоненциальному семейству.
  • Предположение систематичности: предикторов объединяются в один «линейный предиктор»
  • Функция связи: взаимосвязь между предположениями случайности и систематичности выражается функцией связи , дифференцируемой и монотонной, такой, что

Структуру GLM можно записать в виде

где

- вектор значений отклика

- функция связи: обратимая функция, которая выражает зависимость ожидаемого отклика от линейной комбинации факторов

- матрица (матрица плана), создаваемая по значениям факторов

- вектор оцениваемых параметров модели

- вектор известных эффектов или «параметров сдвига»

- параметр масштаба функции

- функция дисперсии

- априорные веса, отражающие доверие к каждому наблюдению

Вектор откликов Y i, матрица плана X ij, априорные веса и параметры сдвига основаны на данных, определяемых пользователем. Предположения, которые в дальнейшем определяют форму моделей, выражены в функции связи g(x), функции дисперсии V(x), и параметре (вместо параметра можно использовать его оценку).

После задания модели, т.е. определения и задания множества наблюдений , компоненты вектора могут быть получены максимизированием функции правдоподобия (или, что эквивалентно, максимизированием логарифма от функции правдоподобия). Такой подход направлен на поиск значений параметров, при которых выбранная модель принимает данные значения с наибольшей вероятностью.

Правдоподобие определяется как произведение вероятностей наблюдения данного значения. Для непрерывных распределений, таких как нормальное или гамма распределение, вместо вероятностей используются соответствующие значения функции плотности.

Обычно, для удобства вычислений, рассматривается не сама функция правдоподобия, а логарифм от неё; очевидно, что значения, максимизирующие функцию правдоподобия максимизируют и логарифм от неё.

Структура данных

Общая структура данных, используемых при построении GLM для претензий, состоит из информации о полисе и требованиях отдельно взятого клиента. Кратко говоря, обычно включают следующую информацию по требованиям:

  • Объясняющие переменные – внутренние и внешние по отношению к компании, дискретные и непрерывные.
  • Вспомогательные переменные для стандартизации по времени, географическому местоположению и определенным историческим андеррайтинговым эффектам.
  • Поля для подверженности риску – как правило, эти поля разбивают по типам требований (такое разбиение используется особенно часто, если некоторые типы претензий возникают только для определённых полисов). Поля должны содержать информацию о рисках потенциальных убытков для данной записи.
  • Поля для количеств заявленных требований. Для каждого типа требований должно быть своё поле, в котором будет храниться число заявленных требований данного типа за рассматриваемый период.
  • Поля для заявленных размеров потерь. Для каждого типа требований должно быть отдельное поле, в котором будет храниться информация о величине потерь по требованиям за рассматриваемый период.
  • Поля для премий. В этих полях хранится информация о премиях, заработанных за соответствующий записи период. Если премии можно разделить по типам требований, то это также можно использовать для улучшения качества анализа. Такая информация не используется напрямую при моделировании частоты и величины требований, но она может быть полезна при проведении дальнейшего анализа после того, как модель уже построена (например, измерение влияния перехода к новой системе тарификации).

При анализе удерживания полисодержателей или при анализе новой бизнес – политики компании требуется другой формат хранения данных.

Например, для подгонки GLM к данным о продлении действия полисов, таблица должна содержать отдельную запись для каждого предложения продлить полис и должна состоять из следующих полей:

  •       Объясняющие переменные, включающие, например:
    • факторы, влияющие на тарифы
    • другие факторы, такие как канал распространения, способ оплаты и количество промежутков времени, в течение которых полис был активен
    • изменение в премии при последнем продлении
    • изменение в премии при предпоследнем продлении
    • мера конкурентоспособности при продлении контракта
    • подробная информация по любым корректировкам, имевшим место на предыдущем периоде
  •       Число приглашений к обновлению контракта
  •       Показатель того, был ли продлён полис

Литература

  • Р.Каас, М.Гувертс, Ж.Дэнэ, М.Денут Современная актуарная теория риска / Перевод с английского А.А. Новоселова под редакцией В.К.Малиновского - М.: "Янус-К", 2007, 372 с.
  • Боровиков В.П. STATISTICA: Искусство анализа данных на компьютере. СПб.: Питер, 2003, 700 с.

Связанные определения:
Обобщенная линейная модель
Функция связи

В начало

Содержание портала

Курсы по актуарной математике