Знаменитая модель Кокса, предложенная в 1972 году, интенсивно используется в самых различных областях, особенно в медицине и страховании, для оценки условного риска заболевания при заданных значениях исходных признаков. Она также популярна в технических приложениях для оценки интенсивности отказов приборов. Вообще ее можно использовать для изучения самых разнообразных рисков: от туроператорских рисков до финансовых.
Модель Кокса основана на предположении, что функцию риска (или функцию интенсивностей отказов, выражаясь на техническом сленге), можно факторизовать, т.е. представить в виде произведения двух функций:
h(t) = h0(t) y (z1,…,zm),
где h0(t) - базовая функция интенсивности, зависящая, например, от возраста пациента или от времени, прошедшего после осмотра, y (z1,…, zm) - функция изучаемых признаков, например, пол пациента, семейное положение или время года, класс отеля, страна поездки, если речь идет о туроператорских рисках.
В технических приложениях признаками могут быть, например, температура окружающей среды, сезон, уровень влажности.
В общем случае функция признаков, как и сами признаки, выбираются из соображений предметной области и целей исследования.
Часто модель записывается в следующем виде:
h[(t),(z1, z2, ..., zm)] = h0(t)*exp(b1*z1 +...+ bm*zm)
Базовая функция интенсивности h0(t) может рассматриваться теперь как функция интенсивности при равенстве нулю всех независимых переменных или ковариат.
Общая задача состоит в том, чтобы по наблюдениям за временами жизни оценить h0 и неизвестные коэффициенты b1... bm.
Модель можно линеаризовать последнюю модель, поделив обе части соотношения на h0(t) и взяв натуральный логарифм от обеих частей:
log{h[(t),(z...)]/h0(t)} = b1*z1 +...+ bm*zm
Факторизованная модель обладает тем замечательным свойством, что оценки ее параметров требуется не столько много наблюдений, как потребовалось бы для не факторизованной модели.
Существенное в этой модели то, что зависимость является мультипликативной. Это предположение иногда называется гипотезой пропорциональности.
Покажем, как проверить эту гипотезу.
Пример основан на данных Pike (1966) времен жизни двух групп крыс, одна из которых контрольная, а другая подвергалась воздействию канцерогена.
Рис. 1. Данные исследования
Предположим, что у вас есть сомнение в гипотезе пропорциональности, то есть об отсутствии зависящих от времени ковариат.
Идея проверки гипотезы очень проста.
Рассмотрим еще одну модель, более общую, чем модель пропорциональных интенсивностей, и с помощью критерия хи-квадрат сравним их.
Более общая модель функции интенсивности содержит как постоянную (не зависящую от времени) ковариату (в данном примере Группа - Group), так и зависящую от времени ковариату (в данном примере ковариату, определяемую как Group*Log (время) - 5.4 - Group*Log (Time) - 5.4).
Значение 5.4 использовано лишь из соображений нормировки, для того, чтобы среднее значение логарифма времени жизни было приближенно равно 5.4.
Проверку проведем в модуле Анализ выживаемости.
Откройте файл с данными Pike.sta.
Выберите Анализ выживаемости, меню Ковариаты, зависящие от времени.
Рис. 2. Диалоговое окно параметров модели
В этом анализе зависимая переменная Времена жизни (переменная 1) - Survival (variable 1), индикатор цензурирования Censored.
Поскольку, по умолчанию, код для цензурированных наблюдений тот же самый, что используется в файле данных, то остается задать только ковариаты.
Диалоговое окно имеет редактируемые поля. Левая часть поля (Ковариата) может быть использована, чтобы ввести метку для ковариаты.
Правая (Выражение) может быть использована для определения ковариаты с помощью арифметического выражения.
В данном анализе мы, на самом деле, будем рассматривать 2 модели: первая модель с постоянными ковариатами, вторая модель с зависящими от времени ковариатами. Введите переменные этих моделей, сделав установки, как показано на рисунке.
Рис. 3. Задание переменных и ковариат
Нажмите OK, откройте диалоговое окно Оценивание регрессионной модели.
Рис. 4. Параметры оценивания модели
Приняв в этом диалоге все условия по умолчанию, просто нажмите OK, чтобы перейти к оцениванию параметров моделей.
Рис. 5. Процедура оценивания параметров
Нажмите OK и из диалогового окна Результаты регрессии выберите опцию Оценки параметров.
Рис. 6. Результаты оценивания
В мультимедийной таблице показаны оценки параметров двух моделей. Обе модели значимы (см. уровни значимости в последнем столбце), но как показывает критерий хи-квадрат в заголовке таблицы между моделями значимого отличия нет (хи-квадрат = 2.89, число степеней свободы = 2, р = 0.23527).
Связанные определения:
Гомперца распределение
Интенсивность отказов
Таблица времён жизни
Функция выживаемости
Цензурированные данные (неполные данные)
Скачать