В таблице ниже приведены сведения о числе людей, заболевших или не заболевших холерой, с указанием, была ли им сделана противохолерная прививка.
Фрагмент таблицы с исходными данными
Файл содержит данные по 2663 пациентам.
В первой переменной указано была ли сделана пациенту прививка, а во второй – был ли зафиксирован факт заболевания холерой после прививки.
Задача: Требуется выяснить, эффективна прививка или нет.
Мы критикуем прививку и выдвигаем гипотезу: связи между заболеваемостью и прививкой нет.
Наблюдаемые частоты: Для решения задачи построим таблицу сопряженности, т.е. сопряжем признаки:
Таблица с наблюдаемыми частотами
Четыре элемента таблицы, а именно 1022, 11, 1625, 5 - это частоты; мы имеем, таким образом, таблицу в виде квадрата вместо привычного ряда столбцов.
По ней строится критерий согласия хи-квадрат с некоторой выдвинутой гипотезой:
Нулевая гипотеза:
Переформулируем нашу задачу.
Значимо ли воздействие прививки на вероятность заболевания?
Попробуем принять в качестве нулевой гипотезы, что прививка не оказывает воздействия на заболевание и что видимый эффект от прививки есть результат случайных флуктуаций.
Мы должны, следовательно, сравнить элементы в таблице с соответствующими ожидаемыми элементами в предположении справедливости гипотезы.
Ожидаемые частоты. Из гипотезы следует, что для 2663 человек, находящихся в группе риска, ожидаемая доля заболевших после прививки будет той же, что и ожидаемая доля заболевших среди тех, кому прививку не делали; общее значение этих долей совпадает с долей заболевших во всей выборке, а именно p = 16/2663 (~0,006). Эти ожидаемые доли представлены в таблице ниже:
Подставляя, полученное значение p:
Таблица с ожидаемыми частотами
При нулевой гипотезе ожидаемая частота в любой ячейке может быть найдена умножением доли (p или 1-p) на маргинальное общее число соответствующей строки (1630 - для категории привитых, 1033 - для остальных).
В принципе, только один элемент следует вычислять умножением маргинально частоты на ожидаемую долю; остальные элементы находятся вычитанием.
Значение Xи-квадрат используется для оценки меры рассогласованности наблюдаемого и ожидаемого результата. Если, согласно нулевой гипотезе, ожидаемый результат будет сильно отличаться от наблюдаемых значений, значит стоит поставить под сомнение справедливость гипотезы.
Перед тем, рассчитывать значение хи-квадрат, рассмотрим некоторые особенности таблиц 2х2, которые заслуживают специального упоминания.
В некоторых случаях необходимо делать «поправку на непрерывность» (так называемая «поправка Йетса»). Такие расхождения могут возникать, когда в таблице встречаются малые частоты (меньше 10).
Математически, «поправка на непрерывность» уменьшает погрешность, возникающую при аппроксимации непрерывным распределением хи-квадрат точного выборочного распределения, которое является дискретным.
Вычислим значение хи-квадрат без поправки Йетса. Значение представляет собой сумму квадратов разностей наблюдаемой и ожидаемой частоты, деленную на соответствующую ожидаемую частоту:
(Смотрите значения в таблицах с наблюдаемыми и ожидаемыми частотами выше.)
Отметим, что в нашем случае, для более точного вычисления статистики хи-квадрат необходимо использовать поправку Йетса (пять пациентов заболели, несмотря на сделанную противохолерную прививку).
Поправка Йетса немного изменит таблицу наблюдаемых частот:
Модифицированная таблица с наблюдаемыми частотами
В модифицированной таблице частота «5» заменена на «5,5», а все остальные элементы изменены так, чтобы общие суммарные (маргинальные) частоты сохранились.
Отметим, что при такой модификации ожидаемые частоты остаются без изменения.
Теперь вычислим значение хи-квадрат с поправкой Йетса, пользуясь той же формулой, но в качестве наблюдаемых частот берем значения из модифицированной таблицы:
Чтобы оценить какова вероятность получить такое или большее значение хи-квадрат, при условии истинности нулевой гипотезы, необходимо вычислить уровень значимости (p-уровень).
Если он окажется маленьким (обычно берется меньше 0,05), то нулевую гипотезу следует отклонить.
Заполняем таблицу в интерактивном калькуляторе таблиц сопряженности 2х2
Согласно таблице наблюдаемых частот (номера групп и вариантов заменяем на удобные для нас обозначения).
Полученные результаты (p-уровень значимости ~ 0.014 < 0.05) говорят о том, что нулевую гипотезу о независимости следует отвергнуть: прививка в действительности имеет некоторый предупредительный эффект.
В нашем случае, значение величины «Отношение шансов» говорит о том, что шанс заболеть у группы непривитых больше, чем у группы привитых. Этот факт подтверждается проведенным выше анализом.
Таким же образом могут быть проверены гипотезы о прививках против гриппа, эффективности диспансеризации и т.д.
Скачать
Актуальные курсы