Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Таблицы сопряженности: влияние прививки на холерную инфекцию

В таблице ниже приведены сведения о числе людей, заболевших или не заболевших холерой, с указанием, была ли им сделана противохолерная прививка.



Фрагмент таблицы с исходными данными

Файл содержит данные по 2663 пациентам.

В первой переменной указано была ли сделана пациенту прививка, а во второй – был ли зафиксирован факт заболевания холерой после прививки.

Задача: Требуется выяснить, эффективна прививка или нет.

Мы критикуем прививку и выдвигаем гипотезу: связи между заболеваемостью и прививкой нет.

Наблюдаемые частоты: Для решения задачи построим таблицу сопряженности, т.е. сопряжем признаки:

Таблица с наблюдаемыми частотами

Четыре элемента таблицы, а именно 1022, 11, 1625, 5 - это частоты; мы имеем, таким образом, таблицу в виде квадрата вместо привычного ряда столбцов.

По ней строится критерий согласия хи-квадрат с некоторой выдвинутой гипотезой:

Нулевая гипотеза:

Переформулируем нашу задачу.

Значимо ли воздействие прививки на вероятность заболевания?

Попробуем принять в качестве нулевой гипотезы, что прививка не оказывает воздействия на заболевание и что видимый эффект от прививки есть результат случайных флуктуаций.

Мы должны, следовательно, сравнить элементы в таблице с соответствующими ожидаемыми элементами в предположении справедливости гипотезы.

Ожидаемые частоты. Из гипотезы следует, что для 2663 человек, находящихся в группе риска, ожидаемая доля заболевших после прививки будет той же, что и ожидаемая доля заболевших среди тех, кому прививку не делали; общее значение этих долей совпадает с долей заболевших во всей выборке, а именно p = 16/2663 (~0,006). Эти ожидаемые доли представлены в таблице ниже:

Подставляя, полученное значение p:

Таблица с ожидаемыми частотами

При нулевой гипотезе ожидаемая частота в любой ячейке может быть найдена умножением доли (p или 1-p) на маргинальное общее число соответствующей строки (1630 - для категории привитых, 1033 - для остальных).

В принципе, только один элемент следует вычислять умножением маргинально частоты на ожидаемую долю; остальные элементы находятся вычитанием.

Значение Xи-квадрат используется для оценки меры рассогласованности наблюдаемого и ожидаемого результата. Если, согласно нулевой гипотезе, ожидаемый результат будет сильно отличаться от наблюдаемых значений, значит стоит поставить под сомнение справедливость гипотезы.

Перед тем, рассчитывать значение хи-квадрат, рассмотрим некоторые особенности таблиц 2х2, которые заслуживают специального упоминания.

В некоторых случаях необходимо делать «поправку на непрерывность» (так называемая «поправка Йетса»). Такие расхождения могут возникать, когда в таблице встречаются малые частоты (меньше 10).

Математически, «поправка на непрерывность» уменьшает погрешность, возникающую при аппроксимации непрерывным распределением хи-квадрат точного выборочного распределения, которое является дискретным.

Вычислим значение хи-квадрат без поправки Йетса. Значение представляет собой сумму квадратов разностей наблюдаемой и ожидаемой частоты, деленную на соответствующую ожидаемую частоту:

(Смотрите значения в таблицах с наблюдаемыми и ожидаемыми частотами выше.)

Отметим, что в нашем случае, для более точного вычисления статистики хи-квадрат необходимо использовать поправку  Йетса (пять пациентов заболели, несмотря на сделанную противохолерную прививку).

Поправка Йетса немного изменит таблицу наблюдаемых частот:

Модифицированная таблица с наблюдаемыми частотами

В модифицированной таблице частота «5» заменена на «5,5», а все остальные элементы изменены так, чтобы общие суммарные (маргинальные) частоты сохранились.

Отметим, что при такой модификации ожидаемые частоты остаются без изменения.

Теперь вычислим значение хи-квадрат с поправкой Йетса, пользуясь той же формулой, но в качестве наблюдаемых частот берем значения из модифицированной таблицы:

Чтобы оценить какова вероятность получить такое или большее значение хи-квадрат, при условии истинности нулевой гипотезы, необходимо вычислить уровень значимости (p-уровень).

Если он окажется маленьким (обычно берется меньше 0,05), то нулевую гипотезу следует отклонить.

Использование калькулятора таблиц сопряженности 2 на 2.

Заполняем таблицу в интерактивном калькуляторе таблиц сопряженности 2х2

Согласно таблице наблюдаемых частот (номера групп и вариантов заменяем на удобные для нас обозначения).

  1. Устанавливаем галочку напротив поправки Йетса (поправка для случая малых частот).
  2. Нажимаем кнопку «Вычислить».

Полученные результаты (p-уровень значимости ~ 0.014 < 0.05) говорят о том, что нулевую гипотезу о независимости следует отвергнуть: прививка в действительности имеет некоторый предупредительный эффект.

В нашем случае, значение величины «Отношение шансов» говорит о том, что шанс заболеть у группы непривитых больше, чем у группы привитых. Этот факт подтверждается проведенным выше анализом.

Таким же образом могут быть проверены гипотезы о прививках против гриппа, эффективности диспансеризации и т.д.


В начало

Содержание портала