Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Непараметрические критерии

Общий обзор

Различия между независимыми выборками

Две независимые выборки: Критерий Манна-Уитни и др.

Несколько независимых выборок: критерий Краскела-Уоллиса и др.

Различия между зависимыми выборками

Две зависимые выборки: Критерий Вилкоксона и др.

Несколько зависимых выборок 

В каком случае использовать параметрический, а в каком - непараметрический критерий?

Общий обзор

Непараметрические методы разработаны для тех ситуаций, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины.

Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

Непараметрические методы позволяют обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно.

По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп:
  • критерии различия между независимыми выборками

  • критерии различия между зависимыми выборками

  • критерии зависимости между переменными

Различия между независимыми выборками

Две независимые выборки: U-критерий Манна-Уитни и др.

Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых выборок.

Непараметрическими альтернативами параметрического критерия для двух независимых групп являются:

  • U критерий Манна-Уитни
  • Критерий серий Вальда-Вольфовица
  • Двухвыборочный критерий Колмогорова-Смирнова 

Рассмотрим U критерий Манна-Уитни подробнее:

Критерий Манна-Уитни проверяет гипотезу о статистической однородности двух выборок.

Обозначим закон распределения первой выборки X через F:

X1, X2, ..., Xn  ~ F

а второй выборки Y через G:

Y1, Y2, ..., Ym  ~ G

Законы F и G должны быть непрерывны.

Таким образом нулевая гипотеза записывается в виде


H0: F = G

Альтернатива доминирования:

H1: F < G


Для применения критерия Манна-Уитни необходимо ранжировать элементы общей выборки: составить единый ряд из элементов двух выборок, упорядочить элементы, присвоить каждому элементу свой ранг (т.е. порядковые номер в упорядоченной выборке).

В случае, если в ряде присутствуют повторяющиеся наблюдения, то им приписывается одинаковый ранг равный (ri+ri+1)/2

Затем вновь сформируем два ряда, состоящие из наблюдений первой и второй выборки.

Критерий Манна-Уитни основан на результате попарного сравнения элементов первой и второй выборок

статистика U

Где индикатор I обозначает "успех" (и равен 1) в случае, если Xi < Yj

Изменяя i от 1 до n и j от 1 до m получим mn парных сравнений выборок X и Y. Число успехов в этих парных сравнениях обозначим через U.

Ясно, что U может принимать любое целое значение от 0 до mn.

Случайная величина U называется статистикой Манна-Уитни.

Полученное значение сравнивается с критическим Uкр для заданного уровня значимости α.

Действуя по стандартному алгоритму проверки гипотез отклоняется на уровне значимости α, если |U| > Uкр

Если по крайней мере одна из групп имеет размер выборки более 15, то можно показать, что:

,

где  ,    


Несколько независимых групп: критерий Краскела-Уоллиса и др.

Если вы имеете несколько групп, то можете использовать Дисперсионный анализ (ANOVA).

Его непараметрическими аналогами являются:

  • Ранговый дисперсионный анализ Краскела-Уоллиса
  • Медианный тест

Рассмотрим критерий Краскела-Уоллиса подробнее:

Критерий Краскела-Уоллиса является расширением критерия Манна-Уитни и предназначен для сравнения распределений в k выборках.


H0: F1 = F2 = ... = Fk

H1: Распределения каждой из k выборок различны


Критерий Краскела-Уоллиса используется, когда невозможно сказать что-либо определенное об альтернативах , т.к. он свободен от распределения. 

Число элементов в каждой i-й выборке ( i=1,...k ) равно ni

Как было показано выше, Заменим наблюдения их рангами , упорядочивая всю совокупность в порядке возрастания. 

i=1,...k

j=1,...ni

Затем для каждой выборки необходимо вычислить суммарный и средний ранги:

Если между выборками нет систематических различий, то средние ранги не должны значительно отличаться от среднего, рассчитанного по всей совокупности

Значение последнего .

Здесь - общее число наблюдений.

Вычислим величины дисперсий для каждой выборки

Эти значения при в совокупности должны быть небольшими. Составляя общую характеристику, разумно учесть различия в числе наблюдений для разных выборок и взять в качестве меры отступления от чистой случайности величину

Эта величина называется статистикой Краскела-Уоллеса.

Множитель присутствует в качестве нормировочного для обеспечения сходимости распределения H и с числом степеней свободы .

Согласно стандартному алгоритму проверки гипотез, отвергается на уровне значимости α, если |H| >  кр



Различия между зависимыми выборками

Две зависимые выборки: критерий Вилкоксона и др.

Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок.

Альтернативными непараметрическими тестами являются:

  • Критерий Вилкоксона парных сравнений 
  • Критерий знаков

Рассмотрим подробнее Критерий Вилкоксона.

Итак, мы располагаем двумя зависимыми выборками. Сформулируем гипотезы:


H0: медиана разницы в популяции равна нулю

H1: медиана разницы в популяции не равна нулю.


Вычислим разности для каждой пары результатов.

Обозначим за n' число ненулевых разностей.

Проранжируем положительные и отрицательные разности (кроме нулевых), чтобы наименьшая абсолютная величина (без учета знака) получила первый ранг.

Отдельно вычислим сумму рангов положительных и отрицательных разностей, меньшую из двух сумм без учета знака считают тестовой статистикой W данного критерия.

Согласно стандартному алгоритму проверки гипотез отвергается на уровне значимости α, если |W|>Wкр

Если число ненулевых разностей n'>20, статистика W приближается к стандартному нормальному распределению z:

,


Несколько зависимых выборок

Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется Дисперсионный анализ (ANOVA) с повторными измерениями.

Альтернативным непараметрическим методом является

  • ранговый дисперсионный анализ Фридмана
  • Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).

В каком случае использовать параметрический, а в каком - непараметрический метод?

Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики. 

Дело в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью. 

Непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения, следует особенно внимательно выбирать статистику критерия.



Связанные определения:
Непараметрические статистические методы
Свободный от распределения критерий

В начало

Содержание портала