Различия между независимыми выборками
Две независимые выборки: Критерий Манна-Уитни и др.
Несколько независимых выборок: критерий Краскела-Уоллиса и др.
Различия между зависимыми выборками
В каком случае использовать параметрический, а в каком - непараметрический критерий?
Непараметрические методы разработаны для тех ситуаций, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины.
Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.
Непараметрические методы позволяют обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно.
По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп:критерии различия между независимыми выборками
критерии различия между зависимыми выборками
критерии зависимости между переменными
Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых выборок.
Непараметрическими альтернативами параметрического критерия для двух независимых групп являются:
Рассмотрим U критерий Манна-Уитни подробнее:
Критерий Манна-Уитни проверяет гипотезу о статистической однородности двух выборок.
Обозначим закон распределения первой выборки X через F:
X1, X2, ..., Xn ~ F
а второй выборки Y через G:
Y1, Y2, ..., Ym ~ G
Законы F и G должны быть непрерывны.
Таким образом нулевая гипотеза записывается в виде
H0: F = G
Альтернатива доминирования:
H1: F < G
Для применения критерия Манна-Уитни необходимо ранжировать элементы общей выборки: составить единый ряд из элементов двух выборок, упорядочить элементы, присвоить каждому элементу свой ранг (т.е. порядковые номер в упорядоченной выборке).
В случае, если в ряде присутствуют повторяющиеся наблюдения, то им приписывается одинаковый ранг равный (ri+ri+1)/2
Затем вновь сформируем два ряда, состоящие из наблюдений первой и второй выборки.
Критерий Манна-Уитни основан на результате попарного сравнения элементов первой и второй выборок
Где индикатор I обозначает "успех" (и равен 1) в случае, если Xi < Yj
Изменяя i от 1 до n и j от 1 до m получим mn парных сравнений выборок X и Y. Число успехов в этих парных сравнениях обозначим через U.
Ясно, что U может принимать любое целое значение от 0 до mn.
Случайная величина U называется статистикой Манна-Уитни.
Полученное значение сравнивается с критическим Uкр для заданного уровня значимости α.
Действуя по стандартному алгоритму проверки гипотез, отклоняется на уровне значимости α, если |U| > Uкр
Если по крайней мере одна из групп имеет размер выборки более 15, то можно показать, что:
,
где ,
Если вы имеете несколько групп, то можете использовать Дисперсионный анализ (ANOVA).
Его непараметрическими аналогами являются:
Рассмотрим критерий Краскела-Уоллиса подробнее:
Критерий Краскела-Уоллиса является расширением критерия Манна-Уитни и предназначен для сравнения распределений в k выборках.
H0: F1 = F2 = ... = Fk
H1: Распределения каждой из k выборок различны
Критерий Краскела-Уоллиса используется, когда невозможно сказать что-либо определенное об альтернативах , т.к. он свободен от распределения.
Число элементов в каждой i-й выборке ( i=1,...k ) равно ni
Как было показано выше, Заменим наблюдения их рангами
, упорядочивая всю совокупность
в порядке возрастания.
i=1,...k
j=1,...ni
Затем для каждой выборки необходимо вычислить суммарный и средний ранги:
Если между выборками нет систематических различий, то средние ранги не должны значительно отличаться от среднего, рассчитанного по всей совокупности
Значение последнего .
Здесь - общее число наблюдений.
Вычислим величины дисперсий для каждой выборки
Эти значения при в совокупности должны быть небольшими. Составляя общую характеристику, разумно учесть различия в числе наблюдений для разных выборок и взять в качестве меры отступления от чистой случайности величину
Эта величина называется статистикой Краскела-Уоллеса.
Множитель присутствует в качестве нормировочного для обеспечения сходимости распределения H и
с числом степеней свободы
.
Согласно стандартному алгоритму проверки гипотез, отвергается на уровне значимости α, если |H| >
кр
Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок.
Альтернативными непараметрическими тестами являются:
Рассмотрим подробнее Критерий Вилкоксона.
Итак, мы располагаем двумя зависимыми выборками. Сформулируем гипотезы:
H0: медиана разницы в популяции равна нулю
H1: медиана разницы в популяции не равна нулю.
Вычислим разности для каждой пары результатов.
Обозначим за n' число ненулевых разностей.
Проранжируем положительные и отрицательные разности (кроме нулевых), чтобы наименьшая абсолютная величина (без учета знака) получила первый ранг.
Отдельно вычислим сумму рангов положительных и отрицательных разностей, меньшую из двух сумм без учета знака считают тестовой статистикой W данного критерия.
Согласно стандартному алгоритму проверки гипотез, отвергается на уровне значимости α, если |W|>Wкр
Если число ненулевых разностей n'>20, статистика W приближается к стандартному нормальному распределению z:
,
Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется Дисперсионный анализ (ANOVA) с повторными измерениями.
Альтернативным непараметрическим методом является
Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n > 100), то не имеет смысла использовать непараметрические статистики.
Дело в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью.
Непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения, следует особенно внимательно выбирать статистику критерия.
Связанные определения:
Непараметрические статистические методы
Свободный от распределения критерий
Скачать
Актуальные курсы