Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Вычисление значимости корреляций

Коэффициент корреляции является важной характеристикой зависимости.

Пример: Приведем классическое рассуждение Фишера при анализе зависимости урожая пшеницы от уровня осадков в Восточной Англии.

Фишер отмечал, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии r=-0,629.

Применение t-распределения: вероятностный калькулятор STATISTICA

Соответствующее значение t вычисляется по формуле:


При  при n=20, t=-3,433.

Уровень значимости составляет SL =

Построим график функции плотности для распределения Стьюдента с 18 степенями свободы (см. рисунок 1).

Иными словами, вычисление уровня значимости эквивалентно определению площади под правым и левым хвостами функции, ограниченной значениями -3,433 и 3,433.

Рисунок 1. График функции плотности распределения Стьюдента с 18 степенями свободы

Для вычисления уровня значимости мы можем воспользоваться Вероятностным калькулятором STATISTICA.

Нас интересуют как правый, так и левый хвосты функции распределения статистики критерия, поэтому поставим галочки в пунктах Двусторонняя и (1-ф.р.)

Нажмем кнопку Вычислить, после чего получим интересующий нас уровень значимости р равный 0,002966.

Рисунок 2. Калькулятор вероятностных распределений

Таким путем Фишер пришел к заключению о значимости связи между урожаем пшеницы и осенним уровнем дождей в Восточной Англии.

Замечания

Доступные таблицы значений функции распределения Стьюдента представляют собой разновидность обратных таблиц, что не позволяет легко вычислить нужную вероятность.

Вместо вероятностей в таблицах приведены значения t, которые должны соответствовать наперед заданным уровням значимости.

Например, таблица Фишера в книге “Statistical Methods for Research Workers” содержит значения t, отвечающие величинам SL=0.01, 0.02, 0.05, 0.1, 0.2(0.1) 0.9

Где 0.2(0.1) 0.9 – сокращенное обозначение массива чисел, заключенных в диапазоне от 0.2 до 0.9 с шагом 0.1

Для 18 степеней свободы ближайшее табулированное значение – отвечающее SL=0.01 и составляющее 2.878. Отсюда следует, что t=3.433 отвечает значение SL, которое меньше 0.01.

Конечно, это значимо: доверие к нулевой гипотезе заметно подорвано, а существование корреляции можно считать установленным.

В этом примере то, что мы не смогли точно определить уровень значимости (а ограничились неравенством SL<0.01), не привело к большим неприятностям.

Однако если бы выборочный коэффициент корреляции r оказался равным 0.468, чему соответствует t=2.25, то таблица показала бы только что SL лежит между 0.05 (значение соответствует t=2.101) и 0.02 (значение соответствующее t=2.552).

Такой результат можно было бы сформулировать так: «значимость на уровне 5%, но не на уровне 2%



Применение нормального распределения: интерактивный калькулятор нормального распределения

Рассмотрим этот же пример, воспользовавшись нормальным распределением.

В случае нормального распределения по значениям выборочного коэффициента корреляции можно сделать выводы о независимости изучаемых показателей.

Фишером было найдено, что при следующем преобразовании:

где r - выборочный коэффициент корреляции,

статистика z сходится к нормальному распределению при увеличении числа n испытаний.

Итак, если считать, что в действительности коэффициент корреляции мал, то уже при умеренных n можно считать, что z распределена нормально с параметрами:

.

На основе этого факта можно построить критерий проверки независимости в случае нормального распределения:

- основная гипотеза;

- альтернативная гипотеза.

Затем фиксируем уровень значимости p. После этого вычисляется выборочный коэффициент корреляции r, по нему вычисляется значение статистики z.

После этого с помощью интерактивного калькулятора нормального распределения находим вероятность того, что статистика z будет принимать по модулю такие или большие значения.

Для этого вводим:

.

Если вычисленная вероятность меньше выбранного уровня значимости, то мы отвергаем основную гипотезу на заданном уровне значимости. Иначе - не отвергаем.

Рассматривая описанный выше пример, напомним, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии ρ=-0,629. Соответствующее значение z=-0.7398.


Рисунок 3. Интерактивной калькулятор нормального распределения

С помощью интерактивного калькулятора нормального распределения находим, что уровень значимости составляет 0.0022 (согласно алгоритму нахождения двусторонней вероятности: 2*0.0011). То есть мы отвергаем основную гипотезу на уровне 0.01.


Связанные определения:
Выборочный коэффициент корреляции
Корреляционный анализ
Корреляция
Коэффициент корреляции
Некоррелированный

В начало

Содержание портала