Коэффициент корреляции является важной характеристикой зависимости.
Пример: Приведем классическое рассуждение Фишера при анализе зависимости урожая пшеницы от уровня осадков в Восточной Англии.
Фишер отмечал, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии r=-0,629.
Соответствующее значение t вычисляется по формуле:
При при n=20, t=-3,433.
Уровень значимости составляет SL =
Построим график функции плотности для распределения Стьюдента с 18 степенями свободы (см. рисунок 1).
Иными словами, вычисление уровня значимости эквивалентно определению площади под правым и левым хвостами функции, ограниченной значениями -3,433 и 3,433.
Рисунок 1. График функции плотности распределения Стьюдента с 18 степенями свободы
Для вычисления уровня значимости мы можем воспользоваться Вероятностным калькулятором STATISTICA.
Нас интересуют как правый, так и левый хвосты функции распределения статистики критерия, поэтому поставим галочки в пунктах Двусторонняя и (1-ф.р.)
Нажмем кнопку Вычислить, после чего получим интересующий нас уровень значимости р равный 0,002966.
Рисунок 2. Калькулятор вероятностных распределений
Таким путем Фишер пришел к заключению о значимости связи между урожаем пшеницы и осенним уровнем дождей в Восточной Англии.
Доступные таблицы значений функции распределения Стьюдента представляют собой разновидность обратных таблиц, что не позволяет легко вычислить нужную вероятность.
Вместо вероятностей в таблицах приведены значения t, которые должны соответствовать наперед заданным уровням значимости.
Например, таблица Фишера в книге “Statistical Methods for Research Workers” содержит значения t, отвечающие величинам SL=0.01, 0.02, 0.05, 0.1, 0.2(0.1) 0.9
Где 0.2(0.1) 0.9 – сокращенное обозначение массива чисел, заключенных в диапазоне от 0.2 до 0.9 с шагом 0.1
Для 18 степеней свободы ближайшее табулированное значение – отвечающее SL=0.01 и составляющее 2.878. Отсюда следует, что t=3.433 отвечает значение SL, которое меньше 0.01.
Конечно, это значимо: доверие к нулевой гипотезе заметно подорвано, а существование корреляции можно считать установленным.
В этом примере то, что мы не смогли точно определить уровень значимости (а ограничились неравенством SL<0.01), не привело к большим неприятностям.
Однако если бы выборочный коэффициент корреляции r оказался равным 0.468, чему соответствует t=2.25, то таблица показала бы только что SL лежит между 0.05 (значение соответствует t=2.101) и 0.02 (значение соответствующее t=2.552).
Такой результат можно было бы сформулировать так: «значимость на уровне 5%, но не на уровне 2%
Рассмотрим этот же пример, воспользовавшись нормальным распределением.
В случае нормального распределения по значениям выборочного коэффициента корреляции можно сделать выводы о независимости изучаемых показателей.
Фишером было найдено, что при следующем преобразовании:
где r - выборочный коэффициент корреляции,
статистика z сходится к нормальному распределению при увеличении числа n испытаний.
Итак, если считать, что в действительности коэффициент корреляции мал, то уже при умеренных n можно считать, что z распределена нормально с параметрами:
.
На основе этого факта можно построить критерий проверки независимости в случае нормального распределения:
- основная гипотеза;
- альтернативная гипотеза.
Затем фиксируем уровень значимости p. После этого вычисляется выборочный коэффициент корреляции r, по нему вычисляется значение статистики z.
После этого с помощью интерактивного калькулятора нормального распределения находим вероятность того, что статистика z будет принимать по модулю такие или большие значения.
Для этого вводим:
.
Если вычисленная вероятность меньше выбранного уровня значимости, то мы отвергаем основную гипотезу на заданном уровне значимости. Иначе - не отвергаем.
Рассматривая описанный выше пример, напомним, что выборочный коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей за 20 лет составил в Восточной Англии ρ=-0,629. Соответствующее значение z=-0.7398.Рисунок 3. Интерактивной калькулятор нормального распределения
С помощью интерактивного калькулятора нормального распределения находим, что уровень значимости составляет 0.0022 (согласно алгоритму нахождения двусторонней вероятности: 2*0.0011). То есть мы отвергаем основную гипотезу на уровне 0.01.
Связанные определения:
Выборочный коэффициент корреляции
Корреляционный анализ
Корреляция
Коэффициент корреляции
Некоррелированный
Скачать
Актуальные курсы