Коэффициент корреляции Пирсона
Корреляционный анализ занимается степенью связи между двумя переменными, x и y.
Сначала предполагаем, что как x, так и y количественные, например рост и масса тела. Предположим, пара величин (x, у) измерена у каждого из n объектов в выборке.
Мы можем отметить точку, соответствующую паре величин каждого объекта, на двумерном графике рассеяния точек.
Обычно на графике переменную x располагают на горизонтальной оси, а у — на вертикальной. Размещая точки для всех n объектов, получают график рассеяния точек, который говорит о соотношении между этими двумя переменными.
Соотношение х и у линейное, если прямая линия, проведенная через центральную часть скопления точек, дает наиболее подходящую аппроксимацию наблюдаемого соотношения.
Можно измерить, как близко находятся наблюдения к прямой линии, которая лучше всего описывает их линейное соотношение путем вычисления коэффициента корреляции Пирсона, обычно называемого просто коэффициентом корреляции.
Его истинная величина в популяции (генеральный коэффициент корреляции) (греческая буква «ро») оценивается в выборке как r (выборочный коэффициент корреляции), которую обычно получают в результатах компьютерного расчета.
Пусть (x1. y1), (x2, y2),…,(xn, yn) - выборка из n наблюдений пары переменных (X, Y).
Выборочный коэффициент корреляции r определяется как
,
где ,
- выборочные средние, определяющиеся следующим образом:
r изменяется в интервале от —1 до +1.
Знак r означает, увеличивается ли одна переменная по мере того, как увеличивается другая (положительный r), или уменьшается ли одна переменная по мере того, как увеличивается другая (отрицательный r).
Величина r указывает, как близко расположены точки к прямой линии. В частности, если r = +1 или r= —1, то имеется абсолютная (функциональная) корреляция по всем точкам, лежащим на линии (практически это маловероятно); если , то линейной корреляции нет (хотя может быть нелинейное соотношение). Чем ближе r к крайним точкам (±1), тем больше степень линейной связи.
Коэффициент корреляции r безразмерен, т. е. не имеет единиц измерения.
Величина r обоснована только в диапазоне значений x и y в выборке. Нельзя заключить, что он будет иметь ту же величину при рассмотрении значений x или y, которые значительно больше, чем их значения в выборке.
x и y могут взаимозаменяться, не влияя на величину r ().
Корреляция между x и у не обязательно означает соотношение причины и следствия.
представляет собой долю вариабельности у, которая обусловлена линейным соотношением с x.
Расчет r может ввести в заблуждение, если:
Связанные определения:
Выборочный коэффициент корреляции
Корреляционный анализ
Корреляция
Коэффициент корреляции
Некоррелированный
Скачать
Актуальные курсы