Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Связанные статьи


Выбор наилучшей линейной модели: критерий Акаике и Шварца

Вычисление значимости корреляций

Значимость коэффициента корреляции, доверительный интервал

Значимость различия между двумя выборочными коэффициентами корреляции

Как выбрать наилучшую линейную модель?

Калькулятор значимости корреляций

Калькулятор сравнения двух коэффициентов корреляции

Корреляции: изучение зависимости цены нефти и доллара

Коэффициент детерминации и линейная регрессия

Коэффициент корреляции

Логистическая регрессия

Множественная линейная регрессия

Наилучшее линейное приближение

Непараметрические корреляции

Об одной логит-регрессионной модели

Основы линейной регрессии

Применение логистической регрессии: задача о программистах

Частные корреляции. Часть 1

Частные корреляции. Часть 3

Подробнее о теме на курсах StatSoft


Вводный курс по статистике

Частные корреляции. Часть 2

Частные коэффициенты регрессии

Ошибки относительно линейной регрессии

Соотношения между дисперсиями, регрессиями и корреляциями различных порядков

Приближенные частные линейные регрессии


Частные коэффициенты регрессии

8. Обобщим теперь соотношения линейной регрессии на случай p величин. Для p совместно нормальных величин xi с нулевым средним и дисперсиями  математическое ожидание величины x1 при условии, что x2, ..., xp фиксированы, как видно из выражения в экспоненте распределения, равно

.     (17)

Коэффициент регрессии x1 по xj при фиксированных остальных p-2 величинах будем обозначать  или, короче , где q символизирует совокупность величин, отличных от указанных первичными индексами, а индекс у q служит для различения этих совокупностей. Коэффициенты  называются частными коэффициентами регрессии.

Следовательно, мы имеем

.     (18)

Сравнивая (18) с (17), получаем для многомерного нормального случая

.     (19)

Аналогично, коэффициент регрессии xj по x1 при фиксированных остальных переменных есть

.     (20)

Таким образом, поскольку C1j=Cj1, то из (6), (19) и (20) получаем

      (21)

- очевидное обобщение соотношения (17). Соотношения (19) и (20) показывают, что коэффициент не симметричен относительно x1 и xj, как и следовало ожидать от коэ ффициента зависимости. Подобно(5) и (6), (19) и (20) являются определениями частных коэффициентов регрессии в общем случае.


Ошибки относительно линейной регрессии

9. Назовем ошибкой (эту величину часто называют "остатком" (residual) но мы будем проводить различие между ошибками (errors) относительно линейных регрессий в генеральной совокупности и остатками, возникающими при подгонке регрессий к выборочным данным) порядка (p-1) величину

.

Ее среднее равно нулю, а дисперсия равна

.

так что  является дисперсией ошибки величины x1 относительно регрессии. Из (18) немедленно получаем

      (22)

.     (23)

Если брать математическое ожидание в два этапа, фиксируя вначале x2, ..., xp, то условное математическое ожидание от второго члена в (23) будет равно, согласно (18), нулю. Таким образом,

.     (24)

Дисперсия ошибки (24) не зависит от фиксируемых значений x3, ..., xp, если только от них не зависят коэффициенты .

В этом случае условное распределение величины x1 называется гомоскедастическим (homoscedastic) (или гетероскедастическим (heteroscedastic) в противном случае). Это постоянство дисперсии ошибок делает интерпретацию регрессий и корреляций более простой.

Например, в нормальном случае условные дисперсии и ковариации, полученные при фиксировании множества величин, не зависят от значений, в которых последние фиксированы (см. (14)).

В других случаях при интерпретациях мы должны надлежащим образом учитывать обнаруженную гетероскедастичность, тогда, возможно, частные коэффициенты регрессии лучше всего рассматривать как показатели зависимости, усредненные по всевозможным значениям фиксированных величин.


Соотношения между дисперсиями, регрессиями и корреляциями различных порядков

Если даны p величин, то мы можем изучать корреляцию между любыми двумя из них, когда среди оставшихся зафиксированы значения произвольного подмножества величин. Аналогично, можно интересоваться регрессией произвольной величины относительно любого подмножества из оставшихся величин. С возрастанием p число всевозможных коэффициентов становится очень большим.

Если некоторый коэффициент содержит k вторичных индексов, то говорят, что он имеет порядок k. Так, порядок p12.34 равен 2, порядок p12.3 - единице, порядок p12 - нулю, тогда как β12.678 имеет порядок 3, а  - порядок 4. В наших нынешних обозначениях коэффициенты линейной регрессии β1 и β2 должны быть записаны в виде β12 и β21 соответственно. Они имеют порядок нуль, как и обычная дисперсия σ2.

В 4 и 7 мы уже видели, как любой коэффициент корреляции первого порядка может быть выражен через коэффициенты нулевого порядка. Теперь будут получены более общие результаты такого сорта для коэффициентов всех типов.

11. Из (24) и (19) имеем

      (25)

откуда

.

Пользуясь символом q, введенным в 8, получаем

,     (26)

и аналогично, если 1 заменить любым другим индексом.

Точно таким же путем можно получить более общий результат

,     (27)

который сводится к (26) при l=m. Соотношение (27) применимо в случае, когда вторичные индексы одной величины включают в себя первичные индексы другой.

Если, с другой стороны, оба множества вторичных индексов не содержат l и m, то обозначим через r общее множество вторичных индексов. Ковариация двух ошибок xl.r, xm.r связана с их корреляцией и дисперсиями соотношениями:

      (28)

что согласуется с уже найденным соотношением (21). Присоединяя множество индексов r к обеим величинам xl, xm, мы попросту должны сделать то же самое со всеми их коэффициентами.

12. Теперь можно использовать (26) для получения соотношения между дисперсиями ошибок различных порядков. Обозначая |D| корреляционный определитель всех величин, кроме x2. Тогда, имеем из (26)

(где индекс q-2 обозначает множество q без x2) и

,

откуда

.     (29)

По определению |D|=C22, а согласно обобщенной теореме Якоби об определителях

,     (30)

так как D11 является дополнительным минором для  в C. Таким образом, используя (30), получаем из (29)

     (31)

или, учитывая (6), находим

.     (32)

Соотношение (32) является обобщением двумерного результата, который может быть представлен в виде

.

13. Соотношение (32) дает нам возможность выразить дисперсию ошибки порядка (p-1) через дисперсию ошибки и коэффициент корреляции порядка (p-2). Если мы теперь вновь воспользуемся (32) для того, чтобы выразить , то тем же путем найдем, что

.

Применяя последовательно (32) и записывая более полно индексы, получаем

.     (33)

В (33), очевидно, не играет роли порядок вторичных индексов у σ1.23...p; мы их можем переставить так, как пожелаем. Например, для простоты в силу (26) можно написать

.     (34)

В (34) индексы, отличные от 1, допускают перестановку. Соотношение (34) позволяет нам выразить дисперсию ошибки порядка s через дисперсию ошибки нулевого порядка и s коэффициентов корреляции, порядок которых принимает значения от нуля до (s-1).

14. Перейдем теперь к коэффициентам регрессии. Перепишем (15) для ковариации между x1 и x2 при фиксированном xp:

.

Присоединяя повсюду индексы 3, ..., (p-1), имеем

.     (35)

Используя определение (28) коэффициента регрессии как отношения ковариации к дисперсии, т.е.

,

и обозначим через r множество 3, ..., (p-1), находим из (35)

,

или

.     (36)

Если в (36) положить x1x2, то получим

,     (37)

другую форму соотношения (32). Таким образом, из (36) и (37) имеем

.     (38)

Это и есть требуемая формула для выражения коэффициента регрессии через некоторые коэффициенты следующего более низкого порядка. Повторно применяя (38), найдем представление любого коэффициента регрессии в терминах коэффициентов нулевого порядка.

Наконец, используя (21), из (38) получаем соотношение

,     (39)

обобщающее (5) путем присоединения множества индексов r.


Приближенные частные линейные регрессии

15. В нашем изложении, начиная с 8, мы занимались точно линейными регрессионными зависимостями типа (18). Рассмотрим теперь вопрос подгонки регрессионных соотношений этого типа к наблюденным совокупностям, регрессии которых почти никогда не бывают точно линейными.

С помощью тех же рассуждений мы приходим к методу наименьших квадратов. Мы выбираем поэтому  так, чтобы минимизировать сумму квадратов уклонений n наблюдений от подгоняемой регрессии:

,     (40)

где "иксы" измеряются от своих средних значений и предполагается n>p. Решение имеет вид

,     (41)

где матрица X составлена из наблюдений над p-1 величинами x2, ..., xp, а x1 - вектор наблюдений величины x1. Соотношение (41) можно переписать в виде

,     (42)

где Vp-1 - матрица рассеяния для x2, ..., xp, а M - вектор ковариаций между x1 и xj (j=2, ..., p). Таким образом,

.     (43)

Поскольку |Vp-1| есть минор V11 матрицы рассеяния V всех p величин, то (Vp-1)jl представляет собой дополнительный минор для

в V, так что сумма в правой части (43) является алгебраическим дополнением для (1j) в V. Поэтому (43) представляется в виде

.     (44)

Соотношение (44) совпадает с (19). Таким образом, мы приходим к заключению, что аппроксимация по методу наименьших квадратов дает те же коэффициенты регрессии, что и в случае точной линейной регрессии.

Из этого следует, что все результаты данной главы остаются в силе, когда для наблюденных совокупностей мы подгоняем регрессии по методу наименьших квадратов.


Связанные определения:
Выборочный коэффициент корреляции
Корреляционный анализ
Корреляция
Коэффициент корреляции
Линейная регрессия
Логистическая регрессия
Матрица плана
Метод наименьших квадратов
Независимый признак
Некоррелированный
Общая линейная модель
Регрессия

В начало

Содержание портала