Частные коэффициенты регрессии
Ошибки относительно линейной регрессии
Соотношения между дисперсиями, регрессиями и корреляциями различных порядков
8. Обобщим теперь соотношения линейной регрессии на случай p величин. Для p совместно нормальных величин xi с нулевым средним и дисперсиями математическое ожидание величины x1 при условии, что x2, ..., xp фиксированы, как видно из выражения в экспоненте распределения, равно
. (17)
Коэффициент регрессии x1 по xj при фиксированных остальных p-2 величинах будем обозначать или, короче
, где q символизирует совокупность величин, отличных от указанных первичными индексами, а индекс у q служит для различения этих совокупностей. Коэффициенты
называются частными коэффициентами регрессии.
Следовательно, мы имеем
. (18)
Сравнивая (18) с (17), получаем для многомерного нормального случая
. (19)
Аналогично, коэффициент регрессии xj по x1 при фиксированных остальных переменных есть
. (20)
Таким образом, поскольку C1j=Cj1, то из (6), (19) и (20) получаем
(21)
- очевидное обобщение соотношения (17). Соотношения (19) и (20) показывают, что коэффициент не симметричен относительно x1 и xj, как и следовало ожидать от коэ ффициента зависимости. Подобно(5) и (6), (19) и (20) являются определениями частных коэффициентов регрессии в общем случае.
9. Назовем ошибкой (эту величину часто называют "остатком" (residual) но мы будем проводить различие между ошибками (errors) относительно линейных регрессий в генеральной совокупности и остатками, возникающими при подгонке регрессий к выборочным данным) порядка (p-1) величину
.
Ее среднее равно нулю, а дисперсия равна
.
так что является дисперсией ошибки величины x1 относительно регрессии. Из (18) немедленно получаем
(22)
. (23)
Если брать математическое ожидание в два этапа, фиксируя вначале x2, ..., xp, то условное математическое ожидание от второго члена в (23) будет равно, согласно (18), нулю. Таким образом,
. (24)
Дисперсия ошибки (24) не зависит от фиксируемых значений x3, ..., xp, если только от них не зависят коэффициенты .
В этом случае условное распределение величины x1 называется гомоскедастическим (homoscedastic) (или гетероскедастическим (heteroscedastic) в противном случае). Это постоянство дисперсии ошибок делает интерпретацию регрессий и корреляций более простой.
Например, в нормальном случае условные дисперсии и ковариации, полученные при фиксировании множества величин, не зависят от значений, в которых последние фиксированы (см. (14)).
В других случаях при интерпретациях мы должны надлежащим образом учитывать обнаруженную гетероскедастичность, тогда, возможно, частные коэффициенты регрессии лучше всего рассматривать как показатели зависимости, усредненные по всевозможным значениям фиксированных величин.
Если даны p величин, то мы можем изучать корреляцию между любыми двумя из них, когда среди оставшихся зафиксированы значения произвольного подмножества величин. Аналогично, можно интересоваться регрессией произвольной величины относительно любого подмножества из оставшихся величин. С возрастанием p число всевозможных коэффициентов становится очень большим.
Если некоторый коэффициент содержит k вторичных индексов, то говорят, что он имеет порядок k. Так, порядок p12.34 равен 2, порядок p12.3 - единице, порядок p12 - нулю, тогда как β12.678 имеет порядок 3, а - порядок 4. В наших нынешних обозначениях коэффициенты линейной регрессии β1 и β2 должны быть записаны в виде β12 и β21 соответственно. Они имеют порядок нуль, как и обычная дисперсия σ2.
В 4 и 7 мы уже видели, как любой коэффициент корреляции первого порядка может быть выражен через коэффициенты нулевого порядка. Теперь будут получены более общие результаты такого сорта для коэффициентов всех типов.
11. Из (24) и (19) имеем
(25)
откуда
.
Пользуясь символом q, введенным в 8, получаем
, (26)
и аналогично, если 1 заменить любым другим индексом.
Точно таким же путем можно получить более общий результат
, (27)
который сводится к (26) при l=m. Соотношение (27) применимо в случае, когда вторичные индексы одной величины включают в себя первичные индексы другой.
Если, с другой стороны, оба множества вторичных индексов не содержат l и m, то обозначим через r общее множество вторичных индексов. Ковариация двух ошибок xl.r, xm.r связана с их корреляцией и дисперсиями соотношениями:
(28)
что согласуется с уже найденным соотношением (21). Присоединяя множество индексов r к обеим величинам xl, xm, мы попросту должны сделать то же самое со всеми их коэффициентами.
12. Теперь можно использовать (26) для получения соотношения между дисперсиями ошибок различных порядков. Обозначая |D| корреляционный определитель всех величин, кроме x2. Тогда, имеем из (26)
(где индекс q-2 обозначает множество q без x2) и
,
откуда
. (29)
По определению |D|=C22, а согласно обобщенной теореме Якоби об определителях
, (30)
так как D11 является дополнительным минором для в C. Таким образом, используя (30), получаем из (29)
(31)
или, учитывая (6), находим
. (32)
Соотношение (32) является обобщением двумерного результата, который может быть представлен в виде
.
13. Соотношение (32) дает нам возможность выразить дисперсию ошибки порядка (p-1) через дисперсию ошибки и коэффициент корреляции порядка (p-2). Если мы теперь вновь воспользуемся (32) для того, чтобы выразить , то тем же путем найдем, что
.
Применяя последовательно (32) и записывая более полно индексы, получаем
. (33)
В (33), очевидно, не играет роли порядок вторичных индексов у σ1.23...p; мы их можем переставить так, как пожелаем. Например, для простоты в силу (26) можно написать
. (34)
В (34) индексы, отличные от 1, допускают перестановку. Соотношение (34) позволяет нам выразить дисперсию ошибки порядка s через дисперсию ошибки нулевого порядка и s коэффициентов корреляции, порядок которых принимает значения от нуля до (s-1).
14. Перейдем теперь к коэффициентам регрессии. Перепишем (15) для ковариации между x1 и x2 при фиксированном xp:
.
Присоединяя повсюду индексы 3, ..., (p-1), имеем
. (35)
Используя определение (28) коэффициента регрессии как отношения ковариации к дисперсии, т.е.
,
и обозначим через r множество 3, ..., (p-1), находим из (35)
,
или
. (36)
Если в (36) положить x1≡x2, то получим
, (37)
другую форму соотношения (32). Таким образом, из (36) и (37) имеем
. (38)
Это и есть требуемая формула для выражения коэффициента регрессии через некоторые коэффициенты следующего более низкого порядка. Повторно применяя (38), найдем представление любого коэффициента регрессии в терминах коэффициентов нулевого порядка.
Наконец, используя (21), из (38) получаем соотношение
, (39)
обобщающее (5) путем присоединения множества индексов r.
15. В нашем изложении, начиная с 8, мы занимались точно линейными регрессионными зависимостями типа (18). Рассмотрим теперь вопрос подгонки регрессионных соотношений этого типа к наблюденным совокупностям, регрессии которых почти никогда не бывают точно линейными.
С помощью тех же рассуждений мы приходим к методу наименьших квадратов. Мы выбираем поэтому так, чтобы минимизировать сумму квадратов уклонений n наблюдений от подгоняемой регрессии:
, (40)
где "иксы" измеряются от своих средних значений и предполагается n>p. Решение имеет вид
, (41)
где матрица X составлена из наблюдений над p-1 величинами x2, ..., xp, а x1 - вектор наблюдений величины x1. Соотношение (41) можно переписать в виде
, (42)
где Vp-1 - матрица рассеяния для x2, ..., xp, а M - вектор ковариаций между x1 и xj (j=2, ..., p). Таким образом,
. (43)
Поскольку |Vp-1| есть минор V11 матрицы рассеяния V всех p величин, то (Vp-1)jl представляет собой дополнительный минор для
в V, так что сумма в правой части (43) является алгебраическим дополнением для (-σ1j) в V. Поэтому (43) представляется в виде
. (44)
Соотношение (44) совпадает с (19). Таким образом, мы приходим к заключению, что аппроксимация по методу наименьших квадратов дает те же коэффициенты регрессии, что и в случае точной линейной регрессии.
Из этого следует, что все результаты данной главы остаются в силе, когда для наблюденных совокупностей мы подгоняем регрессии по методу наименьших квадратов.
Связанные определения:
Выборочный коэффициент корреляции
Корреляционный анализ
Корреляция
Коэффициент корреляции
Линейная регрессия
Логистическая регрессия
Матрица плана
Метод наименьших квадратов
Независимый признак
Некоррелированный
Общая линейная модель
Регрессия
Скачать
Актуальные курсы