Пусть имеются данные, представляющие собой наборы (Vi, Pi, yi), i = 1,...,N, где Vi > 0, Pi > 0, а переменная yi принимает только два значения. Далее будем считать, что yi либо равно 0, либо равно 1.
Предположим, что события (yi = 1) (i = 1,...,N) независимы и что существует гладкая функция r(V, P) такая, что вероятность события (yi = 1) равна r(Vi, Pi), i = 1,...,N. Для функции r(V, P) естественно представление
r(V, P) = W(V, P)/(1+ W(V, P)). (1)
Предположим, что положительная функция W(V, P) выглядит следующим образом:
ln W(V, P) = b0 + b1 lnV + b2 ln P. (2)
Таким образом, получено трехпараметрическое семейство вероятностных распределений для случайного вектора (y1, y2,..., yN)= Y.
Логарифм функции правдоподобия для случайного вектора Y имеет вид:
ln L(Y, b0, b1, b2) = Si=1N[yi ln r(Vi, Pi) + (1 - yi) ln(1 - r(Vi, Pi ))]. (3)
Согласно методу максимального правдоподобия, в качестве оценки неизвестных параметров b0, b1, b2 при заданном векторе Y берутся такие значения этих параметров, которые максимизируют ln L(Y, b0, b1, b2).
После того как найдены оценки параметров (b0, b1, b2), мы получаем значения функции r(V, P) в каждой точке (V, P). По этой функции строим дискриминантную кривую, которая задается уравнением
r(V, P) =1/2 (4)
Если в точке (Vi, Pi) значение r(Vi, Pi) > 1/2, то предсказанное значение yi в этой точке равно 1. При r(Vi, Pi) < 1/2 предсказанное значение yi равно 0. Уравнение (4) можно переписать в виде W(V, P) = 1 или, как следует из (2),
b0 + b1 lnV + b2lnP = 0.
Отсюда получаем уравнение дискриминантной кривой в переменных P и V
P = e(-b0/ b2)V(-b1/b2).
Введем теперь в пространстве переменных P и V новую координату
Z = P/(e(-b0/b2)V(-b1/ b2)) = P e(b0/b2)V(b1/ b2).
Тогда функция r(V, P) будет функцией только от переменной Z и дискриминантная линия будет задаваться уравнением Z = 1 в координатах (V, Z). Практические вычисления удобно осуществлять с помощью раздела Логит-регрессия пакета STATISTICA. Кроме решения указанных выше задач в пакете даются статистические характеристики оценок параметров (b0, b1, b2), что позволяет оценить достоверность выводов всего анализа. Ниже приведен пример для конкретных данных из файла ot–17.sta. Вычисленные оценки: b0 = -56.033, b1 = 2.44580, b2 = 6.082712.
95%-ые доверительные интервалы для параметров (b0, b1, b2 ) равны соответственно [-100.75; -11.319], [2.445; 4.282], [1.09; 11.074]. Довольно широкие доверительные интервалы для параметров не позволяют в этом примере построить эффективную доверительную полосу для дискриминантной функции.
Связанные определения:
Логистическая регрессия
Скачать
Актуальные курсы