В задачах построения объяснительных моделей часто встает вопрос о нахождении критерия, по которому можно было бы классифицировать данные (построение дискриминирующей функции) и определить переменные, которые различают две или более возникающие совокупности (группы).
Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы.
После выпуска большинство учащихся естественно должно попасть в одну из названных категорий.
Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.
Пусть имеется n наблюдений, разбитых на k групп (классов).
Каждое наблюдение характеризуется набором из m значений (независимые переменные). Также для каждого наблюдения известно, к какой из k групп оно принадлежит. Принадлежность объектов к разным классам выражается в том, что для объектов данного класса имеет распределение , j=1,…,k.
Задача состоит в том, чтобы для нового наблюдения определить группу (класс), к которой оно принадлежит.
Дискриминантный анализ предполагает, что являются m-мерными нормальными распределениями
, j=1,…,k и имеющими плотности:
, (1)
j = 1,…,k
Здесь - m-мерный вектор средних значений, а
- невырожденная ковариационная матрица (
).
В таком случае, исходя из принципа максимального правдоподобия, будем считать областью притяжения закона множество таких наблюдений
, где плотность распределения
больше других. См. рис. 1.
В данном примере, где графики плотности пересекаются только в одной точке, получается, что вся прямая разбивается на 2 области притяжения.
Рис. 1. Области притяжения для k=2, m=1
Это равносильно тому, что линейно связанная с логарифмом плотности величина:
, j=1,…,k (2)
имеет наименьшее значение среди . Таким образом, n+1 наблюдение будет отнесено к i-группе, если
(x)- имеет наименьшее значение.
Рассмотрим модель Фишера, которая является частным случаем нормальной дискриминантной модели при .
При k =2 нетрудно проверить, что поверхность, задаваемая условием , разделяет два класса уравнением:
, где
.
Линейную функцию часто называют дискриминантной функцией, как функцию, описывающую гиперплоскость, по которой разделяются две группы. Мы же будем под дискриминантной функцией понимать линейную часть функции
(x).
Обозначим через расстояние Махаланобиса между
и
. Чем более далекими в метрике Махаланобиса являются
и
, тем меньше вероятность ошибочной классификации.
В общем случае, .
Расстояние Махаланобиса является мерой расстояния между двумя точками x и y в пространстве, определяемым двумя или более коррелированными переменными.
Можно заметить, что в случае, когда переменные не коррелированны (), расстояние Махаланобиса совпадет с евклидовым.
При k>2 с помощью гиперплоскостей m–мерное пространство разбивается на k частей. В каждой из них содержится только одна точка из
– та, к которой все точки данной части находятся ближе, чем к остальным в смысле расстояния Махаланобиса. См. рис. 2.
Рис. 2. Области притяжения для k=3, m=2
Для проверки гипотезы о равенстве средних
в качестве статистик критерия используют статистики Уилкса (лямбда Уилкса):
(3)
Здесь T = – общая матрица рассеяния, матрица внутриклассового разброса:
,
где - матрица рассеяния j-го класса.
Очевидно, что ее значение меняется от 1.0 (нет дискриминации) до 0.0 (полная дискриминация).
Оказывается, что верно матричное тождество:
T = E + R,
где R = – матрица разброса между элементами класса,
– число элементов в j-м классе.
При выполнении гипотезы :
(4)
имеет распределение Фишера.
отклоняется (т.е. дискриминация значима), если
,
где - квантиль уровня
.
Связанные определения:
Дискриминантный анализ
Скачать
Актуальные курсы