Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Подробнее о теме на курсах StatSoft


Многомерный анализ данных

Дискриминантный анализ

В задачах построения объяснительных моделей часто встает вопрос о нахождении критерия, по которому можно было бы классифицировать данные (построение дискриминирующей функции) и определить переменные, которые различают две или более возникающие совокупности (группы).

Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: (1) поступающий в колледж, (2) поступающий в профессиональную школу или (3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы.

После выпуска большинство учащихся естественно должно попасть в одну из названных категорий.

Затем можно использовать Дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути.

Пусть имеется n наблюдений, разбитых на k групп (классов).

Каждое наблюдение характеризуется набором из m значений (независимые переменные). Также для каждого наблюдения известно, к какой из k групп оно принадлежит. Принадлежность объектов к разным классам выражается в том, что для объектов данного класса имеет распределение Fj, j=1,…,k.

Задача состоит в том, чтобы для нового наблюдения определить группу (класс), к которой оно принадлежит.

Дискриминантный анализ предполагает, что Fj являются m-мерными нормальными распределениями , j=1,…,k и имеющими плотности:

Формула для pj(x),      (1)

j = 1,…,k     

Здесь - m-мерный вектор средних значений, а - невырожденная ковариационная матрица ().

В таком случае, исходя из принципа максимального правдоподобия, будем считать областью притяжения закона N(мюj,суммаj) множество таких наблюдений , где плотность распределения  больше других. См. рис. 1.

В данном примере, где графики плотности пересекаются только в одной точке, получается, что вся прямая разбивается на 2 области притяжения.

Области притяжения для m=1

Рис. 1. Области притяжения для k=2, m=1

Это равносильно тому, что линейно связанная с логарифмом плотности величина:

  , j=1,…,k      (2)

имеет наименьшее значение среди h1,...hk. Таким образом, n+1 наблюдение будет отнесено к i-группе, если (x)- имеет наименьшее значение.

 

Оценка качества дискриминации

Рассмотрим модель Фишера, которая является частным случаем нормальной дискриминантной модели при .

При k =2 нетрудно проверить, что поверхность, задаваемая условием , разделяет два класса уравнением:

, где Формула для a .

Линейную функцию  часто называют дискриминантной функцией, как функцию, описывающую гиперплоскость, по которой разделяются две группы. Мы же будем под дискриминантной функцией понимать линейную часть функции  (x).

Обозначим через  расстояние Махаланобиса между и . Чем более далекими в метрике Махаланобиса являются и , тем меньше вероятность ошибочной классификации.

В общем случае, .

Расстояние Махаланобиса является мерой расстояния между двумя точками x и y в пространстве, определяемым двумя или более коррелированными переменными.

Можно заметить, что в случае, когда переменные не коррелированны (), расстояние Махаланобиса совпадет с евклидовым.

При k>2 с помощью гиперплоскостей  m–мерное пространство разбивается на k частей. В каждой из них содержится только одна точка из мюj – та, к которой все точки данной части находятся ближе, чем к остальным в смысле расстояния Махаланобиса. См. рис. 2.

Области притяжения для m=2

Рис. 2. Области притяжения для k=3, m=2

Для проверки гипотезы  о равенстве средних в качестве статистик критерия используют статистики Уилкса (лямбда Уилкса):

L=detE/detT        (3)

Здесь T = Сумма – общая матрица рассеяния, матрица внутриклассового разброса: ,

где Формула для Ej- матрица рассеяния j-го класса.

Очевидно, что ее значение меняется от 1.0 (нет дискриминации) до 0.0 (полная дискриминация).

Оказывается, что верно матричное тождество:

T = E + R,

где R = Сумма – матрица разброса между элементами класса,  – число элементов в j-м классе.

При выполнении гипотезы :

Гипотеза     (4)

имеет распределение Фишера.

 отклоняется (т.е. дискриминация значима), если

Неравенство,

где - квантиль уровня


Связанные определения:
Дискриминантный анализ

В начало

Содержание портала