Пусть – случайная выборка, имеющая многомерное нормальное распределение
Тогда выборочное среднее и ковариационная матрица имеют соответственно вид
Если – некоторый вектор наблюдений, имеющий распределение
, то выборочный аналог величины
, называемой выборочным расстоянием Махаланобиса, дается формулой
Можно показать, что величина
имеет -распределение с
и
степенями свободы.
Расстояние от вектора до множества со средним значением
и матрицей ковариации
определяется как
Расстояние Махаланобиса также может быть определено как мера различия между двумя случайными векторами с равными распределениями:
В случае, когда матрица единичная, расстояние Махаланобиса равно стандартному евклидову расстоянию.
Если матрица диагональная, то расстояние Махаланобиса называется стандартизованным евклидовым расстоянием.
В задаче нахождения вероятности того, что заданная точка принадлежит неизвестному множеству, которое задано несколькими известными точками, первым шагом будет определить центр масс этого множества.
Чем ближе эта точка будет к центру масс, тем больше вероятность того, что она в него попала.
Во-вторых, стоит учитывать разброс точек множества относительно центра масс, т.е. стандартизовать это расстояние:
Однако точки множества могут располагаться не сферически симметрично относительно центра масс. В таком случае необходимо учитывать также не только вероятность появления точки на таком расстоянии от центра, но и в таком направлении. Учитывающим эти принципы обобщением и является расстояние Махаланобиса.
Расстояние Махаланобиса определяет различие между векторами и не зависит от масштаба, а потому является размером эффекта. Оно широко применяется в задачах кластеризации и классификации: для того, чтобы определить, к какому из известных классов относится точка, необходимо найти матрицы ковариаций для всех классов и взять класс с наименьшим до точки.
Скачать
Актуальные курсы