Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Связанные статьи на других порталах


Кластеризация: метод k-средних

Связанные примеры


Пример использования кластерного анализа в автостраховании

Похожие примеры из других областей:


Экспресс-контроль важнейших параметров бензина

Подробнее о теме на курсах StatSoft


Многомерный анализ данных

Кластер-методы

Методы кластерного анализа применяются всякий раз, когда необходимо преобразовать «горы» информации в наглядные структуры, т.е. сократить число значений номинально шкалированного фактора (марка автомобиля, род предприятия, почтовый индекс, географический регион и т.д.).

За счет объединения схожих значений фактора в классы увеличиваются объемы опорных статистических выборок.

Индексы i, k обозначают номера двух любых (классов) значений фактора, v i , v k – соответственно, объемы i-го и k-го классов (число полисо-лет или совокупная страховая сумма), - оценки математического ожидания убытка на один полисо-год или ставки убытка.

По методу Уорда сначала вычисляются расстояния d ik между всеми значениями фактора. Затем объединяются два значения с наименьшим расстоянием d ik и рассчитываются расстояния от всех остальных значений до вновь образовавшегося класса. Далее снова объединяются два значения (или класса) с наименьшим расстоянием d ik и т.д. до образования желаемого числа классов (агломеративный подход).

2. Представление d ik в виде  позволяет понять, что при одинаковой разнице оценок  расстояние dik между классами большего объема больше, чем между классами малого объема. Это логично: при малых объемах классов оценки менее точны и, в силу случайности, могут сильнее отличаться, чем при больших объемах, даже если истинные математические ожидания  в обоих случаях, одинаково удалены друг от друга.

Таким образом,  множитель приглушает влияние выбросов в мелких группах. Если для дисперсии нормированного убытка Z i предположить модель Var(Z i)=  с одинаковым для всех классов параметром , то знаменатель  с точностью до множителя  составит , и все d ik при нулевой гипотезе  будут в приближении одинаково распределены.

3. Расстояние с k следует предпочесть расстоянию d ik, когда различие дисперсий нормированных убытков (и, следовательно, ) по классам обусловлено не только различием объемов, но и различием параметра  (то есть Var(Z i)= ).

В этом случае расстояния с ik имеют примерно одинаковое распределение, чего уже нельзя сказать о d ik. Мера c ik препятствует объединению классов с малым рассеянием нормированных убытков, несмотря на малое расстояние между оценками , и способствует объединению классов с сильно различающимися значениями при большом рассеянии нормированных убытков.

4. При заданной модели распределения (например, Z i ~ Normal ( ) с известным ) вычисляется распределение величины d ik при нулевой гипотезе .

Тогда d ik представляет собой статистику критерия для проверки гипотезы одинаковых математических ожиданий. Процесс кластеризации прекращается, если при заданной границе значимости (например, 95%) нулевая гипотеза отвергается для всех проверяемых пар классов.


Применение методов кластеризации STATISTICA в геологии


Связанные определения:
Кластерный анализ (кластеризация)

В начало

Содержание портала

Курсы по актуарной математике