Случайная цитата


Чтобы правильно задать вопрос, нужно знать большую часть ответа. (Шекли)

Автоматическая классификация проб при разведке полезных ископаемых с помощью STATISTICA

Содержание

Постановка задачи

Файл данных

Стартовая панель

Просмотр описательных статистик

Выбор анализа дискриминантной функции

Просмотр результатов дискриминантного анализа

Классификация

Классификация проб в модуле деревья классификации

Применение обобщенного дискриминантного анализа для классификации проб

Список литературы


Постановка задачи

Рассматривается задача поиска нефти на основе гомологов метана.

Имеется ряд проб, собранных в различных местах предполагаемого месторождения. По содержанию веществ эксперт относит пробы к одному из трех классов: перспективно, неперспективно, под вопросом. Задача состоит в том, чтобы построить автоматическую классификацию с помощью STATISTICA и облегчить трудоемкий процесс классификации эксперту.

Показывается, что данная задача может быть решена в STATISTICA с помощью модуля Дискриминантный анализ, Обобщенный дискриминантный анализ, Деревья классификации.

Строится классификатор при определенных условиях оптимальный – минимизирующий ошибки ложной классификации.

Данный пример основан на множестве данных о содержании гомологов метана в образцах.

Известно, что изучение полей концентраций предельных углеводородов ряда метан – гексан является необходимым элементом любого комплекса наземных геологосъемочных работ, направленных на поиски залежей нефти и газа.

Пример носит модельный характер, цель исследования – продемонстрировать силу статистических методов.

В файле имеются данные о содержании четырёх типов веществ в пробах, условно обозначенных М1, М2, М3, М4.

В начало


Файл данных

Множество данных для этого анализа содержится в файле Proba.sta. Часть файла приведена ниже на рис. 1.

В первой переменной расположены наименования проб.

В четырех последующих переменных содержатся данные по концентрации соответствующих веществ в пробах. Переменная 6 кодирует принадлежность пробы к определенной категории.

В этой выборке имеются 150 проб, по 50 каждого типа.

В целом, в этой выборке имеются 150 проб, по 50 каждого типа. Отнесение пробы к группе выполнено экспертно.

Покажем, как с помощью STATISTICA построить автоматический классификатор, позволяющий с минимальными ошибками относить новую пробу к одному из трех классов (см. рис. 2)

Файл данных

Рис. 1. Файл данных

Файл данных. Не классифицированная проба

Рис. 2. Файл данных. Не классифицированная проба

В начало


Стартовая панель

Откроем программу STATISTICA.

Запустим модуль Дискриминантный анализ: Анализ –> Многомерный разведочный анализ ¬–> Дискриминантный анализ.

На экране появится стартовое окно модуля Дискриминантный анализ, показанное на рис. 3.

Стартовая панель Дискриминантного анализа

Рис. 3. Стартовая панель Дискриминантного анализа

Выберем группирующую переменную (переменная Группа) и независимые переменные, которые используются для дискриминации наблюдений.

Нажмём на кнопку Переменные на стартовой панели.

Выберем переменную Группа, как на группирующую и введем в качестве независимых переменных (предикторов) Переменные 2 - 5. Укажем коды для группирующей переменной. Нажмем кнопку Коды для группирующей переменной и выберем опцию Все.

Диалог задания кодов

Рис. 4. Диалог задания кодов

Выберем Пошаговый анализ (см. опции в нижней части окна).

Удаление пропущенных данных

Если в файле имеются пропущенные данные, вы можете или игнорировать наблюдения с пропущенными данными (установить в поле Пропущенные данные значение Построчное удаление) или восполнить пропущенные данные их средними значениями (Замена средними значениями).

Мы оставим опцию удаление пропущенных данных построчно.

В начало


Просмотр описательных статистик

Определение средних

Начнем анализ, нажав кнопку OK.

Откроется диалоговое окно, которое позволит задать параметры дискриминантного анализа и просмотреть описательные статистики.

Диалог задания параметров анализа. Вкладка Дополнительно

Рис. 5. Диалог задания параметров анализа. Вкладка Дополнительно

Перед выбором вида анализа дискриминантной функции нажмём кнопку Просмотреть описательные статистики на вкладке Описательные для того, чтобы взглянуть на распределения некоторых переменных и их взаимные корреляции.

Описательные статистики. Вкладка Внутригрупповые статистики

Рис. 6. Описательные статистики. Вкладка Внутригрупповые статистики

Вначале рассмотрим средние.

Нажмём на кнопку Средние и число наблюдений, после чего должна появиться таблица со средними и действующим значением n для каждой совокупности и для комбинации всех групп.

Средние значения переменных по группам

Рис. 7. Средние значения переменных по группам

Из таблицы видно, что средние в группах различаются, но необходимо учесть, что масштабы признаков (концентраций) различны. В силу этого, для сравнения групп будет полезно рассмотреть различные диаграммы рассеяния.

Диаграмма размаха

Нажмём на кнопку Диаграмма размаха (на вкладке Все наблюдения) для получения диаграммы размаха для независимых переменных.

Диаграмма размаха

Рис. 8. Диаграмма размаха

Этот график полезен для представления распределений переменных, которые он описывает с помощью следующих трех компонент:

(1) Центральная точка или линия указывает на положение центральной области (т. е. на среднее или медиану);

(2) Прямоугольник указывает на характер изменчивости вокруг центрального положения (т. е. квартили, стандартные ошибки или стандартные отклонения);

(3) Отрезки вокруг прямоугольников указывают на диапазон значений переменной [например, размахи, стандартные отклонения, умноженные на 1.96 стандартные отклонения (95%-й доверительный интервал), умноженные на 1.96 стандартные ошибки среднего (95%-й доверительный интервал)].

Из графика Вы видите, что медианы в группах существенно различаются. Медиана – это такое значение выборки, для которого 50% наблюдений меньше, а 50% наблюдений больше. По сути обнаруженное различие в медианах говорит о неоднородности признаков. Для классификации необходимо использовать значения концентраций всех 4-х веществ.

Можно взглянуть на распределение переменных внутри каждой группы. Для этого нажмём на кнопку Диаграмма размаха (по группам) (на вкладке Внутригрупповые статистики) и выберем переменную Концентрация Z.

Тогда в следующем диалоговом окне выберите команду Среднее/ст.откл./1.96*(ст.откл.) для выбора типа диаграммы размаха.

Диаграмма размаха (по группам)

Рис. 9. Диаграмма размаха (по группам)

На диаграмме видно, что по значению Концентрация Z даже визуально можно отделить Группу 1 от других групп: в среднем Группа 1 характеризуется низкой концентрацией данного вещества. Вполне вероятно, что и при дискриминации данный показатель будет существенно влиять на результаты.

Категоризованные гистограммы

Можно графически отобразить гистограммы для переменных на каждом уровне группирующей переменной, нажав на вкладке Внутригрупповые статистики кнопку Категоризованная гистограммы (по группам) в диалоговом окне Описательные статистики.

При нажатии этой кнопки, мы получаем возможность выбрать переменные из списка предварительно отобранных независимых переменных.

Для этого примера выберем переменную Концентрация Y.

Гистограммы для каждой из совокупностей, определенных на стартовой панели, представлены ниже.

Категоризованная гистограмма

Рис. 10. Категоризованная гистограмма

Можно видеть, эта переменная в целом имеет для каждой группы (тип пробы) нормальное распределение.

Нормальность переменных необходима для корректного применения методики Дискриминантного анализа. Обычно распределение большого количества наблюдений (проб) дает основание предполагать нормальное распределение.

Если предположение о нормальности не выполняется, можно воспользоваться Обобщенным дискриминантным анализом или использовать модуль Деревья классификации (см. соответствующие разделы ниже).

Диаграмма рассеяния

Вернемся теперь к диалоговому окну Описательные статистики.

Другим интересным типом графиков являются диаграммы рассеяния корреляций между переменными, используемыми в анализе.

Для графического обзора корреляций между всеми переменными с помощью диаграмм рассеяния нажмите на вкладке Все наблюдения кнопку График полных корреляций.

График полных корреляций

Рис. 11. График полных корреляций

Обратите внимание, что почти на всех диаграммах рассеяния визуально четко отделяется одна группа точек. Вполне возможно, что все они принадлежат к одной группе проб. Подобные графики позволяют не только визуально выделять группы, но и определять признаки (концентрации веществ), по которым можно проводить дискриминацию.

В начало


Выбор анализа дискриминантной функции

Теперь вернемся к цели нашего анализа – построим автоматический классификатор с помощью STATISTICA.

Нажмем на кнопку Отмена в диалоговом окне Описательные статистики для того, чтобы вернуться к диалоговому окну Определение Модели.

На вкладке Дополнительно установим в списке Метод параметр Пошаговый с включением.

При такой установке программа будет последовательно вводить переменные в модель, каждый раз выбирая переменную, вносящую наибольший вклад в дискриминацию.

Определение модели. Вкладка Дополнительно

Рис. 12. Определение модели. Вкладка Дополнительно

Правила остановки

STATISTICA будет находиться в пошаговом режиме до тех пор, пока не произойдет одно из четырех событий.

Программа прервет пошаговую процедуру, если:

(1) Все переменные введены или отброшены, или

(2) Достигнуто максимальное число шагов, установленное в поле Число шагов, или

(3) Нет других переменных вне модели, имеющих значение статистики F, большее, чем значение F-включить, указанное в этом диалоговом окне, и, когда в модели нет других переменных, имеющих значение F, меньшее, чем значение F-исключить, указанного в этом диалоговом окне, или

(4) Какая-либо переменная на следующем шаге имеет значение толерантности, меньше, чем выбранное значение Толерантность.

F для включения/исключения

При пошаговом анализе с включением программа отбирает переменные для включения, дающие наиболее значащий единственный (дополнительный) вклад в дискриминацию между совокупностями; т. е. программа выбирает переменные с наибольшим значением F (большим, чем соответствующее указанное пользователем значение F-включить).

При выполнении шагов с исключением программа будет отбирать для исключения наименее значимые переменные, то есть переменные с наименьшим F значением (меньшим, чем соответствующее указанное пользователем значение F-исключить).

Толерантность

На каждом шаге программа вычисляет для каждой переменной множественную корреляцию (R-квадрат) со всеми другими переменными, которые были включены модель. Значение толерантности переменной вычисляется как 1 минус R-квадрат. Поэтому значение толерантности является мерой избыточности переменной.

Например, если переменная, предназначенная для включения в модель, имеет значение толерантности, равное .01, то эта переменная может рассматриваться как на 99% избыточная с уже включенными переменными.

В общем случае рекомендуется оставлять значение толерантности, равное 0.01 и устанавливаемое в программе по умолчанию.

Начало анализа

После просмотра различных параметров в этом диалоговом окне можно продолжить работу обычным образом, то есть, не изменяя никаких установок, принятых по умолчанию, на новые.

Для просмотра результатов на каждом шаге, установим в поле Вывод результатов параметр На каждом шаге.

Определение модели. Вкладка Дополнительно

Рис. 13. Определение модели. Вкладка Дополнительно

Теперь нажмём кнопку OK для запуска дискриминантного анализа.

В начало


Просмотр результатов дискриминантного анализа

Результаты на шаге 0

Программа строит модель по шагам.

Сначала отображаются Результаты на нулевом шаге.

Слова Шаг 0 означают, что еще ни одной переменной не было включено в модель.

Диалог результатов. Шаг 0

Рис. 14. Диалог результатов. Шаг 0

Так как ни одной переменной не было еще включено в модель, большинство операций еще недоступно (и они неактивны).

Можно взглянуть на переменные, которые не включены в модель, нажав на кнопку Переменные вне модели.

Переменные вне модели

Рис. 15. Переменные вне модели

Лямбда Уилкса

В общем случае статистика Уилкса лямбда является стандартной статистикой, используемой для обозначения статистической значимости мощности дискриминации в текущей модели.

Ее значение меняется от 1.0 (нет никакой дискриминации) до 0.0 (полная дискриминация).

Каждое значение в первой колонке таблицы, приведенной выше, является значением статистики Уилкса лямбда после того, как соответствующая переменная вводится в модель.

Частная лямбда Уилкса

Это статистика лямбда Уилкса для одиночного вклада соответствующей переменной в дискриминацию между совокупностями. Это значение можно рассматривать как аналог частного коэффициента корреляции.

Так как лямбда с величиной 0.0 обозначает полную дискриминацию, то чем ниже ее значение в этом столбце, тем больше одиночный вклад соответствующей переменной в степень дискриминации. Так как в модель еще не было введено ни одной переменной, частная лямбда Уилкса на шаге 0 равна статистике лямбда Уилкса после ввода переменной, (см. значения, содержащиеся в первой колонке таблицы).

F-включить и p-значение

Статистика Уилкса лямбда может быть преобразована к стандартному F значению, и вы можете вычислить соответствующее p-значение для каждого значения F. Однако не следует в общем случае принимать эти p-значения в качестве решающего результата.

Взглянув на таблицу выше, можно увидеть, что наибольшие значения величины F-включить дает переменная Концентрация Z. Таким образом, эта переменная будет введена в модель на следующем (первом) шаге.

Толерантность и R-квадрат

Значение толерантности обсуждалось ранее в этом разделе. Повторяя снова это определение, скажем, что оно определяется как 1 минус R-квадрат для соответствующей переменной со всеми другими переменными в модели.

Это значение толерантности дает информацию об избыточности данной переменной. Когда другие переменные еще не выбраны, все R-квадраты равны 1.0.

Результаты на шаге 2

Нажмем теперь на кнопку Далее для перехода к следующему шагу. Шаг 1 здесь не будет рассматриваться, так что нажмём снова на кнопку Далее для перехода к шагу 2 (модель с двумя переменными).

Диалоговое окно Результаты показано ниже:

Диалог результатов. Шаг 2

Рис. 16. Диалог результатов. Шаг 2

Внешне, дискриминация между группами высоко значима (статистика лямбда Уилкса = .037; F = 307.1, p<0.0001).

Взглянем теперь на независимые вклады каждой переменной в модели в предсказание.

Переменные в модели

Нажмем на кнопку Переменные в модели для вывода таблицы результатов для текущих переменных в модели. Как можно видеть, обе переменные высоко значимы.

Таблица переменных в модели

Рис. 17. Таблица переменных в модели

Переменные вне модели

Нажмём на кнопку Переменные вне модели, чтобы получить таблицу с теми же самыми статистиками, что мы видели ранее.

Переменные вне модели

Рис. 18. Переменные вне модели

Как видно, обе переменные, которые еще вне модели, имеют значение F-включить, большие чем 1.

Вы знаете, что из-за этого пошаговая процедура будет продолжаться, и следующая переменная, которая будет вводиться в модель – это переменная Концентрация V.

Результаты на шаге 4 (последний шаг)

Шаг 3 не будет здесь рассматриваться, так что нажимаем снова на кнопку Далее для того, чтобы перейти к финальному шагу в этом анализе – Шаг 4.

Диалог результатов. Шаг 4

Рис. 19. Диалог результатов. Шаг 4

Теперь нажмем на кнопку Переменные в модели для обзора независимых вкладов каждой переменной в общую дискриминацию между типами проб.

Переменные в модели

Рис. 20. Переменные в модели

Частичная статистика Уилкса лямбда показывает, что переменная Концентрация Z дает вклад больше всех, переменная Концентрация V - вторая по значению вклада, переменная Концентрация Y - третья по значению вклада и переменная Концентрация X вносит в общую дискриминацию меньше всех.

Чем меньше статистика лямбда Уилкса, тем больше вклад в общую дискриминацию.

На этой стадии исследования можно заключить, что концентрации веществ Z и V являются главными переменными, которые позволяют вам производить дискриминацию между различными типами проб.

В начало


Классификация

Вернемся в диалоговое окно Результаты анализа дискриминантных функций и перейдем к задаче классификации.

Одна из целей анализа дискриминантной функции – дать исследователю возможность провести классификацию объектов. Теперь посмотрим, как хорошо построенные дискриминирующие функции классифицируют пробы.

Функции классификации

Каждая функция позволяет Вам для каждого наблюдения и для каждой совокупности вычислить Веса классификации по формуле:

Si = ci + wi1*x1 + wi2*x2 + ... + wim*xm

В этой формуле индекс i обозначает соответствующую совокупность, а индексы 1, 2, ..., m обозначают m переменных; ci являются константами для i-ой совокупности, wij - веса для j-ой переменной при вычислении показателя классификации для i-ой совокупности; xj - наблюдаемое значение для соответствующего образца для j-ой переменной. Величина Si является результатом показателя классификации.

Взглянем вначале на функции классификации.

Мы будем классифицировать наблюдение в ту совокупность, для которой вычислен наибольший классификационный вес.

На вкладке Классификация нажмём на кнопку Функции классификации для того, чтобы увидеть эти функции.

Функции классификации

Рис. 21. Функции классификации

Можно использовать эти функции для того, чтобы определить преобразования для трех новых переменных.

Если вы введете новое наблюдение, программа автоматически вычислит классификационный вес для каждой совокупности.

Априорные вероятности

Вы можете задать различные априорные вероятности для каждой совокупности (на вкладке Классификация диалога Результаты выберите команду Заданные пользователем в поле Априорные вероятности классификации).

Это вероятности того, что наблюдение принадлежит соответствующей совокупности без использования какой-либо информации о значениях переменных в модели.

Априорные вероятности могут сильно повысить точность классификации.

Вы можете также ограничиться вычислением результатов для отобранных наблюдений (нажмите на кнопку Выбор).

Это полезно, в частности, если необходимо провести оценку качества результатов анализа дискриминантной функции с новыми данными.

Для новых наблюдений, однако, теперь принимается установка по умолчанию Пропорциональные размерам групп.

Матрица классификации

На вкладке Классификация нажмём на кнопку Матрица классификации. В результирующей таблице результатов (см. ниже), вторая линия в заголовке каждой колонки приводит априорные вероятности классификации.

Матрица классификации

Рис. 22. Матрица классификации

Так как имеется ровно 50 проб каждого типа, и мы выбираем эти вероятности пропорционально объемам выборок, априорные вероятности для каждой совокупности одинаковы и равны 1/3.

В первом столбце таблицы находится процент наблюдений, которые были правильно классифицированы для каждой совокупности с помощью полученных функций классификации.  Оставшиеся столбцы дают число случаев правильной и неправильной классификации для каждой совокупности.

Априорная в сравнении с апостериорной классификацией

При классификации наблюдений, по которым уже была найдена дискриминирующая функция, Вы обычно получаете сравнительно хорошую дискриминацию (хотя обычно не настолько хорошую, как в этом примере).

Однако эту классификацию рассматривают только как диагностическое средство идентификации сильных и слабых сторон полученных дискриминантных функций, поскольку эти классификации являются не априорными предсказаниями, а скорее апостериорными.

Только если классифицируются различные (новые) образцы, эту таблицу можно интерпретировать в терминах мощности дискриминации. Поэтому было бы несправедливо заявлять, что Вы можете успешно дискриминировать пробу почвы на 98% во всех случаях, основываясь только на четырех измерениях.

Поскольку Вы рассчитываете на удачу, то можете ожидать значительно меньшей точности при классификации новых образцов (проб).

Расстояние Махаланобиса и апостериорные вероятности

Теперь вернемся снова в диалоговое окно Результаты. Наблюдения классифицируются в совокупности, к которым они ближе, чем к другим. Расстояние Махаланобиса является мерой расстояния, которую можно использовать в многомерном пространстве, определенном переменными модели.

Можно вычислить расстояние между наблюдением и центром каждой совокупности (т. е. центроидом совокупности, определенного соответствующим средним совокупности для каждой переменной).

Чем ближе наблюдение к центроиду группы, тем в большей степени вы можете быть уверены, что это наблюдение принадлежит этой группе. Расстояние Махаланобиса может быть получено путем нажатия на кнопку Квадраты расстояния Махаланобиса.

Матрица квадратов расстояний Махаланобиса

Рис. 23. Матрица квадратов расстояний Махаланобиса

Можно также непосредственно вычислить вероятность того, что наблюдение принадлежит определенной совокупности. Это условная вероятность в том смысле, что она зависит от нашего знания значений переменных в модели. Поэтому эти вероятности называются апостериорными вероятностями. Можно получить их, нажав на кнопку Апостериорные вероятности. Заметим, что, как и в случае матриц классификации, можно отобрать образцы для классификации и указать различные априорные вероятности.

Конкретные классификации

Ниже показана конкретная классификация наблюдений (проб) – кнопка Классификация наблюдений.

Классификация наблюдений

Рис. 24. Классификация наблюдений

Классификация производится на первый, второй и третий выборы. Столбец с заголовком 1 содержит первый выбор классификации, то есть код совокупности, для которой соответствующий образец имеет наивысшую апостериорную вероятность.

Строки, отмеченные звездочкой (*), указывают на неправильно классифицированные образцы. Снова в этом примере точность классификации очень высока, даже с учетом того, что это апостериорная классификация.

Модуль Дискриминантный анализ, реализованный в системе STATISTICA, позволяет не только строить правила классификации, но и классифицировать пробы. Вспомним о неклассифицированной пробе №151. См. рис. 2.

Классификация наблюдений. Случай с неклассифицированной пробой

Рис. 25. Классификация наблюдений. Случай с неклассифицированной пробой

Проба 151 была отнесена системой STATISTICA при помощи построенного правила к Группе 3.

В начало


Классификация проб в модуле деревья классификации

Деревья классификации – это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных. Анализ деревьев классификации – один из наиболее важных методов, используемых при проведении разведочного анализа данных.

Более того, как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, деревья классификации, по мнению многих исследователей, не знают себе равных.

Использование Деревьев классификации полезно в тех случаях, когда предикторы качественно различаются между собой и несут существенно разную информативность для классификации объектов.

Расширим нашу задачу, добавив в качестве фактора, категориальную переменную Глубина с возможными значениями Глубина A и Глубина Б.

Цель по-прежнему заключается в построении правила классификации для имеющихся проб.

Теперь решим эту же задачу в модуле Деревья классификации.

Исходные данные

Рис. 26. Исходные данные

Запустим модуль Деревья классификации анализ: Анализ –> Многомерный разведочный анализ ¬–> Деревья классификации.

На экране появится стартовое окно модуля Деревья классификации, показанное на рис. 27.

Шаг 1. Задание переменных

Стартовая панель модуля Деревья классификации

Рис. 27. Стартовая панель модуля Деревья классификации

Нажмём кнопку Переменные.

Диалог выбора переменных

Рис. 28. Диалог выбора переменных

Выберем в качестве зависимой переменной переменную Группа, а в качестве порядковых предикторов возьмём четыре переменные-измерения.

Переменные выбраны

Рис. 29. Переменные выбраны

Шаг 2. Задание параметров метода

Теперь перейдём на вкладку Методы и ознакомимся с опциями.

Выбор типа ветвления

Рис. 30. Выбор типа ветвления

Тип ветвления устанавливается автоматически. В том случае, если данных достаточно много и возможно проведение классификации в два этапа (обучающая и тестовая выборки), лучше использовать Полный перебор для одномерных ветвлений по методу C&RT.

Так же, как и в модуле Дискриминантный анализ, доступно задание Априорных вероятностей.

Более того, можно задать таблицу с ценами ошибок классификации, если неправильная классификация некоторых проб окажется менее желательной (с экономической, экологической и др), чем других.

Таблица задания ошибок классификации

Рис. 31. Таблица задания ошибок классификации

Далее рассмотрим раздел Параметры остановки. Установим пункт Прямая остановка: нас будет интересовать дерево, в котором доля неклассифицированных наблюдений в каждой ветке будет меньше 5%. При таких установках будет получаться наиболее подробное дерево классификации.

Раздел Параметры остановки меню Деревья классификации

Рис. 32. Раздел Параметры остановки меню Деревья классификации

Шаг 3. Просмотр результатов

Теперь можно нажать ОК и мы попадём в окно Деревья классификациирезультаты.

Результаты построения Деревьев классификации

Рис. 33. Результаты построения Деревьев классификации

После нажатия на кнопку Граф Дерева получаем следующие результаты:

Результаты построения Деревьев классификации

Рис. 34. Результаты построения Деревьев классификации

Прокомментируем полученное дерево. Начинаем с верхней вершины. Все 150 наблюдений делятся на 2 группы: 50 и 100 наблюдений, соответственно, по признаку Концентрация Z: если концентрация Z < 2,09, то относим пробу к группе 1, иначе продолжаем анализ. Далее переходим к анализу оставшихся 100 проб и так далее.

Обратите внимание, что и в Дискриминантном анализе по признаку Z наиболее четко отделялась первая группа.

В том случае если дерево получается слишком громоздким, можно построить граф дерева с прокруткой (см. Прокрутить дерево на рис. 33).
Деревья классификации являются более наглядным и понятным средством для построения правила классификаций наблюдений.

Далее в меню Структура можно посмотреть Таблицу и График значимости предиктора. По ним можно судить о дискриминирующей силе каждого из предикторов, участвующих в построении дерева: чем больше ранг, тем больше значимость соответствующего предиктора (см. рисунки ниже).

График значимости предикторов

Рис. 35. График значимости предикторов

На вкладке Классификация построим таблицу с Объектами в классах.

вкладка Классификация

Предсказанные и наблюдаемые объекты

Рис. 36. Предсказанные и наблюдаемые объекты

Как мы видим, после проведенной классификации неправильно классифицированными оказались лишь 3 пробы: 1 принадлежала Группе 3, а оказалась в Группе 2, и для 2-х проб ситуация обратная.

В начало


Применение обобщенного дискриминантного анализа для классификации проб

В модуле Общие модели дискриминантного анализа предоставлены функциональные возможности, которые делают этот модуль общим средством для классификации и добычи данных. Данный модуль расширяет возможности классического Дискриминантного анализа, позволяя включать в множество предикторов и категориальные переменные.

В нашем случае, использование данного модуля обусловлено наличием категориальной переменной Глубина (см. рис. 26).

Главное меню модуля Общие модели дискриминантного анализа

Рис. 37. Главное меню модуля Общие модели дискриминантного анализа

Шаг 1. Задание переменных

Перейдем в меню Общий дискриминантный анализ и выберем переменные для анализа:

В качестве зависимой переменной укажем переменную Группа, в качестве категориальной – Глубина, в качестве непрерывных предикторов – концентрации 4-х веществ (см. рис. 38)

Таким образом, целью исследования является построение правила классификации: установление зависимости Группы от непрерывных и категориальных признаков: концентрации веществ и глубины.

Меню задания переменных

Рис. 38. Меню задания переменных

Шаг 2. Анализ результатов

В меню результатов на вкладке Быстрый доступны таблицы с описательными статистиками по группам:

Средние в классах для предикторов

Рис. 39. Средние в классах для предикторов

 

Стандартные отклонения в классах для предикторов

Рис. 40. Стандартные отклонения в классах для предикторов

По данным значениям видно, что по некоторым признакам группы сильно различаются как по средним, так и по стандартным отклонениям.

Матрица классификации наблюдений

Рис. 41. Матрица классификации наблюдений

Далее на вкладке Функции построим Матрицу классификации (см. рис. 41).

Результаты похожи на результаты Деревьев классификации: неверно классифицированы лишь три пробы. При этом Группа 1 определяется абсолютно правильно.

Если Деревья классификации представляли правило в виде графа, то в модуле Общий дискриминантный анализ данное правило формулируется в виде 3-х функций классификации.

Функции классификации наблюдений

Рис. 42. Функции классификации наблюдений

Получаемые значения определяют принадлежность пробы к определенной группе.

Если необходимо получить более подробную информацию о принадлежности пробы к определенной группе, можно построить Таблицу с Апостериорными вероятностями (см. вкладку Наблюдения)

Вкладка Наблюдения окна Результатов при использовании модуля Общие Дискриминантные модели

Рис. 43. Вкладка Наблюдения окна Результатов при использовании модуля Общие Дискриминантные модели

Апостериорные вероятности наблюдений

Рис. 44. Апостериорные вероятности наблюдений

Для каждого наблюдения указывается вероятность попадания в ту или иную группу, согласно построенному правилу дискриминации. Например, из таблицы на рис. 44 видно, что проба номер 5 имеет почти одинаковые шансы попасть как в Группу 2, так и в Группу 3. В итоге данная проба была классифицирована как Группа 2, хотя на самом деле относилась к третьей Группе (при ошибке классификации соответствующее наблюдение помечается *).

Для определения признака, наиболее сильно повлиявшего на классификацию, используется Многомерные критерии значимости (Все эффекты на вкладе Эффекты). См. рисунок ниже.

Многомерные критерии значимости

Рис. 45. Многомерные критерии значимости

Согласно p-уровню (<0.05) можно заключить, что все признаки влияют на дискриминацию групп.

В начало


Список литературы

  1. Авдонин В.В. и др. Поиски и разведки месторождений полезных ископаемых. Изд: Мир 2007.
    В учебнике рассматривается весь комплекс проблем, связанных с поисками и разведкой месторождений металлических и неметаллических полезных ископаемых. В нем отражены все новейшие достижения в области поисков и разведки месторождений полезных ископаемых. Это касается в первую очередь изложения современных методик обработки разведочных данных с применением компьютерных технологий — построения трехмерных моделей месторождений и работе с ними.

  2. Боровиков В.П., Боровиков И.П. STATISTICA. Статистический анализ и обработка данных в среде Windows, Филинъ 1998. Справочное и учебное пособие по системе STATISTICA.

  3. Боровиков В.П. STATISTICA, искусство анализа данных на компьютере, Питер 2001.
    В книге изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа данных, иллюстрированные примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей

  4. Ермолов В.А. и др. Месторождения полезных ископаемых. Геология, Изд. МГГУ 2007.

  5. Электронный учебник StatSoft.


В начало

Содержание портала