Случайная цитата


Все люди от природы стремятся к знанию. (Аристотель. Метафизика)

Правило ассоциаций в нефтеразведке

Содержание

Введение

Исходные документы

Меню STATISTICA DATA MINER

Построение ассоциативных правил

Шаг 1. Импорт данных

Шаг 2. Построение ассоциативных правил

Шаг 3. Анализ результатов

Заключение

Список литературы


Введение

"За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".

Сам термин Data Mining переводится как "извлечение информации" или "добыча данных". Нередко рядом с Data Mining встречаются слова knowledge discovery - "обнаружение знаний" и Data Warehouse - "хранилище данных". Возникновение указанных терминов, которые являются неотъемлемой частью Data Mining, связано с новым витком в развитии средств и методов обработки и хранения данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных, образно говоря, в "нахождении золотых песчинок в огромной куче руды".

Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках.

Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь, вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т.д.).

Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии Data Mining перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных.

В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных шаблонов переложено с человека на компьютер.

Data Mining - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот, например, некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д.

Сфера применения Data Mining ничем не ограничена - Data Mining нужен везде, где имеются какие-либо данные.

Исходные данные

Имеется файл с данными OilSearch.sta по геологоразведке 100 скважин.

Из каждой скважины были изъяты пробы, которые были проверены на наличие определенных гомологов метана (метан, бутан, пропан) и других химических соединений (бензол, толуол и др.).

Фрагмент таблицы показан ниже.

Фрагмент таблицы с исходными данными

Рис. 1. Фрагмент таблицы с исходными данными

Каждая строчка в таблице соответствует пробе из скважины. Каждая проба была изучена по 20 признакам (1- означает наличие соответствующего признака, 0 – его отсутствие).

Например, Признак 1 – наличие метана,

                   Признак 2 – наличие бутана,  

                   Признак 3 – наличие бензола,

                   Признак 4 – наличие толуола и так далее.

Имеется также заключение о наличии или отсутствии нефти (переменная «Наличие нефти» - да или нет).

Понятно, что таблицы подобной структуры содержат большое количество наблюдений и проводить стандартный анализ для них затруднительно и зачастую неэффективно, так как у исследователя отсутствует полное представление о возможных связях, содержащихся в имеющихся данных.

Цель исследования: определить возможные зависимости между переменными по имеющимся данным при помощи Ассоциативных правил STATISTICA Data Miner.

Меню STATISTICA DATA MINER

Меню Data Mining - Workspaces доступно через основное меню Data Mining.

Основное диалоговое меню STATISTICA Data Miner

Рис. 2. Основное диалоговое меню STATISTICA Data Miner

Рабочее пространство Data Miner разделено на 4 секции:

1) Data Acquisition - Сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.

2) Data Preparation, Cleaning, Transformation - Подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.

3) Data Analysis, Modeling, Classification, Forecasting - Анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных таких как, прогнозирование, классификация, моделирование и т. д.

4) Reports - Результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).

Все процедуры доступные в STATISTICA Data Miner можно загрузить через меню Node Browser.

Меню диспетчера узлов в STATISTICA Data Miner

Рис. 3. Меню диспетчера узлов в STATISTICA Data Miner

Здесь помимо процедур Data Mining можно найти и стандартные процедуры анализа данных доступные в системе STATISTICA.

Нас будут интересовать модуль:
Data MiningAssociation Rules (построение ассоциативный правил)

Построение ассоциативных правил

Анализ Data MiningAssociation Rules основан на построении ассоциативных правил связи между наблюдаемыми явлениями.

Ассоциативные правила или правила связи позволяют находить закономерности между связанными событиями (причина обозначается как Body, следствие как Head).

Скажем, при изучении проб наличие метана (Body) в 90 % ведет к обнаружению нефти (Head). При этом «нефтяных проб»(Head) с наличием метана (Body) было всего 50% от общего количества проб.

Здесь 90% – называются достоверностью (confidence) ассоциативного правила:

                      Body                             ->                          Head
«Признак 1 (наличие метана): 1»   ->          «Наличие нефти: да»,

А 50% - поддержкой (support) этого ассоциативного правила.

Также существует еще одна характеристика связи - корреляция. В некотором смысле, она является нормализованной величиной поддержки.

Значение корреляции для пары кодовых или текстовых значений {Body, Head} вычисляется как поддержка этой пары, деленная на квадратный корень из величины поддержки Body и Head::

здесь - просто доля наблюдений, для которых верна причина – «Признак 1 (наличие метана): 1».

Определим, какие закономерности можно обнаружить в данных с помощью анализа ассоциативных правил. Следуя логике STATISTICA Data Miner, будем проводить анализ по шагам.

Шаг 1. Импорт данных

В верхнем меню щелкнем на иконку New Data Source и в появившемся меню выберем файл с исходными данными.

Меню выбора источника данных

Рис. 4. Меню выбора источника данных

Меню задания типа переменных

Рис. 5. Меню задания типа переменных

Меню задания типа переменных

Рис. 6. Меню задания типа переменных

Поясним окно на рис. 6. Все анализы основаны на предположении, что исследуемые переменные разделяются на 4 типа:

1. Зависимые, непрерывные

2. Зависимые, категориальные

3. Независимые, непрерывные

4. Независимые, категориальные

Большинство анализов проводится для установления связи между переменными по набору наблюдений.

Например, в нашем случае анализ заключается в построении ассоциативных правил связи и зависимостей между признаками.

Также переменные могут различаться по количеству различных значений, которые они принимают. Если значений достаточно много, то переменная непрерывная, иначе – категориальная.

Так как заранее мы не знаем о данных зависимостях необходимо просто указать непрерывный или категориальный тип.

В нашем случае все признаки (0 или 1) – категориальные независимые.

Конечно, построение ассоциативных правил в STATISTICA Data Miner не ограничивается только изучением категориальных переменных.
В таблице вполне могли присутствовать и непрерывные данные: глубина в метрах, где была взята проба; концентрация (а не просто факт наличия или отсутствия) химических соединений и т. д.

Теперь в основном меню STATISTICA появился элемент исходных данных: OilSearch.

Исходные данные в основном диалоговом меню STATISTICA Data Miner

Рис. 7. Исходные данные в основном диалоговом меню STATISTICA Data Miner

Шаг 2. Построение ассоциативных правил

Добавим узел Data MiningAssociation Rules (через иконку Node Browser в верхнем меню рабочей области Data Miner)

Меню диспетчера узлов в STATISTICA Data Miner. Модуль построение Ассоциативных правил

Рис. 8. Меню диспетчера узлов в STATISTICA Data Miner. Модуль построение Ассоциативных правил

Задание инструмента анализа в основном диалоговом меню STATISTICA Data Miner

Рис. 9. Задание инструмента анализа в основном диалоговом меню STATISTICA Data Miner

Определим параметры узла, два раза щелкнув на соответствующий узел:

Параметры:

  • Minimum support (минимальная поддержка),

  • Minimum confidence (минимальная достоверность),

  • Minimum correlation (минимальная корреляция)

определяют нижние границы включения ассоциативного правила в итоговый список.

Задание параметров анализа

Рис. 10. Задание параметров анализа

При увеличении данных величин будет уменьшаться количество правил, попадающих в итоговую таблицу. По сути, мы начинаем искать все более и более надежные зависимости в данных. Например, установив минимальный уровень достоверности равный 1, мы получим только те правила (если конечно таковые будут), которые соответствуют следующему принципу: Из А всегда (в 100% наблюдений) следует B.

После задания параметров нажимаем на иконку Run в верхнем меню рабочей области Data Miner (или через щелчок правой мыши на иконку модуля «Ассоциативных правил»). См. рисунок ниже.

Запуск на расчет STATISTICA Data Miner

Рис. 11. Запуск на расчет STATISTICA Data Miner

Шаг 3. Анализ результатов

После расчетов откроем в меню Reports рабочую книжку. И рассмотрим первую таблицу с результатами:

Просмотр результатов анализа через основное окно STATISTICA Data Miner

Рис. 12. Просмотр результатов анализа через основное окно STATISTICA Data Miner

Просмотр результатов анализа

Рис. 13. Просмотр результатов анализа

Анализ обнаружил 151 ассоциативное правило, которые удовлетворяют ограничениям на минимальные значения уровня поддержки, достоверности и корреляции.

Поясним, как устроена таблица:

Причина содержится в переменной Body (например, «Признак1 = 1»), следствие в Head (например, «Наличие нефти = да»). См. также раздел Построение ассоциативных правил выше.

Support(Body,Head) («совместная» поддержка) – показывает, для какой доли всех наблюдений верна и причина, и следствие.

Величина Support(Body) – означает просто долю всех наблюдений, для которых верна причина.

Confidence(Body->Head) (достоверность) – показывает, какая доля всех наблюдения, для которых верна причина, верно и следствие.
Также STATISTICA вычисляет величину Correlation (корреляции) – это нормализованная величина поддержки, основанная на поддержке.

Из таблицы, например, можно понять, что наличие гомологов метана (метан, бутан) и наличие бензола и толуола (первые четыре признака) в 89% приводит к обнаружению нефти (Confidence) (см. выделенную строчку).

Кроме того, 50% проб, в которых была обнаружена нефть, получились положительные результаты и на перечисленные выше четыре признака (Support).

Также можно заметить, что в таблице совершенно отсутствуют другие признаки. Отсюда можно сделать вывод, что при изучении проб на наличие нефти в первую очередь нужно проверять именно присутствие в пробах гомологов метана, бензола и толуола (первые четыре признака в таблице).

Для более наглядного представления правил ассоциаций можно использовать графики правил ассоциаций. Они содержат ту же информацию, что и таблица результатов (см. выше), однако позволяют визуально сравнивать между собой правила. Для удобства представления, на графике ниже были приведены некоторые из полученных ассоциативных правил.

Сети правил ассоциации

Прокомментируем график: каждая линия, соединяющая круг из причины (Body) с кругом из следствия (Head), означает одно ассоциативное правило.

  • Чем толще линия (и темнее) соединения, тем выше достоверность правила

  • Чем больше (и темнее) размер круга, тем выше уровень поддержки.

  • При этом размер круга, соответствующего причине (Body) или следствию (Head), означает частоту встречаемости причины или следствия (см. выше комментарии к таблице Support(Body))

  • Величина совместной поддержки (Support(Body,Head)) отображается через размер (и цвет) круга посредине (Implies).

Например, правила «Признак4=да -> Признак3=да» и «Признак3=да -> Признак4=да» имеют большего размера круг посредине и относительно толстые линии соединения. Отсюда мы делаем вывод, что существует зависимость между данными признаками. Это неудивительно, т.к. наличие бензола (Признак3) в пробе связано с наличием его гомолога – толуола (Признак4).

Таким образом, использование ассоциативных правил позволяет найти на этапе разведочного анализа возможные скрытые зависимости и связи. Также ассоциативные правила позволяют определить наиболее значимые признаки и отбросить несущественные.

Полученные результаты затем можно использовать при построении регрессионных и прогностических моделей, проведения кластеризации и т.д.

В примере рассмотрены модельные данные, цель исследования – показать полезность углубленных методов анализа и добычи данных при нефтеразведке.

Заключение

Мы рассмотрели лишь некоторые инструменты Data Miner, часто необходимые на первых этапах исследования, когда еще не понятно: где и что искать в имеющихся данных.

Построение ассоциативных правил позволяют быстро и наглядно получить первичное представление о зависимостях в данных. Обнаруженные связи между различными факторами позволяют выдвинуть предположения для построения регрессионных и/или нейросетевых моделей.

Список литературы

  1. Боровиков В.П. STATISTICA, искусство анализа данных на компьютере, Питер 2001. В книге изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа данных, иллюстрированные примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей.

  2. Боровиков В.П. Нейронные сети. STATISTICA Neural Networks, Горячая линия – Телеком 2008. Книга состоит из глав посвященных введению в анализ данных, теорию вероятностей, теорию нейронных сетей. Отдельно в книгу включена глава, посвященная классическим методам анализа. Книга написана для широкого круга читателей, занимающихся исследованиями в банковской сфере, промышленности, экономике, бизнесе, геологоразведке, управлении, транспорте и других областях.

  3. Электронный учебник StatSoft.


В начало