Применение технологий Data Mining в задачах геологоразведки

Содержание

Обзор задач

Введение в Data Mining

Меню STATISTICA Data Miner

Исходные данные

Интерактивное «бурение» данных

Визуальный анализ в STATISTICA Data Miner

Заключение

Список литературы


Обзор задач

Геологоразведка решает задачи поиска и разведки месторождений полезных ископаемых и входит в состав геологоразведочных работ, проводимых для выявления и оценки запасов минерального сырья.

В процессе геологоразведочных работ бурятся поисковые и разведочные скважины, из которых получают образцы горных пород (керн) для изучения состава, структуры и различных петрофизических характеристик геологического разреза. При этом решаются следующие задачи: расчленение геологического разреза; определение горных пород, слагающих геологический разрез; выделение пластов-коллекторов и изучение их свойств; выявление и локализация скоплений различных полезных ископаемых; подсчет запасов полезных ископаемых и т.д.

Во многих случаях отбор керна из скважин технически невозможен или экономически невыгоден, тогда применяется другой метод получения геологической информации, без необходимости отбора керна, – с использованием геофизических исследований скважин (ГИС).

Основой ГИС является каротаж, который заключается в измерении вдоль ствола скважины при помощи каротажного зонда или наземных датчиков какой-либо величины, характеризующей физические, химические или другие свойства горных пород, вскрытых скважиной.

Сигналы от скважинного прибора передаются на поверхность и регистрируются наземной аппаратурой, установленной обычно на передвижной каротажной станции. Полученный комплекс каротажных диаграмм поступает на обработку геофизику, который при помощи специальных программных средств и на основе собственного опыта производит их расшифровку (геологическую интерпретацию).

В настоящее время бурение любой скважины обязательно сопровождается комплексом ГИС.

Основы теории и практики геологической интерпретации данных геофизических исследований скважин (ГИС) сформировались в 30-70 гг. прошлого столетия. Интерпретация ГИС базируется на математическом и физическом моделировании изучаемых процессов (решение прямых задач геофизики), методах статистического (корреляционного и дискриминантного) анализа, решении систем нелинейных петрофизических уравнений (обратная задача геофизики) и некоторых других линейно-статистических методах. Особенно важным с точки зрения геофизического анализа является построение правил классификаций пород при ГИС.

Все это позволяет сделать предположение об эффективности применения для решения геофизических задач таких методов Data Mining, как нейронные сети, деревья решений и др., т.к. данные методы обладают свойством адаптивности, обобщения, извлечения знаний и моделирования сложных нелинейных зависимостей в массивах данных.

Введение в Data Mining

"За последние годы, когда, стремясь к повышению эффективности и прибыльности бизнеса, при создании БД все стали пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности - горы собранных данных: И вот все больше распространяется идея о том, что эти горы полны золота".

Сам термин Data Mining переводится как "извлечение информации" или "добыча данных". Нередко рядом с Data Mining встречаются слова knowledge discovery - "обнаружение знаний" и Data Warehouse - "хранилище данных". Возникновение указанных терминов, которые являются неотъемлемой частью Data Mining, связано с новым витком в развитии средств и методов обработки и хранения данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных, образно говоря, в "нахождении золотых песчинок в огромной куче руды".

Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. В среднем человек, за исключением некоторых индивидуумов, не способен улавливать более двух-трех взаимосвязей даже в небольших выборках.

Но и традиционная статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (средней платежеспособностью клиента, когда в зависимости от функции риска или функции потерь, вам необходимо уметь прогнозировать состоятельность и намерения клиента; средней интенсивностью сигнала, тогда как вам интересны характерные особенности и предпосылки пиков сигнала и т.д.).

Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез, тогда как определение гипотезы иногда бывает достаточно сложной и трудоемкой задачей. Современные технологии Data Mining перелопачивают информацию с целью автоматического поиска шаблонов (паттернов), характерных для каких-либо фрагментов неоднородных многомерных данных.

В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных шаблонов переложено с человека на компьютер.

Data Mining - это не один, а совокупность большого числа различных методов обнаружения знаний. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы пытаетесь получить. Вот, например, некоторые методы: ассоциация (объединение), классификация, кластеризация, анализ временных рядов и прогнозирование, нейронные сети и т. д.

Сфера применения Data Mining ничем не ограничена - Data Mining нужен везде, где имеются какие-либо данные.

Исходные данные

Имеется файл с данными GeoData.sta по геологоразведке:

Фрагмент таблицы с исходными данными

Рис. 1. Фрагмент таблицы с исходными данными

Проводится анализ данных полученных при бурении 100 (поле 10 на 10) скважин на глубину до 1000 метров.
Переменные X и Y условно кодируют координату скважины на поверхности, переменная Z – глубину скважина. Проба грунта снималась каждые 50 метров и анализировалась по следующим параметрам:

1. BK – боковой каротаж. Измерение удельного электрического сопротивления горных пород.

2. DT – акустический каротаж. Измерение интервального времени пробега продольной звуковой волны.

3. GR – гамма-метод. Регистрация интенсивности естественного гамма-излучения горных пород.

4. NGR – нейтронный гамма-метод. Измерение поглощения и рассеяния нейтронов горными породами.

После этого по комбинации данных показателей делалось заключение (переменная Класс) о структурном составе недр.

Цель исследования: Задача состоит в том, чтобы описать и проанализировать структуру данных, построить автоматическую модель классификации пород.

Меню STATISTICA DATA MINER

Меню Data Mining STATISTICA - Workspaces доступно через основное меню Data Mining.

Рабочее пространство Data Miner

Рис. 2. Рабочее пространство Data Miner

Рабочее пространство Data Miner разделено на 4 секции:

1) Data Acquisition - Сбор данных. В данной части пользователь идентифицирует источник данных для анализа, будь то файл данных или запрос из базы данных.

2) Data Preparation, Cleaning, Transformation - Подготовка, преобразования и очистка данных. Здесь данные преобразуются, фильтруются, группируются и т.д.

3) Data Analysis, Modeling, Classification, Forecasting - Анализ данных, моделирование, классификация, прогнозирование. Здесь пользователь может при помощи браузера или готовых моделей задать необходимые виды анализа данных таких как, прогнозирование, классификация, моделирование и т. д.

4) Reports - Результаты. В данной части пользователь может просмотреть, задать вид и настроить результаты анализа (например, рабочая книга, отчет или электронная таблица).

Все процедуры доступные в STATISTICA Data Miner можно загрузить через меню Node Browser.

Node Browser

Рис. 3. Node Browser

Здесь помимо процедур Data Mining можно найти и стандартные процедуры анализа данных доступные в системе STATISTICA.
Нас будет интересовать модуль:

Data Mining – Interactive Drill Down (интерактивное бурение)

В начало

Интерактивное «бурение» данных

Первым шагом во многих проектах Data Mining является интерактивное исследование данных, с целью получения первоначального представления о типах переменных, используемых в анализе, и возможными взаимосвязями между ними.

Система STATISTICA и модуль STATISTICA Data Mining, в частности, предлагают широкий набор, как методов разведочного анализа, так и методов графического анализа (графическая или визуальная добыча данных).

Задача Интерактивного бурения состоит в том, чтобы предоставить пользователю инструмент анализа, сочетающий графические и разведочные методы, который позволит быстро определять распределения переменных и связи между ними, а также определять наблюдения, принадлежащие неким специфическим группам данных.

Термин "бурение", в контексте добычи данных, вполне раскрывает возможности этого метода: программа позволяет выбирать наблюдения из большого набора данных, с помощью выделения в нем подгрупп, характеризующихся определенными значениями, или диапазонами значений переменных.
В некотором смысле можно добираться до самых "глубоких слоев" данных, рассматривая все более узкие подмножества наблюдений, строящихся на основе все более сложных условий выбора.

Меню анализа Интерактивное бурение (Interactive Drill Down) доступно в Data Mining/Data Mining – Workspaces. См. рис. 4.

Модуль Data Miner Interactive Drill Down

Рис. 4. Модуль Data Miner Interactive Drill Down

По сути, мы перешли на глубину 50 метров и пытаемся анализировать данные, собранные только для этого уровня. См. таблицы и графики с описательными статистиками ниже.

Корреляции

Рис. 5. Корреляции

Описательные статистики

Рис. 6. Описательные статистики

Анализируя средний показатели и величины разброса и величину зависимости между показателями, эксперт может оценить насколько возможно обнаружения нефтяного коллектора на данном уровне. По величинам максимума и минимума, количеству наблюдений судить о том, имеются ли сбои или пропуски в показаниях приборов.

Можно проводить исследования не только показателей по глубине залегания, но и анализировать результаты на каждой скважине. Для этого достаточно выбрать в качестве параметров для «бурения» условные координаты скважины (переменные X и Y).

Бурение

Рис. 7. Бурение

Каротажная диаграмма

Рис. 8. Каротажная диаграмма

В результате бурения, например, можно получить график зависимости показателя от глубины (каротажная диаграмма) для данной скважины.

Или получить круговую диаграмму, на которой отображается структурный состав полученных проб из скважины.

Круговая диаграмма

Рис. 9. Круговая диаграмма

В начало

 

Визуальный анализ в STATISTICA Data Miner

Во многих случаях использование графического представления информации позволяет более эффективно работать с числовыми данными. Система STATISTICA предлагает большой выбор графических методов, содержащих программные средства для обработки данных и проверки гипотез.

Кроме того, система STATISTICA включает широкий спектр графических методов для визуального представления результатов исследований. Все графические средства системы STATISTICA обеспечивают возможность выбора встроенного аналитического интерактивного метода анализа и содержат большой набор программ настройки, позволяющих пользователю интерактивно управлять отображением информации на экране. Гибкие средства управления одновременно несколькими графиками дают возможность пользователю объединять различные графические изображения и осуществлять динамический обмен между приложениями (используя средства OLE).

Начнем работать с STATISTICA Data Miner. Следуя логике Data Miner, решаем задачу поэтапно:
1. Импорт данных
2. Преобразование данных
3. Выбор метода визуализации
4. Анализ результатов

Шаг 1. Импорт данных

В качества Источника данных выбирает таблицу с данными GeoData.sta, однако это может быть и база данных, и какой-либо другой файл (например, xls), содержащий исходные данные.

Рабочее пространство Data Miner

Рис. 10. Рабочее пространство Data Miner

Шаг 2. Преобразование данных

На этапе преобразований данных (окно Подготовка, чистка и преобразования данных) осуществляется подготовка и выбор необходимых для анализа данных. В некоторых случаях данные требуют дополнительной предобработки: агрегирования, разбиения, преобразования.

В нашем случае подобного преобразования не потребуется, поэтому каждый раз будем только выбирать необходимые переменные.

Шаг 3. Выбор метода визуализации

В окно Анализ, классификация и прогнозирование наряду с методами анализа данных также доступны различные методы визуализации. В нашем примере мы будем использовать следующие графики:

1. Трехмерные карты линий уровня

2. Трехмерные и двумерные диаграммы рассеяния

3. Линейные графики

Шаг 4. Анализ результатов

1. Трехмерные карты линий уровня

При помощи выбранного ранее метода визуализации при помощи трехмерных карт линий уровня проанализируем структуру распределения значений показателей по слоям.

Трехмерные карты линий уровня - BK

Рис. 11. Трехмерные карты линий уровня - BK

Обратите внимание, что структура представляет собой некоторый однородный по показателю BK слой с наибольшим значением параметра на уровне 300-600 метров. В геофизике известно, что показатель BK является одним из основных при разделении коллекторов на водоносные и нефтеносные.

Аналогичная ситуация для показателя NGR, но данный параметр, судя по цветам убывает в эпицентре.

Трехмерные карты линий уровня - NRG

Рис. 12. Трехмерные карты линий уровня - NRG

Трехмерные карты линий уровня - GR

Рис. 13. Трехмерные карты линий уровня - GR

По данным картам можно (судить) выделять однородные слои и делать заключения по их структуре, размерам и прочим характеристикам.

2. Диаграммы рассеяния

Имеющиеся данные можно представить не только в множестве разрезов, но и визуализировать их в трехмерном пространстве при помощи 3D диаграмм рассеяния.

Трехмерная диаграмма рассеяния

Рис. 14. Трехмерная диаграмма рассеяния

Обратите внимание, что с помощью данной диаграммы мы можем четко представить структуру залегания пород уже в трехмерном пространстве.

3. Двумерные диаграммы рассеяния и линейные графики

Подобно тому, как мы строили каротажные диаграммы с помощью инструмента Data Miner: Интерактивное бурение, возможно построение общей картины изменений показателей с изменением глубины.

На диаграмме рассеяния ниже представлены графики зависимости показателя GR от глубины скважины (для каждой из 100 скважин).

Двумерная диаграмма рассеяния

Рис. 15. Двумерная диаграмма рассеяния

Обратите внимание, что почти на всех скважинах на глубине около 1000 метров наблюдается рост показателя GR.

Это может свидетельствовать о наличии новой породы на данной глубине.

Использование деревьев классификации в STATISTICA Data Miner

Переменная Класс, содержащая данные о породах в таблице с исходными данными, получена с помощью специалиста в геофизике. Подобная работа требует довольно много времени и усилий.
При таком количестве данных использовать подобный подход оказывается не совсем целесообразным. Поэтому предлагается использовать Деревья классификации, также реализованные в частности в продукте STATISTICA Data Miner.

Визуальный анализ проведенный в STATISTICA Data Miner показал, что некоторые показатели сильно коррелируют между собой. Более того, мы выявили области однородности и структуру изменения данных показателей.

Теперь попробуем составить правило классификации на основе собранной информации, чтобы в дальнейшем задачу идентификации пород проводить в автоматическом режиме.

Использование Деревьев классификации

Используя то же меню STATISTICA Data Miner, добавляем модуль построения деревьев классификации. Используем процедуру полного перебора деревьев с целью минимизации ошибок при классификации проб.

Деревья классификации полезны в тех случаях, когда предикторы качественно различаются между собой и несут существенно разную информативность для классификации объектов.

Цель по-прежнему заключается в построении правил классификации для имеющихся проб.

Рабочее пространство Data Miner

Рис. 16. Рабочее пространство Data Miner

После запуска модуля получаем модель для классификации. Представленное ниже дерево классификации дает возможность интерактивно анализировать вновь поступившие пробы, сравнивая между собой показатели. Все терминальные вершины (отмечены красной рамочкой) помечены одним из 5 типов пород, содержащихся в переменной Класс. В итоге, каждая новая проба относится к одному из классов пород.

Дерево классификации

Рис. 17. Дерево классификации

Иногда получившееся дерево оказывается очень громоздким для использования. Для решения подобной проблемы используйте дерево с прокруткой.

Дерево классификации с прокруткой

Рис. 18. Дерево классификации с прокруткой

Для оценки силы классификации построенного дерева полезно посмотреть на матрицу классификации, содержащую информацию о верно и ошибочно классифицированных пробах. Большие по размеру столбцы на диагоналях говорят о довольно точной классификации модели.

Матрица классификации

Рис. 19. Матрица классификации

Предсказанные и наблюдаемые объекты

Рис. 20. Предсказанные и наблюдаемые объекты

Чтобы определить по каким именно критериям наиболее существенно различаются породы в представленной выборке, достаточно посмотреть на гистограмму значимости предикторов, также содержащуюся в отчете STATISTICA Data Miner.

Ранги значимости предикторов

Рис. 21. Ранги значимости предикторов

В начало

Заключение

Мы рассмотрели лишь некоторые инструменты Data Miner, часто необходимые на первых этапах исследования, когда еще не понятно: где и что искать в имеющихся данных. В частности, интерактивное бурение позволяют быстро и наглядно получить первичное представление о зависимостях в данных. Обнаруженные связи между различными факторами позволяют выдвинуть предположения для построения регрессионных, прогностических и/или нейросетевых моделей.

STATISTICA Data Miner дает возможность анализировать данные ГИС представляющих, по сути, сложную многомерную структуру, обосновывать решения, принимаемых экспертом, строить сложные прогностических моделей.

В начало

Список литературы

  1. Боровиков В.П. STATISTICA, искусство анализа данных на компьютере, Питер 2001. В книге изложена концепция и технология современного анализа данных на компьютере. На основе элементарных понятий описываются углубленные методы анализа данных, иллюстрированные примерами из экономики, маркетинга, рекламы, бизнеса, медицины, промышленности и других областей.

  2. Боровиков В.П. Нейронные сети. STATISTICA Neural Networks, Горячая линия – Телеком 2008. Книга состоит из глав посвященных введению в анализ данных, теорию вероятностей, теорию нейронных сетей. Отдельно в книгу включена глава, посвященная классическим методам анализа. Книга написана для широкого круга читателей, занимающихся исследованиями в банковской сфере, промышленности, экономике, бизнесе, геологоразведке, управлении, транспорте и других областях.
  3. В.А.Ермолов и др. Месторождения полезных ископаемых. Геология, Изд. МГГУ 2007.

  4. Электронный учебник StatSoft.


В начало