Введение в современный Data Mining

Мы приветствуем вас на портале Data Mining - уникальном портале, посвященном современным методам Data Mining.

Технологии Data Mining представляют собой мощный аппарат современной бизнес-аналитики и исследования данных для обнаружения скрытых закономерностей и построение предсказательных моделей. Data Mining или добыча знаний основывается не на умозрительных рассуждениях, а на реальных данных.

Рис. 1. Схема применения Data Mining

Problem Definition – Постановка задачи: классификация данных, сегментация, построение предсказательных моделей, прогнозирование.
Data Gathering and Preparation – Сбор и подготовка данных, чистка, верификация, удаление повторных записей.
Model Building – Построение модели, оценка точности.
Knowledge Deployment – Применение модели для решения поставленной задачи.

Data Mining применяется для реализации масштабных аналитических проектов в бизнесе, маркетинге, интернете, телекоммуникациях, промышленности, геологии, медицине, фармацевтике и других областях.

Data Mining позволяет запустить процесс нахождения значимых корреляций и связей в результате просеивания огромного массива данных с использованием современных методов распознавания образов и применения уникальных аналитических технологий, включая деревья принятия решений и классификации, кластеризацию, нейронносетевые методы и другие.

Пользователь, впервые открывший для себя технологию добычи данных, поражается обилию методов и эффективных алгоритмов, позволяющих найти подходы к решению трудных задач, связанных с анализом больших объемов данных.

В целом Data Mining можно охарактеризовать как технологию, предназначенную для поиска в больших объемах данных неочевидных, объективных и практически полезных закономерностей.

В основе Data Mining лежат эффективные методы и алгоритмы, разработанные для анализа неструктурированных данных большого объема и размерности.

Ключевой момент состоит в том, что данные большого объема и большой размерности представляются лишенными структуры и связей. Цель технологии добычи данных – выявить эти структуры и найти закономерности там, где, на первый взгляд, царит хаос и произвол.

Вот актуальный пример применения добычи данных в фармацевтике и лекарственной индустрии.

Взаимодействие лекарственных веществ - нарастающая проблема, с которой сталкивается современное здравоохранение.

Со временем количество назначаемых лекарств (безрецептурных и всевозможных добавок) возрастает, что делает все более и более вероятным взаимодействие между лекарствами, которое может стать причиной серьезных побочных эффектов, о которых не подозревают врачи и пациенты.

Эта область относится к постклиническим исследованиям, когда лекарство уже выпущено на рынок и интенсивно используется.

Клинические исследования относятся к оценке эффективности препарата, но слабо учитывают взаимодействия данного лекарства с другими препаратами, представленными на рынке.

Исследователи из Стэнфордского Университета в Калифорнии изучили базу данных FDA (Food and Drug Administration - Управление по контролю за пищевыми продуктами и лекарственными препаратами) побочных эффектов лекарств и обнаружили, что два часто используемых препарата – антидепрессант пароксетин и правастатин, используемый для понижения уровня холестерина – увеличивают риск развития диабета, если употребляются совместно.

Исследование по проведению подобного анализа, основанного на данных FDA выявило 47 ранее неизвестных неблагоприятных взаимодействий.

Это замечательно, с той оговоркой, что многие отрицательные эффекты, отмеченные пациентами, остаются не выявленными. Как раз в таком случае сетевой поиск способен себя проявить наилучшим образом.

Академия StatSoft провела тренинг по анализу данных с использованием нейронных сетей для ПАО "Северсталь"


Мы начинаем знакомство с Data Mining, используя замечательные видеоролики Академии Анализа Данных.

Обязательно посмотрите наши ролики, и вы поймете, что такое Data Mining!

Видео 1. Что такое Data Mining?


Далее познакомьтесь с обзорным видеороликом, из которого вы узнаете, какие методы и алгоритмы реализованы в Data Mining.

Видео 2. Обзор методов добычи данных: деревья принятия решений, обобщенные предсказательные модели, кластеризация и многое другое


Прежде чем запустить исследовательский проект, мы должны организовать процесс получения данных из внешних источников, сейчас мы покажем, как это делается.

Ролик познакомит вас с уникальной технологией STATISTICA In-place database processing и связью Data Mining с реальными данными.

Видео 3. Порядок взаимодействия с базами данных: графический интерфейс построения SQL запросов технология In-place database processing


Теперь мы познакомимся с технологиями интерактивного бурения, эффективными при проведении разведочного анализа данных. Сам термин бурение отражает связь технологии Data Mining с геологоразведкой.

Видео 4. Интерактивное бурение: Разведочные и графические методы для интерактивного исследования данных


Теперь мы познакомимся с анализом ассоциаций (association rules), эти алгоритмы позволяют находить связи, имеющиеся в реальных данных. Ключевым моментом является эффективность алгоритмов на больших объемах данных.

Результатом алгоритмов анализа связей, например, алгоритма Apriori нахождение правил связей исследуемых объектов с заданной достоверностью, например, 80 %.

В геологии эти алгоритмы можно применять при разведочном анализе полезных ископаемых, например, как признак А связан с признаками В и С.

Вы можете найти конкретные примеры таких решений по нашим ссылкам:

Правило ассоциаций в нефтеразведке

Применение технологий Data Mining в задачах геологоразведки

В розничной торговле алгоритма Apriori или их модификации позволяют исследовать связь различных товаров, например, при продаже парфюмерии (духи – лак – туш для ресниц и т.д.) или товаров разных брендов.

Анализ наиболее интересных разделов на сайте также можно эффективно проводить с помощью правил ассоциаций.

Итак, познакомьтесь с нашим следующим роликом.

Видео 5. Правила ассоциаций

Приведем примеры применения Data Mining в конкретных областях.

Интернет-торговля:

  • анализ траекторий покупателей от посещения сайта до покупки товаров
  • оценка эффективности обслуживания, анализ отказов в связи с отсутствием товаров
  • связь товаров, которые интересны посетителям

Розничная торговля: анализ информации о покупателях на основе кредитных карт, карт скидок и тд.

Типичные задачи розничной торговли, решаемые средствами Data Miningа:

  • анализ покупательской корзины;
  • создание предсказательных моделей и классификационных моделей покупателей и покупаемых товаров;
  • создание профилей покупателей;
  • CRM, оценка лояльности покупателей разных категорий, планирование программ лояльности;
  • исследование временных рядов и временных зависимостей, выделение сезонных факторов, оценка эффективности рекламных акций на большом диапазоне реальных данных.

Технологии предсказательных моделей (predictive models) позволят построить модели зависимости. Эти модели важны при планировании бизнеса и позволяют оценить, например, при какой стоимости покупок покупателю следует предоставить дисконтную карту с данным процентом скидки и рассчитать далее эффект от предоставления таких скидок, что позволяет сделать бизнес предсказуемым.

Телекоммуникационный сектор открывает неограниченные возможности для применения методов добычи данных, а также современных технологий big data:

  • классификация клиентов на основе ключевых характеристик вызовов (частота, длительность и т.д.), частоты смс;
  • выявление лояльности клиентов;
  • определение мошенничества и др.

Страхование:

  • анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает суммы по заявлениям одиноких людей. Компания отреагировала на это пересмотром политики скидок семейным клиентам.
  • выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, врачами и заявителями.

Практическое применение добычи данных и решение конкретных задач представлено на следующем нашем видео.

Вебинар 1. Вебинар «Практические задачи Data Mining: проблемы и решения»


Вебинар 2. Вебинар "Data Mining и Text Mining: примеры решения реальных задач"


Более глубокие знания по методологии и технологии добычи данных вы можете получить на курсах StatSoft.


Курсы Академии Анализа Данных – это уникальная возможность познакомиться с Добычей Данных из первых рук и понять на конкретных примерах, как работают современные аналитические технологии.