Мы приветствуем вас на портале Data Mining - уникальном портале, посвященном современным методам Data Mining.
Технологии Data Mining представляют собой мощный аппарат современной бизнес-аналитики и исследования данных для обнаружения скрытых закономерностей и построение предсказательных моделей. Data Mining или добыча знаний основывается не на умозрительных рассуждениях, а на реальных данных.
Рис. 1. Схема применения Data Mining
Problem Definition – Постановка задачи: классификация данных, сегментация, построение предсказательных моделей, прогнозирование.
Data Gathering and Preparation – Сбор и подготовка данных, чистка, верификация, удаление повторных записей.
Model Building – Построение модели, оценка точности.
Knowledge Deployment – Применение модели для решения поставленной задачи.
Data Mining применяется для реализации масштабных аналитических проектов в бизнесе, маркетинге, интернете, телекоммуникациях, промышленности, геологии, медицине, фармацевтике и других областях.
Data Mining позволяет запустить процесс нахождения значимых корреляций и связей в результате просеивания огромного массива данных с использованием современных методов распознавания образов и применения уникальных аналитических технологий, включая деревья принятия решений и классификации, кластеризацию, нейронносетевые методы и другие.
Пользователь, впервые открывший для себя технологию добычи данных, поражается обилию методов и эффективных алгоритмов, позволяющих найти подходы к решению трудных задач, связанных с анализом больших объемов данных.
В целом Data Mining можно охарактеризовать как технологию, предназначенную для поиска в больших объемах данных неочевидных, объективных и практически полезных закономерностей.
В основе Data Mining лежат эффективные методы и алгоритмы, разработанные для анализа неструктурированных данных большого объема и размерности.
Ключевой момент состоит в том, что данные большого объема и большой размерности представляются лишенными структуры и связей. Цель технологии добычи данных – выявить эти структуры и найти закономерности там, где, на первый взгляд, царит хаос и произвол.
Вот актуальный пример применения добычи данных в фармацевтике и лекарственной индустрии.
Взаимодействие лекарственных веществ - нарастающая проблема, с которой сталкивается современное здравоохранение.
Со временем количество назначаемых лекарств (безрецептурных и всевозможных добавок) возрастает, что делает все более и более вероятным взаимодействие между лекарствами, которое может стать причиной серьезных побочных эффектов, о которых не подозревают врачи и пациенты.
Эта область относится к постклиническим исследованиям, когда лекарство уже выпущено на рынок и интенсивно используется.
Клинические исследования относятся к оценке эффективности препарата, но слабо учитывают взаимодействия данного лекарства с другими препаратами, представленными на рынке.
Исследователи из Стэнфордского Университета в Калифорнии изучили базу данных FDA (Food and Drug Administration - Управление по контролю за пищевыми продуктами и лекарственными препаратами) побочных эффектов лекарств и обнаружили, что два часто используемых препарата – антидепрессант пароксетин и правастатин, используемый для понижения уровня холестерина – увеличивают риск развития диабета, если употребляются совместно.
Исследование по проведению подобного анализа, основанного на данных FDA выявило 47 ранее неизвестных неблагоприятных взаимодействий.
Это замечательно, с той оговоркой, что многие отрицательные эффекты, отмеченные пациентами, остаются не выявленными. Как раз в таком случае сетевой поиск способен себя проявить наилучшим образом.
Мы начинаем знакомство с Data Mining, используя замечательные видеоролики Академии Анализа Данных.
Обязательно посмотрите наши ролики, и вы поймете, что такое Data Mining!
Далее познакомьтесь с обзорным видеороликом, из которого вы узнаете, какие методы и алгоритмы реализованы в Data Mining.
Прежде чем запустить исследовательский проект, мы должны организовать процесс получения данных из внешних источников, сейчас мы покажем, как это делается.
Ролик познакомит вас с уникальной технологией STATISTICA In-place database processing и связью Data Mining с реальными данными.
Теперь мы познакомимся с технологиями интерактивного бурения, эффективными при проведении разведочного анализа данных. Сам термин бурение отражает связь технологии Data Mining с геологоразведкой.
Теперь мы познакомимся с анализом ассоциаций (association rules), эти алгоритмы позволяют находить связи, имеющиеся в реальных данных. Ключевым моментом является эффективность алгоритмов на больших объемах данных.
Результатом алгоритмов анализа связей, например, алгоритма Apriori нахождение правил связей исследуемых объектов с заданной достоверностью, например, 80 %.
В геологии эти алгоритмы можно применять при разведочном анализе полезных ископаемых, например, как признак А связан с признаками В и С.
Вы можете найти конкретные примеры таких решений по нашим ссылкам:
В розничной торговле алгоритма Apriori или их модификации позволяют исследовать связь различных товаров, например, при продаже парфюмерии (духи – лак – туш для ресниц и т.д.) или товаров разных брендов.
Анализ наиболее интересных разделов на сайте также можно эффективно проводить с помощью правил ассоциаций.
Итак, познакомьтесь с нашим следующим роликом.
Приведем примеры применения Data Mining в конкретных областях.
Интернет-торговля:
Розничная торговля: анализ информации о покупателях на основе кредитных карт, карт скидок и тд.
Типичные задачи розничной торговли, решаемые средствами Data Miningа:
Технологии предсказательных моделей (predictive models) позволят построить модели зависимости. Эти модели важны при планировании бизнеса и позволяют оценить, например, при какой стоимости покупок покупателю следует предоставить дисконтную карту с данным процентом скидки и рассчитать далее эффект от предоставления таких скидок, что позволяет сделать бизнес предсказуемым.
Телекоммуникационный сектор открывает неограниченные возможности для применения методов добычи данных, а также современных технологий big data:
Страхование:
Практическое применение добычи данных и решение конкретных задач представлено на следующем нашем видео.
Более глубокие знания по методологии и технологии добычи данных вы можете получить на курсах StatSoft.
Курсы Академии Анализа Данных – это уникальная возможность познакомиться с Добычей Данных из первых рук и понять на конкретных примерах, как работают современные аналитические технологии.
Скачать
Ближайший курс