Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


А   Б   В   Г   Д   Е   Ж   З   И   К   Л   М   Н   О   П   Р   С   Т   У   Ф   Х   Ц   Ч   Ш   Щ   Э   Ю   Я   

Добыча данных

Область "добычи данных" представляет собой совокупность методов аналитической обработки больших массивов данных (часто связанных с деловой активностью или рыночными показателями) с целью выявить в них значимые закономерности и/или систематические связи между переменными, которые затем можно применить к новым совокупностям данных. Основная цель "добычи данных" - это прогноз; Предсказывающая добыча данных - наиболее общий тип "добычи данных", имеющий непосредственное коммерческое применение. 

Процедура включает три основных этапа: 1) начальное исследование, 2) построение модели или идентификация выборки вместе с проверкой/подтверждением и 3) развертывание (т.е., применение модели к новым данным для осуществления прогноза). 

Этап 1: Исследование. Этот этап обычно начинается с подготовки данных, которая может включать очистку данных, преобразования данных, выбор подмножеств, а также, в случае наборов данных с большим числом переменных ("полей"), анализа их свойств для того, чтобы количество переменных свести к разумному числу (в зависимости от рассматриваемых статистических методов). Затем, в зависимости от характера аналитической задачи, первый этап процесса "добычи данных" может включать как простой выбор непосредственных предикторов для регрессионной модели, так и тщательное проведение разведочного анализа с использованием ряда графических и статистических методов (см. раздел Разведочный анализ данных (РАД)) для нахождения наиболее подходящих переменных и определения сложности и/или общего характера моделей, которые можно использовать на следующем этапе. 

Этап 2: Построение модели и проверка. Этот этап включает рассмотрение различных моделей и выбор наилучшей на основании их характеристик (например, объяснение изменчивости и получение надежных результатов по выборкам). Может показаться, что эта простая операция. Но, на самом деле, она иногда является очень сложным процессом. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой "конкурентной оценке моделей," которая состоит в примении различных моделей к одному и тому же набору данных и последующем сравнении их характеристик для выбора наилучшей модели. Эти методы, которые часто рассматриваются как ядро Предсказывающей добычи данных, включают: Накопление (Голосование, Усреднение), Бустинг, и Мета-обучение. 

Этап 3: Развертывание. Этот завершающий этап включает использование модели, выбранной в качестве наилучшей на предыдущем этапе, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых результатов. 

Концепция "добычи данных" приобретает все большее распространение, как инструмент для управления деловой информацией в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (см. например, Деревья классификации, Общие модели деревьев классификации и регрессии, Общие CHAID модели), в целом системы добычи данных по-прежнему основываются на классических принципах разведочного анализа данных (РАД) и построения моделей и используют те же подходы и методы. 

Имеется, однако, важное отличие процедуры "добычи данных" от классического разведочного анализа данных (РАД). Cистемы "добычи данных" в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при "добыче данных" нас не интересует конкретный вид зависимостей между переменными. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области "добычи данных" принят подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик", при котором используются не только классические приемы разведочного анализа данных (РАД), но и такие методы, как нейронные сети, позволяющие строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей между переменными, на которых такой прогноз основан. 

Очень часто область "добычи данных" трактуется как "смесь статистики, методов искусственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, стр. 8), и до самого последнего времени она не признавалась полноценной областью интереса специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, стр. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты (см., например, материалы последней ежегодно проводимой Международной конференции по поиску знаний и добыче данных (International Conferences on Knowledge Discovery and Data Mining), одним из организаторов которой в 1997 году стала Американская статистическая ассоциация - American Statistical Association). 

Информацию по методам "добычи данных" можно найти в разделах Разведочный анализ данных (РАД) и методы добычи данных и Нейронные сети. 

Большой набор статей по этой тематике имеется в журнале Proceedings from the American Association of Artificial Intelligence Workshops on Knowledge Discovery in Databases, AAAI Press (см., в частности, Piatetsky-Shapiro, 1993; Fayyad & Uthurusamy, 1994).

Существует множество книг, освещающих теорию и практику "добычи данных". Ниже приведен список некоторых из них: 

 Berry, M., J., A., & Linoff, G., S., (2000). 

Mastering data mining. New York: Wiley. Edelstein, H., A. (1999).

Introduction to data mining and knowledge discovery (3rd ed). Potomac, MD: Two Crows Corp. Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). 

Advances in knowledge discovery & data mining. Cambridge, MA: MIT Press. Han, J., Kamber, M. (2000). 

Data mining: Concepts and Techniques. New York: Morgan-Kaufman. Hastie, T., Tibshirani, R., & Friedman, J. H. (2001). 

The elements of statistical learning : Data mining, inference, and prediction. New York: Springer. Pregibon, D. (1997). 

Data Mining. Statistical Computing and Graphics, 7, 8. Weiss, S. M., & Indurkhya, N. (1997). 

Predictive data mining: A practical guide. New York: Morgan-Kaufman. Westphal, C., Blaxton, T. (1998). 

Data mining solutions. New York: Wiley. Witten, I. H., & Frank, E. Data mining. New York: Morgan-Kaufmann.