Случайная цитата


Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. (Дж. Бокс)

Применение деревьев классификации к решению маркетинговых задач

Опубликовано в журнале "Маркетинг в России и за рубежом" №4 год - 2009

Антипов Е.А.

ведущий аналитик «КОМКОН – Санкт-Петербург»

Несмотря на достаточно большой объем отечественной литературы по статистическому анализу в социальных науках, до сих пор крайне мало русскоязычных материалов, касающихся методов анализа маркетинговых данных. Вместе с тем в настоящее время наблюдается растущий интерес со стороны фирм к применению статистических технологий в решении маркетинговых задач. Одним из наиболее полезных аналитических инструментов являются деревья классификации (classification trees), описанию важных для маркетингового анализа возможностей которых посвящена данная статья.

Введение

Маркетинговые задачи, решаемые с помощью деревьев классификации

Заключение

Литература

Введение

Цель построения деревьев классификации со статистической точки зрения – предсказать наиболее вероятное значение зависимой переменной от соответствующих значений одной или нескольких переменных-предикторов. Таким образом, они являются альтернативой дискриминантному анализу и ряду регрессионных методов [2].

Деревья классификации и другие алгоритмы поиска скрытых закономерностей часто используются компаниями, которые занимаются сбором информации о клиентах и отслеживанием их реакции на те или иные предложения. К примеру, оператору мобильной связи нежелательно проводить массовую рассылку одинаковых сообщений всем своим абонентам: во-первых, это может вызвать негативное отношение к оператору у абонентов, не заинтересованных в данном предложении; во-вторых, увеличение масштаба рассылки сопряжено с дополнительными затратами на ее осуществление. Таким образом, если у фирмы есть несколько предложений (о посещении сайта, подключении услуги, покупке какой-либо продукции), идеальной рассылкой предложений будет та, после которой будет достигнут максимальный отклик на каждое предложение [1].

Ниже мы сформулируем некоторые важные задачи, которые часто стоят перед специалистами по маркетингу, и покажем, как может выглядеть их решение с помощью деревьев классификации. В данной статье идея работы деревьев классификации описана на примере алгоритма CHAID, реализованного в ряде специальных статистических пакетов (Statistica, SPSS и некоторых других). CHAID (Chi-square automatic interaction detection – автоматическое обнаружение взаимосвязей на основе критерия «хи-квадрат») на основе одной или более независимых переменных любого типа последовательно разбивает выборку на непересекающиеся сегменты таким образом, чтобы вариация зависимой переменной минимизировалась внутри сегментов и максимизировалась между сегментами. Результаты анализа представляются наглядным деревом классификации, с помощью которого аналитик может отследить процесс разбиения и увидеть характеристики каждого из полученных сегментов.

Маркетинговые задачи, решаемые с помощью деревьев классификации

1. Выявление групп потребителей по возрасту, доходу или иной интервальной или порядковой переменной таким образом, чтобы между ними наблюдались статистически значимые различия в оценках концепции, доле потребляющих тот или иной продукт или доле желающих его приобрести.

Если разбиение людей по полу является однозначным, то выделение возрастных групп, групп по уровню дохода при подготовке таблиц остается на усмотрение маркетолога. В итоге существует вероятность сделать ложный вывод об отсутствии зависимости потребительского поведения от возраста, дохода или иной переменной, принимающей множество значений.

Далее для удобства мы рассмотрим случай формирования возрастных групп, но отметим, что аналогичным образом можно поступать при наличии любой другой порядковой, интервальной или относительной переменной. Таблицы 1 и 2 основаны на одних и тех же опросных данных. Тем не менее из табл. 1 следует, что гипотеза о равенстве доли намеревающихся купить в разных возрастных группах не может быть отвергнута, тогда как из табл. 2 следует, что целевой аудиторией нового продукта являются в первую очередь люди 20–26 лет, среди которых 70% намерены попробовать рассмотренный продукт. Со статистической точки зрения в табл. 2 представлено разбиение возраста на три группы, максимизирующее значение статистики хи-квадрат, рассчитанного по таблице сопряженности между переменными «намерение купить» и «возрастные группы» (в алгоритме CHAID намерение купить было зависимой переменной, а возраст – независимой). Это гарантирует, что такое разбиение потребителей по возрасту максимизировало различия между возрастными группами по намерению купить продукт.

Таблица 1. Доли намеревающихся купить товар внутри возрастных групп, выделенных исходя из экспертного мнения

Таблица 2. Доли намеревающихся купить товар внутри возрастных групп, выделенных с помощью алгоритма CHAID

Особенно высока вероятность допустить ошибку при произвольном формировании возрастных групп в случае немонотонной или не прямо пропорциональной зависимости между возрастом и долей намеревающихся приобрести продукт. С по мощью деревьев классификации максимально различающиеся возрастные группы могут быть получены автоматически, в то время как каким-либо иным способом столь же точно выявить целевые группы крайне сложно. Также деревья классификации позволят избежать ошибок, связанных с принятием решения о количестве возрастных групп, включаемых в интерпретацию.

2. Выделение целевых групп на основе нескольких переменных. Выше мы рассмотрели пример, где были выявлены возрастные группы потребителей, в которых наиболее высока вероятность принятия предложения о покупке товара. Тем не менее маркетологи хотели бы выделить целевую группу на основании большего числа переменных, описывающих ее.

Деревья классификации очень хорошо подходят для решения задач сегментации, основанных на анализе больших выборок потребителей или покупателей. В ходе реализации процедуры CHAID автоматически выбирается независимая (объясняющая) переменная, которая наиболее сильно взаимосвязана с зависимой переменной в соответствии с критерием «хи-квадрат». Наиболее сильно связанной переменной всегда оказывается та, которая способна разделить все объекты на максимально различающиеся группы по значению зависимой переменной (в нашем примере – намерение купить). Такой переменной может быть пол, если среди представителей одного из полов существенно больше намеревающихся купить товар. Далее в каждой из полученных групп (например, выделенных по полу) процесс повторяется заново: вновь перебираются все предикторы и находится оптимальное решение для второго уровня. В каждой из подгрупп процесс происходит независимо, то есть, например, в одной группе, выделенной по доходу, следующим по важности критерием может стать возраст, а в другой – число детей в семье. В итоге получается дерево, позволяющее выявить наиболее привлекательные сегменты потребителей, поскольку намерение купить новый продукт максимально отличается от сегмента к сегменту.

Рис. 1. Пример дерева классификации

В соответствии с деревом классификации 40% всех опрошенных сказали, что скорее всего или точно воспользуются новой услугой. Фактором, который разбивает выборку на две наиболее сильно различающиеся группы, является пол. 50% женщин и только 30% мужчин, узнав об услуге, скорее всего, воспользуются ей. Наиболее высока вероятность использования новой услуги среди женщин 20–32 лет – 60% представительниц этой половозрастной группы, скорее всего, воспользуются услугой. Наименьший отклик на предложения воспользоваться новой услугой следует ожидать среди мужчин 38–50 лет. Соответственно, если охватить рекламой 20–32-летних женщин, можно ожидать наиболее высокую отдачу от вложенных в рекламу средств.

Аналогичным образом могут быть выделены целевые группы и на основе интенсивности спроса в денежном выражении, предъявляемого клиентами магазина, абонентами сотовой связи или иными лицами, для которых у компании есть соответствующая информация. К примеру, может оказаться, что определенные социально-демографические группы клиентов генерируют в среднем более высокий доход для компании, чем другие, и тогда они становятся наиболее привлекательными клиентами для фирмы.

Заключение

Основные выводы, касающиеся применения деревьев классификации в маркетинге и маркетинговых исследованиях:

Анализ с помощью деревьев классификации – это вид анализа, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких независимых переменных.

Деревья классификации позволяют автоматически выявить группы потребителей по возрасту, доходу или иной интервальной или порядковой переменной таким образом, чтобы между ними наблюдались статистически значимые различия в значениях интересующей аналитика переменной. Деревья классификации позволяют выделить целевые группы потребителей. Иными словами, выявляются такие группы, выделенные по социально демографическим или иным характеристикам потребителей, вероятность положительного отклика на предложение о товаре или услуге в которых максимальна по сравнению с другими группами. Выделение таких групп важно при использовании многих маркетинговых инструментов, особенно директ-маркетинговых (почтовых рассылок, раздачи листовок и т. п.). Таким образом, по сравнению с сегментацией на основе интуиции или тривиальных кросстабуляций деревья классификации позволяют быстро выделять наиболее перспективные группы клиентов, прогнозировать отклики и находить скрытые закономерности в данных.

Литература

  1. Berry Michael J.A., Linoff Gordon S. Data Mining Techniques. For Marketing, Sales, and Customer Relationship Management. – 2nd ed. – John Wiley & Sons, 2004.
  2. StatSoft Inc.: Электронный учебник по статистике. – Режим доступа: http://www.statsoft.ru/home/textbook/default.htm.

В начало

Содержание портала