Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Что такое Data Mining

Data Mining (Интеллектуальный анализ данных[1])  — это технология выявления скрытых взаимосвязей внутри больших баз данных. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений. И, казалось бы, извлечь факты из базы данных — допустим, выяснить, что в какой-то конкретный день и время клиент заказал товар X в магазине 123 — не так уж сложно. Однако здесь нужны не факты сами по себе, а знания — знания о том, что, например, магазины 123 и 130 продают товара X на 30% больше, чем другие точки. В общем, чем специфичнее информация, тем полезнее она для принятия решений. Таким образом, Data Mining (DM) и есть процесс обнаружения подобного рода полезных знаний о бизнесе.

Для чего применяется Data Mining

Data Mining может помочь предприятию точнее оценить свою работу. Рассмотрим один из методов — анализ потребительской корзины. Его применяют, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрине магазина рядом или, например, продвигать один из них, чтобы повысить продажи обоих.

Приложения Data Mining применяются довольно широко в: розничной торговле, маркетинге, финансах, здравоохранении, промышленном производстве и других областях.

Технологии, используемые в Data Mining

В основе большинства инструментов Data Mining лежат две технологии: машинное обучение и визуализация (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей.

Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек.

Обе технологии дополняют друг друга в процессе осуществления «Data Mining»-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте.

Машинное обучение предполагает использование различных методов, например:

  • деревьев решений;
  • ассоциативных правил;
  • генетических алгоритмов;
  • нейронных сетей.

Деревья решений предназначены для классификации данных, они используют весовые коэффициенты для распределения элементов данных на всё более и более мелкие группы. Метод ассоциативных правил классифицирует данные на основе набора правил, подобных правилам в экспертных системах. Эти правила можно генерировать, используя процесс поиска и проверки комбинаций правил, или извлекать правила из деревьев решений. В нейронных сетях знания представлены в виде связей, соединяющих набор узлов. Сила связей определяет зависимости между факторами данных.

В таблице 1 приведено краткое описание основных алгоритмов Data Mining.

Таблица 1. Основные алгоритмы Data Mining

Алгоритм Описание
Ассоциативные правила Выявляют причинно следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>». Их можно использовать для прогнозирования или оценки неизвестных параметров (значений).
Деревья решений и Алгоритмы классификации Определяют естественные «разбивки» в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART) либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID).
Искусственные нейронные сети Здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования.
Генетические алгоритмы Этот метод использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности» (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования.
Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR) Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия).
Кластерный анализ Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования.

 

Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности — они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток — в сложности интерпретации.

Инструменты Data Mining

Существует широкий спектр инструментов для поддержки проектов Data Mining. К ним относятся как общедоступные алгоритмы визуализации и машинного обучения, так и сложные программные пакеты, где используются обе стратегии, работающие на параллельных процессорах. Стоимость последних может достигать нескольких сотен тысяч долларов. Поиск наилучшего инструмента для Data Mining решения зависит от ряда условий, таких как цель проекта (например, анализ потребительской корзины) и размер исследуемой базы данных. При выборе инструментов и алгоритмов очень важна гибкость, поскольку в зависимости от выбора стратегии может быть получен разный результат.

Что требуется для создания Data Mining приложения?

Чтобы разработать такой продукт, необходимо выполнить ряд шагов:

  1. Установить масштабы проекта, определяющие, какие данные необходимо собрать. Важно, чтобы проект был направлен на реализацию реальных бизнес-целей.
  2. Разработать базу данных для Data Mining. Необходимая информация может быть распределена по нескольким базам, иногда она даже хранится  не в электронной форме. Данные из различных баз необходимо консолидировать и устранить несоответствия. На самом деле развитие технологии баз данных уже не требует применения алгоритмов DM к отдельной витрине данных. Фактически, эффективный анализ требует корпоративного Хранилища данных, что с точки зрения вложений обходится дешевле, чем использование отдельных витрин.
    Отметим, что по мере внедрения DM-проектов в масштабе предприятия количество пользователей растет, все чаще возникает необходимость в доступе к крупным инфраструктурам данных. Современное Хранилище предоставляет не только эффективный способ хранения всех корпоративных данных и устраняет необходимость в использовании других витрин и источников, но и становится идеальной основой для Data Mining проектов. Репозиторий данных предприятия обеспечивает согласованные и актуальные данные о клиентах. Внедряя Data Mining функции в Хранилище, компании сокращают расходы в двух направлениях. В этом случае, во-первых, уже не нужно приобретать и обслуживать дополнительное оборудование для data mining. Во-вторых, компании не нужно переносить данные из Хранилища в специальные источники для DM-проектов, при этом экономятся время и материальные ресурсы.
    Еще один важный момент  — очистка данных. Здесь подразумевается проверка на целостность и обработка отсутствующих значений. Точность методов Data Mining зависит от качества информации, лежащей в основе.
    Заметим, что первые два этапа могут занять половину (а то и больше) времени, отведенного на весь проект.
  3. Дать количественные оценки элементам данных. Какого человека можно назвать «расточительным»: того, кто тратит 50 или 300 долларов в неделю? Имеет ли смысл группировать стиральные машины и духовки вместе или стоит их рассматривать по отдельности? Сотрудничество с экспертами в предметной области поможет решить подобные вопросы и выделить элементы данных, которые несут максимальный смысл с точки зрения бизнеса.
  4. Применить алгоритмы Data Mining для определения отношений между данными. И не исключено, что для выявления нужных зависимостей придется использовать несколько различных алгоритмов. Одни из них подойдут на первых этапах процесса, другие на более поздних. В определенных случаях имеет смысл запустить несколько алгоритмов параллельно, чтобы проанализировать данные с разных точек зрения.
  5. Исследовать соотношения, выявленные на предыдущих этапах, на применимость в масштабах проекта. На этом этапе может потребоваться помощь эксперта в предметной области. Он определит, являются ли те или иные отношения слишком специфичными или слишком общими и укажет, в каких областях следует продолжить анализ.
  6. Представить результаты в виде отчета, в котором будут перечислены все интерпретируемые отношения. Такой отчет принесет только одномоментную выгоду, тогда как приложение, позволяющее эксперту творчески подходить к выявлению отношений, гораздо полезнее. Поэтому фирма-поставщик должна не только научить клиента методике поиска зависимостей в данных, но и обратить особое внимание на обучение работе с самой программой.

Цель первого прототипа проекта состоит в том, чтобы сократить количество ошибок в базе данных (имеются в виду первый, второй, третий и пятый этапы). Для осознания всех тонкостей исследуемых данных иногда требуется несколько итераций. Для более поздних прототипов важны третий, четвертый и пятый этапы.

Также на распределение времени для Data Mining проекта влияют и другие факторы: тип конечного приложения, наличие и состояние Хранилища данных. Например, если взять приложение для прогнозирования продаж, то обнаруженные отношения между данными можно использовать до тех пор, пока не изменится деятельность компании. И наоборот, при анализе потребительской корзины компания обычно ищет все новые зависимости в данных. Для проекта прогнозирования сбыта больше времени придется потратить на первых трех этапах, а для анализа потребительской корзины — на последних трех.

Заключение

Многие компании пытаются обрабатывать данные, сгенерированные при выполнении ежедневных операций. Вооружившись технологиями машинного обучения и визуализации можно среди такой в общем-то беспорядочной информации обнаружить довольно ценные, хорошо интерпретируемые взаимосвязи. Приложения Data Mining, построенные на этих технологиях, успешно применяются в различных областях, в том числе в розничной торговле и маркетинге, позволяя компаниям добывать информацию, дающую конкурентные преимущества.


[1]Такой перевод точнее передает смысл термина «data mining», чем распространенная калька с английского — «добыча данных» (прим. переводчика).