Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Приобретение средств data mining: как избежать ошибок при создании системы прогнозной аналитики

В статье рассказывается о том, как лучше построить гибкую инфраструктуру для
внедрения data mining в организации. Автор уделяет основное внимание начальным
этапам — подготовке и оценке проекта, а также разработке стратегии.

Данная статья рассказывает о том, как правильно подойти к вопросу внедрения DM и разработать гибкую инфраструктуру для эффективных процессов data mining в организации.

Как приобрести непостижимую, таинственную, значительную технологию? Помимо явных рисков, связанных с внедрением исследовательского процесса, таинственными и пугающими могут оказаться даже первые шаги. Несмотря на сложную природу технологии data mining, этой методологии в последнее время все же удалось изжить клеймо «чудесного, но временного средства». Причиной тому стало множество публикаций успешных историй внедрения, а также постоянных исследований на тему повышения операционной эффективности, расширения возможностей Business Intelligence и окупаемости. Для любой организации, годовой доход которой превышает 50 млн. долларов, внедрение технологи data mining даже не ставится под вопрос, однако необходимо определиться со сроками.

Технология data mining стала появляться в сфере бизнес-приложений уже больше двух десятилетий назад. Простой поиск в интернет или среди публикаций даст огромное количество исследований. И прогресс данной методологии нельзя остановить, все чаще и чаще подтверждается ее эффективности. Однако сложности внедрения, интерпретации результатов, интеграции и принятия несколько тормозят процесс. Остановимся на том, как правильно подойти к первому этапу внедрения и грамотно разработать гибкую инфраструктуру, обеспечивающую эффективные процессы data mining в организации.

Что стоит за слухами

Для начала нужно выяснить, что подразумевается под технологией data mining. Не будет совсем некорректным понимать под data mining ретроспективный поиск в крупных базах данных по определенным критериям. Его еще называют оперативной аналитической обработкой (OLAP) или выполнением SQL-запросов.

Примером OLAP- или SQL-запроса, в котором используется технология data mining, может быть следующая задача: найти в крупном репозитории список женщин в возрасте от 28 до 45-ти лет, живущих в штатах Нью-Йорк, Нью-Джерси или Дэлавер, имеющих доход от 65 000 до 90 000 долларов, приобретавших голубые брюки в период с 1 июля по 15 августа. В этом случае точно известно, какой вопрос обращен к базе данных. Обычно исследуется от 5 до 15 процентов крупной базы.

В этой статье будем рассматривать data mining как автоматизированное обнаружение структур (pattern discovery) прежде неизвестных связей и взаимоотношений между, казалось бы, несвязанными атрибутами. Цель этого поиска — предсказание действий, характеристик и результатов. Проще говоря, обращаясь к понятию DM, мы будем рассматривать прогнозирование на основе информации, скрытой в больших объемах данных, а не ретроспективу на основе запросов OLAP или SQL.

Прежде всего, нужно разобраться в распространенной ныне терминологии. Технология data mining не нова. Методы автоматизации обнаружения структур и прогнозирования существовали десятилетиями. Несмотря на излишнюю рекламу и стратегические ошибки в применении, технология data mining не только выжила, но развилась и адаптировалась для практического использования в мире бизнеса. В сфере, где так много данных и так мало информации, где все зависит от прибыли, нельзя отказаться от инструмента, который позволяет оценить собственные возможности в плане прогнозирования поведения клиентов.

Одновременно с технологией за последние четыре десятилетия развивалась и терминология. Имена сорокалетней давности сегодня уже стали нарицательными. В 70-80-е годы такие слова, как искусственный интеллект и машинное обучение, подразумевавшие, что у компьютера есть собственное сознание, слишком активно рекламировались (пожалуй, им приписали слишком много человеческих качеств). Названия различных компонентов data mining, таких как нейронные сети, генетические алгоритмы и эволюционные вычисления, несут дарвинистский оттенок естественного отбора, так как лежащие в их основе математические алгоритмы моделируют биологические процессы. С точки зрения математика эти процессы можно рассматривать как усложненную статистику.

В 90 годы и в начале двухтысячных за технологией закрепилось название data mining и обнаружение знаний (knowledge discovery). Однако в связи с двойственностью терминологии data mining часто относят к OLAP и к обнаружению структур (pattern discovery). При этом все чаще заметна тенденция использования более описательных и точных названий, таких как прогнозное моделирование и прогнозная аналитика. Возможно, в будущем термин data mining реже будет встречаться в публикациях, хотя пока он слишком известен, чтобы отказаться от него.

Что же такое data mining?

Можно ли считать data mining сервисом? Или аппаратным обеспечением? А может быть, это программное средство или файл с разметкой, система или процесс, адаптированное решение? Единого мнения по данному вопросу нет. Data mining все труднее визуализировать, определить, управлять им и…даже приобретать. Два человека могут обсуждать data mining и при этом рассматривать совершенно разные концепции. Конечно, все упомянутые выше определения, технически верны. Бизнес-сообщество может рассматривать DM как эффективное решение, однако такой подход больше ориентирован на результат, а не на процесс. Однако именно процесс, пожалуй, будет самым лучшим описанием DM.

Этот процесс включает в себя все программные и аппаратные ресурсы, а также подразумевает структурированный, но эволюционирующий подход к решению постоянно меняющейся проблемы оптимизации. Проекты DM можно планировать и реализовывать процедурным методом, который, однако, не гарантирует успеха. Более того, никогда нельзя ожидать «окончательного ответа» или однократного выполнения процесса. Однако при правильном внедрении хороших результатов можно достичь быстро, а затем постоянно их улучшать.

Как нельзя приобретать data mining

Слишком часто организации подходят к разработке DM-проекта с позиции своих знаний о data mining и стандартных корпоративных методов оценки и приобретения продуктов и услуг. В результате выходят на популярный, но тупиковый путь:

  1. собирают литературу о продуктах различных поставщиков на отраслевых мероприятиях или на основе рекламы в журналах;
  2. приглашают на встречу тех производителей, чьи цены на продукты вписываются в рамки бюджета;
  3. получают бесплатную информацию по DM на основе презентаций (многие боятся попасть на торговую приманку);
  4. покупают инструмент data mining у того поставщика, который сделал презентацию последним;
  5. запускают какие-то данные в программу и ждут чудесных результатов;
  6. смотрят на цифры или результат визуализации, удивляясь, почему их не сопровождает ангельский хор.

Не зная, полезны или нет полученные результаты, компания отказывается от data mining, как от разрекламированной, но неэффективной технологии. Фактическая стоимость первого провала может быть огромной. При этом не только организация несет убытки в результате неиспользованных возможностей, но у конкурентов появляются дополнительные шансы выиграть на преимуществах. Более того, падает «боевой дух» в компании, а это часто влечет за собой хаос.

В конечном счете, data mining будет применяться в той или иной форме всеми крупными и средними организациями. Не использовать прогнозную аналитику для больших репозиториев данных (которые имеются во всех крупных и средних компаниях) — это все равно, что строить буровые платформы, трубопроводы и резервуары для нефтепродуктов, не планируя при этом создания нефтеперерабатывающего завода. И хотя термин data mining со временем может исчезнуть, однако с технологией этого не произойдет. Если компания не смогла внедрить этот подход сейчас, ей придется сделать еще одну попытку в будущем. Вопрос в том, повторит ли она свои ошибки.

Лучший подход к внедрению Data mining

Рекомендуемый подход к внедрению DM, представленный в данной статье, подразумевает сравнение реальной эффективности с ожидаемыми результатами. Data mining — это по сути процесс исследовательский, требующей гибкой инфраструктуры со множеством контрольных точек для оценки и настройки. Стоит настороженно относиться к тем поставщикам, которые предлагают готовый DM-проект, не требующий принятия решений на ранних этапах. Известные консалтинговые фирмы часто заключают крупные контракты, а затем, увы, предлагают очень слабые стратегии, не используя контрольных точек и регулируемых этапов. Проект быстро превращается в серию оправданий, перекладывания вины друг на друга, нарушений контракта и попыток пойти на попятный.

Перечислим пять этапов, обеспечивающих основу для разработки успешной стратегии и внедрения data mining.

1. Подготовка

Лучшие результаты достигаются в тех случаях, когда опыт эксперта в области data mining сочетается с опытом специалиста в той сфере, где оперирует компания. И хотя ни тот, ни другой не должен обладать профессионализмом в области деятельности своего партнера, но очевидно, что каждому полезно немного разбираться в смежной тематике.

Даже если DM-проект разрабатывается на стороне, компания только выиграет, если ее руководители окажутся подготовленными и смогут:

  • обнаруживать «подводные камни»;
  • уверенно обсуждать методы data mining;
  • оценивать компромиссы между точностью и объяснимостью;
  • эффективнее сотрудничать в отношении подготовки данных;
  • точнее интерпретировать результаты модели.

Такие знания могут хорошо послужить для оценки поставщиков, взаимодействия с менеджерами проектов и эффективного рассмотрения любых сомнительных результатов или методов. Сейчас существует множество конференций и курсов подготовки по data mining. Многие поставщики инструментов содержат в своем штате отличных инструкторов и предлагают результативные занятия специально для своих клиентов. Однако, как правило, эти курсы ограничены по содержанию и освещают только возможности продуктов конкретного поставщика. Так как инструменты не играют роли на первых этапах проекта, то лучше найти нейтральные конференции и курсы, чтобы получить объективную, широкую и не рекламную информацию.

Если внутреннюю подготовку персонала провести не удается, то стоит нанять независимого эксперта по DM, который выступит в роли посредника и защитника проекта между организацией и основным поставщиком проекта.

Консультант должен обладать тремя основными качествами:

  1. хорошо разбираться в процессе data mining, при этом иметь достаточный опыт участия в успешных проектах;
  2. легко общаться с аналитиками, техническими специалистами, пользователями, директорами и исполнительным руководством;
  3. самое главное для него — ориентироваться на бизнес и не спешить с анализом. В первую очередь ему надо сосредоточиться на выработке целостного понимания и оценки бизнес-модели и ресурсов клиента, а также учитывать прошлые данные, подходы и цели компании.

Вне зависимости от того, как разрабатывается проект (собственными силами или другой организацией), обязательно стоит учитывать мнение DM-эксперта. Совместная работа консультанта по data mining с отраслевым экспертом обеспечит ряд преимуществ, в частности, возможность передачи знаний и дополнительного обучения. Накопленные сведения позволят сделать правильный выбор, четко оценивать ситуацию, а также определить перспективу, гарантирующую успешный путь развития проекта.

2. Оценка

Это тот этап, на котором происходит выбор продукта. К сожалению, многие компании отказываются участвовать в оценке DM-проекта (data mining project assessment — DMPA), так как уже имеют негативный опыт работы с обслуживающими фирмами, которые, как правило, только выжимают деньги из клиентов. Однако если провести оценку грамотно, она может стать ключом к успеху проекта.

С точки зрения клиента любая оценка рискованна. Ценность результатов заранее не известна. Полное внедрение DM нельзя оценить в долларах или во временных единицах до тех пор, пока не выполнена эта стадия. Множество неизвестных факторов может повлиять на подход к проекту data mining и его масштаб . Более того, может выясниться, что организация еще не готова к внедрению. В этом случае удается сэкономить существенные временные и денежные ресурсы, предотвращая преждевременную реализацию data mining. Если оценку проводит известная фирма, то данный аспект уже не будет злоупотреблением возможностями организации, поскольку он позволит заранее избежать лишних затрат и усилий.

При выполнении DMPA создается удобный ситуационный отчет (situational report), где представлены все полученные результаты, формирующие общий план проекта (далее будем называть его сводкой рекомендаций (recommendations report)). В отчете отражается подготовленность проекта — то есть наличие множества факторов, необходимых для успешного внедрения.

Назовем некоторые из них:

  • сертификация данных: тематический обзор структуры и природы данных для поддержки прогнозной аналитики;
  • существующие ресурсы: дополнительные инструменты, которые можно порекомендовать для поддержки или замены существующих продуктов. Обладают ли сотрудники организации достаточными навыками для поддержки процесса моделирования после внедрения? Какие еще методы или технологии использовались в прошлом? Известны ли предыдущие показатели эффективности?
  • цели заинтересованных сторон: Соответствуют ли вопросы, на которые руководство ищет ответы, тем ресурсам, которые представлены в отчете? Определены ли желаемые (необходимые) уровни эффективности? Реалистичны ли контрольные показатели по мнению консультанта?
  • менеджеры подразделений: во множестве случаев компании не могут или не хотят выполнить необходимые действия, рекомендуемые в модели;
  • ограничения: Существуют ли жесткие границы, которые нужно определить и внедрить в процесс принятия решений, либо до, либо после реализации модели? Так как практически все методы data mining являют собой компромисс точности и объяснимости, то важно определиться с точкой отчета. Каковы приемлемые уровни ложноположительных и ложноотрицательных результатов модели?
  • вовлеченность пользователей: если они модель не примут, то зачем ее внедрять? Как нужно спроектировать систему, чтобы обеспечить ее активное использование?
  • IT-поддержка: технические специалисты, как правило, не становятся препятствием на пути к внедрению. Однако они куда охотнее поддерживают модель, если сами участвовали в разработке ее стратегии и были приглашены в качестве лиц, поддерживающих Если IT-специалисты будут поддерживать другой проект, требующий доступа к данным, важно, чтобы они ценили хорошее представление и те преимущества, которые получит организация.

Отказавшись от оценки, DM-проект можно тактически довести до завершения, но результаты наверняка не будут соответствовать стратегическим задачам. В этой ситуации клиент и консультант будут смотреть друг на друга и выяснять, добились они хорошего результата или потерпели полное поражение.

DMPA надо проводить независимо, позволяя компании свободно выбирать метод разработки и внедрения конечного плана (то есть усилиями той же сервисной фирмы, третьей стороной или самим клиентом). Консультант, выполняющий оценку, не должен использовать частные компоненты или аспекты, которые позволят субъективно считать все полученные результаты заслугой автора этой оценки. Ценность DMPA в стратегии, а не в тактике.

Сводка рекомендаций представляет собой черновой план проекта. Необходимо провести четкую денежную оценку первых этапов. Последующие стадии не обязательно подвергать оценке, так как заранее точно не известно, какую информацию удастся извлечь из данных и как ее в дальнейшем использовать. Новые данные могут повести проект в несколько иных направлениях. В большинстве случаев существенных отклонений от исходного чернового плана не происходит. Однако точную оценку более поздних задач проводить не реалистично. Приобретение DM не становится проще, однако эффективное управление рисками невозможно без поэтапного регулируемого подхода к проекту, который по своей сути является процессом познания неизвестного. Гибкая структура и итерационный процесс под четким руководством — вот что необходимо для грамотного внедрения DM.

3. Стратегия

Стратегия data mining слишком часто остается без внимания или подгоняется под результирующую модель. Почти все, кто только начинает знакомство с data mining, стремятся скорее добраться до данных и запустить их в аналитический инструмент. Современные программные средства в некоторой мере могут помочь в подготовке данных, их исследовании и визуализации. Однако даже самые лучше инструменты на рынке не позволят предугадать, интерпретировать или внедрить внешние и политические аспекты интеграции модели. Более того, в процессе моделирования можно взять неудачные результаты и принять их за хорошие. Или получить великолепный итог (за счет современных средств автоматизации и поддержки) и не знать об этом, то есть, по сути, создать замечательную модель, которая, увы, дает ответы на неправильные вопросы.

Инфраструктура стратегии чаще всего определяется на этапе DMPA. По мере появления новой информации и ее интерпретации, стратегическое направление может измениться, но обычно несущественно. Поэтому планирование гибкой инфраструктуры является критическим компонентов для успешного внедрения data mining. Любого поставщика, обещающего готовую инфраструктуру, соответствующую потребностям организации, и игнорирующего этап DMPA, стоит отнести к разряду подозрительных. Цель DMPA в том, чтобы оценить ситуацию в целом, а также необходимые ресурсы, и дать набросок будущей стратегии, направляющей проект к благополучному завершению.

4. Внедрение

Благодаря автоматизированному программному обеспечению, внедрение, пожалуй, самый простой и наименее рискованный этап полномасштабного проекта data mining. Куда лучше иметь посредственную модель и хорошую стратегию, чем наоборот.

Выбор в качестве внешнего консультанта по DM специалиста, который не только разбирается в data mining, но еще является экспертом в предметной области, является ошибкой. Конечно, консультанту полезно иметь некоторые знания, чтобы грамотно изъясняться в предметной сфере, при этом оценивать конкурентную среду и важнейшие бизнес-факторы. Но в отличие от задачи построения базы знаний, в этой ситуации не стоит искать лучшего эксперта в отрасли, который немного разбирается в data mining. Даже если поначалу консультант производит сильное впечатление, слишком серьезные знания в предметной области могут внести существенную субъективность и предвзятые представления, которые исказят методы разработки и интерпретации моделей.

Модели по природе своей объективны, и консультант должен быть таким же. Самые хорошие результаты достигаются в тех случаях, когда специалист по data mining управляет процессом построения модели, но не ее итогами. Консультанту лучше всего работать с экспертом в той области, где оперирует компания, совместно интерпретировать результаты, оценивать их и определять наиболее эффективный способ их правильного применения.

5. Повторное выполнение

На многих диаграммах отраслевых стандартов и передовых процессов data mining отображается как линейный процесс, заканчивающийся внедрением. Однако лучше всего подходить к задаче иначе — рассматривать DM как непрерывный процесс, за множество итераций приводящий к аналитическим открытиям.

На этапе оценки стоит разработать стратегию обратной связи, которая позволит собирать значимые (по эффективности) результаты. Такие данные можно применить не только для оценки модели, но также в качестве важного исходного материала для следующей итерации построения модели. Модель нужно обновлять и расширять на основе последних данных об эффективности. Эти данные могут в большей степени приниматься во внимание, обеспечивая эффект значительной новизны для выявления новых поведенческих структур.

Используя полученные результаты модели в качестве исходных параметров для следующей итерации, мы замыкаем цикл и получаем хорошую возможность для дополнительного обучения. В этом случае стоит снова обратиться к консультанту или преподавателю в области data mining, чтобы пересмотреть первый этап и подготовиться к повтору. Далее нужно использовать передовые или альтернативные подходы к обновлению модели. Это поможет в передаче знаний и модернизации модели.

В статье были описаны этапы как неудачных, так и успешных проектов data mining. Самой важной является фаза оценки проекта. Все прочие аспекты проще по своей сути и лучше корректируются. Если отказаться от услуг эксперта в области data mining, обеспечивающего всестороннюю ситуационную и целевую оценку, то можно понести существенный ущерб, сделав неверный вывод о том, что прогнозная аналитика слишком разрекламирована.

Получив базовые знания в области стратегии и методов DM, пройдя через фазу DMPA, компания встанет на путь успеха в области data mining. Если верно выполнена начальная оценка и выбрана нужная инфраструктура, то оставшаяся часть проекта будет сравнительно несложной. На пути исследования можно использовать структурированный, но гибкий план практически для любого сценария. При этом сохраняется уверенность в том, что выбор правильного подхода к data mining обеспечит огромные преимущества.

Автор: Эрик А. Кинг (Eric A. King)