- 1 июля 2007 г.
Этапы реализации прогнозной аналитики. Роль Хранилищ данных
Прогнозная аналитика помогает в оптимизации существующих процессов,
позволяет лучше разобраться в поведении клиентов, выявить неожиданные
возможности и предотвратить проблемы. Однако, руководители многих компаний до
сих пор не уверены в том, что инвестиции в прогнозную аналитику окажутся
разумным предприятием, а не бессмысленной тратой денег.
Прогнозная аналитика (ПА) помогает в оптимизации существующих процессов, позволяет лучше разобраться в поведении клиентов, выявить неожиданные возможности и предотвратить проблемы.
Однако, по мнению некоторых бизнес-пользователей, прогнозная аналитика являет собой и довольно сложный набор методов и технологий. Она объединяет в себе статистику, передовые математические методы, искусственный интеллект, а также содержит изрядный набор средств управления данными, что в итоге осложняет восприятие и внедрение ПА. Руководители многих компаний до сих пор не уверены в том, что инвестиции в прогнозную аналитику окажутся разумным предприятием, а не бессмысленной тратой денег.
Сравнение с BI-инструментами
Другие BI-технологии, такие как инструменты отчетности и запросов, оперативная аналитическая обработка (OLAP), оценочные и инструментальные панели, исследуют события, происходившие в прошлом. Они дедуктивны по своей природе, то есть у бизнес-пользователей должно быть некоторое представление о моделях и связях данных, основанное на личном опыте. Они используют инструменты отчетности, запросов и OLAP для исследования данных и оценки собственных гипотез. Оценочные и инструментальные панели позволяют сделать следующий шаг на пути дедуктивных исследований. Они представляют пользователям фактический набор гипотез в форме метрик и показателей эффективности для регулярного рассмотрения.
Прогнозная аналитика работает совсем иначе: она являет собой индуктивный метод, направленный на будущие события. Никаких исходных предположений о данных не делается. Скорее наоборот, данные определяют весь ход исследований. Прогнозная аналитика включает в себя статистику, компьютерное обучение, нейрокомпьютерные технологии, робототехнику, вычислительную математику, технологии искусственного интеллекта и ряд других, которые позволяют исследовать все данные, а не только небольшую выборку. В этом случае удается выявить осмысленные отношения и модели. Прогнозная аналитика – это «интеллектуальный» робот, который «пробирается» сквозь данные до тех пор, пока не находит что-то интересное.
Сегодня главной сферой для ПА является маркетинг. Модели перекрестных продаж, управления кампаниями, приобретения клиентов, бюджетирования и прогнозирования лидируют среди прочих, за ними следуют приложения для оценки лояльности и приверженности клиентов.
Ценность прогнозной аналитики для бизнеса
Поэтапное улучшение. Несмотря на то, что в некоторых случаях с помощью прогнозной аналитики делаются открытия, приносящие многомиллионные доходы, это, скорее, исключение, чем правило. Большинство компаний, подходящих к прогнозной аналитике в духе стремительного освоения, чаще всего разочаровываются и бросают ее внедрение прежде, чем можно было бы достичь успеха. На самом деле прогнозная аналитика позволяет добиваться улучшений существующих бизнес процессов постепенно.
Например, «моделирование ухода клиентов» (churn modeling) помогает разобраться в поведении бизнес-пользователей и усовершенствовать маркетинговые мероприятия, а также проводить реинжиниринг бизнес-процессов. Например, торговые агенты могут использовать результаты моделей для составления предложений клиентам с риском их потери (at risk of churning), а менеджеры - для изменения политики лицензирования, которая может отразиться на текучести клиентов.
Оценка полезности. Результаты опроса, проведенного компанией TDWI, показывают, что популярность прогнозной аналитики растет. Среди респондентов, внедривших ПА, две трети (66%) отмечают «высокую» и «очень высокую» полезность для бизнеса. Четверть участников оценивают прогнозную аналитику как технологию средней важности, и только 4% признают, что ценность ее невелика. Среди тех, кто высоко оценивает ПА, большинство заявляет, что проводили оценку эффективности на основе нескольких критериев, начиная с «удовлетворения целям бизнеса» (57%), «точности моделей» (56%), «окупаемости вложений» (40%) и заканчивая «уровнем восприятия среди бизнес-пользователей» (34%).
Однако уровень внедрения пока очень низкий. По данным большинства опросов лишь 20% организаций полностью или частично внедрили ПА, еще 20% находятся в процессе разработки проекта, а подавляющее большинство пока лишь рассматривают потенциальную возможность или даже не строят никаких планов на этот счет.
Как же реализуется прогнозная аналитика?
Если некоторые организации рассматривают потенциальные возможности ПА для сокращения расходов, повышения прибылей и оптимизации бизнес-процессов, то почему-то большинство так и не доходит до внедрения. Ценность технологии понятна большинству бизнес-менедежеров и IT-специалистов, однако многие не могут понять, с чего же начать.
Вне зависимости от методологии, большинство процессов создания прогнозных моделей включают в себя следующие этапы:
1. Задание проекта. В первую очередь нужно задать бизнес-цели и ориентиры проекта, а также преобразовать их в цели и задачи прогнозной аналитики.
И хотя опытные специалисты тратят не много времени на задание бизнес-целей, однако большинство из них соглашается, что этот этап чрезвычайно важен для успеха проекта. Тут важно устранить возможность аналитической профанации, когда предлагается «пропустить данные через прогнозный алгоритм, и посмотреть что выйдет». Такого рода проекты обречены на провал.
Задание проекта требует тесного сотрудничества между бизнесом и аналитиком. Чтобы создать прогнозную модель, аналитик должен взаимодействовать со всеми соответствующими группами отдела маркетинга, которые будут использовать модель. В этом случае удается добиться выполнения целей, сроков, графиков, списков клиентов, расходов, графиков обработки, методы использования модели и ожидаемую окупаемость.
2. Исследование. Далее необходимо проанализировать источники данных с тем, чтобы выяснить, какие данные и какой подход к построению модели оптимальны, а также оценить масштабы проекта.
Фаза исследования данных, по сути, проста. Разработчикам модели нужно найти хорошие, корректные источники данных, так как модели хороши настолько, насколько хороши применяемые в них данные. В качественном источнике данных должно быть достаточное количество записей, исторической информации и полей, чтоб шанс на поиски моделей и отношений в данных был достаточно велик.
В среднем для создания прогнозных моделей применяется 7-8 источников данных. К счастью, большинство из них уже размещено в Хранилище, за счет чего минимизируется время на поиск информации среди множества систем. Согласно результатам опроса, 68% используемых данных уже находятся в ХД.
3. Подготовка данных. Использование Хранилища. Следующим важным шагом является обеспечение удобного решения для управления данными. Необходимо выполнить подбор, извлечение и преобразование данных, на основе которых будут создаваться модели.
Большинство экспертов утверждает, что фаза подготовки данных для создания прогнозных моделей является наиболее длительной. С этим согласно большинство участников опроса. В среднем подготовка данных занимает 25% от всего времени реализации проекта. Однако создание, тестирование и оценка модели (23%) и исследование данных (18%) не сильно отстают по затратам времени от подготовки данных. Это говорит о том, что подготовка данных перестала быть непреодолимым препятствием. Одной из причин является широкое применение ХД для решения этой задачи. Использование ХД не является обязательным для поддержки аналитического процесса, однако очевидно, что Хранилище упрощает и ускоряет выполнение задач ПА.
Экономия времени. В Хранилище данных содержится вся информация об одном или нескольких ресурсах (например, о клиентах, продуктах, поставщиках) из множества операционных систем. Эти данные интегрируются и стандартизуются таким образом, что их можно анализировать и выполнять запросы. При наличии Хранилища аналитикам, чтобы получить сведения, необходимые для построения моделей, нужно выполнять запросы только на одном источнике.
Кроме того, в Хранилище загружаются, очищаются, интегрируются и форматируются данные, что высвобождает аналитикам недели, а иногда и месяцы, ценнейшего времени на решение этих задач управления данными. В результате Хранилище решает задачу форматирования данных. Например, часто аналитику требуется преобразовать данные в одну таблицу с десятками и сотнями столбцов, для этого нужно агрегировать или детализировать записи, в зависимости от требований алгоритма, а также для создания новых производных полей. Иногда приходится импортировать внешние данные или использовать накопленные в Хранилище для анализа. Все эти шаги нужно выполнять автоматически, в едином процессе управления данными в ХД.
Согласно результатам опроса, большинство организаций планируют существенный рост в области аналитической обработки информации в Хранилище в ближайшие 3 года, особенно в области моделирования и скоринга (88% респондентов). Количество данных, обрабатываемых в БД, вырастет только на 36% за это же время. Причем обработка будет выполняться в 60% организаций, что в два раза превышает количество компаний, планирующих использование баз для создания и скоринга аналитических моделей.
Преимущества обработки в Хранилище. Если обработка происходит внутри базы данных, то пользователям не нужно заниматься извлечением, перемещением и загрузкой крупных выборок данных на сервер. В Хранилище скоринг 50 млн. записей занимает полчаса, а раньше такая задача потребовала бы нескольких дней. Кроме того, крупнейшие поставщики РСУБД, на которых строятся Хранилища, предлагают большую надежность, масштабируемость и толерантность к ошибкам.
Многие организации планируют использовать реляционные базы для выполнения ряда шагов в процессе создания прогнозной модели, особенно это касается тестирования и верификации. Некоторые аналитические операции могут выполняться на серверном приложении, а затем данные вновь передаются в Хранилище. Однако некоторые компании стремятся использовать все возможные функциональные преимущества ХД и практически всю аналитическую обработку проводят в среде Хранилища. В этом случае для аналитиков высвобождается дополнительное время и существенно ускоряется построение модели.
4. Построение модели. Создание, тестирование и оценка моделей, а также проверка их соответствия целям проекта.
5. Внедрение. Применение результатов модели к бизнес-решениям и процессам. На этой стадии возможен обмен мнениями с бизнес-пользователями с целью внедрения модели в приложения для автоматизации решений и бизнес-процессов.
6. Управление моделями. Управление моделями для повышения эффективности (точности), контроля доступа, повторного использования, стандартизации инструментов и минимизации лишних операций.
Заключение
Применение описанных выше рекомендаций позволит любой организации достаточно успешно внедрить прогнозную аналитику. И хотя многие еще не уверены в возможности использования ПА по причине сложных математических и статистических методов, лежащих в ее основе, можно с уверенностью сказать, что доступные сегодня приложения и инструменты (в частности, технологии Хранилищ данных) обеспечивают большинству компаний максимально полезное применение данной технологии.
Публикации
- «Прогнозная аналитика. Расширение возможностей Хранилища данных» (Predictive Analytics. Extending the Value of Your Data Warehousing Investment), http://www.tdwi.org/research/display.aspx?ID=8364; Вэйн Экерсон (Wayne W. Eckerson), март 2007 г.
Автор: По материалам зарубежных сайтов