Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Успешное Хранилище данных: архитектурные решения

Методика построения Хранилищ данных из простой теоретической дисциплины превратилась в сложную науку, полную вариаций и направлений. Если в теории классическое Хранилище данных предприятия (Enterprise Data Warehouse, EDW) рисуется в черно-белом цвете, то реальная реализация систем Хранилищ и витрин данных состоит из всевозможных оттенков серого. Если раньше мы знали только о EDW, то теперь нам предлагают постепенно развиваемую витрину данных (incremental Architected Data Mart, ADM), Распределенное Хранилище данных/ Распределенная витрина данных (Distributed Data Warehouse/ Distributed Data Mart, DDW/DDM), Объединенное Хранилище данных/ Объединенная витрина данных (Federated Data Warehouse/ Federated Data Mart, FDW\FDM). Выбрать оптимальную систему из этого богатейшего набора архитектурных решений, не запутавшись в аббревиатуре и хитроумных подходах, - не такая простая задача. В этой статье я попытаюсь кратко рассмотреть основные типы архитектур и осветить различные способы построения системы Хранилища данных, сделав акцент на двух главных подходах: "сверху вниз" (top down) и "снизу вверх" (bottom up).

Классическое Хранилище данных

Классическое Хранилище данных является широко распространённым и уникальным репозиторием информации предприятия. Среда Хранилища предназначена только для чтения и состоит из детальных и агрегированных данных, которые полностью очищены и интегрированы; кроме того, в нем хранится обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения Хранилище данных реализует свои функции, прежде всего, через подмножество зависимых витрин данных (см. рисунок 1).


Рис. 1. Система классического Хранилища данных

Достоинствами архитектуры классического Хранилища данных являются:

  1. Непротиворечивость информации.
  2. Один набор процессов извлечения и бизнес-правил.
  3. Общая семантика.
  4. Централизованная, управляемая среда.
  5. Легко создаваемые и наполняемые витрины данных.
  6. Единый репозиторий метаданных.

Недостатки такого архитектурного решения:

  1. Реализация требует больших затрат.
  2. Высокая ресурсоемкость.
  3. Потребность в системах и ресурсах в масштабе всего предприятия.
  4. Рискованный сценарий ("все поставлено на карту").

Системы объединенных Хранилищ данных/ витрин данных

Во многих организациях сложилась практика реализации многочисленных Хранилищ данных. Хотя, по определению, существует только одно Хранилище данных, а все остальные объекты являются его подмножеством или постепенно развиваемыми витринами данных, не все организации придерживаются этого правила. Таким образом, во многих компаниях существует два, три, десяток и даже более систем Хранилищ данных. Распространение Хранилищ данных привело к развитию архитектуры Хранилища данных предприятия, а именно: к появлению объединенных систем Хранилищ данных или витрин данных.

Система объединенных Хранилищ данных/ объединенных витрин данных характеризуется совместным использованием общих информационных точек, устраняя, таким образом, избыточность и гарантируя достоверность информации по всей организации (см. рисунок 2).



Рис. 2. Системы объединенных Хранилищ данных/ витрин данных

Достоинства системы объединенных Хранилищ данных/ объединенных витрин данных:

  1. Общая семантика и бизнес-правила.
  2. Один набор процессов извлечения и бизнес-правил.
  3. Децентрализованные ресурсы и управление.
  4. Параллельная разработка.

Недостатки такого архитектурного решения:

  1. Необходимость в координировании работ.
  2. Сложности в преодолении "политических" моментов и решении вопросов авторских прав.
  3. Требуется согласованность среди различных отделов по вопросам архитектуры, бизнес правил и семантики.
  4. Сложнейшая техническая среда.
  5. Очень часто наличие многочисленных репозиториев метаданных.

Непроектируемые витрины данных

Появление непроектируемых витрин данных (Non-Architected Data Marts) объясняется, прежде всего, сложностями, связанными с реализацией систем EDW и FDW. Грязные и быстро получаемые наборы данных не подвергаются очистке и, следовательно, не могут использоваться для дальнейшей интеграции с любыми другими источниками данных систем Хранилищ данных. Очень быстро они превращаются в устаревшие системы, отдельно стоящие информационные "дымоходы", которые только добавляют проблемы, а не решают их. Для этих систем характерны многочисленные процессы извлечения, множество бизнес-правил, недостоверность информации (см. рисунок 3).




Рис. 3. Система непроектируемых витрин данных (LegaMart)

Достоинства непроектируемых витрин данных:

  1. Быстрота.
  2. Низкая стоимость.

Недостатки:

  1. Недостоверная информация.
  2. Многочисленные процессы извлечения.
  3. Многочисленные бизнес-правила.
  4. Множественная семантика.
  5. Повышенная сложность при интеграции.

Система постепенно развиваемых витрин данных

Данная архитектура является альтернативой Хранилища данных предприятия. Для наполнения таких витрин обычно используется инструментальное средство класса предприятия, реализующее стратегию "извлекаешь один раз, наполняешь много" (см. рисунок 4).



Рис. 4. Система постепенно развиваемых витрин данных

Достоинства постепенно развиваемых витрин данных:

  1. Общая семантика и бизнес-правила.
  2. Единый набор процессов извлечения.
  3. Выполнимый масштаб.
  4. Пошаговая природа.

Недостатки:

  1. Наиболее эффективны при использовании инструментального средства класса предприятия.
  2. Необходимость в Архитектуре витрин данных предприятия (Enterprise Data Mart Architecture, EDMA).
  3. Требуется согласованность с EDMA по всем IT-группам.

Методы построения успешного Хранилища данных предприятия

Существует два основных способа построения Хранилища данных предприятия: "сверху вниз" (top down) и "снизу вверх" (bottom up). При подходе "сверху вниз" Хранилище данных разрабатывается, проектируется и строится итерационным способом. При методе "снизу вверх" создается ряд постепенно развиваемых витрин данных, которые формируют основу результирующей системы Хранилища данных предприятия.

Подход "сверху вниз"

Хранилище данных предприятия составляется из множества предметных областей, таких как финансы, людские ресурсы, маркетинг, продажи, производство и так далее (см. рисунок 5). При таком подходе Хранилище разрабатывается целиком, а затем выбирается узкий срез предметной области для конструирования (см. рисунок 6). Далее строятся последующие слои до тех пор, пока Хранилище полностью не завершено. На создание систем Хранилища данных предприятия уходит 3-4 года при затратах в 3-4 миллиона долларов для средней компании (цифры получены из анализа многочисленных отчетов), для крупной организации этот показатель составляет 10-50 миллионов долларов, причем это - сумма, необходимая для построения начальной системы EDW, которая весьма вероятно будет реализована в виде архитектуры объединенного Хранилища данных.



Рис. 5. Поэтапная разработка Хранилища данных предприятия




Рис. 6. Разработка Хранилища данных предприятия по методу "сверху вниз", фазы 1 и 2

Первоначально этот подход был единственным способом создания системы Хранилища данных. Несмотря на свойственную ему техническую элегантность, он изобилует множеством реальных проблем.

Если бы Хранилище данных создавалось в идеальных, "тепличных", условиях, то полученное решение было мощной и удачной системой. К сожалению, вне пределов лабораторной среды это невозможно. В реальном мире разработчики Хранилищ оказываются вовлечены в круговорот различных, часто взаимопротиворечащих факторов, "политических" мотивов, не выдерживаемых предельных конечных сроков, устаревших систем данных, неразумных требований пользователей. Несмотря на то, что пока не существует технических причин, по которым следует избегать этого подхода, многие "культурные" или "мягкие" ("soft") вопросы оказались исключительно сложными для решения силами среднего IT-отдела.

Основная проблема заключается во "все пересекающей" природе системы EDW. Из самого названия, Хранилище данных "предприятия", следует, что IT-специалисты должны задействовать все политические, функциональные, ведомственные, юридические, организационные и прочие аспекты в рамках всей организации. Успешное продвижение по этому "минному" полю требует недюжинной "политической" прозорливости, которое не так часто присутствует в группе разработки EDW. Прибавьте сюда требование к исключительной гибкости этой команды: ориентированность на пользователя на все 100%, способность к постоянным изменениям и умение бесконечно и беспрерывно перепродавать и заново продвигать систему Хранилища данных, и вам станет понятно, что все эти испытания под силу далеко не всем IT-группам.

Кроме того, системы EDW требуют непрекращающейся "политической поддержки" на самом высоком уровне организации. Так, для развития этих систем необходимо достаточно продолжительный период времени, при этом без какого-либо ощутимого возврата инвестиций (ROI) за многие года. Поэтому для того, чтобы не только не отстать в конкурентной борьбе, но и получить ресурсы, финансирование и поддержку в организации, такой проект должен снискать "политическое расположение" на уровне исполнительного директора. Эта "политическая поддержка", в силу постоянных изменений в высшем эшелоне, переменчивости корпоративных приоритетов и, наконец, непрерывного роста потребностей в ресурсах, часто оказывается "ненадежным союзником" для многих групп разработки EDW.

Достоинства подхода "сверху вниз":

  1. Скоординированная среда.
  2. Единственная точка управления и развития.

Недостатки:

  1. "Все пересекающая" природа проекта предприятия.
  2. Аналитический паралич.
  3. Управление масштабом.
  4. Время до появления на рынке.
  5. Риск и подверженность внешнему воздействию.

Подход "снизу вверх"

Этот подход предназначен для реализации огромного потенциала, присущего Хранилищу данных, с одновременным устранением недостатков, свойственных подходу "сверху вниз". При данном подходе разрабатывается Архитектура витрин данных предприятия (Enterprise Data Mart Architecture, EDMA) для обеспечения контекста работ по развитию. Несмотря на то, что в этом случае рассматривается масштаб всей системы на высоком уровне, подход "снизу вверх" не так детален, как архитектура системы Хранилища данных предприятия, что позволяет избежать "аналитического паралича". По завершении EDMA, выбирается начальная область бизнес проблем для первой постепенно развиваемой витрины данных. Архитектура витрин данных предприятия расширяется на эту область, чтобы включить полный диапазон деталей, необходимый для проектирования и разработки этого ADM. На последующих этапах происходит заполнение архитектуры витрин данных предприятия, пока отделы и организация не готовы построить Хранилище данных предприятия (см. рисунок 7).



Рис. 7. Итерационная разработка Хранилища данных предприятия по методу "снизу вверх"

Благодаря этому подходу отделы могут разрабатывать методы и технологии, необходимые для организации Хранилища данных в условиях меньшего риска и меньшей подверженности внешнему воздействию, чем в случае проекта полномасштабного Хранилища данных предприятия. Кроме того, ADM разрабатывается быстрее по сравнению с системами EDW. Как правило, первая постепенно развиваемая витрина данных создается за 6-9 месяцев, а на реализацию первой стадии системы Хранилища данных предприятия может уйти год-полтора. Эта скорость выхода на рынок особенно важна, когда нужно показать возврат инвестиций и истинную ценность Хранилище данных для организации.

С точки зрения управления проектом, такие ADM чрезвычайно способствуют поддержанию контакта с командой. Для групп разработки Хранилища данных предприятия характерна склонность к решению завтрашних проблем сегодняшним числом, построение универсальных систем по принципу "построй его, и они придут", в результате чего многие проекты выполняются с запозданием. А постепенно развиваемые витрины данных создаются для решения определенных проблем, и "сфокусированная проблема" приводит к специализированной команде.

Несмотря на то, что стоимость не является решающим фактором, такие ADM все же менее дорогостоящие по сравнению с системами Хранилищ данных предприятия. Масштабируемый, специализированный ADM может быть построен за 500.000-800.000 долларов, что явно выигрывает на фоне нескольких миллионов долларов, необходимых для создания EDW.

Достоинства этого подхода:

  1. Быстрый возврат инвестиций.
  2. Незначительный риск, низкая подверженность внешнему воздействию.
  3. Потребности в "политической" поддержке на более скромном уровне и на менее продолжительный срок.
  4. Быстрое развертывание.
  5. Для "сфокусированной проблемы" - специализированная группа.
  6. Пошаговая природа.

Недостатки:

  1. Возможное "проклятие успеха" (полный успех подавляет ресурсы).
  2. Необходимость в координировании многочисленных групп.
  3. Необходимость в Архитектуре витрин данных предприятия для интеграции постепенно развиваемы[ витрин данных.

Выбор приемлемого метода

Так какой подход лучше подходит: "сверху вниз" или "снизу верх"? Вместо того, чтобы принять быстрое и необдуманное решение, доверившись чьему-либо авторитету или собственным пристрастиям, подумайте сначала об особенностях вашей ситуации. В вопросах построения Хранилищ данных нет универсального средства от всех зол, как и нет одного единственного решения или архитектуры, которая будет идеальна для каждого.

Начните с определения типа своей организации: "Думай глобально, действуй глобально" (Think Globally, Act Globally), "Думай глобально, действуй локально" (Think Globally, Act Locally), "Думай локально, действуй локально" (Think Locally, Act Locally) (см. рисунок 8). Ранние реализации Хранилищ данных находились в области "Думай глобально, действуй глобально". Такие организации стремятся к получению преимуществ в конкурентной борьбе и повышению производительности за счет колоссальных инвестиций в технологии, сопряженные со значительным риском. Эта группа организаций приняла идеи теоретиков, авторитетных лиц в этой области и некоторых поставщиков программных средств, которые полагали, что рынок Хранилищ данных будет думать и поступать как эти клиента. Однако, с развитием рынка выяснилось, что огромное большинство его игроков находится в лагере "Думай глобально, действуй локально". Так, появление корпорации Microsoft с ее крайне низкими ценовыми показателями и пакетами решений должно значительно расширить этот сегмент рынка. Несмотря на то, что компонент "Думай глобально, действуй глобально" никогда не покинет рынка - с учетом астрономической стоимости бюджета, за которые борются поставщики программного обеспечения, средний слой рынка неизбежно станет доминирующим в сфере Хранилищ данных.



Рис. 8. Выбор приемлемого метода.

После того, как вы определили тип своей организации, необходимо прибегнуть к более специфическим критериям, таким как время, стоимость, риски, ресурсы, возврат инвестиций (ROI), масштаб и политика в отношении бизнес-проблем, которые вы пытаетесь разрешить (см. рисунок 9). Оцените свою организацию по каждому из этих критериев и определите рейтинг, основываясь на ваших приоритетах и реалиях. При его определении важно помнить, что "политические" и другие "мягкие" вопросы более критичны для достижения долгосрочного успеха или "поражения", чем любой "тяжелый" технический вопрос, связанный с Хранилищем или витриной данных.

Рис. 9 Определение факторов оценки принятия решения

Например, если оказывается, что у вас долгосрочный проект на уровне исполнительного директора, достаточно ресурсов, а организация готова ждать возврата инвестиций, тогда подход "сверху вниз" - надлежащий выбор для Хранилища данных предприятия. И, наоборот, если бизнес-цели относительно низкого уровня, небольшого масштаба и требуют быстрой окупаемости, тогда следует отдать предпочтение постепенно развиваемым витринам данных. Необходимо, чтобы вы были абсолютно беспристрастны при выборе подхода. Оба метода используются во всем мире, но, и это "большое но", ваши шансы на успех будут ничтожны, если вы попытаетесь применить не подходящий вам подход.

Заключение

Методика построения Хранилищ данных оказалась стремительно развивающимся, быстро изменяющимся направлением рынка IT-продуктов. Если раньше не было механизмов проектирования Хранилищ данных, и имелся только один способов их создания, в настоящее время можно найти несметное число таких инструментов и ряд технологий жизнеспособных архитектур систем Хранилищ данных. У подхода "сверху вниз" появилась альтернатива - метод "снизу вверх", который значительно повышает шансы на успех, если первый подход неприемлем для организации.

При условии выбора подходящей архитектуры и надлежащего подхода IT-отдел может построить систему Хранилища данных, которая обеспечит не только высокий возврат инвестиций, но и значительно повысит эффективность функционирования всего предприятия.