Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Хранилище данных - цифровое сердце организации

Архитектура хранилищ данных в последние годы претерпевает значительные изменения, и в обозримом будущем они не прекратятся. Некоторые из них берут начало в меняющейся деловой практике и бизнес-целях. Это неудивительно, поскольку, по образному сравнению Джона Фойли (John Foley), директора по стратегическим связям компании Oracle, хорошо упорядоченные хранилища данных – это зеркало, отражающее обслуживаемую организацию. По его мнению, нужно учитывать, что сегодня хранилища данных намного важнее для бизнес-деятельности, чем когда-либо. Несмотря на то, что они существуют многие годы, их ценность только растёт, поскольку хранилища представляют собой «бриллиант в короне» компании – ценные данные о клиентах и достигнутых бизнес-результатах. Организации находят хранилищам всё новые способы применения.

Филипп Рассом (Philip Russom), директор TDWI Research, считает, что развитие архитектуры хранилищ данных определят следующие тенденции.

  • Для поддержки бизнес-операций отчётность сегодня важнее, чем когда-либо. Во многих организациях отчёты являются основным механизмом для передачи ежедневной операционной информации. Если отчётность не предоставляется, останавливаются или замедляются бизнес-процессы. Хотя бы только по этой причине организации должны сохранять традиционные архитектуры хранилищ данных, которые в значительной степени ориентированы ну подготовку отчётов и другой формируемой на их основе информации, такой как управленческие панели, показатели для управления эффективностью и OLAP-отчеты.
  • Для развития нового бизнеса аналитика делает то же, что отчётность - для поддержки текущей деятельности. Многие организации расширяют инфраструктуру хранилищ данных, включая в неё новые автономные платформы данных, которые приспособлены для изучения данных, например, базы данных, использующие подход к хранению данных по колонкам, а также Hadoop и базы NoSQL.
  • Требования отделов уникальны, поэтому они всё чаще строят собственные «теневые» программы для BI и аналитики. Это происходит из-за того, что многим аналитическим приложениям свойственна ориентация на удовлетворение потребностей конкретных функциональных подразделений. С распространением аналитических приложений многие из них финансируются и спонсируются на уровне отдела, минуя централизованную программу по построению корпоративного хранилища данных. Чтобы не допустить превращения систем каждого подразделения в обособленные массивы данных, архитектура хранилища данных в этих организациях становится федеративной и соответствует концепции логического хранилища данных, так чтобы его архитектура охватывала несколько систем в нескольких департаментах.

Недавнее исследование TDWI, посвященное вопросам эволюции архитектуры хранилищ данных, выявило ряд интересных фактов. Так, многие корпоративные хранилища данных эволюционируют в мультиплатформенные среды хранилищ данных, поскольку пользователи продолжают добавлять автономные платформы данных к своим хранилищам. Новые платформы не замещают основное хранилище, поскольку оно по-прежнему наилучшим образом подходит для данных, используемых в стандартных и OLAP-отчётах, информационных панелях и при решении задач управления эффективностью. Напротив, новые платформы дополняют хранилище, так как они оптимизированы для поддержки рабочих нагрузок, которые управляют, обрабатывают и анализируют новые формы больших, неструктурированных данных, в том числе и в режиме реального времени.

Один из способов характеризовать архитектуру хранилища данных – это подсчитать число и типы поддерживаемых рабочих нагрузок. Согласно более раннему исследованию TDWI Research, посвященному высокопроизводительным хранилищам данных, чуть больше половины опрошенных организаций (55%) поддерживают только наиболее общие нагрузки, а именно обработку данных для подготовки стандартной и OLAP-отчётности, а также управления эффективностью. Другая половина (45%) тоже поддерживает рабочие нагрузки для расширенной аналитики, анализа детальных исходных данных, различных форм больших данных и загрузки данных в режиме реального времени.

Эксперты TDWI задаются вопросом, может ли одноплатформенное хранилище данных быть спроектировано и оптимизировано таким образом, чтобы даже одновременные нагрузки обрабатывались в оптимальном режиме. По их данным, всё чаще специалисты по внедрению хранилищ данных приходят к выводу, что сегодня использование одноплатформенного хранилища нежелательно. Вместо этого они предпочитают базовую платформу для традиционных нагрузок (отчётность, управление эффективностью и OLAP), а остальные задачи передают другим платформам. В таких организациях хранилище данных не исчезнет, оно просто дополнится платформами данных, настроенными под задачи, от которых следует разгрузить основное хранилище.

По оценке аналитиков TDWI, распределённая архитектура предпочтительна, если бизнес-требования организации и производительность хранилища подразумевают развёртывание дополнительной платформы данных в имеющейся инфраструктуре хранилища, и новая платформа хорошо интегрируется с прочими в распределённой архитектуре на физическом и логическом уровнях. Однако распределённая архитектура не подходит, когда системы разрознены и неконтролируемо множатся, как например, в случае витрины данных.

Несмотря на очевидную тенденцию к переходу к мунультиплатформенным хранилищам данных, они по-прежнему не слишком распространены по сравнению с традиционными системами. Тем не менее, уровень их проникновения в организации сложно оценить количественно из-за наличия большого числа гибридных вариантов и вариаций (см. Рис. 1).

Рис. 1. Наиболее распространенные архитектурные варианты инфраструктуры хранилищ данных

Как видно из рисунка, гибридные хранилища данных – это наиболее распространённая архитектура на сегодняшний день. Системы «чистого вида» встречаются довольно редко.

Что касается применяемых компонентов архитектуры – сегодня распространены самые популярные из них. Список включает в себя такие компоненты традиционных хранилищ данных, как область временного хранения загруженных данных, витрины данных, многомерные схемы, OLAP-кубы, репозитории метаданных и т. п. Стоит заметить, что в него не вошли новые платформы и технологии, такие как вычисления в оперативной памяти, Hadoop, облака, СУБД и приложения, использующие подход к хранению данных по колонкам, (см. Рис. 2).

Рис. 2. Архитектурные компоненты хранилищ данных, используемые сегодня

Публикации

1.      Филипп Рассом (Philip Russom). Архитектуры хранилищ данных, учитывающая бизнес-требования (Business-Driven Data Warehouse Architectures).1 апреля 2014 г.

2.      Джон Фойли (John Foley). 10 главных тенденций в практике создания хранилища данных (The Top 10 Trends In Data Warehousing). 10 марта 2014 г.