Архитектура хранилищ данных в последние годы претерпевает значительные изменения, и в обозримом будущем они не прекратятся. Некоторые из них берут начало в меняющейся деловой практике и бизнес-целях. Это неудивительно, поскольку, по образному сравнению Джона Фойли (John Foley), директора по стратегическим связям компании Oracle, хорошо упорядоченные хранилища данных – это зеркало, отражающее обслуживаемую организацию. По его мнению, нужно учитывать, что сегодня хранилища данных намного важнее для бизнес-деятельности, чем когда-либо. Несмотря на то, что они существуют многие годы, их ценность только растёт, поскольку хранилища представляют собой «бриллиант в короне» компании – ценные данные о клиентах и достигнутых бизнес-результатах. Организации находят хранилищам всё новые способы применения.
Филипп Рассом (Philip Russom), директор TDWI Research, считает, что развитие архитектуры хранилищ данных определят следующие тенденции.
Недавнее исследование TDWI, посвященное вопросам эволюции архитектуры хранилищ данных, выявило ряд интересных фактов. Так, многие корпоративные хранилища данных эволюционируют в мультиплатформенные среды хранилищ данных, поскольку пользователи продолжают добавлять автономные платформы данных к своим хранилищам. Новые платформы не замещают основное хранилище, поскольку оно по-прежнему наилучшим образом подходит для данных, используемых в стандартных и OLAP-отчётах, информационных панелях и при решении задач управления эффективностью. Напротив, новые платформы дополняют хранилище, так как они оптимизированы для поддержки рабочих нагрузок, которые управляют, обрабатывают и анализируют новые формы больших, неструктурированных данных, в том числе и в режиме реального времени.
Один из способов характеризовать архитектуру хранилища данных – это подсчитать число и типы поддерживаемых рабочих нагрузок. Согласно более раннему исследованию TDWI Research, посвященному высокопроизводительным хранилищам данных, чуть больше половины опрошенных организаций (55%) поддерживают только наиболее общие нагрузки, а именно обработку данных для подготовки стандартной и OLAP-отчётности, а также управления эффективностью. Другая половина (45%) тоже поддерживает рабочие нагрузки для расширенной аналитики, анализа детальных исходных данных, различных форм больших данных и загрузки данных в режиме реального времени.
Эксперты TDWI задаются вопросом, может ли одноплатформенное хранилище данных быть спроектировано и оптимизировано таким образом, чтобы даже одновременные нагрузки обрабатывались в оптимальном режиме. По их данным, всё чаще специалисты по внедрению хранилищ данных приходят к выводу, что сегодня использование одноплатформенного хранилища нежелательно. Вместо этого они предпочитают базовую платформу для традиционных нагрузок (отчётность, управление эффективностью и OLAP), а остальные задачи передают другим платформам. В таких организациях хранилище данных не исчезнет, оно просто дополнится платформами данных, настроенными под задачи, от которых следует разгрузить основное хранилище.
По оценке аналитиков TDWI, распределённая архитектура предпочтительна, если бизнес-требования организации и производительность хранилища подразумевают развёртывание дополнительной платформы данных в имеющейся инфраструктуре хранилища, и новая платформа хорошо интегрируется с прочими в распределённой архитектуре на физическом и логическом уровнях. Однако распределённая архитектура не подходит, когда системы разрознены и неконтролируемо множатся, как например, в случае витрины данных.
Несмотря на очевидную тенденцию к переходу к мунультиплатформенным хранилищам данных, они по-прежнему не слишком распространены по сравнению с традиционными системами. Тем не менее, уровень их проникновения в организации сложно оценить количественно из-за наличия большого числа гибридных вариантов и вариаций (см. Рис. 1).
Рис. 1. Наиболее распространенные архитектурные варианты инфраструктуры хранилищ данных
Как видно из рисунка, гибридные хранилища данных – это наиболее распространённая архитектура на сегодняшний день. Системы «чистого вида» встречаются довольно редко.
Что касается применяемых компонентов архитектуры – сегодня распространены самые популярные из них. Список включает в себя такие компоненты традиционных хранилищ данных, как область временного хранения загруженных данных, витрины данных, многомерные схемы, OLAP-кубы, репозитории метаданных и т. п. Стоит заметить, что в него не вошли новые платформы и технологии, такие как вычисления в оперативной памяти, Hadoop, облака, СУБД и приложения, использующие подход к хранению данных по колонкам, (см. Рис. 2).
Рис. 2. Архитектурные компоненты хранилищ данных, используемые сегодня
1. Филипп Рассом (Philip Russom). Архитектуры хранилищ данных, учитывающая бизнес-требования (Business-Driven Data Warehouse Architectures).1 апреля 2014 г.
2. Джон Фойли (John Foley). 10 главных тенденций в практике создания хранилища данных (The Top 10 Trends In Data Warehousing). 10 марта 2014 г.