Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Основные подходы к архитектуре Хранилищ данных

Статья представляет два основных современных подхода к архитектуре Хранилищ
данных: корпоративная информационная фабрика (Corporate Information Factory,
сокр. CIF) и Хранилище данных с архитектурой шины (Data Warehouse Bus,
сокр. BUS). Эти типы архитектуры известны также как подход Билла
Инмона (Bill Inmon) (CIF) и подход Ральфа Кимболла (Ralph Kimball) (BUS),
названные так по именам их разработчиков.

Как известно, Хранилища данных - это сравнительно новое технологическое решение, которое стало широко использоваться только в начале 90-х годов 20-го века, после того как Билл Инмон (Bill Inmon), ныне получивший всеобщее признание как "отец концепции Хранилища данных", опубликовал свою первую книгу по этой теме (W.H. Inmon, Building the Data Warehouse, QED/Wiley, 1991). Хотя отдельные элементы этой концепции и их техническое воплощение существовали и ранее (по сути дела, с 70-х годов прошлого века), только к концу 80-х годов была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления ею, а также появились технические возможности для создания соответствующих систем, первоначально названных "хранилищами информации" (information warehouse) (Devlin, B.A. and Murphy, P.T. An Architecture for a Business and Information System. IBM Systems Journal. Volume 27, No. 1, 1988), а затем, с выходом книги Инмона, получивших свое нынешнее наименование Хранилищ данных.

На сегодняшний день существует два основных подхода к архитектуре Хранилищ данных. Это так называемая корпоративная информационная фабрика (Corporate Information Factory, сокр. CIF) Билла Инмона и Хранилище данных с архитектурой шины (Data Warehouse Bus, сокр. BUS) Ральфа Кимболла (Ralph Kimball). Рассмотрим каждый из них подробнее.

Corporate Information Factory

На рис. 1 представлен подход, используемый в Хранилищах данных с архитектурой CIF.



Рис. 1. Нормализованное Хранилище данных с пространственными витринами итоговых данных (CIF).

Когда-то этот подход был известен под названием корпоративного Хранилища данных (enterprise data warehouse, сокр. EDW). Работа такого Хранилища начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных1 с третьей нормальной формой2, содержащая атомарные данные. Получившееся нормализованное Хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают специализированные Хранилища для изучения и "добычи" данных (Data Mining), а также витрины данных.

При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель3 для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное Хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Знакомьтесь с возможностями платформы хранилищ данных «Контур» для построения высокопроизводительных банковских хранилищ данных и обеспечения качества корпоративных данных.

В качестве отличительных характеристик подхода Билла Инмона к архитектуре Хранилищ данных можно назвать следующие.

  1. Использование реляционной модели организации атомарных данных и пространственной - для организации суммарных данных.
  2. Использование итеративного или "спирального" подхода при создании больших Хранилищ данных, т.е. "строительство" Хранилища не сразу, а по частям. Это позволяет при необходимости вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных в Хранилище. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все Хранилище.
  3. Использование третьей нормальной формы для организации атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости.
  4. Хранилище данных - это проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.
  5. Хранилище данных - это не механическая коллекция витрин данных, а физически целостный объект.

Data Warehouse Bus

Рис. 2 представляет альтернативный подход к архитектуре Хранилищ данных, известный как Хранилище с архитектурой шины или подход Ральфа Кимболла.



Рис. 2. Пространственное Хранилище данных.

В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Билла Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например, поддержание и хранение общих справочных данных, другие действия могут быть распределенными.

Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель Хранилища данных содержит ту же атомарную информацию, что и нормализованная модель (см. подход Билла Инмона), но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных. Запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.

В отличие от подхода Билла Инмона, пространственные модели строятся для обслуживания бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или бизнес-событиями), а не бизнес-отделов. Например, данные о заказах, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное Хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных отделов маркетинга, продаж и финансов. После того, как в Хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного Хранилища данных с архитектурой шины выявляет и усиливает связи между показателями бизнес-процессов (фактами) и описательными атрибутами (измерениями).

Суммируя все вышесказанное, можно отметить типичные черты подхода Ральфа Кимболла.

  1. Использование пространственной модели организации данных с архитектурой "звезда" (star scheme).
  2. Использование двухуровневой архитектуры, которая включает стадию подготовки данных, недоступную для конечных пользователей, и Хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного Хранилища данных.
  3. Хранилище данных с архитектурой шины обладает следующими характеристиками:
    • оно пространственное;
    • оно включает как данные о транзакциях, так и суммарные данные;
    • оно включает витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (fact table);
    • оно может содержать множество витрин данных в пределах одной базы данных.
  4. Хранилище данных не является единым физическим репозиторием (в отличие от подхода Билла Инмона). Это "виртуальное" Хранилище. Это коллекция витрин данных, каждая из которых имеет архитектуру типа "звезда".

В следующей статье мы более детально рассмотрим сходства и различия этих двух подходов.

Публикации

  1. Марджи Росс (Margy Ross) и Ральф Кимболл (Ralph Kimball). "Различные мнения" (Differences of Opinion).
  2. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: подход Ральфа Кимболла" (Data Warehouse: Ralph Kimball's Vision).
  3. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: подход Билла Инмона" (Data Warehouse: Bill Inmon's Vision).
  4. Майкл Хэйстен (Michael Haisten). "Хранилище данных в режиме реального времени: следующая стадия в развитии Хранилищ данных" (The Real-Time Data Warehouse: The Next Stage in Data Warehouse Evolution).

1Реляционная база данных (relational data base) - это совокупность отношений, содержащих всю информацию, которая должна храниться в базе. Физически это выражается в том, что информация хранится в виде двумерных таблиц, связанных по ключевым полям. В основе этих баз данных лежит реляционная модель, разработанная англо-американским ученым Эдгаром Коддом (Edgar F. "Ted" Codd) в 1960-70 гг. Для более подробной информации см., например, http://zeus.sai.msu.ru:7000/database/dblearn/dblearn02.shtml или http://en.wikipedia.org/wiki/Relational_model (на английском).

2Понятие нормализации является одним из основополагающих в проектировании реляционных баз данных, и его описание можно найти во многих учебниках, а также в интернете. Для пользователей, не знакомых с предметом, можно предложить несколько ссылок, дающих краткую информацию по этому вопросу, например: http://www.stu.ru/inform/glaves2/glava15/gl_15_2.htm или http://www.phlonx.com/resources/nf3.php#top (на английском).

3Пространственная модель (dimensional model) - это одна из моделей Хранилищ данных, в которой данные организованы не по третьей нормальной форме (см. прим. 2), а в виде тематических таблиц, каждая из которых содержит характеристику отдельных категорий информации (dimensions). Основная цель пространственной модели - минимизировать время выполнения запроса, поэтому допускается денормализация данных. С этой же целью данные группируются вокруг центральной задачи (или вопроса), которую придется выполнять наиболее часто. Центральная таблица связана со всеми описательными таблицами, но последние напрямую не связаны между собой (так называемая архитектура "звезда" (star scheme)). Для более подробной информации см., например, http://www.1keydata.com/datawarehousing/dimensional.html (на английском).

Автор: По материалам зарубежных сайтов