Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Новое поколение Хранилищ данных

Хранилища данных известны с 1980-х годов. Первые Хранилища создавались как средство удовлетворения информационных потребностей отделов маркетинга и продаж, менеджеров и бухгалтерии. Это означало, что требовались интегрированные, исторические и детальные данные. С созданием Хранилища данные становились гибкими, с ними можно было производить различные манипуляции в пределах организации без риска для их совместимости или целостности.

Сегодня Хранилища данных являются стандартной частью информационной инфраструктуры в организациях и корпорациях, работающих с большими объемами информации.

Но переход к широкому использованию Хранилищ был медленным и болезненным. Самым большим препятствием стала потребность в интегрированных данных. Даже при использовании технологии извлечения, преобразования и загрузки (ETL) работа со старыми корпоративными приложениями была непростой задачей. Еще сегодня существуют организации, считающие, что интеграция данных - слишком сложный и трудный процесс, чтобы довести его до конца. Существовало множество схем, призванных помочь избежать тяжелой и утомительной работы по интеграции старых данных, но все они оказались несостоятельными, поскольку не существует альтернативы интегрированным данным.

На заре развития Хранилищ данных объем в один-два гигабайта казался огромным. В первом поколении Хранилищ терабайт данных уже рассматривался как норма. По мере роста объемов данных в Хранилищах первого поколения пришло понимание того, что существует различная вероятность доступа к данным.

Еще одним фактором развития среды Хранилищ данных стала потребность в анализе данных различными способами. Кроме того, по мере появления новых внешних требований становилось необходимым анализировать данные с таких точек зрения, которые прежде вообще не рассматривались. Единственным способом обеспечить необходимую гибкость данных стало их хранение в детальном формате.

С развитием Хранилищ данных становилось очевидным, что первоначальные подходы к их проектированию не всегда хорошо работают в некоторых довольно распространенных ситуациях. Например:

  • Хранилища часто содержат огромные объемы данных;
  • по мере накопления данных доступ к ним в различных частях одной и той же таблицы становился все более затруднительным;
  • появилась потребность в неструктурированных данных;
  • появилась потребность в метаданных как стандартном элементе инфраструктуры Хранилища.

Таким образом, наступило время для определения следующего поколения Хранилищ данных. В настоящем материале кратко рассказывается о так называемом Хранилище данных 2.0 - архитектуре для следующего поколения Хранилищ (более подробную информацию можно найти на сайте http://www.inmoncif.com/).

Вот лишь некоторые новые и интересные особенности данной архитектуры:

  • признание разного времени нахождения данных в среде Хранилища. Данные вносятся в Хранилище, редактируются, интегрируются и хранятся в нем; затем постепенно устаревают и помещаются в архив;
  • признание необходимости иметь в Хранилище как структурированные, так и неструктурированные данные. В новой архитектуре, во-первых, допускается, что оба этих типа данных должны находиться в Хранилище, а во-вторых - что для принятия комплексных решений необходимо установление связей между этими двумя средами;
  • метаданные - необходимая составляющая среды Хранилища. Детальные и корпоративные метаданные, а также их подтипы (бизнес-метаданные и технические метаданные) тесно связаны в среде нового поколения Хранилищ.

Последняя особенность - тесная привязка метаданных к Хранилищу - может быть обеспечена с помощью создания корпоративного репозитория метаданных. Метаданные уже существуют на уровне отделов и подразделений - необходимо создать метаданные на общекорпоративном уровне. Таким образом, репозиторий метаданных - один из важнейших элементов, облегчающих переход к Хранилищам второго поколения.

Вторая особенность - интеграция структурированных и неструктурированных данных - полностью зависит от возможности обеспечить доступ к неструктурированной среде и ее организацию. Как только это условие выполнено, неструктурированные данные могут быть легко добавлены в структурированную среду Хранилища.

Первая особенность Хранилищ данных второго поколения является наиболее проблематичной. Для того чтобы Хранилище первого поколения превратилось в Хранилище второго поколения, оно должно быть разделено по "линиям старения" данных. Обычно оперативные и архивные данные могут добавляться в Хранилище независимо друг от друга, но разделение Хранилища первого поколения на интегрированные и интерактивные сектора - это несколько другая задача. Если в организации уже есть отдельный оперативный склад данных, то такое разделение не представляет труда. Но если организация осуществляла оперативную обработку сделок внутри Хранилища данных первого поколения, то такое разделение окажется непростой задачей. Для разработки Хранилища второго поколения проектировщику нужно создать отчетливый интегрированный сектор и четкий интерактивный сектор, причем таким образом, чтобы они вообще не перекрывались.

Переход ко второму поколению Хранилищ данных является естественным и эволюционным шагом и в целом представляет собой достаточно плавный процесс. Только некоторые обстоятельства могут внести затруднения в это движение.