Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Хранилища данных, развитие технологии и новые подходы

Последнее время часто слышны серьезные дебаты на тему архитектуры Хранилищ данных (ХД), где критикуются недостатки традиционных моделей и предлагаются новые решения. Появление новых подходов говорит о двух фактах. Во-первых, Хранилища не всегда решают все поставленные перед ними задачи (например, пользователи не всегда получают своевременный доступ к информации должного качества). Во-вторых, в последние два-три года появились технологические новшества, которые дали толчок к поиску и разработке альтернатив, в частности в области EII и устройств для Хранилищ.

Сегодня многие Хранилища обладают особыми возможностями масштабирования и производительности. В частности, поддерживается большее количество измерений, улучшается качество представления информации, обеспечивается поддержка для сервисно-ориентированной разработки ПО (service-oriented software — SOS).

Качества некоторых новых Хранилищ совершенно не преувеличены. Такие поставщики, как Teradata, IBM, SAP, Oracle, Microsoft, TIBCO, Business Objects, SAS и Hyperion продолжают развивать свои продукты. К примеру, новое Хранилище фирмы IBM (DB2 Data Warehouse 9) использует патентованную технологию pureXML, которая позволяет клиентам эффективно хранить и использовать данные в XML-формате. Кроме того, применяются методы сжатия данных для сокращения объемов информации, повышения производительности и скорости доступа.

Большинство крупных организаций стандартизируется на одной СУБД, однако в последнее время многие BI-поставщики стремятся развивать свои конкурентные качества, предлагая межплатформенную поддержку для корпоративных BI-решений. Многоплатформенность современного Хранилища подразумевает работу с крупнейшими базами данных (Oracle’s 10g, IBM’s DB2, Sybase Adaptive Server или Microsoft’s SQL Server), и при этом либо в одном продукте одновременно поддерживаются сразу несколько СУБД, либо разрабатываются нескольких версий одного и того же ХД, ориентированного на разные базы.

Такой подход позволяет развертывать Хранилище на уже готовой базе, что, в свою очередь, экономит клиенту, как время, так и финансы.

Несомненно, удобной является возможность поэтапного внедрения Хранилища. В продукте может быть заложено несколько ХД-сценариев по выбору платформы, инструментов и приложений. Кроме того, должны удовлетворяться требования масштабируемости лучших ХД, которые позволяют управлять очень крупными и сложными многомерными выборками данных.

В зависимости от типа организации и необходимой ей отчетности могут применяться разные подходы. Одной из важных характеристик современного ХД является поддержка ряда различных топологий Хранилищ, начиная с корпоративного ХД (EDW) и заканчивая федеративным (federated DW), а также специальными витринами данных департаментов и отделов.

Чем сложнее отчетность, тем острее необходимость в полноценном Хранилище. Если в компании накапливаются очень большие объемы данных (как, например, в розничной торговле или телекоммуникациях), то имеет смысл выбрать устройство для Хранилища, в том числе с открытым кодом.

Очень важной возможностью является поддержка доступа к данным в режиме, близком к реальному времени. То есть, когда данные в Хранилище поступают сразу из операционных и других важных для решения текущих задач систем. Таким образом, обеспечивается согласованная и своевременная информация, необходимая для решения множества задач, в частности анализа прибыльности и эффективности. В некоторых продуктах, так называемых «динамических» ХД, данные поступают в течение нескольких секунд после возникновения изменений в исходных транзакционных системах.

Динамическое Хранилище – это третий этап развития в области поддержки принятия решений. На первом этапе была отчетность, когда лишь узкий круг руководителей и менеджеров использовали отчеты по базам данных для принятия решений. На втором этапе появились OLAP и BI-приложения, которые расширили круг пользователей, включая аналитиков. На третьем этапе уже практически всем пользователям (сотрудникам, клиентам, партнерам) требуется подробная и своевременная информация, возможности анализа и принятия решения сразу после возникновения транзакции. И именно такие задачи решают динамические Хранилища.

Как же синхронизировать с Хранилищем возникающую в оперативной системе информацию, как дополнить ее историческими данными и представить в нужный момент бизнес-пользователям?

В отличие от обычных Хранилищ и BI-приложений, динамические ХД представляют интегрированную информацию немедленно и за счет гибкой архитектуры могут обслуживать одновременно несколько приложений и бизнес-направлений как для стратегического планирования, так и для операционных целей.

Динамическое Хранилище — это не продукт, инструмент или простое решение. Это подход, позволяющий добиться более динамичного ведения бизнеса за счет интеграции, трансформации, сбора и анализа сведений из структурированной и неструктурированной информации. В результате получается инфраструктура, обеспечивающая своевременные контекстные данные как для стратегического планирования, так и для операционных целей. Динамическое Хранилище требует набора сервисов, который расширяется за рамки традиционных Хранилищ и отчетности и позволяет поддерживать растущее количество бизнес-процессов и приложений, требующих аналитических возможностей.

Для данного подхода необходимы:

  • поисковые и аналитические функции для обработки текстов, предназначенных для извлечения знаний из неструктурированной информации;
  • возможности интеграции информации для агрегирования, очистки, преобразования данных из разрозненных источников, представление этой информации в виде сервиса;
  • возможности управления процессами, обеспечивающие их оптимизацию за счет оценки выполняемых операций;
  • моделирование корпоративных данных для обеспечения общих метаданных, для работы со всей соответствующей информацией;
  • управление нормативно-справочной информацией, гарантирующее общее видение клиентов, партнеров и продуктов по разным направлениям бизнеса;
  • отраслевая ориентация для более эффективного применения аналитики к конкретной области.

Так как потребность в ресурсах при этом возрастает, то необходима более сбалансированная и оптимизированная платформа (запоминающие устройства, оборудование, СУБД) для обеспечения разумного уровня затрат и выполнения различных требований уровня сервиса.

Сегодня некоторые компании пытаются воплотить на практике идею динамического Хранилища, в частности компании IBM (IBM Data Warehouse 9) и Kalido (Dynamic Information Warehouse (DIW). В частности последний продукт позволяет хранить несколько версий модели данных и дифференцировать их по датам. Таким образом у пользователей появляется возможность сравнивать «что есть» и «что было», даже если компания за рассматриваемый период проходит реорганизацию. При этом хранение версий обеспечивают организациям возможность проведения анализа «что если» до принятия решений об организационных изменениях или переменах в составе и иерархии продукции.

Более того, интересными особенностями таких продуктов, как DIW является применение оптимальных методов, модельно-ориентированного подхода, а также новых функций, основанных на правилах, изменяющейся со временем поддержки управления данными.

Помимо технологии DW, динамическое Хранилище облегчает интеграцию данных, управление нормативно-справочной информацией и процессами. Этот подход позволит упростить корпоративные модели данных, анализ текстов и применить отраслевые модели.

Кроме полнофункциональных динамических Хранилищ, некоторые разработчики предлагают развивать это направление и создавать динамические устройства для ХД.

Перспективы

По мнению известного эксперта в области BI-технологий Дэна Линстеда (Dan Linsted), сегодняшние реализации динамического Хранилища пока еще далеки от теоретической цели. Фактически, поставщикам удается разработать продукты с динамическим представлением данных — так называемые Активные Хранилища (Active Data Warehouse - ADW). На самом же деле, под термином «динамическое хранилище» подразумевается гораздо более широкий круг возможностей. Можно сказать, что современные разработки идут в правильном направлении, но их еще нельзя назвать истинной динамической средой, а лишь «частичкой большого пазла».

Что же должно произойти на следующем этапом, каковы основные возможности этой среды?

Дэн Линстед предлагает следующий набор требований к DDW:

  • структурные изменения в упорядоченных наборах данных должны распознаваться в момент их появления автоматически;
  • при возникновении структурных изменений происходит адаптация и настройка представлений данных (data views);
  • активные данные и данные, загружаемые в пакетном режиме, должны согласовываться и одновременно отображаться в системе;
  • процедуры загрузки данных должны адаптироваться к структурным изменениям по мере их возникновения;
  • для построения новых моделей данных в динамическом режиме нужно использовать технологию data mining;
  • необходимо проводить проверку и исследование архитектуры (architecture mining), чтобы выяснить правильность выполнения структурных изменений;
  • BI-отчеты и инструментальные панели должны динамически изменяться и включать в себя новые элементы;
  • для включения новых элементов необходим выпуск новых версий веб-сервисов.

Данный список нельзя считать исчерпывающим. Также нельзя утверждать, что динамическая среда Хранилища должна обязательно охватывать все перечисленные выше функции. Однако, в целом, направление развития именно такое.