- 1 мая 2007 г.
Хранилища данных, развитие технологии и новые подходы
Предлагаем вниманию читателя материал, в котором рассказывается об
альтернативных подходах к разработке Хранилищ данных (ХД), в частности о
мультиплатформенной поддержке и динамических ХД.
Последнее время часто слышны серьезные дебаты на тему архитектуры Хранилищ данных (ХД), где критикуются недостатки традиционных моделей и предлагаются новые решения. Появление новых подходов говорит о двух фактах. Во-первых, Хранилища не всегда решают все поставленные перед ними задачи (например, пользователи не всегда получают своевременный доступ к информации должного качества). Во-вторых, в последние два-три года появились технологические новшества, которые дали толчок к поиску и разработке альтернатив, в частности в области EII и устройств для Хранилищ.
Сегодня многие Хранилища обладают особыми возможностями масштабирования и производительности. В частности, поддерживается большее количество измерений, улучшается качество представления информации, обеспечивается поддержка для сервисно-ориентированной разработки ПО (service-oriented software — SOS).
Качества некоторых новых Хранилищ совершенно не преувеличены. Такие поставщики, как Teradata, IBM, SAP, Oracle, Microsoft, TIBCO, Business Objects, SAS и Hyperion продолжают развивать свои продукты. К примеру, новое Хранилище фирмы IBM (DB2 Data Warehouse 9) использует патентованную технологию pureXML, которая позволяет клиентам эффективно хранить и использовать данные в XML-формате. Кроме того, применяются методы сжатия данных для сокращения объемов информации, повышения производительности и скорости доступа.
Большинство крупных организаций стандартизируется на одной СУБД, однако в последнее время многие BI-поставщики стремятся развивать свои конкурентные качества, предлагая межплатформенную поддержку для корпоративных BI-решений. Многоплатформенность современного Хранилища подразумевает работу с крупнейшими базами данных (Oracle’s 10g, IBM’s DB2, Sybase Adaptive Server или Microsoft’s SQL Server), и при этом либо в одном продукте одновременно поддерживаются сразу несколько СУБД, либо разрабатываются нескольких версий одного и того же ХД, ориентированного на разные базы.
Такой подход позволяет развертывать Хранилище на уже готовой базе, что, в свою очередь, экономит клиенту, как время, так и финансы.
Несомненно, удобной является возможность поэтапного внедрения Хранилища. В продукте может быть заложено несколько ХД-сценариев по выбору платформы, инструментов и приложений. Кроме того, должны удовлетворяться требования масштабируемости лучших ХД, которые позволяют управлять очень крупными и сложными многомерными выборками данных.
В зависимости от типа организации и необходимой ей отчетности могут применяться разные подходы. Одной из важных характеристик современного ХД является поддержка ряда различных топологий Хранилищ, начиная с корпоративного ХД (EDW) и заканчивая федеративным (federated DW), а также специальными витринами данных департаментов и отделов.
Чем сложнее отчетность, тем острее необходимость в полноценном Хранилище. Если в компании накапливаются очень большие объемы данных (как, например, в розничной торговле или телекоммуникациях), то имеет смысл выбрать устройство для Хранилища, в том числе с открытым кодом.
Очень важной возможностью является поддержка доступа к данным в режиме, близком к реальному времени. То есть, когда данные в Хранилище поступают сразу из операционных и других важных для решения текущих задач систем. Таким образом, обеспечивается согласованная и своевременная информация, необходимая для решения множества задач, в частности анализа прибыльности и эффективности. В некоторых продуктах, так называемых «динамических» ХД, данные поступают в течение нескольких секунд после возникновения изменений в исходных транзакционных системах.
Динамическое Хранилище – это третий этап развития в области поддержки принятия решений. На первом этапе была отчетность, когда лишь узкий круг руководителей и менеджеров использовали отчеты по базам данных для принятия решений. На втором этапе появились OLAP и BI-приложения, которые расширили круг пользователей, включая аналитиков. На третьем этапе уже практически всем пользователям (сотрудникам, клиентам, партнерам) требуется подробная и своевременная информация, возможности анализа и принятия решения сразу после возникновения транзакции. И именно такие задачи решают динамические Хранилища.
Как же синхронизировать с Хранилищем возникающую в оперативной системе информацию, как дополнить ее историческими данными и представить в нужный момент бизнес-пользователям?
В отличие от обычных Хранилищ и BI-приложений, динамические ХД представляют интегрированную информацию немедленно и за счет гибкой архитектуры могут обслуживать одновременно несколько приложений и бизнес-направлений как для стратегического планирования, так и для операционных целей.
Динамическое Хранилище — это не продукт, инструмент или простое решение. Это подход, позволяющий добиться более динамичного ведения бизнеса за счет интеграции, трансформации, сбора и анализа сведений из структурированной и неструктурированной информации. В результате получается инфраструктура, обеспечивающая своевременные контекстные данные как для стратегического планирования, так и для операционных целей. Динамическое Хранилище требует набора сервисов, который расширяется за рамки традиционных Хранилищ и отчетности и позволяет поддерживать растущее количество бизнес-процессов и приложений, требующих аналитических возможностей.
Для данного подхода необходимы:
- поисковые и аналитические функции для обработки текстов, предназначенных для извлечения знаний из неструктурированной информации;
- возможности интеграции информации для агрегирования, очистки, преобразования данных из разрозненных источников, представление этой информации в виде сервиса;
- возможности управления процессами, обеспечивающие их оптимизацию за счет оценки выполняемых операций;
- моделирование корпоративных данных для обеспечения общих метаданных, для работы со всей соответствующей информацией;
- управление нормативно-справочной информацией, гарантирующее общее видение клиентов, партнеров и продуктов по разным направлениям бизнеса;
- отраслевая ориентация для более эффективного применения аналитики к конкретной области.
Так как потребность в ресурсах при этом возрастает, то необходима более сбалансированная и оптимизированная платформа (запоминающие устройства, оборудование, СУБД) для обеспечения разумного уровня затрат и выполнения различных требований уровня сервиса.
Сегодня некоторые компании пытаются воплотить на практике идею динамического Хранилища, в частности компании IBM (IBM Data Warehouse 9) и Kalido (Dynamic Information Warehouse (DIW). В частности последний продукт позволяет хранить несколько версий модели данных и дифференцировать их по датам. Таким образом у пользователей появляется возможность сравнивать «что есть» и «что было», даже если компания за рассматриваемый период проходит реорганизацию. При этом хранение версий обеспечивают организациям возможность проведения анализа «что если» до принятия решений об организационных изменениях или переменах в составе и иерархии продукции.
Более того, интересными особенностями таких продуктов, как DIW является применение оптимальных методов, модельно-ориентированного подхода, а также новых функций, основанных на правилах, изменяющейся со временем поддержки управления данными.
Помимо технологии DW, динамическое Хранилище облегчает интеграцию данных, управление нормативно-справочной информацией и процессами. Этот подход позволит упростить корпоративные модели данных, анализ текстов и применить отраслевые модели.
Кроме полнофункциональных динамических Хранилищ, некоторые разработчики предлагают развивать это направление и создавать динамические устройства для ХД.
Перспективы
По мнению известного эксперта в области BI-технологий Дэна Линстеда (Dan Linsted), сегодняшние реализации динамического Хранилища пока еще далеки от теоретической цели. Фактически, поставщикам удается разработать продукты с динамическим представлением данных — так называемые Активные Хранилища (Active Data Warehouse - ADW). На самом же деле, под термином «динамическое хранилище» подразумевается гораздо более широкий круг возможностей. Можно сказать, что современные разработки идут в правильном направлении, но их еще нельзя назвать истинной динамической средой, а лишь «частичкой большого пазла».
Что же должно произойти на следующем этапом, каковы основные возможности этой среды?
Дэн Линстед предлагает следующий набор требований к DDW:
- структурные изменения в упорядоченных наборах данных должны распознаваться в момент их появления автоматически;
- при возникновении структурных изменений происходит адаптация и настройка представлений данных (data views);
- активные данные и данные, загружаемые в пакетном режиме, должны согласовываться и одновременно отображаться в системе;
- процедуры загрузки данных должны адаптироваться к структурным изменениям по мере их возникновения;
- для построения новых моделей данных в динамическом режиме нужно использовать технологию data mining;
- необходимо проводить проверку и исследование архитектуры (architecture mining), чтобы выяснить правильность выполнения структурных изменений;
- BI-отчеты и инструментальные панели должны динамически изменяться и включать в себя новые элементы;
- для включения новых элементов необходим выпуск новых версий веб-сервисов.
Данный список нельзя считать исчерпывающим. Также нельзя утверждать, что динамическая среда Хранилища должна обязательно охватывать все перечисленные выше функции. Однако, в целом, направление развития именно такое.
Автор: По материалам зарубежных сайтов