Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Интеграция данных и Хранилища

В статье, на основе аналитических материалов крупных американских
исследовательских и производящих компаний, дается обзор методов интеграции
данных и роли Хранилищ данных в этом процессе.

Для того чтобы принимать обоснованные решения, организации необходима надежная система данных. Такая система должна включать как текущие, так и исторические данные из операционных систем, чтобы можно было выявлять тенденции и прогнозировать будущие результаты. Технология интеграции данных является ключевым фактором для объединения этих данных и создания информационной инфраструктуры, удовлетворяющей стратегическим проектам Business Intelligence (BI). Такая информационная инфраструктура включает Хранилища данных, витрины данных и операционные склады данных. Создание Хранилища данных (или, в более ограниченном масштабе, витрины данных, содержащей данные только об одном предмете) существенно упрощает доступ к необходимым данным. Сбор и консолидация данных, необходимых для Хранилища или витрины данных, и периодическое пополнение их содержимого новыми значениями при сохранении более ранних величин является практическим приложением технологии интеграции данных.

Характеристики интеграции данных

Целью интеграции данных является получение единой и цельной картины корпоративных бизнес-данных. Интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы:

  • приложения - это решения, созданные поставщиками в соответствии с требованиями клиентов, которые используют одни или более продуктов интеграции данных;
  • продукты - это готовые коммерческие решения, поддерживающие одну или более технологий интеграции данных;
  • технологии реализуют одни или более методов интеграции данных;
  • методы - это подходы к интеграции данных, независимые от технологий.

Методы интеграции данных

Существует три основных метода интеграции данных: консолидация, федерализация и распространение (рис .1).


Рис. 1. Методы интеграции данных

Консолидация данных. При использовании этого метода данные собираются из нескольких первичных систем и интегрируются в одно постоянное место хранения. Такое место хранения может быть использовано для подготовки отчетности и проведения анализа, как в случае Хранилища данных, или как источник данных для других приложений, как в случае операционного склада данных.

При использовании этого метода обычно существует некоторая задержка между моментом обновления информации в первичных системах и временем, когда данные изменения появляются в конечном месте хранения. В зависимости от потребностей бизнеса такое отставание может оставлять несколько секунд, часов или много дней. Термин "режим, приближенный к реальному времени" часто используется для описания конечных данных, обновление которых отстает от источника на несколько секунд, минут или часов. Данные, не отстающие от источника, считаются данными в режиме реального времени, но это трудно достижимо при использовании метода консолидации данных.

Конечные места хранения данных, содержащие данные с большими временами отставания (например, более одного дня), создаются с помощью пакетных приложений интеграции данных, которые извлекают данные из первичных систем с определенными, заранее заданными интервалами. Такой подход использует запросы к данным, которые получают периодические "мгновенные снимки" первичных данных. Хотя подобные запросы получают текущие данные, они не отражают тех изменений, которые произошли между двумя последовательными запросами. А за это время данные могли обновляться несколько раз.

Конечные места хранения данных с небольшим отставанием обновляются с помощью оперативных приложений интеграции данных, которые постоянно отслеживают и передают изменения данных из первичных систем в конечные места хранения. Такой подход требует от приложений консолидации данных, чтобы они могли идентифицировать те изменения данных, которые необходимо зафиксировать для консолидации. Для этого обычно используются определенные формы метода захвата изменений данных. В данном случае в результате выполнения задачи по захвату изменений будут получены все изменения, которые произошли в первичных данных.

Методы извлечения и передачи могут использоваться вместе. Например, оперативное приложение передачи данных может накапливать изменения данных в какой-то области промежуточного хранения, а пакетное приложение извлечения данных может обращаться к нему через определенные интервалы. При этом важно понимать, что метод передачи зависит от того, происходят ли определенные события, а метод извлечения работает по требованию.

Бизнес-приложения, которые обрабатывают консолидированный склад данных, могут генерировать запросы к этим данным, создавать отчеты на их основании и проводить анализ данных. Как правило, эти приложения не могут производить обновления консолидированных данных из-за проблем, связанных с синхронизацией подобных обновлений с первичными системами данных. Тем не менее, некоторые программные продукты для интеграции данных все же предлагают возможности записи, обеспечивая средства решения конфликтов данных, которые могут иметь место между обновленными данными в консолидированном складе и первичными системами.

Некоторые приложения производят обновления консолидированного склада данных и передают эти изменения назад в первичные системы. Примером такой системы является конечный склад данных, который используется для создания еженедельной модели ценообразования. Модель может быть оптимизирована и обновлена в течение недели, а затем снова загружена в первичную систему в начале следующей недели.

Преимуществом консолидации данных является то, что этот подход позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Некоторые сложности, связанные с данным подходом, - это значительные вычислительные ресурсы, которые требуются для поддержки процесса консолидации данных, а также существенные ресурсы памяти, необходимые для поддержки конечного места хранения. Но с учетом постоянно совершенствования аппаратных средств это не проблема.

Консолидация данных - это основной подход, который используется приложениями Хранилищ данных для построения и поддержки оперативных складов данных и корпоративных Хранилищ. Консолидация данных также может найти применение для создания зависимой витрины данных, но в этом случае в процессе консолидации используется только один источник данных (например, корпоративное Хранилище). В среде Хранилищ данных одной из самых распространенных технологий поддержки консолидации является технология ETL (извлечения, преобразования и загрузки - extract, transform, and load). Еще одна распространенная технология консолидации данных - управление содержанием корпорации (enterprise content management, сокр. ECM). Большинство решений ECM направлены на консолидацию и управление неструктурированными данными, такими как документы, отчеты и web-страницы.

Федерализация данных обеспечивает единую виртуальную картину одного или нескольких первичных файлов данных. Если бизнес-приложение генерирует запрос к этой виртуальной картине, то процессор федерализации данных извлекает данные из соответствующих первичных складов данных, интегрирует их таким образом, чтобы они отвечали виртуальной картине и требованиям запроса, и отправляет результаты бизнес-приложению, от которого пришел запрос. По определению, процесс федерализации данных всегда заключается в извлечении данных из первичных систем на основании внешних требований. Все необходимые преобразования данных осуществляются при их извлечении из первичных файлов. Интеграция корпоративной информации (Enterprise information integration, сокр. EII) - это пример технологии, которая поддерживает федеративный подход к интеграции данных.

Один из ключевых элементов федеративной системы - это метаданные, которые используются процессором федерализации данных для доступа к первичным данным. В некоторых случаях эти метаданные могут состоять исключительно из определений виртуальной картины, которые ставятся в соответствие ("мэппируются") первичным файлам. В более передовых решениях метаданные также могут содержать детальную информацию о количестве данных, находящихся в первичных системах, а также о путях доступа к ним. Такая расширенная информация может помочь федеративному решению оптимизировать доступ к первичным системам.

Некоторые федеративные решения могут обеспечивать дополнительные бизнес-метаданные, которые отражают семантические связи между элементами данных в первичных системах. Примером таких данных являются данные о потребителях. Метаданные могут содержать общий индикатор потребителя, который ставится в соответствие ("мэппируется") различным ключевым элементам данных о потребителе в первичных системах.

Считается, что основное преимущество федеративного подхода - тот факт, что он обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных. Но следует помнить, что федерализация данных не очень хорошо подходит для извлечения и согласования больших массивов данных или для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. Еще один существенный фактор - потенциальное влияние на производительность и дополнительные затраты на доступ к многочисленным источникам данных во время выполнения программы.

Федерализацию данных возможно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет. Оперативная обработка запросов и подготовка отчетов могла бы служить примером подобной ситуации. Федерализация данных также, вероятно, оказалась бы полезной в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем. Обычно в эту категорию попадают синдикаты данных. Помимо этого, федерализация могла бы использоваться как кратковременное решение для интеграции данных после приобретения или слияния компаний. Но в целом, как показывает опыт, даже в названных выше ситуациях консолидация данных часто оказывается более приемлемым решением, чем федерализация.

Изучение и профилирование первичных данных, необходимые для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации. Таким образом, организациям стоит использовать такие продукты для интеграции данных, которые поддерживают как федерализацию, так и консолидацию, или, по крайней мере, продукты, которые могут обеспечивать совместное использование метаданных, необходимых для обоих подходов.

Мы уже рассказывали более подробно о принципах построения физически цельных федеративных Хранилищ данных в одном из предыдущих номеров Журнала (см. статьи "Проблемы интеграции данных" и "Подходы к созданию федеративных Хранилищ данных" в 44-м номере), поэтому здесь будет уместно напомнить лишь несколько основных моментов. Федеративная архитектура очень полезна для крупных транснациональных корпораций и является весьма удобным подходом для поддержания баланса между необходимостью автономии местных подразделений компании и их гибкости, с одной стороны, и стандартизации и централизованного контроля, которые осуществляет центральный офис, - с другой. При этом под федеративным Хранилищем может иметься в виду как единое физическое федеративное Хранилище, так и федерация более мелких специализированных Хранилищ данных.

Необходимо отметить, что в англоязычной литературе термин federated data warehouse сейчас используется в двух разных значениях. Часть специалистов подразумевает под федеративным Хранилищем создание виртуальной структуры, оперирующей с выборками данных. Другие называют федеративным Хранилищем единый физический репозиторий, работающий с копиями данных, который другими словами может быть назван распределенным Хранилищем. Именно о таких физически цельных структурах мы писали в предыдущих материалах нашего Журнала (см. также статью "Новый подход к построению корпоративного Хранилища данных: разрешение сложностей при подготовке отчетности на всех уровнях организации" в №36).

Приложения распространения данных осуществляют копирование данных из одного места в другое. Эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения, т.е. зависят от определенных событий. Обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно. Синхронная передача требует, чтобы обновления в обеих системах происходили во время одной и той же физической транзакции. Независимо от используемого типа синхронизации, метод распространения гарантирует доставку данных в систему назначения. Такая гарантия - это ключевой отличительный признак распространения данных. Большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами. Примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. EAI) и тиражирование корпоративных данных (Еnterprise data replication, сокр. EDR).

Большим преимуществом метода распространения данных является то, что он может быть использован для перемещения данных в режиме реального времени или близком к нему. Другие достоинства включают гарантированную доставку данных и двустороннее распространение данных. Доступность многих из этих удобств зависит от конкретного продукта. Метод распространения данных может также использоваться для уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций.

Практическое применение этого метода отличается достаточно большим разнообразием как в плане производительности, так и в отношении возможностей реструктуризации и очистки данных. Некоторые корпоративные продукты распространения данных могут поддерживать перемещение и реструктуризацию крупных массивов данных, тогда как продукты EAI часто имеют ограниченные возможности передвижения большого количества данных и их реструктуризации. Одна из причин подобного различия - тот факт, что в центре архитектуры тиражирования корпоративных данных лежат данные, а в центре технологии EAI - сообщения или транзакции.

Гибридный подход. Методы, используемые приложениями интеграции данных, зависят как от нужд бизнеса, так и от технологических требований. Достаточно часто приложение интеграции данных использует так называемый гибридный подход, который включает несколько методов интеграции. Хороший пример такого подхода - интеграция данных о клиентах (customer data integration, сокр. CDI), целью которой является обеспечение согласованной картины информации о клиентах.

Самый простой подход к CDI - это создание консолидированного склада данных о клиентах, который содержит данные, полученные из первичных систем. Отставание информации в консолидированном складе будет зависеть от режима консолидации данных (оперативный или пакетный) и от частоты обновления этой информации.

Другой подход к CDI - это федерализация данных, когда определяются виртуальные бизнес-представления данных о клиентах в первичных системах. Эти представления используются бизнес-приложениями для доступа к текущей информации о клиентах в первичных системах. При федеративном подходе также может использоваться справочный файл метаданных для связи информации о клиентах на основе общих ключевых элементов.

Гибридный подход, использующий как консолидацию, так и федерализацию данных, также может иметь место. Общие данные о клиентах (имя, адрес и т.д.) могут быть консолидированы в одном складе, а данные, которые относятся к определенному первичному приложению (например, заказы), могут быть федерализированы. Такой гибридный подход может быть расширен за счет распространения данных. Если клиент обновляет свое имя и адрес во время транзакции в Интернет-магазине, то эти изменения могут быть отправлены в консолидированный склад данных, а оттуда распространены в другие первичные системы, такие как база данных о клиентах розничного магазина.

Значение Хранилищ данных

Хранилище данных имеет значение для решения многих аналитических проблем. Хотя формы существования Хранилищ бывают разнообразными (в том числе сюда относятся витрины данных и оперативные склады данных, содержащие текущую, а не историческую информацию), каждая из них способна создать платформу данных, которая может быть использована в аналитических целях. Консолидируя, стандартизируя и, во многих случаях, объединяя данные, содержащиеся в нескольких операционных системах, организация может анализировать эти суммарные данные для получения наиболее объективной картины.

Интеграция оперативных данных в Хранилище имеет несколько преимуществ. Хранилище данных может создаваться в следующих целях:

  • интеграция текущих и исторических значений данных;
  • объединение данных из разрозненных источников;
  • создание надежной платформы данных для аналитических целей;
  • обеспечение однородности данных в организации;
  • облегчение внедрения корпоративных стандартов данных без изменения существующих операционных систем;
  • обеспечение широкой исторической картины и возможностей для анализа тенденций.

Оперативный склад данных создается в следующих целях:

  • получение полной информации о клиентах;
  • интеграция текущих финансовых данных для обязательной отчетности и выполнения требований законодательства;
  • консолидация текущей информации из нескольких источников.

Анализ текущих значений и тенденций

Даже если операционные системы хранят исторические данные, их количество и уровень детальности обычно достаточно ограничены. Например, продажи прошлого года по каждому клиенту могут быть суммированы в единое значение, а более детальная информация, необходимая для оценки ежемесячных продаж по клиентам, оказывается после этого недоступной (или отправляется в архив в автономный резервный склад данных). Одним из преимуществ Хранилища данных является то, что даже при хранении суммарных данных и отсутствии более детальных записей Хранилище позволяет иметь несколько суммарных показателей (например, ежедневные продажи по клиентам, продуктам, магазинам).

В производственной среде величины показателей постоянно меняются, поскольку большинство транзакций обычно приводят к трансформации одного или нескольких значений данных. Это создает трудности при анализе данных, поскольку изменение даже одной величины ведет к трансформации всего результата. Такой проблемы можно избежать, если помещать "мгновенные снимки" данных в Хранилище. Эти значения могут отличаться от текущих величин каждого последующего момента, но они обычно собираются в хорошо определенных, законченных циклах (например, ежемесячно, еженедельно, ежедневно или ежечасно), что позволяет проводить надежные сравнения разных периодов.

Данные как активы корпорации

Хотя нередко организации рассматривают свои данные как корпоративные активы, их количество, как и в случае многих других активов, не всегда ограничено. Данные представляют такой актив, который может разрастаться и тиражироваться практически безгранично, при этом часто меняясь по ходу процесса. Необходимо иметь в виду, что данные в реальности не перемещаются из одной системы в другую, а имеют тенденцию спонтанно тиражироваться с каждым новым запросом на извлечение. И если здесь не установлена соответствующая дисциплина, подобная той, которая существует при интеграции в Хранилищах данных, то в каждом новом поколении данных будут появляться мутации.

Интеграция в Хранилище данных из различных операционных систем способствует получению наиболее объективной картины. Это позволяет работать с данными как с очень важным корпоративным активов, каковым они, по сути, и являются. Для того чтобы такая работа была эффективной, сведения о данных, в том числе о их происхождении и/или трансформации, должны быть легко доступны и ни в коем случае не утеряны.

Различия в определениях данных и бизнес-правилах

После того как организация выявляет различия в определениях данных и проводит стандартизацию единых корпоративных определений, Хранилище данных может способствовать их внедрению в практику. Перестраивать каждую операционную систему под корпоративный стандарт непрактично. Но в процессе загрузки в Хранилище данных, извлеченных из каждой операционной системы, возможно осуществить их трансформацию, чтобы они соответствовали определениям корпоративных стандартов и спискам значений.

Поддержка производительности и времени реагирования операционных систем

Обработка запросов или создание отчетов с помощью базы данных, которая используется оперативным приложением, негативно сказывается на производительности и времени выполнения запросов пользователей этим приложением. Если аналитический запрос отрицательно воздействует на время реагирования операционной системы, то его выполнение будет отложено, возможно, навсегда. При использовании Хранилища данных эта проблема решается, поскольку запрос выгружается в среду, где база данных может быть оптимизирована для его выполнения.

Интегрированные данные обеспечивают структуру, которая помогает организации:

  • иметь полную информацию о клиентах;
  • снизить обрабатывающую нагрузку операционных систем;
  • стандартизировать бизнес-процессы и определения данных;
  • объединять текущие и прошлые значения из разрозненных источников для получения полной картины бизнеса.

Заключение

Надежные данные - это основа принятия взвешенных решений. А интеграция данных - это ключ к контролю информации, поскольку пользователи инструментов Business Intelligence должны быть уверены, что их решения основываются на надежных данных. Самые лучшие инструменты BI оказываются малоэффективными, если они используются для анализа неполных и неточных данных.

Операционные и аналитические системы дополняют друг друга. Для достижения успеха организациям необходимо эффективно использовать и те, и другие. Аналитические цели, такие как анализ тенденций изменения и прогнозирование, требуют сбора данных с отметками времени из многочисленных источников в единое Хранилище или витрину данных. Для операционных целей часто необходимо создавать отчеты на основе данных, находящихся в операционных системах. Консолидация текущих данных из многочисленных операционных систем может осуществляться с помощью операционных складов данных.

При сборе всех этих данных используются различные подходы и методы интеграции данных. Решения для интеграции данных и повышения их качества - это ключ к контролю информации. Средства интеграции данных способствуют созданию Хранилищ, витрин и операционных складов данных. Все эти структуры обеспечивают организации возможностями для принятия надежных бизнес-решений. Успешная интеграция данных - это ключевой фактор для успеха организации в Business Intelligence.

Публикации

  1. Колин Уайт (Colin White). Интеграция данных: использование технологий ETL, EAI и EII для создания интегрированной корпорации (Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated Enterprise). Ноябрь 2005.
  2. Интеграция данных - ключ к эффективным решениям (Data Integration: The Key to Effective Decisions). 7.11.2005.

Автор: По материалам зарубежных сайтов