Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Требования к инструментам интеграции данных

Развитие рынка и необходимость быстрого изменения бизнес-процессов и моделей требуют от организаций гибкого управления ресурсами данных. Это достигается путем упрощения процессов и IT-инфраструктур, а также за счет координированного и полного представления данных, что, в свою очередь, подразумевает интеграцию, которая таким образом становится критически важным компонентом всей стратегии управления корпоративной информацией.

Сегодня интеграция как отрасль IT предлагает различные подходы, методы и инструменты для обеспечения согласованного доступа (data access) и инфраструктуры предоставления информации (delivery infrastructure) для решения множества управленческих задач.

Традиционно, инструменты интеграции (data integration tools — DIT) можно было приобрести на ряде взаимосвязанных рынков, причем каждый поставщик предлагал особый вид интеграционных средств. Особенно активно развивались средства извлечения, преобразования и загрузки (ETL), рост которых связан, в частности, с технологией Хранилищ данных, а сравнительно недавно и с другими типами интеграционных задач. На рынках инструментов тиражирования данных (data replication tools), объединения данных (data federation) и в других сегментах всегда были специализированные поставщики, предлагавшие средства, оптимизированные для конкретного вида интеграции. Также сферу интеграции частично затрагивали рынки инструментов управления качеством данных, адаптеров и средств моделирования данных.

В результате исторически сложившееся разделение рынков привело к сложности и фрагментированности интеграции в крупных компаниях. Чтобы набрать необходимый диапазон функций и решить целый ряд проблем интеграции данных, покупатели вынуждены были приобретать набор инструментов от множества разработчиков. В разных подразделениях использовались разные инструменты, при этом не было никакой согласованности (часто внедрялась излишняя или уже имеющаяся функциональность), не было единого управления метаданными.

С появлением рынка инструментов интеграции отдельные сегменты стали сближаться и объединяться как на уровне поставщиков, так и на уровне технологии. Это было продиктовано не только потребностями пользователей, но и действиями поставщиков (которые расширяли свои пакеты, приобретали другие компании и т.п.)

В итоге сформировался сегмент полнофункциональных средств, который решает широкий круг проблем на основе единого пакета инструментов, метаданных и архитектуры.

Существует несколько классов функциональных возможностей DIT, которые необходимы для решения для всего диапазона задач интеграции. Ниже представлен перечень тех функций, которые особенно актуальны для построения Хранилища данных.

Совместимость (connectivity)/функции адаптера (adaptercapabilities) — поддержка источников данных и целевых систем

Возможность взаимодействовать с широким диапазоном типов структур, включая:

  • реляционные базы;
  • устаревшие (legacy) и не реляционные базы данных;
  • различные форматы файлов;
  • XML;
  • полуструктурированные данные, такие как электронная почта, web-сайты, инструменты управления офисом, репозитории контента и проч.

Кроме того, инструменты интеграции данных должны обеспечивать различные модели взаимодействия с рядом структур данных, в том числе:

  • сбор изменившихся данных (Changed-data capture) — возможность выделить и извлечь модифицированные данные;
  • сбор данных, управляемый событиями (по времени или ценности данных).

Далее, важна поддержка предоставления данных при разных требованиях к временной задержке:

  • плановая пакетная загрузка;
  • потоковая загрузка в реальном времени;
  • загрузка, управляемая событиями.

Это особенно актуально для организации обновления данных в ХД как, так по заданному графику, та и в режиме реального и близком к реальному времени.

Возможности преобразования данных

Встроенные возможности преобразования данных различной сложности, включая:

  • базовые преобразования, такие как преобразование типов, манипуляции со строками и простые расчеты;
  • преобразования средней сложности, в том числе операции просмотра и замены, агрегирования, суммирования, сопоставления и управления медленно изменяющимися измерениями;
  • сложные преобразования, в том числе операции синтаксического разбора произвольного текста и мультимедийных данных.

Метаданные и возможности моделирования

Управление метаданными включает в себя следующие элементы:

  • автоматическое обнаружение и извлечение метаданных из источников, приложений и других инструментов;
  • создание и поддержка модели данных;
  • преобразование из физической в логическую модель;
  • возможность расширения репозитория метаданных клиентскими данными;
  • конечный интерфейс пользователя для просмотра и работы с метаданными.

Возможности среды проектирования и разработки

Механизмы поддержки обеспечения качества данных во времени, включая совместимость с:

  • инструментами профилирования данных;
  • инструментами data minig;
  • инструментами управления качеством данных.

Операционные и административные возможности

Средства обеспечения адекватной поддержки, управления, мониторинга и контроля процессов интеграции данных, реализуемых за счет таких инструментов как:

  • средства обработки ошибок, как предопределенные, так и настраиваемые;
  • мониторинг и контроль текущих процессов;
  • контроль безопасности как для текущих данных, так и для административных процессов;

Роль инструментов интеграции при создании Хранилища данных

Множество задач интеграции связано с созданием и эксплуатацией Хранилища данных. Это масштабная и сложная задача, выполняемая на нескольких уровнях, и малейшая неудача может привести к дополнительным расходам и временным задержкам.

Основные области применения DIT для ХД следующие:

  1. Сбор данных и преобразование. Извлечение информации из OLTP и других исходных систем, очистка преобразование и слияние данных.
  2. Загрузка данных в Хранилище.
    • непрерывная (почти в реальном времени) загрузка данных — похожа на загрузку при оперативной обработке транзакций (OLTP), требует постоянного обновления индексов и других оптимизационных структур. Такой тип загрузки оптимален для Хранилищ, работающих в реальном времени, где задержка по времени играет значительную роль;
    • пакетная загрузка данных — применяется в тех случаях, когда время не является критически важным фактором (некоторые виды данных меняются не часто, поэтому не все записи в Хранилище необходимо обновлять в реальном времени).
  3. Создание интегрированных репозиториев справочной информации (метаданных). Метаданные содержат сведения о содержимом ХД и его расположении. Фактически — это карта Хранилища. Чтобы синхронизировать метаданные продуктов разных поставщиков, средства их обработки и различные уровни метаданных, необходимо приложить немало усилий. Инструменты интеграции обеспечивают консолидацию и рационализацию данных, предоставляет информацию о бизнес-сущностях, таких как: клиенты, продукты или сотрудники.
  4. Унификация структурированных и неструктурированных данных. Тенденция к использованию инструментов интеграции для объединения как структурированных, так и неструктурированных источников данных (информация в XML-формате, Web-журналы, сообщения и проч.), наблюдается все отчетливее, по мере того, как компании пытаются внедрить законченные информационные инфраструктуры, охватывающие все типы данных. Это именно те источники данных, которые еще мало задействованы, так как очевидно, что при создании Хранилища компании начинали с интеграции обычных транзакционных источников (мейнфреймов, реляционных баз и пакетных приложений). Но сегодня для решения сложных аналитических задач необходимо двигаться вперед и внедрять инновационные методы. Использование таких данных в Хранилищах и BI-приложениях позволит существенно расширить аналитические возможности.

По мнению экспертов и аналитиков DIT, используемые в области DW, должны отвечать ряду требований, в том числе обеспечивать:

  • прямой доступ к реляционным СУБД, к нереляционным legacy структурам данных, плоским файлам и XML;
  • несколько режимов загрузки:
    • пакетный (batch),
    • режим реального времени (real-time or trickle-feed), либо перехват изменившихся данных (changed-data capture), либо перехват событий (event capture);
  • поддержка преобразования, как минимум пакетные возможности для базовых преобразований (такие как: конвертирование типов данных, манипуляции со строками, вычисления);
  • поддержка метаданных и моделирования данных: автоматическое обнаружение метаданных, отчетность по анализу влияний, открытый репозиторий метаданных, включающий механизмы двунаправленного разделения метаданных с другими инструментами;
  • поддержка дизайна и разработки — графическая среда проектирования, возможности коллективной разработки (контроль версий, взаимодействие);
  • поддержка администрирования данных: возможность взаимодействовать на уровне метаданных с профилированием или другим инструментом управления качеством данных;
  • поддержка платформ: Windows, Unix или Linux.

Тенденции и прогнозы развития отрасли

Рынок инструментов интеграции данных продолжает развиваться. Разработчики узкоспециализированных средств сдают свои позиции, а поставщики сбалансированных наборов компонентов, обеспечивающих различные типы поставки данных, — все больше и больше набирают силу.

Средства интеграции приобретают все большую популярность по мере того, как организации осознают важнейшую роль этих технологий в поддержке проектов MDM, business intelligence и т.п. Продолжается и консолидация поставщиков, а также слияние множества узко-специализированных инструментов. Архитектуры, основанные на MDM, поддерживающие целый диапазон различных методов представления данных, развиваются все шире и шире.

Организациям необходимо искать инструменты интеграции данных, которые удовлетворят текущим и будущим требованиям. Важно оценивать предоставляемую функциональность, а также техническую поддержку. Кроме того, надо учитывать возможность слияний и поглощений, и связанные с ними неудобства. Очевидно, что вероятность перехода небольших поставщиков с ценными разработками в состав крупных компаний и формирования полных портфелей инструментов интеграции данных, весьма велика.

Публикации:

  1. Магический квадрант для инструментов интеграции данных, 2007 (Magic Quadrant for Data Integration Tools, 2007), октябрь 2007, Тэд Фридмэн (Ted Friedman), Марк Бейер (Mark A. Beyer), Эндреас Биттерер (Andreas Bitterer), http://mediaproducts.gartner.com/reprints/businessobjects/151150.html;
  2. Хранилища данных. Интеграция — ключ к решению (Data warehousing: Integration is the key), 2004 год, http://www.syntelinc.com/uploadedFiles/Syntel_DW_Integration.pdf.