Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Инструменты интеграции данных в 2012 году

Практика интеграции данных по-прежнему находится в стадии интенсивного развития, несмотря на то, что появилась уже более 30 лет назад. Цель интеграции данных – осуществлять сбор данных из нескольких различных источников, объединять их и отображать пользователю как единое целое. Много лет организации пытались консолидировать данные с помощью «доморощенных» скриптов, предназначенных для соединения с различными источниками, что на практике выливалось в проблему качества данных, когда единичная ошибка в строке кода могла привести к обрушению всей системы. Сейчас интеграция данных уже не просто компонент IT-проекта. Она стала ключевой практикой, требующей внимания с самого его начала, если организация планирует максимально использовать свои данные.

Современные тенденции и сложности на пути внедрения

В настоящее время организации получают огромные объёмы данных и используют выводы бизнес-аналитики, однако, на эффективность BI-решений напрямую влияет качество данных. Инструменты BI полезны настолько же, насколько пригодны исходные данные - утверждают специалисты Info-Tech Research Group, опираясь на данные опроса «Обзор производителей инструментов обеспечения качества данных» (Vendor Landscape Plus: Data Integration Tools). С наличием нескольких источников очистка данных стала основной целью процесса интеграции данных. Роль IT-отдела с «разработчика отчётов» изменилась до «поставщика удобной и полезной информации». IT-отделы должны обеспечивать постоянно высокое качество данных, так как BI-инструменты всё больше задействованы в процессе принятия решений.. Интеграция данных является основным компонентом каждого корпоративного BI-решения. В то время как единый источник может содержать данные высокого качества, оно может ухудшаться при простом агрегировании нескольких наборов данных. Инструменты интеграции данных являются ключом к текущей агрегации источников данных, используемых технологиями бизнес-аналитики.

Рис. 1. Зависимость BI от качества исходных данных (по данным Info-Tech Research Group)

Реалии современного бизнеса таковы, что согласования дополнительного бюджета на инструментарий интеграции данных достаточно сложно добиться, если  неочевидна практическая ценность этого инструментария. Успешные инициативы интеграции данных являются источником конкурентных преимуществ, позволяющих компаниям снизить затраты и превзойти конкурентов. Респонденты перечислили основные причины, препятствующие внедрению инструментов интеграции данных:

  • Сложности согласование бюджета на интеграцию данных (так считают 58% опрошенных)
  • Сложности при выборе платформы (так считают 48% опрошенных)
  • Недостаточная надёжность инструментов интеграции данных (так считают 40% опрошенных)
Затраты и преимущества

Что касается затрат, использование специализированных инструментов обещает значительную экономию средств за счёт снижения расходов на сопровождение и сокращения оперативных разработок. По оценке Info-Tech Research Group, стоимость лицензии может колебаться от «условного» нуля (в случае внедрении средств с «отрытым кодом», хотя эксперты не рекомендуют их для корпоративного использования) до $500 000 в зависимости от продукта и нужд компании. Для среднего сегмента рынка соответствующие предложения находятся в пределах $30-$50 000. Эта цифра не включает в себя расходов на внедрение, техническую поддержку (10-15% от стоимости лицензий), обучение разработчика ($2000 за сотрудника), приобретение дополнительного программного обеспечения и оборудования.

Плюсами использования «промышленных» инструментов интеграции данных является не только возврат вложенных средств, но и другие преимущества:

  • Повышение точности данных (таково мнение 64% респондентов)
  • Формирование более точной отчётности (таково мнение 63% респондентов)
  • Повышение эффективности процесса (таково мнение 48% респондентов)
  • Возможность повторного использования кода (таково мнение 42% респондентов)
  • Быстрота внедрения (таково мнение 41% респондентов)

Стили доставки данных

В свою очередь, компания Gartner сформулировала некоторые собственные выводы относительно практики интеграции данных. Стоит напомнить, что согласно определению Gartner, рынок инструментов интеграции данных включает в себя программные продукты, обеспечивающие разработку и эксплуатацию инфраструктуры доступа и получения данных для различных сценариев интеграции данных.

По мнению аналитиков, инструменты интеграции обычно поддерживают комбинацию из четырёх основных стилей доставки данных.

Перемещение массивов данных (Bulk data movement) применяется для извлечения и доставки массива и/или пакетов данных с целью консолидации данных из первичных баз данных и форматов. Этот стиль имеет большое значение для поддержки инструментов BI и хранилищ данных, миграции данных, управления НСИ и обеспечения согласованности оперативных данных, сбора/обмена данными организации.

Объединение данных (Data federation) выполняет запросы от нескольких источников данных для создания виртуальных интегрированных представлений данных (аналитических выборок) в памяти (не физическое перемещение данных). Объединённые представления требуют использования адаптеров к нескольким источникам данных, активного репозитория метаданных и процессора для распределённой обработки запросов может предоставлять результаты в различном виде (например в виде SQL-строк, XML или интерфейса web-сервиса).

Перемещение, ориентированное на информационный обмен (Message-oriented movement) инкапсулирует данные в сообщениях, которые могут быть прочитаны разными приложениями, таким образом, они могут обмениваться данными в режиме реального времени. Эта возможность может быть реализована во многих сценариях использования.

Репликация и синхронизация данных (Data replication and synchronization) актуализирует данные двух или более СУБД и схем баз данных одного или нескольких типов. Эта функциональная возможность  необходима для исполнения сценариев критической важности, таких как поддержка актуальности операционных данных в нескольких системах.

Рынок инструментов интеграции данных продолжает своё медленное развитие, однако, под маской кажущегося спокойствия скрываются постоянные и значительные изменения. Перемещение массивов данных по-прежнему остаётся доминирующим стилем доставки данных для интеграции – предположительно, более чем в половине случаев применения инструментов интеграции данных.

Прочие три стиля используются в меньшей степени, хотя эта степень может меняться в зависимости от сценария применения. Организации ожидают большего от применения инструментов интеграции данных в различных вариантах использования. Производители инструментов интеграции данных всё сильнее стараются соответствовать развивающемуся спросу и тенденциям.

Согласно наблюдениям Gartner, инструменты интеграции данных используются для решения следующих задач: организации хранилищ данных и внедрения систем BI, обеспечения согласованности данных между операционными приложениями, миграции и консолидации данных или систем, а также управления НСИ.

Применительно к построению хранилищ данных наибольшую значимость имеет перемещение массивов данных (см. рис. 1).

Рис. 2. Стили доставки данных, используемые построении хранилищ данных

Потребность бизнеса в повышении производительности будет побуждать изменения в бизнес-моделях поставщиков решений для интеграции данных, в направлениях, отчасти задаваемых тем, как потребители внедряют и используют технологию.

Публикации

  1. Отчет Info-Tech Research «Обзор производителей инструментов обеспечения качества данных» (Vendor Landscape Plus: Data Integration Tools), 2012 г.
  2. Отчет Gartner «Критически важные функциональные возможности инструментов интеграции данных: распространённые стили доставки данных" (Critical Capabilities for Data Integration Tools: Common Data Delivery Styles), декабрь 2011 г.