- 31 марта 2005 г.
Аналитические решения: понимание трех составляющих интеграции - EAI, EII, ETL
В статье рассматриваются три основных современных подхода к проблеме
интеграции - технологии интеграции корпоративных приложений и информации и
технология извлечения, преобразования и загрузки данных, и проводится их
сравнение. Автор статьи также показывает, для решения каких задач лучше
подходит та или иная технология.
Проблема интеграции корпоративной информации, данных и приложений остается актуальной для многих организаций. С ростом объема информации задача объединения разрозненных структур, таких как витрины, базы или Хранилища данных, становится жизненно важной для многих компаний. Мы уже обращались к проблемам интеграции корпоративной информации и приложений в предыдущих номерах журнала (см. статьи "Интеграция корпоративной информации: новое направление" и "Интеграция корпоративных приложений: основные понятия"). Сегодня мы предлагаем вниманию читателя статью, в которой сравниваются три основных современных подхода к проблеме интеграции - это технологии интеграции корпоративных приложений и информации, а также технология извлечения, преобразования и загрузки данных.
Помните, что случилось с Шалтаем-Болтаем? "И вся королевская конница, и вся королевская рать не может Шалтая-Болтая собрать". Многие IT-профессионалы часто ощущают себя подобно этому персонажу. С тех пор, как были написаны первые компьютерные программы, IT-специалисты ведут борьбу с дезинтеграцией, порожденной компьютерной эрой, стараясь снова собрать воедино данные и приложения. Интеграция корпоративных данных и приложений - это задача, давно стоящая перед многими организациями, однако до последнего времени технологические возможности в этой сфере были довольно ограниченными.
К счастью, сейчас есть три технологии, которые могут помочь в этом. Автор статьи именует их "три 'И'" (или три "Е" в английском варианте). Это интеграция корпоративных приложений (enterprise application integration, сокр. EAI), интеграция корпоративной информации (enterprise information integration, сокр. EII) и программное обеспечение для извлечения, преобразования и загрузки данных (extract, transform and load, сокр. ETL).
Эти технологии могут быть использованы для широкого круга задач: от
интеграции в режиме реального времени до пакетной интеграции и от интеграции
данных до интеграции приложений. На рис. 1 показано положение названных
технологий по отношению к этим двум спектрам задач. Для интеграции данных в
режиме реального времени лучше всего подходит технология EII. Для пакетной
интеграции данных - ETL. А для интеграции приложений, в режиме реального
времени или пакетном, наиболее подходящим инструментом является технология
EAI.
Рис.1. Интеграционный ландшафт сегодня
Как это часто бывает с новыми технологиями, возникает некоторая путаница в отношении того, каковы функции каждой из них и в каких случаях та или иная технология должна использоваться. Для того, чтобы избежать этого, необходимо четко представлять возможности каждой технологии и определить для себя, для решения каких задач они подходят. Первое, с чего необходимо начать, - это определения. Основываясь на собственном опыте и на обсуждениях проблемы с целым рядом поставщиков (например, таких, как компании Composite Software и Celequest), а также с клиентами, автор статьи дает следующие определения:
- EAI - это технология, с помощью которой организация добивается централизации и оптимизации интеграции корпоративных приложений, обычно используя те или иные формы технологии оперативной доставки информации (push technology), которая управляется внешними событиями (event-driven);
- ETL - это технология, которая преобразует данные (обычно с помощью их пакетной обработки) из операционной среды, включающей гетерогенные технологии, в интегрированные, согласующиеся между собой данные, пригодные для использования в процессе поддержки принятия решений. ETL-технология ориентирована на базы данных, например, Хранилище, витрину или операционный склад данных;
- EII - это технология для интеграции в режиме реального времени несопоставимых типов данных из многочисленных источников как внутри, так и за пределами корпорации. Инструменты EII обеспечивают универсальный уровень доступа к данным и используют технологию поиска информации (pull technology) или возможности работы по запросам. Технология EII ориентирована на конкретных сотрудников, которые получают информацию через инструментальную панель или отчет.
Далее необходимо рассмотреть место этих технологий в уже существующей архитектуре. На рис. 2 показано, как каждая из них может быть использована наилучшим образом. Технология EAI интегрирует транзакции двух или более приложений, технология ETL интегрирует данные операционных систем и компонентов поддержки принятия решений, а технология EII осуществляет виртуальную интеграцию данных из различных источников.
Рис. 2. Место технологий EAI, EII и ETL в уже существующей архитектуре
Технология EAI наиболее функциональна тогда, когда необходимо связать приложения в реальном времени для автоматизации бизнес-процессов. Второй случай применения EAI - это ситуация, когда необходимо, чтобы изменения, внесенные в одно приложение (обычно это небольшой набор записей), были отражены во всех других. Эта технология очень хорошо справляется с задачей фиксации изменений и их переноса в соответствующие приложения или системы.
Технология ETL оказывается наиболее полезной в тех случаях, когда необходимо создать Хранилище данных, содержащее хорошо документированные и надежные данные для исторического анализа, например, для анализа временных рядов или многомерных запросов. Эта технология также используется для интеграции ключевых справочных данных. Технология ETL незаменима для таких задач, как удаление дублирующихся данных, осуществление процессов проверки качества данных и т.п. Эти инструменты также используются для создания отдельных витрин данных, обслуживающих конкретный отдел или бизнес-процесс или предназначенных для каких-либо долгосрочных целей. Инструменты ETL дают пользователю возможность запустить повторяющиеся процессы для большей слаженности действий и возможности их многократного использования. Такие процессы включают создание точных технических метаданных, поддерживающих общую целостность среды business intelligence (BI).
Технология EII лучше всего подходит в тех случаях, когда необходимо создать общий шлюз (gateway) с едиными языком и точкой доступа к несогласованным источникам данных. Такие инструменты предоставляют приложениям и конечным пользователям возможности более гибкого, а также незапланированного доступа к данным, при этом не требуя постоянного использования данных или долговременных целей для получения этого доступа. Помимо традиционных реляционных баз данных, инструменты EII могут работать с XML- и LDAP-файлами1, плоскими файлами и другими нереляционными данными. Эти инструменты также способны представлять реляционные данные в формате XML или формате web-сервисов. Особенно полезны инструменты EII, если есть необходимость добавить к справочным данным Хранилища дополнительные детали, в частности, детальную информацию в реальном времени (например, сопоставление исторических данных с текущей ситуацией).
Кроме понимания того, когда необходимо использовать эти технологии, нужно также знать и проблемы, которые им присущи. Во-первых, внедрение этих технологий требует от IT-персонала глубокого понимания тех требований, которые предъявляются к данным для принятия как тактических, так и стратегических решений. Применительно к технологии ETL это означает, что необходимые данные извлекаются, преобразуются и загружаются в виде, пригодном для использования непосредственно аналитиками или EII-сервером. В случае EII-технологии, способы представления данных должны удовлетворять отчетным требованиям аналитиков, т.е. данные должны быть пригодны для использования в аналитических отчетах. Во всех случаях понимание источников данных и требований, предъявляемых к данным, является необходимым шагом при внедрении этих технологий и безусловно оправдывает то время, которое приходится тратить, чтобы достичь этого понимания.
Кроме того, необходимо понимать, что внедрение этих инструментов в уже сложившуюся архитектуру требует от бизнес- и IT-персонала разработки такой стратегии управления данными и приложениями, которая будет постоянно поддерживать этот процесс в активном состоянии. Обязательной составляющей такой стратегии должно быть осознание того, что повышается важность механизмов архивирования, а также того, что с самого начала должны быть созданы контрольные журналы. Это необходимо для обеспечения слаженности и надежности интегрированных данных и приложений.
И наконец, очень важен постоянный мониторинг производительности и эффективности этих технологий в условиях конкретной инфраструктуры. Их производительность в значительной степени будет зависеть от скорости архивирования данных, размеров и детальности данных, а также от эффективности функционирования системы в условиях полной нагрузки. При определении производительности также следует оценить влияние, которые эти инструменты могут оказывать на операционные приложения и системы. Поэтому необходим постоянный мониторинг и этого влияния.
1LDAP - Lightweght Directory Access Protocol - облегченный протокол доступа к каталогам
Автор: Клодиа Имхофф (Claudia Imhoff)