- 27 июня 2011 г.
Все, что нужно знать об интеграции данных в 2011 году
Интеграция данных претерпела значительные изменения в последние годы. Об
актуальных тенденциях рассказывают эксперты Института хранилищ данных
(TDWI).
Стали известны результаты нового отчета Института хранилищ данных "Интеграция данных нового поколения" (Next Generation Data Integration), который обозначил главные тенденции развития сферы интеграции данных на сегодняшний день.
Интеграция данных сегодня
Главное, что убедительно показал отчет, это то, что интеграция данных претерпела значительные изменения в последние годы. В настоящее время это большой набор мощных технологий, включающих ETL, объединение данных (data federation), репликацию, синхронизацию данных, отслеживание измененных данных, управление качеством данных, нормативно-справочную информацию (MDM), обработку естественных языков, обмен данными между организациями и многое другое. Продукты для интеграции данных достигли зрелости, сформировались большие команды специалистов по внедрению и поддержке, появляются новые технологии. Интеграция данных превращается в автономную дисциплину, обособляясь от смежных технологий, таких как хранилища данных и администрирование данных.
Инструменты интеграции данных стали более быстрыми, ориентированными на совместную работу, производительными, работающими в реальном времени и масштабируемыми. Появились новые платформы для инструментов интеграции данных (ПО с открытым кодом, облачные вычисления, ПО как услуга и др.), растет координация между смежными технологиями в управлении данными (качество данных, управление мастер-данными, ускорение интеграции данных, управление данными).
Примечательно, что технологии интеграции данных развивались с такой скоростью и интенсивностью в последние десять лет, что старые определения к ним уже неприменимы. В настоящее время сложно дать какое-то одно определение, поскольку интеграция данных стала собирательным названием для разных технологий и процессов. Для того чтобы дать представление о том, что же представляют собой технологии интеграции данных на современном этапе, автор отчета, Филипп Рассом (Philip Russom), известный специалист в области хранения данных и BI, составил правила, характеризующие эти технологии.
- Интеграция данных - это целая группа технологий. Некоторые специалисты по управлению данными по-прежнему рассматривают интеграцию данных просто как инструменты ETL для хранилищ данных или в качестве утилит для администрирования баз данных. Однако число технологий и подходов к интеграции данных значительно увеличилось.
- Технологии интеграции данных могут программироваться вручную, основываться на инструментах поставщика или являться тем и другим одновременно. Отчет TDWI выявил четкую тенденцию - переход от ручного программирования к использованию инструментов поставщика. Наиболее распространенный и эффективный подход - использовать инструмент интеграции данных для большинства решений, а программирование применять в тех случаях, когда в продукте отсутствуют какие-либо нужные функции.
- Интеграция данных - автономная сфера деятельности. Объемы работы настолько возросли, что команда специалистов по интеграции из 13 или более человек (в некоторых случаях их численность может доходить до 100) стала нормой. Направления деятельности стали тоже разнообразнее. В связи с этим основной вопрос в том, каким образом лучше организовать эту работу - как прежде или формировать независимую группу или центр по интеграции данных.
- Сфера интеграции данных постепенно поглощает другие направления по управлению данными. Очевидный пример - интеграция данных и качество данных, которыми занимаются одни и те же люди и на одной и той же платформе. Здесь вопрос в том, должна ли та же команда также заниматься и управлением мастер-данными, реплицированием и синхронизацией данных?
- Интеграция данных стала областью деятельности, требующей совместной работы. Все больше специалистов по интеграции данных нуждаются в тесном сотрудничестве как внутри команды, так и с коллегами из других команд, работающих с данными.
- Интеграция данных требует разнообразных подходов к разработке. Под давлением различных проблем специалисты по интеграции данных вынуждены постоянно искать новые стратегии разработки. Среди них - увеличение численности специалистов в команде; операционные, а не аналитические проекты; большие возможности для взаимодействия с другими технологиями управления данными; потребность находить более гибкие и быстрые решения.
- Интеграция данных требует большого набора интерфейсов. Это связано с тем, что технологии интеграции данных работают с самыми разными IT-системами с разной скоростью и частотой доставки информации. Здесь могут быть как традиционные интерфейсы (ODBC, JDBC, FTP, APIs, пакетные загрузчики и др.), так и новые (Web-сервисы, SOA и сервисы данных). Работа с новыми типами интерфейсов - одно из критически важных требований на сегодняшний день. Кроме того, по мере расширения инфраструктуры интеграции данных внутри организации, интерфейсы должны иметь доступ к резервным данным, частным и общественным "облачным" данным, а также к информации на сайтах партнеров и клиентов.
- Инструменты интеграции данных должны быть масштабируемыми. Системы, разработанные пользователями и серверы, созданные поставщиками, должны быть увеличиваться или уменьшаться в соответствии с объемами данных и растущей сложностью обработки данных, не теряя при этом в производительности. В условиях взрывного роста объемов и сложности данных, масштабируемость - критически важный фактор успеха, который должен иметь высший приоритет при планировании мер по интеграции данных, считает автор исследования.
- Интеграция данных требует архитектуры. Некоторые инструменты интеграции данных предлагают свою архитектуру, но даже в этом случае разработчики должны контролировать и проектировать детали. Архитектура важна, поскольку она может обеспечивать (или препятствовать) успешную реализацию требований, которые могут появиться в дальнейшем.
Старое и новое поколения
Автор исследования справедливо отмечает, что компании сейчас сталкиваются с изменениями намного чаще, чем когда-либо прежде. Технологии интеграции данных поддерживают приложения и цели, достижение которых связано с экономическими вопросами. Периодически необходимо настраивать решения по интеграции данных, приводя их в соответствие с техническими и корпоративными целями. Технологии нового поколения - это возможность устранить недостатки предыдущих поколений, среди которых устаревшая архитектура, старые ETL-решения, созданные для последовательной обработки данных, в то время как обработка больших объемов данных требует параллельных вычислений.
Некоторые инструменты интеграции данных требует серьезного улучшения или замены. Например, большинство B2B-решений в этой области основаны на технологиях низкого уровня, таких как ручное программирование, бесструктурные файлы и FTP. Схожие изменения необходимы и для хранилищ данных и решений по синхронизации данных. Даже у зрелых решений по интеграции данных есть пространство для роста. Успешные решения проходят в своем развитии множество стадий. Во многих случаях решения нового поколения концентрируются на следующей стадии тщательно спланированной эволюции.
Неструктурированные данные по-прежнему остаются неразработанной сферой для большинства решений интеграции данных. Многие платформы сейчас поддерживают анализ текста и другие формы обработки естественного языка. Работа с неструктурированными и сложными типами данных - следующий этап, к которому стремятся технологии интеграции данных.
Также в ходе исследования выяснилось, что интеграция данных на пути к тому, чтобы стать IT-инфраструктурой. Но об этом необходимо задуматься заранее, а не тогда, когда инфраструктура интеграции данных станет доступной большинству компаний, пишет Россом. Развитие интеграции данных в совместную инфраструктуру ускоряет интеграцию бизнеса посредством совместного доступа к данным.
Интеграция данных - растущая и развивающаяся область. Все больше организаций обращаются к ней, правда число сотрудников, занимающихся интеграцией, пока не соответствует темпам роста. С каждым днем интеграция данных становится все более автономной. В связи с этим возможно компаниям придется пересмотреть численность, опытность, управление, структуру и затраты на команды по интеграции данных.
Инструменты и методы интеграции данных
Интеграция данных состоит из множества взаимосвязанных технологий управления данными. Их количество может служить индикатором зрелости системы интеграции данных. Например, многие решения по интеграции данных начинаются с применения одного инструмента, затем добавляются другие. Увеличение числа инструментов часто сопровождается ростом числа специалистов и инструментов. Многие команды вынуждены включать больше инструментов, поскольку начинают поддерживать больше клиентов, а это требует новых подходов к интеграции данных. Поэтому число инструментов интеграции данных и приоритеты, которые получает каждый из них, - это этапы на пути к системе интеграции данных нового поколения.
Как показал опрос, наиболее приоритетной технологией является ETL (extract, transform, and load). Это основной инструмент для бизнес-аналитики и хранилищ данных. ETL используется в 95% организаций, представители которых приняли участие в опросе. На втором месте находится технология ELT (extract, load, and transform). Использование этого инструмента растет, что вызвано увеличением мощности последних версий СУБД, появлением новых аналитических СУБД, увеличением обработки данных в самих базах данных, а также использованием вторичных ETL-инструментов (как правило, с открытым кодом).
Репликация и синхронизация данных оказались на третьем месте (45% респондентов). Эти инструменты хорошо подходят для переноса данных без или с незначительной трансформацией, они недорогие (в сравнении с ETL) и просты в использовании.
Интересно, что объединение данных (data federation) стало также одним из инструментов интеграции данных (30% опрошенных).
Объединение данных использовалось давно, но в низкоуровневых формах, таких как распределенные запросы. Современные инструменты, однако, обеспечивают лучшие функции по проектированию и поддержке для объединения данных, а также высокую производительность. Подобное усовершенствование и позволило объединению данных стать одним из инструментов интеграции данных. Наконец, одним из последних добавлений в арсенал технологий интеграции данных стала обработка событий (20% опрошенных).
Лучше больше и лучше
В ходе исследования также выяснялось, какое количество инструментов интеграции данных организация использует и от какого количества поставщиков. Оказалось, что пользователи предпочитают упрощать используемые продуктовые портфели. Число организаций, использующих множество инструментов от разных поставщиков, упало с 44% до 25%. Пользователи хотят сократить объемы ручного программирования. Только 18% респондентов в полной мере используют этот подход. Как отмечает Рассом, переход от ручного программирования к использованию инструментов - значительное изменение в области интеграции данных.
Пользователи крайне заинтересованы в интегрированных пакетах инструментов. Хотя только 9% опрошенных используют такие пакеты в настоящее время, 42% хотели бы использовать. Однако не так много поставщиков готовы их предложить.
Технологические требования и ресурсы меняются, и команды по интеграции данных начинают использовать функции, которые прежде игнорировали. Например, многие использовали базовые функции ETL много лет, прежде чем обратили внимание на сопутствующие функции, такие как отслеживание измененных данных и др.
По данным опроса, мало кто использует все функции своих инструментов по интеграции данных (используют от 30 до 50% функций), но в течение следующих трех лет ситуация существенно изменится, прогнозирует автор исследования.
Смена платформы
Если компании нужна единая платформа, поддерживающая разные типы инструментов, то ей следует полностью заменить решение по интеграции данных, рекомендует Рассом. Другая причина для такого радикального изменения - получение платформы, поддерживающей масштабируемость и функциональность в реальном времени лучше, чем нынешняя.
Однако по данным опроса, немногие компании готовы пойти на такой шаг. Третья респондентов планирует изменение платформы в 2011 году (19%) или в 2012-м (14%). Но 62% опрошенных вообще не имеют таких планов. Другими словами, большинство пользователей довольны своими платформами по интеграции данных.
Тем не менее, авторы опроса решили выяснить, какие проблемы могут побудить компании к смене платформы. Снова оказалось, что пользователи заинтересованы в интегрированных пакетах инструментов, поддерживающих интеграцию данных, качество данных, MDM и т.п. (40% опрошенных)
Среди других причин была названа проблема масштабируемости, которая может проявляться в затратности масштабирования (37% опрошенных) и низкой скорости обработки данных (35% опрошенных), а также неприспособленности используемой платформы к рабочим нагрузкам в режиме реального времени (33% опрошенных).
Типы данных
Как показал опрос, большая часть данных, обрабатываемых с помощью инструментов и платформ интеграции данных, относится к категории структурированных данных. 99% респондентов имеют дело со структурированными данными и 78% считают, что в последующие три года ничего не изменится. И это не новость, такая тенденция продолжается много лет, отмечает Рассом. Новость в том, что решения по интеграции данных начинают работать с более широким набором типов данных. Так, 84% опрошенных работают со сложными формами данных (иерархические или старые источники). 62% опрошенных работают с частично структурированными данными (XML и схожие стандарты), в ближайшие три года их число возрастет до 87%.
Три типа данных ожидает взрывной рост. Это данные о событиях (сообщения в реальном времени), пространственные данные (координаты долготы и широты, данные GPS) и неструктурированные данные. Все три типа в ближайшие три года будут использоваться 90% опрошенных.
Архитектурный вопрос
Как выяснилось в результате исследования, многие профессионалы не думают о том, что интеграция данных имеет собственную архитектуру. Например, многие специалисты по хранилищам данных по-прежнему следуют традициям 1990-х годов, когда интеграция данных была частью архитектуры хранилища данных. Другое распространенное заблуждение в том, что использование продукта поставщика для интеграции данных автоматически предполагает появление архитектуры. Проблема в том, что если компания не признает существование архитектуры интеграции данных, ей будет сложно понять, как архитектура влияет на масштабируемость интеграции данных, ее доступность, стоимость, возможность поддерживать операции в реальном времени, MDM и другие аспекты. Исследование выявило, что хотя 27% респондентов не имеют согласованной архитектуры, только 3% планируют также оставаться без архитектуры в будущем.
Куда девать специалистов по интеграции?
Выяснилось, что многие организации набирают больше специалистов по интеграции данных в ответ на увеличение объемов работы. В отличие от прошлых лет, когда в компании были 1-2 специалиста, сейчас их число доходит 10-13 или, по результатам отчета, в среднем в компаниях работает 13,1 специалистов по интеграции данных. Для сравнения - согласно отчету Института хранилищ данных 2007 года в среднем в компаниях было 5 или больше специалистов.
Во многих организациях основная масса специалистов по интеграции данных занимаются хранилищами данных и инструментами бизнес-аналитики (59% опрошенных). У 15% опрошенных специалисты по интеграции работают в отделах по администрированию баз данных. Последние, в свою очередь, в результате реорганизации попадают в группы по архитектуре данных (24% опрошенных). Среди новых тенденций - подчинение специалистов по интеграции данных руководству IT-отделов (25% опрошенных) и CIO (12% опрошенных).
Как выяснилось, для многих компаний одна из приоритетных задач - найти приемлемое место внутри своей структуры для специалистов по интеграции данных. И все больше организаций склоняются к тому, что интеграция данных должна осуществляться отдельной командой, оформленной в качестве самостоятельного отдела (23% респондентов).
Объединенная интеграция данных
В большинстве организаций сегодня данные и другая информация хранятся разрозненно и используется разными сотрудниками при помощи различных инструментов. Но некоторые организации начинают применять объединенное управление данными (unified data management). Этот подход предполагает координацию разных отделов, работающих с информацией таким образом, что учитываются цели и задачи всей компании.
Такой подход имеет ряд преимуществ: единые стандарты данных для разных систем и инструментов, сотрудничество разных отделов, отношение к данным как к организационному активу, достижение единства данных. А конечная цель объединенного управления данными в том, чтобы достичь стратегических целей компании, основываясь на анализе данных.
Авторы исследования отмечают, что возросла необходимость сотрудничества при интеграции данных. С технологической стороны, увеличивается число специалистов, занимающихся интеграцией, зачастую они находятся в разных странах. С точки зрения бизнеса, руководители и менеджеры давно интересовались вопросами интеграции данных в связи с бизнес-аналитикой, но теперь должны это делать еще и в связи с новыми требованиями к управлению и требованиями регулирующих органов.
В этом смысле совместная интеграция данных (collaborative data integration), как ее называют эксперты Института хранилищ данных, имеет очевидные преимущества для бизнеса, давая менеджерам возможность самим видеть в деталях, как идет развитие проектов по интеграции данных.
В то же время существуют и препятствия. Технические специалисты и сотрудники бизнес-подразделений нередко не понимают друг друга, согласно 60% опрошенных. Большинство инструментов по интеграции непонятны бизнес-пользователям (52% респондентов) и не имеют нужных им функций (41%).
Рекомендации В заключение Рассом дает свои рекомендации, сделанные на основании данных исследования.
- Модернизируйте свое определение интеграции данных. Интеграция данных претерпела серьезные изменения в последние годы, и нужно понимать их и смотреть на них по-новому, избегая устаревших клише.
- Помогите коллегам понять, что интеграция данных - это набор методов, а не просто утилита для ETL или администрирования баз данных.
- Обратите внимание, что технологии интеграции данных выходят за аналитические и операционные рамки. И это касается всего, включая комплектование штата, финансирование, выбор инструментов и решений.
- Чаще общайтесь с людьми. Интеграция данных требует сотрудничества, поэтому координируйте свою работу с другими отделами и сотрудниками.
- Рассматривайте администрирование данных и метаданных как часть управления данными. Они не обязательно ими являются, но могут являться.
- Создайте пространство для специалистов по интеграции данных. Большинство организаций успешно используют специалистов по хранилищам данных и администрированию баз данных для решения задач интеграции, однако прослеживается тенденция к выделению независимых команд, занимающихся интеграцией данных.
- Поймите, что интеграция данных требует архитектуры, которая может способствовать (или препятствовать) новой функциональности инструментов.
- Используйте имеющиеся инструменты по максимуму. Современные инструменты богаты функциями, но, по данным опроса, компании используют не больше 40% функций.
- Используйте инструмент, а не ручное программирование, которое малопродуктивно и не обладает многими функциями.
- Готовьтесь к интеграции новых типов данных.
- Взгляните на новейшие функции интеграции данных - неважно, нужны они вам или нет. Нужно просто быть в курсе на тот случай, если возникнут новые цели и задачи.
- Не забывайте об основах. ETL для кого-то потерял свою привлекательность, но это по-прежнему основа многих решений по интеграции.
- Рассматривайте интеграцию данных как инфраструктуру. Если нужно обмениваться большими объемами данных внутри компании, то централизованное решение по интеграции подойдет для этих целей лучше, чем отдельные решения в каждом отделе.
- Ожидайте развитие решений по интеграции данных.
- Имейте в виду, что в будущем вас в любом случае ожидают решения по интеграции нового поколения: либо изменения в бизнесе подтолкнут вас к этому, либо ваши нынешние инструменты устареют настолько, что потребуется смена.
Публикации
- Филипп Рассом. Интеграция данных нового поколения. Отчет Института хранилищ данных, второй квартал 2011 г. (Philip Russom. Next Generation Data Integration TDWI best practices. Report). 2011 г.
Автор: Филипп Рассом