Стали известны результаты нового отчета Института хранилищ данных "Интеграция данных нового поколения" (Next Generation Data Integration), который обозначил главные тенденции развития сферы интеграции данных на сегодняшний день.
Главное, что убедительно показал отчет, это то, что интеграция данных претерпела значительные изменения в последние годы. В настоящее время это большой набор мощных технологий, включающих ETL, объединение данных (data federation), репликацию, синхронизацию данных, отслеживание измененных данных, управление качеством данных, нормативно-справочную информацию (MDM), обработку естественных языков, обмен данными между организациями и многое другое. Продукты для интеграции данных достигли зрелости, сформировались большие команды специалистов по внедрению и поддержке, появляются новые технологии. Интеграция данных превращается в автономную дисциплину, обособляясь от смежных технологий, таких как хранилища данных и администрирование данных.
Инструменты интеграции данных стали более быстрыми, ориентированными на совместную работу, производительными, работающими в реальном времени и масштабируемыми. Появились новые платформы для инструментов интеграции данных (ПО с открытым кодом, облачные вычисления, ПО как услуга и др.), растет координация между смежными технологиями в управлении данными (качество данных, управление мастер-данными, ускорение интеграции данных, управление данными).
Примечательно, что технологии интеграции данных развивались с такой скоростью и интенсивностью в последние десять лет, что старые определения к ним уже неприменимы. В настоящее время сложно дать какое-то одно определение, поскольку интеграция данных стала собирательным названием для разных технологий и процессов. Для того чтобы дать представление о том, что же представляют собой технологии интеграции данных на современном этапе, автор отчета, Филипп Рассом (Philip Russom), известный специалист в области хранения данных и BI, составил правила, характеризующие эти технологии.
Автор исследования справедливо отмечает, что компании сейчас сталкиваются с изменениями намного чаще, чем когда-либо прежде. Технологии интеграции данных поддерживают приложения и цели, достижение которых связано с экономическими вопросами. Периодически необходимо настраивать решения по интеграции данных, приводя их в соответствие с техническими и корпоративными целями. Технологии нового поколения - это возможность устранить недостатки предыдущих поколений, среди которых устаревшая архитектура, старые ETL-решения, созданные для последовательной обработки данных, в то время как обработка больших объемов данных требует параллельных вычислений.
Некоторые инструменты интеграции данных требует серьезного улучшения или замены. Например, большинство B2B-решений в этой области основаны на технологиях низкого уровня, таких как ручное программирование, бесструктурные файлы и FTP. Схожие изменения необходимы и для хранилищ данных и решений по синхронизации данных. Даже у зрелых решений по интеграции данных есть пространство для роста. Успешные решения проходят в своем развитии множество стадий. Во многих случаях решения нового поколения концентрируются на следующей стадии тщательно спланированной эволюции.
Неструктурированные данные по-прежнему остаются неразработанной сферой для большинства решений интеграции данных. Многие платформы сейчас поддерживают анализ текста и другие формы обработки естественного языка. Работа с неструктурированными и сложными типами данных - следующий этап, к которому стремятся технологии интеграции данных.
Также в ходе исследования выяснилось, что интеграция данных на пути к тому, чтобы стать IT-инфраструктурой. Но об этом необходимо задуматься заранее, а не тогда, когда инфраструктура интеграции данных станет доступной большинству компаний, пишет Россом. Развитие интеграции данных в совместную инфраструктуру ускоряет интеграцию бизнеса посредством совместного доступа к данным.
Интеграция данных - растущая и развивающаяся область. Все больше организаций обращаются к ней, правда число сотрудников, занимающихся интеграцией, пока не соответствует темпам роста. С каждым днем интеграция данных становится все более автономной. В связи с этим возможно компаниям придется пересмотреть численность, опытность, управление, структуру и затраты на команды по интеграции данных.
Интеграция данных состоит из множества взаимосвязанных технологий управления данными. Их количество может служить индикатором зрелости системы интеграции данных. Например, многие решения по интеграции данных начинаются с применения одного инструмента, затем добавляются другие. Увеличение числа инструментов часто сопровождается ростом числа специалистов и инструментов. Многие команды вынуждены включать больше инструментов, поскольку начинают поддерживать больше клиентов, а это требует новых подходов к интеграции данных. Поэтому число инструментов интеграции данных и приоритеты, которые получает каждый из них, - это этапы на пути к системе интеграции данных нового поколения.
Как показал опрос, наиболее приоритетной технологией является ETL (extract, transform, and load). Это основной инструмент для бизнес-аналитики и хранилищ данных. ETL используется в 95% организаций, представители которых приняли участие в опросе. На втором месте находится технология ELT (extract, load, and transform). Использование этого инструмента растет, что вызвано увеличением мощности последних версий СУБД, появлением новых аналитических СУБД, увеличением обработки данных в самих базах данных, а также использованием вторичных ETL-инструментов (как правило, с открытым кодом).
Репликация и синхронизация данных оказались на третьем месте (45% респондентов). Эти инструменты хорошо подходят для переноса данных без или с незначительной трансформацией, они недорогие (в сравнении с ETL) и просты в использовании.
Интересно, что объединение данных (data federation) стало также одним из инструментов интеграции данных (30% опрошенных).
Объединение данных использовалось давно, но в низкоуровневых формах, таких как распределенные запросы. Современные инструменты, однако, обеспечивают лучшие функции по проектированию и поддержке для объединения данных, а также высокую производительность. Подобное усовершенствование и позволило объединению данных стать одним из инструментов интеграции данных. Наконец, одним из последних добавлений в арсенал технологий интеграции данных стала обработка событий (20% опрошенных).
В ходе исследования также выяснялось, какое количество инструментов интеграции данных организация использует и от какого количества поставщиков. Оказалось, что пользователи предпочитают упрощать используемые продуктовые портфели. Число организаций, использующих множество инструментов от разных поставщиков, упало с 44% до 25%. Пользователи хотят сократить объемы ручного программирования. Только 18% респондентов в полной мере используют этот подход. Как отмечает Рассом, переход от ручного программирования к использованию инструментов - значительное изменение в области интеграции данных.
Пользователи крайне заинтересованы в интегрированных пакетах инструментов. Хотя только 9% опрошенных используют такие пакеты в настоящее время, 42% хотели бы использовать. Однако не так много поставщиков готовы их предложить.
Технологические требования и ресурсы меняются, и команды по интеграции данных начинают использовать функции, которые прежде игнорировали. Например, многие использовали базовые функции ETL много лет, прежде чем обратили внимание на сопутствующие функции, такие как отслеживание измененных данных и др.
По данным опроса, мало кто использует все функции своих инструментов по интеграции данных (используют от 30 до 50% функций), но в течение следующих трех лет ситуация существенно изменится, прогнозирует автор исследования.
Если компании нужна единая платформа, поддерживающая разные типы инструментов, то ей следует полностью заменить решение по интеграции данных, рекомендует Рассом. Другая причина для такого радикального изменения - получение платформы, поддерживающей масштабируемость и функциональность в реальном времени лучше, чем нынешняя.
Однако по данным опроса, немногие компании готовы пойти на такой шаг. Третья респондентов планирует изменение платформы в 2011 году (19%) или в 2012-м (14%). Но 62% опрошенных вообще не имеют таких планов. Другими словами, большинство пользователей довольны своими платформами по интеграции данных.
Тем не менее, авторы опроса решили выяснить, какие проблемы могут побудить компании к смене платформы. Снова оказалось, что пользователи заинтересованы в интегрированных пакетах инструментов, поддерживающих интеграцию данных, качество данных, MDM и т.п. (40% опрошенных)
Среди других причин была названа проблема масштабируемости, которая может проявляться в затратности масштабирования (37% опрошенных) и низкой скорости обработки данных (35% опрошенных), а также неприспособленности используемой платформы к рабочим нагрузкам в режиме реального времени (33% опрошенных).
Как показал опрос, большая часть данных, обрабатываемых с помощью инструментов и платформ интеграции данных, относится к категории структурированных данных. 99% респондентов имеют дело со структурированными данными и 78% считают, что в последующие три года ничего не изменится. И это не новость, такая тенденция продолжается много лет, отмечает Рассом. Новость в том, что решения по интеграции данных начинают работать с более широким набором типов данных. Так, 84% опрошенных работают со сложными формами данных (иерархические или старые источники). 62% опрошенных работают с частично структурированными данными (XML и схожие стандарты), в ближайшие три года их число возрастет до 87%.
Три типа данных ожидает взрывной рост. Это данные о событиях (сообщения в реальном времени), пространственные данные (координаты долготы и широты, данные GPS) и неструктурированные данные. Все три типа в ближайшие три года будут использоваться 90% опрошенных.
Как выяснилось в результате исследования, многие профессионалы не думают о том, что интеграция данных имеет собственную архитектуру. Например, многие специалисты по хранилищам данных по-прежнему следуют традициям 1990-х годов, когда интеграция данных была частью архитектуры хранилища данных. Другое распространенное заблуждение в том, что использование продукта поставщика для интеграции данных автоматически предполагает появление архитектуры. Проблема в том, что если компания не признает существование архитектуры интеграции данных, ей будет сложно понять, как архитектура влияет на масштабируемость интеграции данных, ее доступность, стоимость, возможность поддерживать операции в реальном времени, MDM и другие аспекты. Исследование выявило, что хотя 27% респондентов не имеют согласованной архитектуры, только 3% планируют также оставаться без архитектуры в будущем.
Выяснилось, что многие организации набирают больше специалистов по интеграции данных в ответ на увеличение объемов работы. В отличие от прошлых лет, когда в компании были 1-2 специалиста, сейчас их число доходит 10-13 или, по результатам отчета, в среднем в компаниях работает 13,1 специалистов по интеграции данных. Для сравнения - согласно отчету Института хранилищ данных 2007 года в среднем в компаниях было 5 или больше специалистов.
Во многих организациях основная масса специалистов по интеграции данных занимаются хранилищами данных и инструментами бизнес-аналитики (59% опрошенных). У 15% опрошенных специалисты по интеграции работают в отделах по администрированию баз данных. Последние, в свою очередь, в результате реорганизации попадают в группы по архитектуре данных (24% опрошенных). Среди новых тенденций - подчинение специалистов по интеграции данных руководству IT-отделов (25% опрошенных) и CIO (12% опрошенных).
Как выяснилось, для многих компаний одна из приоритетных задач - найти приемлемое место внутри своей структуры для специалистов по интеграции данных. И все больше организаций склоняются к тому, что интеграция данных должна осуществляться отдельной командой, оформленной в качестве самостоятельного отдела (23% респондентов).
В большинстве организаций сегодня данные и другая информация хранятся разрозненно и используется разными сотрудниками при помощи различных инструментов. Но некоторые организации начинают применять объединенное управление данными (unified data management). Этот подход предполагает координацию разных отделов, работающих с информацией таким образом, что учитываются цели и задачи всей компании.
Такой подход имеет ряд преимуществ: единые стандарты данных для разных систем и инструментов, сотрудничество разных отделов, отношение к данным как к организационному активу, достижение единства данных. А конечная цель объединенного управления данными в том, чтобы достичь стратегических целей компании, основываясь на анализе данных.
Авторы исследования отмечают, что возросла необходимость сотрудничества при интеграции данных. С технологической стороны, увеличивается число специалистов, занимающихся интеграцией, зачастую они находятся в разных странах. С точки зрения бизнеса, руководители и менеджеры давно интересовались вопросами интеграции данных в связи с бизнес-аналитикой, но теперь должны это делать еще и в связи с новыми требованиями к управлению и требованиями регулирующих органов.
В этом смысле совместная интеграция данных (collaborative data integration), как ее называют эксперты Института хранилищ данных, имеет очевидные преимущества для бизнеса, давая менеджерам возможность самим видеть в деталях, как идет развитие проектов по интеграции данных.
В то же время существуют и препятствия. Технические специалисты и сотрудники бизнес-подразделений нередко не понимают друг друга, согласно 60% опрошенных. Большинство инструментов по интеграции непонятны бизнес-пользователям (52% респондентов) и не имеют нужных им функций (41%).
Рекомендации В заключение Рассом дает свои рекомендации, сделанные на основании данных исследования.