Публикации

Intersoft Lab в СМИ - истории успеха клиентов, интервью и мнения экспертов компании по актуальным задачам банковской аналитики, обзоры рынка CPM

Data Lakehouse – новый виток аналитики?

О новой гибридной архитектуре управления данными, которая упрочит позиции хранилищ данных и традиционной аналитики и позволит справиться с расширением «вселенной данных» - в материале эксперта Intersoft Lab.

Корпоративные хранилища данных: 10 лет под угрозой исчезновения

Реляционным хранилищам данных (ХД) более трех десятков лет. За последние 10 лет закат традиционной аналитики на их основе предрекали как минимум два раза. Сначала - при появлении облачных ХД, затем - озер данных.

Построение хранилища данных на территории заказчика (“on premises”) - инвестиционно-емкий проект, который может занимать до одного года и более. Облачные ХД были призваны удешевить стоимость развертывания хранилища, а также справиться с постоянно растущими объемами исходных данных. Но повсеместного перехода с традиционных ХД на облачные не произошло. По результатам последнего опроса IDC, 47% предприятий в мире используют централизованную архитектуру облачного хранилища. Но через два года этот показатель сократится до 22%. Основная причина в том, что возможности передачи данных растут медленнее, чем емкости хранилищ.

Что касается высокопроизводительных программно-аппаратных комплексов, используемых при построении ХД, таких как Oracle Exadata, то в России уже сегодня наблюдается опережающий спрос на «on-premises» решения.

После облачных ХД следующей «угрозой» для традиционных хранилищ стали озера данных. По оценке IDC, с 2010 по 2020 год объем мировой «цифровой вселенной» вырос в 32 раза и достиг 64 ЗБ. Аналитика больших данных превратилась в быстрорастущий ИТ-сегмент, а озера данных - в ключевой элемент Big Data инфраструктуры. Появились предположения, что озера могут отвоевать долю рынка у реляционных баз данных и даже «поглотить» традиционные ХД. Но сегодня каждое из них: хранилище и озеро - по-прежнему обслуживает собственную аналитическую нишу.

Одно из последних предсказаний о закате реляционных ХД связано с новой гибридной архитектурой - data lakehouse. Предполагается, что она придет на смену хранилищам и озерам данных, объединив эта два инструмента подготовки данных для аналитики. Термин data lakehouse условно можно перевести как «хранилище и озеро данных».

Ознаменует ли появление data lakehouse конец жизненного цикла ХД, или это просто новая организация работы с данными? Попробуем разобраться.

Почему появилась идея data lakehouse

Традиционные банковские ХД обрабатывают структурированные данные и обслуживают традиционную аналитику - выпуск различных видов отчетности и подготовку данных для аналитических задач, в том числе для прогнозирования на основе накопленных данных. Архитектура хранилищ оптимизирована для быстрого извлечения данных и одновременной работы большого количества пользователей.

В отличие от хранилищ, озера данных ориентированы на обработку неструктурированных и структурированных данных (Big Data), первые могут составлять до 80%. Данные могут извлекаться из потоков - социальных сетей, электронной коммерции, датчиков и Интернета вещей (IoT). Схема озера данных определяется «по чтению» (on read), а хранилища - «по записи» (on write). Наконец, озера не предусматривают высокую производительность обработки запросов и поддержку многопользовательского режима работы. Собранные в них данные - основа для применения методов машинного обучения (machine learning) и различных подходов «науки данных» (Data Science).

Как правило, хранилища и озера работают изолированно друг друга. Появление концепции гибридной архитектуры - это попытка объединить данные, собранные в хранилища и озера, и аналитические выводы, полученные на их основе.

Гибридная архитектура может не только расширить возможности хранилищ в части аналитики неструктурированных данных, но и устранить ограничения озер в обеспечении качества данных. Ряд экспертов также считает, что вычислительные возможности open-source платформ для озер данных начинают не справляться с нагрузкой, что подрывает идею об их экономичности.

Согласно исследованию TDWI, сегодня озера часто выполняют вспомогательную роль в подготовке аналитики. Только треть опрошенных компаний (37,3%) использует озера данных по прямому назначению - для продвинутой и ML-аналитики. Остальные - как область для временного хранения копии исходных данных перед их ETL-обработкой (37,3% опрошенных) или как расширение хранилища данных (36,7% опрошенных).

Data lakehouse: когда ждать пришествия варяга

Гибридная архитектура пока находится на уровне концепции, а соответствующая терминология только формируется. Например, большинство участников исследования TDWI предпочитают использовать термины, связанные с архитектурой. 43% называют ее корпоративной архитектурой данных (enterprise data architecture), 36% - гибридной архитектурой данных (hybrid data architecture), 35% - современной архитектурой хранилища данных (modern data warehouse architecture). Сами эксперты TDWI склоняются к термину мультиплатформенная архитектура данных (multiplatform data architecture), а аналитики Gartner используют data lakehouse.

По мнению последних, data lakehouse является развитием концепции логического хранилища данных, которое Gartner представил около 15 лет назад. Аналитики описывают ее как конвергентную инфраструктурную среду, в которой обеспечиваются все шаги по обработке и преобразованию данных: от сырых данных до информации, готовой для «употребления». Технология data lakehouse только прорабатывается, и пройдет пять-десять лет, пока она выйдет на так называемое плато продуктивности на кривой хайп-технологий в области управления данными.

Чем привлекательна гибридная архитектура

Основная выгода, которую принесет data lakehouse - извлечение еще большей ценности из данных. Об этом заявили 64% участников упомянутого опроса TDWI.

Переход к гибридной архитектуре позволяет унифицировать источники данных: и хранилища, и озера - в масштабе всей организации и обеспечить получение непротиворечивой отчетности и аналитики для разных бизнес-вертикалей. Так считают 53% участников опроса TDWI.

Сегодня корпоративные ХД могут ограниченно использовать ML-методы. По мнению 49% респондентов TDWI, применение data lakehouse дает возможность расшить «узкие места» традиционной аналитики. Если хранилища и озера будут унифицированы, а данные в озерах - структурированы, и их можно будет обрабатывать с помощью запросов, гибридная архитектура может стать основой для аналитической обработки традиционных и новых типов данных.

Очевидно, что говорить о закате технологии реляционных хранилищ данных по-прежнему более чем преждевременно. Если новая гибридная архитектура найдет свое промышленное воплощений, что неизбежно с учетом роста объемов и разнообразия данных, то она упрочит позиции корпоративных ХД в ИТ-ландшафте банка. Они обеспечат традиционную непротиворечивость и надежность отчетных данных, а в связке в другими аналитическими технологиями позволят извлекать из них еще большую ценность.

Автор: Александр Кудинов, эксперт Intersoft Lab

Источник: it Week