Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Актуальный тренд: высокопроизводительные хранилища данных

В начале последнего квартала 2012 года Институт хранилищ данных (TDWI) опубликовал свой отчёт «Высокоэффективное хранение данных», который обозначил некоторые тенденции в области хранилищ данных высокой производительности.

Что такое высокоэффективное хранилище данных?

Обеспечение высокой производительности всё в большей степени становится критическим фактором успешных проектов в области бизнес-аналитики (BI), хранилищ данных (ХД), «продвинутой» аналитики и интеграции данных (DI). Дело в том, что почти все решения для вышеперечисленных областей обладают достаточно высокими эксплуатационными требованиями по причинам технологического и делового характера. Тем не менее, пользователи сталкиваются с проблемой больших объемов данных, растущими запросами на аналитические ресурсы, ростом числа пользователей и необходимостью работы в режиме реального времени.

В большинстве организаций ХД и аналогичные базы данных несут большую часть нагрузки; однако, стремление к сокращению времени обработки и масштабированию также затрагивает прочие слои технологического стека BI/DW/DI в той же степени, что и процессы, разворачивающиеся через эти слои. По мнению автора отчета, директора исследовательских программ TDWI Филипа Рассома (Philip Russom), термин «высокопроизводительное хранилище данных» (High-Performance Data Warehousing) в первую очередь связан с необходимостью в повышении скорости обработки данных и обеспечением масштабирования на «фоне» роста сложности данных и операций и увеличении числа одновременно работающих пользователей. Эти четыре измерения и определяют высокопроизводительное хранилище данных. Каждое из них, являясь целью само по себе, имеет отношение ко всем прочим. Например, масштабирование может потребовать повысить скорость выполнения вычислений, а сложность операций и параллельная работа множества пользователей, как правило, негативно влияют на скорость и масштабирование.

Причины использования высокопроизводительных ХД

Бизнес нуждается в оптимальной производительности аналитических приложений и систем класса BI/DW/DI. Это видно из результатов опроса, проведённого TDWI в рамках исследования среди 278 респондентов: 68% опрошенных заявляют, что бизнес-практики требуют более обширной и оперативной бизнес-аналитики, а 19% утверждают, что их бизнес-стратегия направлена на использование каждой системы с максимальной эффективностью. Отдельного сожаления заслуживает тот факт, что ожидания пользователи в отношении производительности не всегда реалистичны ( так считают 9% респондентов). В этой связи очень показательно, что только один  респондент привел в качестве причины внедрения высокопроизводительных ХД,  необходимость формирования своевременной отчетности в соответствии с нормативными требованиями.

Вместе с тем, причиной оптимизации производительности является и желание идти в ногу с ростом организации. Значительный процент опытных пользователей, отвечавших на вопрос  исследования «Почему вам необходимо инвестировать в улучшение производительности?», выбрал ответы, связанные с ростом, например, масштабирование из-за больших объёмов данных (46%), из-за усложнения аналитики (32%) и в связи с ростом числа пользователей и количества запрашиваемых ими отчётов (25%).

Рис. 1. Причины инвестирования в улучшение производительности

Вопросы размера ХД

Масштабирование является одним из четырёх характеристик высокопроизводительных хранилищ данных, и, как известно, количество данных, обрабатываемых технологическим стеком BI/DW/DI, продолжает увеличиваться. Чтобы количественно выразить эту тенденцию в исследовании был задан вопрос: «Каков приблизительный объём данных (будь они сырыми, сжатыми или дублированными), которыми управляет хранилище данных вашей организации сегодня и три года назад?». Как выяснилось, многие опрошенные (30%) уже преодолели барьер в 10 терабайт. Многие преодолеют его в ближайшем будущем.  Это важно, поскольку этот отчёт, как и другие исследования Института хранилищ данных, утверждают 10 терабайт своего рода вехой верхнего предела хранилища данных. Поэтому, преодоление этого рубежа является определённым достижением, каким было преодоление 1ТБ в 2000 году и 5ТБ в 2007. Тем не менее, стоит обратить внимание на то, что несколько супер-хранилищ уже преодолели рубеж в половину петабайта и даже в 1ПБ.

Проблемы и перспективы

Малые базы данных станут менее распространёнными, трансформируясь со временем в более крупные. При прогнозировании объёма хранилища данных на ближайшие три года респонденты опроса предположили диапазоны в 1, 1-3 и 3-10 терабайт. Исследования Института хранилищ данных в августе 2010 и в середине 2011 показали аналогичное снижение количества малых хранилищ, однако, результаты данного исследования демонстрируют формирование тенденции к ускорению этого процесса. Прогнозы респондентов предполагают, что ХД объёмом менее 1ТБ будут довольно редки (5%) к 2015 году.

Наоборот, базы данных более 100ТБ редки сегодня, однако станут более распространёнными. Число очень больших объемов аналитических данных (100-500ТБ и более 500ТБ) утроится. Очевидно, пользователи управляют своими хранилищами данных ещё больших объёмов, движимые «феноменом больших данных».

Рис. 2. Примерный объём данных, обрабатываемых хранилищем

Как отмечалось ранее, объём – это не единственная проблема хранилищ данных высокой производительности. Корпоративные системы отчетности (Enterprise Business Intelligence) – это ещё один растущий класс ПО, который может оказывать влияние на масштабирование и производительность. Эти системы обслуживают относительно большие коллективы пользователей, одновременно запрашивающих большое количество отчётов и аналитических выборок. Чтобы получить представление о росте нагрузки был задан вопрос «Сколько пользователей одновременно генерируют запросы, отчётность и аналитические данные в моменты пиковой загрузки системы?». Нормальной нагрузкой участники опроса сочли от 50 до 200 одновременных бизнес-аналитических процессов. Данный уровень нагрузки был заявлен примерно четвертью респондентов , и несколько большее число опрошенных ожидает достичь его в ближайшие три года. Увеличение числа одновременных процессов бизнес-аналитики относительно единого хранилища данных подстёгивает множество внешних факторов, таких как консолидация витрин данных, рост пользовательских коллективов, использование ресурсов хранилища данных для поддержания операционных бизнес-процессов и увеличение количества аналитических приложений. Малое количество одновременно выполняемых аналитических процессов становится всё менее распространённым явлением. На основании результатов исследования можно сделать вывод, что число организаций, в которых одновременно исполняется порядка 200-1000 процессов бизнес-аналитики, увеличится более чем вдвое в течение следующих трёх лет.

Рис. 3. Количество пользователей, одновременно генерирующих запросы, отчётность и аналитические данные в пиковые часы

По данным опроса две трети пользователей расценивают высокопроизводительное хранилище данных как преимущество с учётом поддерживаемых им бизнес-практик. Тем не менее, лишь четверть респондентов предпринимает серьёзные изменения ради увеличения производительности, тогда как большинство считает, что может получить основные преимущества хранилищ данных высокой производительности с помощью незначительных настроек и «доводок».

Инструменты и платформы поставщика необходимы, однако, высокоэффективные хранилища данных по-прежнему требуют значительной оптимизации техническим персоналом. Наиболее эффективные улучшения удаются в бизнес-аналитике и аналитических результатах, производимых пользователем, таких как запросы, отчёты, модели данных аналитические модели, интерфейсы и задачи по извлечению, преобразованию и загрузки данных (ETL). Как показывает отчёт, успешные организации предопределили стандарты, стили, архитектуры и дизайн, способствующие достижению высокой производительности и прочих желаемых характеристик. Инструменты производителя, объединённые с пользовательскими стандартами, позволяют решить множество проблем, однако потребность в тактической настройке и доводке аналитических приложений сохраняется.

Публикации

Филип Рассом. "Организация хранилищ данных высокой производительности". Отчёт Института хранилищ данных. (Philip Russom. High-performance data warehousing. TDWI best practices report) 1 октября 2012 г.