Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Хранилища данных: рынок трансформируется

Исследования, проведенные ведущими аналитическими компаниями, показывают, что рынок хранилищ данных переживает бурную трансформацию, внедряются новые методы и технологии.

Логическое хранилище данных

В своем новом «Магическом квадранте для систем управления базами данных хранилищ данных» (Magic Quadrant for Data Warehouse Database Management Systems) аналитики компании Gartner пишут, что этот сегмент рынка переживает трансформацию, вызванную появлением «больших данных» и потребностью в логическом хранилище данных для применения новых технологий. Garter огласила концепцию логического хранилища данных после почти двухлетнего наблюдения за этим явлением. За последние 20 лет на рынке хранилищ данных проявился тренд, свидетельствующий, что инновационные архитектуры внедрялись в меньше чем 20% компаний, однако 5-7 лет назад они стали применяться более широко. В 2011 году хранилища данных из решений, функционирующих исключительно как репозиторий, стали трансформироваться в направлении систем, поддерживающих согласованную обработку информации и логику предоставления информации. Аналитики Gartner называют эту новую модель «логическим хранилищем данных» Это один из новых многообещающих подходов к построению хранилищ и управлению аналитическими данными. Логическое хранилище данных охватывает репозитории, виртуализацию данных, распределенные вычисления, метаданные системного аудита и механизм принятия решений, объединенные в общую инфраструктуру, чтобы определить, какие из доступных решений в области данных больше всего соответствуют условиям соглашения об уровне обслуживания и результатам системного аудита.

По наблюдениям аналитиков Gartner, в 2011 году, когда стала понятнее новая экономическая ситуация, многие организации начали прилагать более целостные и всеобъемлющие усилия с тем, чтобы извлекать максимум пользы из доступной им информации для достижения большей эффективной бизнеса.

Согласно исследованию Gartner, на рынке отмечается высокий уровень спроса на логические хранилища данных.

Как отмечают аналитики компании, за прошедший год количество запросов, касающихся определенных аспектов дизайна логических хранилищ данных, выросло с нуля почти до 15% из общего числа всех обращений в компанию Gartner по тематике хранилищ данных. Они ожидают, что в 2012 году объем подобных запросов будет расти с еще большей скоростью и к концу года достигнет 25% (или выше) от всех запросов по хранилищам данных. Однако уровень действительного внедрения на рынке, по их мнению, будет не очень высоким, и количество полностью внедренных логических хранилищ данных на рынке к концу 2012 года будет также невелико.  

Более тонкий аспект понятия логического хранилища данных заключается в том, что оно полностью меняет определение «размера» хранилища данных, смещая акцент с концепции репозитория к задаче доступа и производительности. Как пишут аналитики Gartner, производительность и ценность информации как актива, определяемые, исходя из простоты доступа к информации и возможности применять ее разными способами, станут новым и наиболее важным показателем ценности хранилища данных.

Вопросы объема, разнообразия, скорости и сложности данных, которые были вызваны появлением «больших данных», и способность решить эти вопросы, обрели особую важность в 2011 году и, по прогнозам аналитиков, их актуальность возрастет к концу 2012 года.

Хранилище данных как средство решения многих проблем

Хранилище данных стало центральным элементом управления информацией и аналитикой для многих компаний, которые искали новые возможности в сложных экономических условиях. Специалисты Gartner обратили внимание на эту тенденцию в 2009 году, написав, что «поставщики делают значительный акцент на формализации профессиональных услуг по внедрению хранилищ данных. Некоторые из них приобрели консалтинговые агентства, другие начали применять формальные подходы, что позволило им выявить лучшие практики из опыта, накопленного компаниями, в которых они работали, и сейчас формируют стандарты внедрения, основанные на опыте своих проектных команд». В «Магическом квадранте» 2011 года это стало важным критерием оценки потенциального вендора и многие компании, внедряющие хранилища данных, связывают положительный результат с присутствием квалифицированных сотрудников, имеющих солидный опыт внедрения.

В 2011 году интерес к аналитике предоставил новые возможности для разработчиков, только выходящих на рынок, а также для поставщиков, которые уже были на рынке. Кроме того, многие компании были поглощены крупными вендорами. В результате возможности для поставщиков небольших хранилищ данных значительно выросли.

Возникают ситуации, когда к хранилищу данных одновременно обращаются специалисты по интеллектуальному анализу данных, а также сотрудники, использующие обычные аналитические инструменты, и это может происходить в течение 24 часов, что приводит к чрезмерной загрузке хранилища данных. Некоторые поставщики предлагают использовать два «хранилища данных», идентичность которых обеспечивается за счет технологий быстрого копирования и синхронизации, в то время как другие советуют своим клиентам масштабировать единственное хранилище данных, чтобы обеспечить более высокую производительность, увеличить память и сбалансировать нагрузку, но большинство лидеров рынка предлагают различные альтернативы.

Клиенты Gartner заявили об увеличении числа «двойных» хранилищ данных, другими словами двух копий хранилищ, в 2011 году. Иногда эти хранилища данных соединены так, что базовое находится внизу, а второе, оптимизированное в соответствии с запросами, располагается вверху (это полные копии одного хранилища данных, располагающиеся отдельно). Это стратегия оптимизации, основанная на физическом разделении нагрузки – обычно путем отделения загрузки и выпуска основной отчетности или выполнения базовых OLAP-операций от «интеллектуального анализа» данных (data mining), требующего обработки большого объема данных.

Тестирование системы на реальных данных (proof of concept), согласно результатам исследования Gartner, стало не только обязательным для оценки вариантов внедрения, но и требует ясных примеров каждого типа рабочей загрузки. Клиенты Gartner отмечают, что один из самых важных результатов тестирования на реальных данных – это простое определение того, как быстро решение может быть внедрено и настроено для работы.

Традиционные и гибридные

На рынке хранилищ данных сейчас представлены две совсем разные группы: традиционные хранилища данных и гибридные, хранящие структурированные данные и контент. Традиционные хранилища данных продолжают выполнять анализ интегрированных данных. Требования к производительности в этой области продолжат расти.

Гибридные хранилища данных принимают разные формы, но в целом на рынке востребованы репозитории, средства виртуализации и инструменты, дающие возможность выполнения распределенных вычислений, управляемые одной системой и предлагающие разные варианты использования, что, по сути, еще одно воплощение логического хранилища данных.

Аналитики Gartner полагают, что рынок хранилищ данных будет продолжать меняться в 2012 году, двигаясь в сторону увеличения скорости обработки данных, роста их объемов и сокращения времени ожидания.

Сложности и изменения

«Хранилище данных снова станет хранением данных. Концепцию одного большого репозитория, управляющего информацией для решения всех аналитических задач, становится все сложнее реализовывать. Ближе к 2017 году появится новая инфраструктура высоко-распределенных процессов и информационных активов», - пишут авторы исследования.

Уже сейчас проявились некоторые аспекты грядущих изменений:

  • Комбинация репозиториев, виртуализации данных и шин данных в настоящее время уже возможна, учитывая состояние развития аппаратных технологий («железа»).
  • Уменьшенное влияние оптимизации BI-платформ в пользу оптимизации СУБД.
  • Растущее влияние значимости задачи управления НСИ и качеством данных.
  • Растущий спрос на соединение структурированной информации и контента.

Рынок СУБД хранилищ данных сложен, на нем сочетаются зрелые и новые продукты. Эта сложность отражает многие факторы, например, такие как:

  • Потребность СУБД в поддержке размеров баз данных, варьирующихся от 2 Тб до 1Пб и выше.
  • Сложность данных, хранящихся в хранилище, не только в смысле их взаимосвязанности друг с другом, но и в том, что касается желаемых типов данных.
  • Построение хранилищ данных на множестве разных устройств и операционных систем, которые СУБД должна поддерживать.
  • Растущее и регулярно меняющееся разнообразие операций, производимых в хранилищах данных, что требует непрерывного управления СУБД.
  • СУБД должна поддерживать простую и сложную нагрузку и управлять смешанной нагрузкой.
  • Пользователи становятся искушеннее в создании специальных соглашений об уровне обслуживания, и последствия несоблюдения правил стали серьезнее.

Новый подход

По наблюдениям Джима Галло (Jim Gallo), ведущего консультанта по BI и хранилищам данных в Information Control Corporation, в настоящее время на рынке набирает популярность гибкий подход (agile approach) к построению хранилищ данных. Он позволяет решать многие важные проблемы, как правило, связанные с разработкой хранилищ данных – высокие затраты, низкий уровень принятия хранилищ данных пользователями, постоянно меняющиеся требования бизнеса, неспособность быстро адаптироваться к изменению условий экономической среды.

Среди причин, почему гибкие методы лучше подходят для построения аналитических баз данных, Галло, в частности, выделяет снижение рисков и уменьшение сложности.

Гибкие методы принимают подход, диктуемый бизнесом. Создание аналитических баз данных – сложный, требующий времени и значительных средств процесс, особенно когда используются традиционные методы, диктуемые данными. При этом, как показывает практика, 70-80% проектного бюджета тратится, прежде чем будет получена какая-либо ценность для бизнеса. Это означает, что необходимо минимизировать объем усилий, связанных с интеграцией и согласованием данных.

В модели гибкого внедрения извлекаются только те данные, которые необходимы для решения специфических проблем бизнеса. То есть вместо того, чтобы предпринимать огромные усилия по интеграции больших объемов данных, сторонники гибкого подхода работают с представителями бизнес-подразделений, чтобы определить приблизительно сотню элементов данных, которые увеличивают эффективность. Это означает, что компания получит ценный результат гораздо быстрее – за недели или месяцы, а не кварталы или годы.

Гибкие методы снижают риски и производят системы с высоким уровнем принятия их пользователями. По словам Галло, организации, которые применяют традиционные каскадные методы к BI-проектам и проектам в области хранилищ данных, увеличивают ненужные риски и могут обнаружить, что то, что они создали, не удовлетворяет потребности их бизнеса. Каскадные методы означают все или ничего. Другими словами, нельзя приступить к проектированию, пока все требования не будут определены, а программирование не начнется, пока не будет завершено проектирование. Это значит, что уровни риска возрастают, а ценный результат извлекается только в конце проекта.

Рис. 1. Особенности традиционного и гибкого подхода к внедрению

Нередки случаи, когда после внедрения аналитической базы данных с использованием каскадного подхода, сотрудники не принимают ее и мало пользуются ей. Основная причина этого в том, что с момента первоначального определения требований до финального внедрения аналитической базы данных, прошло слишком много времени, и потребности и приоритеты бизнеса изменились. По большей части усилия команды по внедрению не видны остальным. То, что в итоге внедряется, основывается на предположениях и интерпретациях требований и может не содержать информацию, в которой действительно нуждается компания. Все становится ясно, когда написан первый отчет, и часто оказывается, что результаты интеграции данных довольно спорны.

Когда применяются гибкие методы, ключевые задачи проектирования базы данных – улучшение качества данных, интеграция данных и их согласование – разбиваются на короткие циклы, ограниченные во времени и масштабах. Эти задачи совмещаются с созданием прототипов решения, после чего с помощью BI-инструмента можно начать использовать данные в базе данных. Это помогает  удостовериться, что аналитическая база данных действительно содержит полезную информацию.

Использование циклов внедрения снижает риски к минимуму. В конце каждого этапа команда по внедрению должна показывать, что сделано, в результате их работа становится более прозрачной и понятной остальным, что позволяет своевременно вносить исправления.

Гибкие методы могут быть легко использованы при построении аналитических баз данных – хранилищ данных, витрин данных и т.д. – это позволяет снизить затраты и получить результат быстрее. Разделение процесса на короткие циклы дает уверенность, что затратные и рискованные части проекта (интеграция данных и согласование) точно удовлетворят потребности компании в качественной информации,

Заключение

Рынок хранилищ данных продолжает развиваться. Интерес компаний смещается с традиционных хранилищ данных в сторону логических и гибридных решений.

Публикации

  1. Джим Галло. Применение гибких методов к проектами хранилища данных (Jim Gallo. Applying Agile Methods to Data Warehouse Projects). 25 января 2012 г.
  2. Марк Бейер, Дональд Файнберг, Мерв Адриян, Роксанна Эджлали. Магический квадрант СУБД для хранилищ данных (Mark A. Beyer, Donald Feinberg, Merv Adrian, Roxane Edjlali. Magic Quadrant for Data Warehouse Database Management Systems). 6 февраля 2012 г.