Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Сегодняшние перспективы хранилищ данных

Современное распространение в бизнес-среде облачных вычислений, больших данных и социальных медиа побуждает лица, ответственные за принятие решений, задумываться о реализации проектов хранилищ данных и решений для корпоративной аналитики. Например, внедрив хранилище, организация может загрузить в него неструктурированную информацию, проанализировать её и использовать для принятия правильных оперативных и долгосрочных решений. Существуют различные мнения о дальнейшей судьбе традиционных хранилищ данных.

Так, доклад Института хранилищ данных выявил, что будущее хранилищ данных относительно неопределенно. Хотя многие компании используют эту технологию, превратив её в статус-кво, ряд экспертов не уверен в их способности перестроиться в том направлении, в котором повернёт рынок в ближайшие годы. Джон Крупи (John Crupi), технический директор аналитической компании JackBe, например, считает, что организации, не в полной мере использующие преимущества хранилищ данных, а применяющие их только для подготовки отчётности и мониторинга, неизбежно создают новые залежи бесполезной информации. В основном это происходит потому, что традиционные хранилища данных, устанавливающие ограничения на виды загружаемой информации, по-прежнему превалируют и действуют как барьер для компаний, планирующих применять хранилища следующего поколения.

Тем не менее другие специалисты отрасли более оптимистичны, особенно из-за растущей востребованности инструментов интеграции данных. Эти решения, принимающие базовые концепции ETL-инструментов, облегчают компаниям реализацию хранилищ данных следующего поколения, позволяя не беспокоиться о создании залежей информации, обречённой на забвение.

Заблаговременно планируя и работая с надежными поставщиками услуг, организации могут использовать инновационные решения для интеграции данных при построении хранилищ данных. При этом организациям будет легче реализовывать проекты по внедрению инструментов для анализа больших данных с целью получения конкурентных преимуществ.

Отдельно следует выделить мнение Эндрю Фо (Andrew Foo), главного IT-архитектора одного из подразделений IBM Software Group. Согласно его представлению, многие технологи утверждают, что в эпоху больших данных, хранилища уже не актуальны. Некоторые авторитеты предсказывают, что число внедрений хранилищ данных, особенно корпоративных, будет снижаться и в конечном итоге станет ничтожным.

Большие данные вызвали появление новой парадигмы, как анализировать и обрабатывать данные, как представлять результаты анализа. Это помогло создать уникальные возможности для компаний, позволяющие воспользоваться новыми источниками информации. Однако, появление больших данных не означает необходимости отринуть все уроки, выученные за 30 лет существования хранилищ данных. Скорее, стоит сказать, что они развиваются.

Потребность в хранилищах данных

Как известно, компании применяют хранилища для консолидации данных из оперативных приложений в целях обеспечения централизованного репозитория, построенного специально для анализа и отчётности. Некоторые сохраняют данные для всей организации целиком, однако, иные предоставляют такую возможность только для конкретных бизнес-подразделений, и они, таким образом, создают предметно-ориентированные хранилища или специализированные витрины данных. Вне зависимости от объёма данных, причина по которой компании делают выбор в пользу хранилищ, заключается в том, что данные и результат их анализа имеет высокую ценность. Эти данные плюс анализ помогают управлять ростом доходов, операционными и финансовыми рисками, а также соответствовать нормативным и законодательным требованиям. Выводы, полученные благодаря хранилищам данных, имеют основополагающее значение для устойчивости организации. Данные и процессы управления ими должны быть структурированы, моделированы, повторяемы и надёжны. Достижение этих целей требует серьёзных затрат времени и кадровых ресурсов. Данные должны быть обработаны так, чтобы быть представленными в стандартизированном, нормализованном, многомерном виде, пригодном для широкого применения.

Некоторое разочарование в эффективности хранилищ может объясняться тем, что построение традиционного хранилища данных - продолжительный и дорогостоящий проект, так как данные необходимо моделировать и преобразовывать. Практика применения хранилищ данных обеспечила фундамент для организаций, предпочитающих расценивать информацию, как один из активов. Тем не менее, хранилища данных «растягиваются», когда организациям приходится иметь дело с неустойчивыми источниками данных, сильно варьирующегося формата. В условиях существования больших данных технологии производят множество информации большого объёма с невероятной быстротой.

Представление технологии больших данных

К счастью, технология догнала данные по объёму, разнообразию и скорости. Такие наработки, как Hadoop, потоковые вычисления и высокопроизводительные аналитические решения меняют правила игры, обеспечивая оперативное получение выводов из больших данных. Чтобы гарантировать оперативность, эти технологии избегают избыточного моделирования и преобразования за счёт использования методов «сборки по требованию», «без схемы», «со схемой позже» и «со схемой в процессе».

Неустойчивость этих подходов является проблемой для хранилища данных. В результате, некоторые энтузиасты больших данных утверждают, что традиционные методы построения хранилищ больше не применимы к современным данным. Многие компании принимаются за проблему больших данных с помощью Hadoop. В большинстве случаев среда Hadoop становится репозиторием для сбора данных и самоподдерживающейся системой. Универсальные массивы и массивы больших данных служат в качестве платформ для сбора всех типов данных, включая внешние и внутренние (например, данные социальных медиа). Эти платформы могут быть использованы для извлечения информации, потенциально выгодной для бизнеса.

Применение решений для больших данных в дополнение к хранилищам данных

Hadoop - это важная часть того, что могут предложить технологии больших данных. Но очень важно объединить большие данные с традиционной стратегией корпоративных данных.

Многие организации изучают и реализуют логические хранилища данных или виртуальные хранилища данных. Предпосылкой для их применения является утверждение, что не существует единого репозитория данных. Взамен этого хранилище данных становится экосистемой из нескольких специализированных репозиториев, технологий и инструментов, комбинируемых для управления и предоставления корпоративной и персональной аналитики. В случае логического хранилища данных Hadoop обеспечивает мощный, недорогой репозиторий для структурированной и неструктурированной информации. Он дополняет корпоративное хранилище данных для хранения пользовательских и оперативных данных таким же образом, как и высокопроизводительные программно-аппаратные платформы дополняют корпоративные хранилища для витрин данных. Ключевым моментом этого подхода является совместимость инструментов в пределах экосистемы. Например, традиционные хранилища данных должны быть способны формулировать выводы на основе данных Hadoop и наоборот. IT-отделы должны согласовать применимые случаи использования или шаблоны проектирования при выборе используемой платформы.

После того, как данные изучены и сочтены достаточно ценными для организации, необходимо передать их в хранилище для многократного и широкого использования бизнес-пользователями.

Таблица. 1. Назначение технологий

Традиционные ХД актуальны для:

Инструменты аналитики больших данных актуальны для:

Устойчивых источников данных

Изменчивых данных

Операционной аналитики и принятия решений

Поисковой и изучающей аналитики

Надёжных выводов и корпоративной аналитики

Нерегламентированных выводов и персональной аналитики

Известных бизнес-требований

Неоднозначные, неизвестные или постоянно меняющиеся требования

 

Новая жизнь хранилищ данных

Идея заката эпохи хранилищ данных явно надуманна. Безусловно, они могут требовать определённых затрат, а проекты построения могут быть несколько продолжительными. Однако, большие данные «вдыхают жизнь» в современные хранилища, обогащая их и предоставляя новые выводы, сделанные на базе нетрадиционных и неизученных источников. Интеграция больших данных и традиционных хранилищ данных может принести плоды, которые возьмут лучшие черты обеих технологических направлений. Вместе хранилища данных и инструменты для работы с большими данными обеспечат эффективное решение для реализации стратегии управления корпоративной информацией.

Публикации

  1. Стивен Свойер (Stephen Swoyer). Неясное будущее бизнес-аналитики и хранилищ данных (The Confusing Future of BI and Data Warehousing), 27 марта 2012 г.
  2. Эндрю Фо (Andrew Foo). Мертвы ли хранилища данных? (Is the Data Warehouse Dead?), 31 мая 2013 г.