Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Большие данные против хранилищ данных

В последнее время, некоторые поставщики решений для обработки больших данных придерживаются мнения, что их продукты способны заменить собой хранилища данных, считает Билл Инмон (Bill Inmon), один из идеологов технологии хранилищ данных. Безусловно, между ними есть некоторое сходство – обработка больших массивов информации, возможность применения для формирования отчётности, использование устройств для хранения информации. Однако это сходство не обеспечивает их взаимозаменяемости.

Что такое большие данные?

Для того чтобы выявить истину следует начать с основ. На самом деле есть различные формы больших данных. Однако, в большинстве случаев, под большими данными понимают Hadoop, Cloudera и др. Удачное определение решения для работы с большими данными это:

  • Технология, способная содержать очень большие объёмы данных.
  • Технология, содержащая данные с помощью недорогих носителей информации.
  • Технология, осуществляющая обработку посредством метода Roman census - римской переписи населения, когда в каждый город империи направлялся один цензор с задачей пересчитать его население и передать результат в столицу для суммирования.
  • Технология, хранящая данные в неструктурированной форме.

Вероятно, есть и другие особенности, но эти основные характеристики – хорошее описание того, что имеется в виду, когда говорят о решениях для больших данных.

Что такое хранилища данных?

Существуют различные интерпретации того, что подразумевается под большими данными, и что - под хранилищем данных. В принципе, существуют два подхода к построению хранилищ данных: Инмона и Кимболла. В рамках данной статьи рассматривается подход Инмона. Он основан на определении хранилища данных, данном много лет назад. Хранилище данных является предметно-ориентированным, неизменным, интегрированным, набором изменяющихся во времени данных, сформированным с целью поддержки принятия управленческих решений. Иначе можно сказать, что хранилище данных обеспечивает «единую версию правды» для корпоративного принятия решений.

Итак, решение для работы с большими данными необходимо потому, что многие компании оперируют значительным количеством данных. А они, в свою очередь правильно извлечённые, несут весьма ценную информацию, которая поможет принятию правильных решений, и, в свою очередь, увеличению доходов, повышению рентабельности и привлечению новых клиентов. И это то, что необходимо большинству компаний.

Хранилище данных необходимо для того, чтобы принимать обоснованные решения. Для того чтобы действительно знать, что происходит в организации, необходимы надёжные, корректные и доступные всем данные.

Сравнение решений для больших данных с хранилищем данных

Когда мы сравниваем решение для работы с большими данными и хранилище данных, мы видим, что первое является технологией, тогда как второе – архитектурой. Это совершенно разные понятия. Технология – это всего лишь средство для хранения больших объёмов данных и управления ими. Хранилище данных – это способ организовать данные таким образом, чтобы обеспечить их целостность и надёжность. Когда кто-нибудь получает данные из хранилища, он точно уверен, что остальные используют точно те же данные в своих целях. Хранилище данных – это основа согласованной информации.

Разница между технологией и архитектурой аналогична разнице между молотком с гвоздями и Санта-Фе (штат Нью-Мексико). С помощью инструментов можно создать множество вещей, построить дома, мосты или мебель. Однако все дома Санта-Фе обладают самобытной архитектурой. Для неё характерен необожжённый кирпич, внешние балки и стропила. Побывав там, этот город невозможно с чем-то перепутать. Хотя, безусловно, все дома и здания Санта-Фе построены с помощью молотков и гвоздей.

Ещё один способ взглянуть на проблему

С другой стороны, может ли организация иметь решение для работы с большими данными и не иметь хранилища данных? Может. Точно так же как можно иметь хранилище данных и не обладать решением для больших данных, и так далее, в любых комбинациях. Нет никакой связи между этими двумя подходами. Они кардинально различны.

Возвращаясь к вопросу

Учитывая всё вышесказанное, можно вернуться к первоначальному вопросу - необходимо ли корпоративное хранилище данных при наличии решения для больших данных? Если компании необходимы надёжные, правдоподобные и доступные данные, на которые может рассчитывать каждый сотрудник, то ей необходимо использовать хранилище данных. Наличие больших данных не имеет никакого отношения к необходимости хранилища данных.

Таким образом, следует заключить, что у поставщиков не так много причин предлагать внедрение решения для больших данных в качестве замены хранилищу данных. Это либо непонимание назначения хранилищ данных, либо желание просто продать свой продукт, не заботясь о реальных нуждах потребителя. Решение для работы с большими данными – это не замена хранилищу данных.

Публикации

  1. Билл Инмон (Bill Inmon). Большие данные против хранилищ данных (Big Data Implementation vs. Data Warehousing). 7 ноября 2013 г.