Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Тенденции в области Хранилищ данных во второй половине 2008 года

Нынешний (2008 год) уже близится к концу. Пора подвести предварительные итоги, рассмотреть тенденции в области Хранилищ данных, прогнозы и рекомендации. Стремление к упрощению, рационализации, широте использования и консолидации по-прежнему остаются главной целью.

Однако три недавних события стали стимулом к новым явлениям. Во-первых, появление аналитических БД с хранением данных по столбцам, во-вторых, развитие рынка устройств (DW appliances) и, в-третьих, БД с открытым кодом. Все это происходит в условиях ухудшающейся экономической обстановки, когда доверие клиентов падает. И если стоимость программного обеспечения не так чувствительна к ценам на топливо, нежели затраты на отдых, то это не значит, что поставщики могут беспечно наблюдать, как их заказчики все больше и больше ощущают безденежье. В такой ситуации тенденции меняются.

СУБД с хранением данных по столбцам

Сегодня появляется все больше баз данных с ориентацией на хранение по столбцам, отраслевые тесты доказывают их эффективность и удобство.

Однако такие базы вовсе не отрицают традиционной реляционной модели, а лишь являются особой ее интерпретацией. Во многих продуктах используется SQL-интерфейс, они демонстрируют эффективность и жизненность, хотя на сегодня охвачена лишь небольшая доля рынка. Большинство пользователей задается вопросом: а в чем, собственно, изюминка?

Суть даже не в самой ориентации по столбцам, хотя она позволяет сократить объем данных в результате особого их представления (даже без формального использования алгоритмов сжатия). Основное преимущество заключается в тех инновациях, которые почти каждый поставщик пытается внести в технологию. Используя в качестве фундамента преимущества БД с хранением по столбцам, можно создавать новые системы, обеспечивающие дополнительные возможности высокоэффективной аналитики, сокращение объемов запоминающих устройств.

Особенность состоит в том, что когда все возможности OLAP-механизма использованы в полной мере, на горизонте появляется аналитическая база данных. В ней имеется SQL-интерфейс, ориентация по столбцам, параллелизация, удобная архитектура и усовершенствованная работа с памятью.

Например, один из поставщиков использует «помощника в аппаратном обеспечении» («hardware assist») — графический сопроцессор (дополнительный процессор) для запросов, обеспечивающий более низкие затраты в расчете на один запрос. Для этой цели применяется процессор параллелизации SQL, имеющий собственный кэш, выделенную память и функции интеграции с MySQL. Другая компания использует алгоритмические новшества для кэширования данных в памяти, что существенно повышает эффективность.

Очевидно, что все новшества не сводятся только к вышеперечисленным. Хранение данных по столбцам, дополнительное сжатие, архитектура с независимыми компонентами, параллелизация, обработки в памяти — это только начало. Одна из компаний обеспечивает «параллелизм без переноса» («parallelism without porting») на 64-битных серверах, сочетающийся с автоматическим восстановлением после отказов и набором доступных функций.

Специализированные компании, скорее всего, долго удержатся на рынке и будут пролагать дорогу дальше и дальше. Им удается поддерживать надежность и устранять избыточность данных, а также решать проблему обновлений с помощью хранения, оптимизированного для записи (write-optimized storage — WOS). Это позволяет решить проблему выполнения запросов на самых актуальных данных, так как WOS доступны для запроса в процессе обновления. В результате сокращаются временные задержки. WOS — это временное место хранения данных, использующееся в течение короткого промежутка времени (минут, а не дней), решающее задачу одновременного обновления и выполнения запросов.

Одна из компаний-поставщиков баз с хранением по столбцам, предлагает особую технологию «умных данных» (smart data), не требующих индексирования. Это автотматически настраиваемый тонкий слой метаданных. Профилирование выполняется на низком уровне. Данные становятся «умнее»: ответ на вопрос, сформулированный в запросе можно получить быстрее за счет метаданных, связанных с данными, без дополнительной нагрузки в виде построения и поддержки индексов. Можно сказать, что это своего рода применение методов data mining к очень крупным базам данных. Результаты таких операций сокращают некоторую неопределенность в принятии решений. С точки зрения общих перспектив в области ХД, можно сказать следующее. Если клиент получает Хранилище с качественными, согласованными данными, то использование data mining и прогнозной аналитики напрашивается само собой.

Устройства

Только в этом году устройства перестали лидировать в списке тенденций в области ХД. Они ни в коей мере не потеряли популярности. Некоторые клиенты переходят с традиционных реляционных баз на устройства, а некоторые наоборот. Преимущества в этом сегменте рынке сегодня в большой мере за крупными поставщиками. Устройства позволяют перейти от сложных конфигураций (часто разработанных на заказ) к интегрированному решению, обеспечивающему полный спектр программных и аппаратных возможностей.

Одним из недостатков в этой области являются задержки в процессе заказа-поставки-настройки. Казалось бы, достаточно приобрести, загрузить и запустить устройство, однако сам процесс внедрения налажен не идеально. В условиях экономической нестабильности очень актуален лозунг: «купи сегодня и сэкономь». Однако не все поставщики позволяют клиентам его реализовать.

Если предлагаемое устройство на практике оказывается не готовым продуктом, а набором составляющих, работу которых может координировать только специалист, то эта конфигурация — всего лишь техническая архитектура, а не устройство. И это не значит, что приобретение сделано напрасно. Архитектура может быть гибкой и адаптируемой, но надо помнить, что это не устройство, которое подразумевает быстрое начало согласованного функционирования.

Открытый код

Технология баз данных с открытым кодом получает все большее развитие.

Эти базы данных еще не приобрели большую популярность, им не хватает множества функций, позволяющих поддерживать специальные приложения: отображение (mirroring,) откат (rollback), автоматическое восстановление после отказа (automatic failover), повтор (redo). Однако из разработка активно ведется.

Часто базы данных с открытым кодом становятся компонентами устройств, витрин данных c хранением по столбцам, дополнительных приложений, дополнительных инструментов, для создания которых не хочется использовать дорогие коммерческие продукты.

Рекомендации

В связи с продолжающимся экономическим кризисом, весьма вероятно существенное урезание бюджетов компаний. В связи с этим многие из них постараются внедрить Хранилище в ближайшее время (пока бюджет не сокращен настолько, что BI-проекты окажутся нереализуемыми). При этом стоит учитывать следующие рекомендации:

  • планировать разработку функциональных витрин данных. Планировать управление аналитических баз данных с ориентацией по столбцам, OLAP-кубов и других специальных складов данных в соответствии с теми процессами, которые разработаны для функциональных витрин данных. Если функциональная витрина данных, вне зависимости от платформы, используется для «разгрузки» центрального Хранилища, то необходимо внедрить процесс согласования данных в витрине и Хранилище и обратной их передачи;
  • планировать параллельные технологии, чтобы устранить «узкие места» в загрузке;
  • избегать «религиозных войн» в области Хранилищ. Схема «звезда» — надежная и проверенная — является базой ХД. Однако и другие архитектуры вполне удовлетворяют требованиям многих бизнес-приложений. В некоторых базах с ориентацией по столбцам используется профилирование данных, которое позволяет полностью отказаться от индексов. Некоторые компании используют массово-параллельную обработку для сканирования или хранения сжатых данных в памяти. Необходимо рассмотреть технологии оптимизации БД, поддерживающие множество форматов и тактик выполнения запросов, и тогда вопрос выбора отпадет;
  • преимущества за инновациями. Конечные пользователи все равно вынуждены тратить время на поиск ПО, читать отзывы и общаться с клиентами, использующими те же продукты. И иногда такое общение эффективнее, чем реклама поставщика. В любом случае, успех ПО зависит от множества условий, в особенности от удовлетворения индивидуальных требований.

Публикации:

  1. Тенденции в области Хранилищ данных во второй половине 2008 года (Trends in Data Warehousing for the Second Half of 2008), Лу Агоста (Lou Agosta), сентябрь 2008 г., http://www.b-eye-network.com/view/8373.