Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Устройства для Хранилищ данных. Преимущества и ограничения

Устройства уже укоренились во многих нишах IT-сферы ( в области сетевых технологий, средств безопасности и инфраструктуры хранения и пр.). Однако недавно появилась новая волна устройств – устройства для Хранилищ данных. Эти программно-аппаратные комплексы позволяют анализировать десятки терабайт бизнес-данных, а также обещают более выгодное соотношение цены/производительности по сравнению с традиционными корпоративными Хранилищами (enterprise data warehousing - EDW).

Между тем, за последние 10 лет корпоративное Хранилище пытались внедрить уже в большинстве крупных компаний. Каким же образом устройства смогли занять свое место на рынке?

Здесь можно выделить несколько ключевых факторов:

  • продолжающийся рост объемов корпоративных данных;
  • тенденция к выполнению операций в реальном времени (а, следовательно, к сокращению времени запросов, анализа);
  • рост количества сложных запросов, поступающих в Хранилище;
  • более широкий диапазон нерегламентируемых запросов для сотен различных пользователей.

Традиционные Хранилища хотя и пытаются справиться с этими требованиями, но не всегда успешно. Растущие требования подразумевают и рост расходов. Модернизация корпоративного Хранилища, требующая переконфигурирования базы данных и систем управления, а также добавления аппаратных средств для хранения информации, памяти и процессоров – это весьма дорогое мероприятие, которое может обойтись в десятки миллионов долларов.

Резким контрастом к растущей доступности программных средств, является высокая стоимость терабайта данных в Хранилище, которая была таковой в начале развития этой технологии и по ряду причин практически не снизилась и сейчас. Иногда эта стоимость достигает миллиона долларов за терабайт.

Однако в других областях бизнес-технологии произошли существенные изменения в ценах. Расходы на вычислительные мощности серьезно сократились, некоторые типы серверного оборудования, устройств хранения и сетей стали общедоступными. И по мере того как IT-сообщество пытается найти выход и преодолеть ограничения, накладываемые средствами хранения данных, появляются новые решения — в частности устройства для ХД.

Преимущества

Первые устройства появились у компаний Teradata и IBM и являли собой дорогие продукты, принадлежащие конкретному (proprietary) разработчику. Они базировались на собственном оборудовании и компонентах этих компаний, а также функционировали на дорогих RISC-процессорах в операционной системе Unix.

Однако применение недорогого, но мощного вычислительного оборудования и программного обеспечения изменило правила игры и сделало устройства экономически более доступной категорией продуктов.

Сокращение расходов

Сегодняшние устройства для Хранилищ данных используют широкодоступные оптимизированные для BI аппаратные средства, а также комбинируют их с ПО, предназначенным для ХД-аналитики (в отличие от кода в обычных Хранилищах, который был адаптирован для обработки транзакций).

Чтобы решить эту задачу, поставщики компонуют память и множество многоядерных процессоров (multiple-core процессоров), комбинируют их в ячейки и блоки и используют параллельную обработку, чтобы обеспечить максимальную совокупную мощность. В результате получается правильно подобранное оборудование и надежные специализированные вычислительные средства, обеспечивающие недорогие и эффективные решения для BI и прочих аналитических средств.

Поставщики устройств утверждают, что внедрение их продукции обходится в несколько раз дешевле, чем модернизация Хранилища на базе Oracle или IBM. Одна из причин – применение 64-х разрядных вычислительных устройств, недорогие широко распространенные процессоры, сокращение расходов на память и запоминающие устройства, разработка на основе ПО с открытым кодом (По данным опроса Ventana Research, практически половина компаний ожидает, что BI с открытым кодом будет стоить в два раза дешевле, чем коммерческие BI-приложения).

В качестве еще одного преимущества отмечается дешевизна внедрения.

Производительность

Однако положительные свойства устройств не ограничиваются лишь своей низкой стоимостью. Более важным фактором является производительность. Разработчики обеспечивают соответствующий баланс дисков и процессоров, необходимых для обеспечения оптимальной производительности. Это их основное технологическое преимущество. Как правило (в таких продуктах, как Datallegro и Netezza) создается архитектура с массовым параллелелизмом, которая обходится дешевле и работает быстрее.

Корпоративные хранилища очень долго обрабатывают сложные запросы, тогда как с помощью устройств время их исполнения сокращается с часов до минут или даже секунд. Устройства отвечают сегодняшнему спросу на продукты, обеспечивающие поиск огромных количеств данных с высокой скоростью.

Основным преимуществом здесь является почти мгновенное предоставление данных и обеспечение пользователей возможностью итеративных нерегламентируемых запросов. В традиционной среде Хранилища (например на базе Oracle) эти запросы требуют нескольких часов, а с применением устройств занимают несколько минут.

Многие поставщики предлагают сегодня довольно мощные конфигурации — от 40 до 100 Тб. И некоторые из них пытаются решать те задачи, которые сегодня под силу только корпоративным Хранилищам. В частности, Netezza и DATallegro имеют клиентов, внедривших на базе их устройств Хранилища объемом 50—70 Тбайт.

Администрирование

Готовые и заранее сконфигурированные продукты устраняют необходимость решения сложных задача интеграции серверов, СУБД и запоминающих устройств, а, следовательно. упрощают работу администратора. Корпоративное Хранилище тоже можно оптимизировать под наибольшую эффективность определенных запросов, однако при поступлении нерегламентированного сложного запроса надо будет быстро проводить перенастройку. Администраторам приходится тратить много времени на формирование и переформирование индексов и разделов Хранилища. В случае устройств для Хранилищ эта проблема в большой степени устраняется.

По мере роста объемов данных компании могут добавлять новые устройства. Некоторые системы могут переконфигурироваться динамически — так, что изменения практически не вносят задержки в работу.

Масштабируемость

За счет модульной организации и обеспечения дополнительных обрабатывающих узлов устройства дают возможность масштабирования и расширения анализа до нескольких десятков терабайт данных, а также для выполнения более широкого диапазона сложных запросов с большей скоростью.

Масштаб внедрения может колебаться от узкоспециализированных витрин данных размером порядка 500 Гб до многотерабайтных Хранилищ. Новый подход упрощает управление большими объемами данных и ускоряет обработку.

Что дают устройства с технической точки зрения?

У устройств есть ряд замечательных качеств:

  • высокая доступность;
  • возможность быстрой загрузки;
  • сжатие и шифрование;
  • plug and play модули обработки данных с массовым параллелизмом (MPP);
  • интерфейсы к SQL-запросам;
  • быстрый доступ к данным;
  • низкие расходы на терабайт данных;
  • автоматическое самообновление (в некоторых случаях);
  • удаленный мониторинг.

Ограничения

Впрочем, ни одна технология, как известно, не может удовлетворить всем требованиям.

Клиентам следует не терять бдительность и понимать, что многие устройства пока еще представляют собой урезанные версии реляционных баз данных для технологии ХД. А, следовательно, им существенно не хватает многих функциональных возможностей (системное управление, балансировка нагрузки, управление смешанной нагрузкой), которые развивались последние 25 лет в рамках традиционных BI-технологий. Зачастую это просто хорошо оптимизированные СУБД, дополненные аппаратными средствами для параллельной обработки.

Как и другие готовые системы, устройства для Хранилищ могут поставляться в виде пакетов, предназначенных для строго специализированных задач. В этом случае клиенты оказываются «запертыми» в рамки принадлежащей одному поставщику системы, которую нельзя быстро и легко адаптировать к технологическим нововведениям.

Поставщики признаются, что их продукты, в силу своей молодости, не обязательно содержат всю сложную функциональность, которая имеется в крупных Хранилищах на базе IBM и Oracle. Кроме того, нельзя считать устройства полностью сконфигурированными. В каждом случае требуется небольшая настройка.

Необходимость настройки поднимает еще один вопрос. Устройства создают дополнительную сложность, так как их техническая среда носит характер частной (индивидуальной) разработки. Поэтому иногда бывает трудно добиться той же квалификации и ориентации в возможностях устройства, какая может быть, например, в Oracle. Также ограничены возможности поддержки BI-инструментов третьих фирм. И если на базе Oracle работает практически любое BI-средство, то много ли найдется инструментов для Netezza?

Для некоторых компаний, как ни странно, недостатком может оказаться ориентация устройств на БД с открытым кодом, таких как Ingres, PostgreSQL и MySQL. Не всегда возможно встраивание такой базы в IT-среду компании.

Корпоративное Хранилище функционирует во множестве разных режимов, часто одновременно (со смешанной нагрузкой). А вот устройств, которые успешно справляются с такой нагрузкой, включающей в себя тактические операционные запросы, на рынке пока мало.

Большинство поставщиков устройств повсюду пишут о соотношении цена/производительность на один терабайт данных, причем некоторые утверждают, что этот показатель у них на порядок выше, чем в любых других продуктах. Однако это, конечно, маркетинговая гипербола. Если говорить о цене за терабайт, то создается ощущение, что устройства «сверхдешевы». Но это не совсем так. Ведь необходимо учитывать еще и количество поддерживаемых пользователей, т.е. . речь должна идти о цене/производительности на терабайт на одного пользователя. И вот когда с помощью устройства пытаются решить проблему смешанной загрузки большого количества пользователей разных категорий, выгодность устройств сразу попадает под сомнение.

По мнению ряда экспертов в последнее время ценность устройств несколько преувеличена. Можно сказать, что существует несколько «мифов» , которые надо развенчать.

Миф 1 – Открытость

Устройства для ХД вынуждают пользователей ограничиться средствами конкретного поставщика на конкретном оборудовании. Выбора платформы не предоставляется.

Миф 2 – Гибкость

Некоторые конечные пользователи нуждаются в Хранилище только в ограниченные периоды времени, например для выполнения анализа данных для конкретного проекта. А что происходит с устройством дальше? Оно становится устаревшим и дорогостоящим вложением, поскольку его невозможно перенастроить для выполнения других задач, а оборудование не может применяться как общедоступный ресурс. Еще важно то, что выполняемое устройством приложение не может масштабироваться до других элементов сети при возникновении такой потребности.

Миф 3 – Универсальность

Сегодня аппаратное обеспечение, имеющее только одно применение, нежелательно. IT-руководству предпочтительно иметь в своем распоряжении устройства, которые постоянно находятся в использовании и в результате окупаются. В случае выхода поставщика из бизнеса или прекращения поддержки продукта пользователь уже не сможет внедрить устройство иным образом, что оказывается очень невыгодно.

Миф 4 – Дешевизна поддержки

Если пользователь жестко привязан к поставщику, то поддержка, как правило, оказывается дорогой, так как ее можно получить только у компании-производителя.

Область применения и дальнейшее развитие

Некоторые эксперты считают, что устройства (такие как, например, Netezza) имеют смысл в тех случаях, когда необходимо анализировать действительно большие объемы транзакций. Эти средства хороши для обработки миллиардов транзакций, которые характерны для финансовых, банковских услуг и в области телекоммуникаций. А вот, например, в нефтегазовой отрасли (где сам по себе бизнес крупный, но его основная суть состоит в продажах другим предприятиям) устройства не находят столь полезного применения. Тут особенность в том, что количество транзакций небольшое, но прямые клиенты и их Хранилища содержат очень сложные данные, при очень малых количествах операций.

Наблюдается тенденция к использованию устройств для разбиения и последующего выполнения сложных и ответственных аналитических запросов, которые, как правило, не удается завершить в комплексной среде EDW. То есть устройство освобождает EDW-цикл, быстро выполняя запросы.

Кроме того, в этой области необходимы некоторые технологические изменения, которые позволят расширить долю рынка.

Среди них:

  • стандартизация, обеспечивающая возможность взаимодействия и совместного функционирования устройств различных поставщиков;
  • разработка стандартных высокоскоростных интерфейсов обмена данными, которые могут связать нескольких поставщиков. Производители, которые «раскрывают» архитектуру своих компонентов, в будущем овладеют основной долей рынка;
  • партнерство с поставщиками ПО, занимающимися интеграцией данных.

Есть и другие направления развития. В частности, включение механизмов преобразования, разработка графических интерфейсов, мониторинга, поддержки, функций data mining, BI и OLAP-инструментов. В перспективе, поставщикам оборудования есть смысл объединиться с программной индустрией и внедрить программные средства в оборудование. То есть получить plug and play Хранилище, что позволит сократить расходы, время на инсталляцию и поддержку, повысить производительность.

Если представить, что такая простая функция как ETL будет встроена в аппаратное устройство, то появится удобная возможность установки plug and play компонентов. Чтобы добиться конкурентных преимуществ, поставщикам BI, data mining, управления метаданными, ETL/ELT, EII и EAI важно начать партнерство с производителями устройств, создавая совместные проекты.

Мало кто может утверждать, что сегодня устройства могут полностью заменить сложные корпоративные Хранилища. Скорее надо заметить, что эти средства находят свою нишу в виде интегрированной составляющей многих EDW-инфраструктур, например в качестве дешевого front-end компонента самого корпоративного Хранилища.

Ситуация на рынке

Сегодняшние поставщики, специализирующиеся на устройствах, такие как Netezza and Datallegro, а также начинающие компании (Vertica, Calpont, Paraccell и Dataupia), предлагают свои продукты, построенные на аппаратных средствах Intel, на базе операционных систем с открытым кодом (Linux и PostgreSQL).

Решения, оптимизированные для работы на серверах Intel Itanium 2, уже почти два года предлагает российская компания Intersoft Lab. И сегодня они нашли свое применение почти в двух десятках крупных кредитных организаций в России.

Зрелые поставщики корпоративных Хранилищ, такие как Teradata и IBM, также стали иначе позиционировать интегрированные пакеты, предлагая их внедрение по типу устройств, не употребляя при этом сам термин «appliance» (устройство).

Прочие известные поставщики также включаются в игру. В частности, компания Hewlett-Packard предлагает свой продукт на базе собственных серверов Non Stop (Itanium-based). В результате партнерства Sun Microsystems и Greenplum разработано устройство, которое объединяет новые серверы данных Sun, а также архитектуру с массовым параллелизмом (massively parallel) на основе СУБД с открытым кодом PostgreSQL (Greenplum's Bizgres MPP).

Недавно на рынке устройств появился новый продукт – Dataupia, имеющее особые возможности. Оно работает на базе Oracle, а не на собственной базе Netezza. В дальнейшем оно будет работать на DB2 и SQL-сервере. Это очень важно, так как база данных частной разработки (proprietary) требует не только материальных затрат, но и квалификации в администрировании, что затрудняет работу консервативных покупателей. В случае же с Dataupia эффективность можно повысить работая на уже привычной СУБД, что, несомненно, удобно и наглядно.

Рынок устройств, работающих на крупных базах известных поставщиков, скорее всего, будет гораздо шире, чем у нынешних продуктов с собственной базой.

Заключение

Разработчики устройств для ХД серьезно пытаются внедрить свои продукты в общую инфраструктуру Хранилищ. Неукротимый рост транзакций и объемов данных стимулирует развитие масштабируемых и оптимизированных по производительности средств, которые обладают достаточным потенциалом для того, чтобы дополнить уже существующие Хранилище не прибегая к дорогостоящей модернизации и обеспечить возможность анализа информации для множества пользователей.

Однако их использование имеет смысл преимущественно в таких областях, как: финансовые услуги, розничная торговля и телекоммуникации, где они эффективно позволяют справиться с постоянно растущим количеством операций.

Предполагается, что устройства будут все больше внедряться в BI-архитектуры. Однако полная замена традиционных корпоративных Хранилищ в ближайшее время не ожидается.

Технология Хранилищ – только первый шаг распространения устройств. Они постепенно проникают в такие функции управлении данными, как ETL, многомерный анализ и запросы. Некоторые поставщики сотрудничают в этом направлении, распространяя устройства в крупные BI-среды.