Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Тенденции 2006 г. в области Хранилищ данных

В 2006 г. должно стать яснее, что представляют собой Хранилища данных в настоящий момент. Тенденции в области Хранилищ данных будут определяться платформами с открытым кодом для управления данными, вынесением максимально большого числа операций в третьи страны (oursourcing) и стандартизацией инфраструктуры за счет сравнительно недорогих серверов (которые в случае дальнейшего снижения цен могут стать почти "одноразовыми").

Всеобщая глобализация и стандартизация информационных технологий, а также повсеместное распространение цифровых технологий сегодня ведут к стандартизации мира. Так, например, можно сказать, что бизнес-пространство между штатами Среднего Запада США и индийским Бангалором или китайским Шанхаем становится все более "плоским", т.е. однородным. Изобилие оптико-волоконных соединений, наряду с Интернетом, открытыми кодами, вынесением многих операций в третьи страны и все более активным вовлечением информации в бизнес-процессы означают, что инновации, способствующие повышению продуктивности, будут зависеть от все расширяющихся творческих групп и коллективов, основанных на сотрудничестве и взаимодействии. Но все же пока мир не является абсолютно однородным.

Для того чтобы новые тенденции обрели определенное направление и стали развиваться, необходимы определенные противоречия. Проблемы, существующие в современной сфере создания и эксплуатации Хранилищ данных, - это сложная и гетерогенная нормативно-справочная информация, качество данных и непрозрачность распределенной информации. В большинстве случаев движение вперед не будет прямолинейным и, более того, развитие этих тенденций даже может идти по спирали, т.е. весьма непростыми путями. По мнению автора статьи (кандидата наук и специалиста в области Business Intelligence (BI)), динамику тенденций в области Хранилищ данных в нынешнем году будут характеризовать следующие три парадокса:

  • постоянство местонахождения данных при одновременной прозрачности местоположений в одной из наиболее динамично развивающихся областей - сервис-ориентированной архитектуре (СОА);
  • созданные на заказ устройства для Хранилищ данных (data warehousing appliances) в условиях все возрастающей стандартизации инфраструктуры;
  • мелкие порции информации при резком увеличении общего объема данных.

Сервис-ориентированная архитектура

Парадокс постоянства местонахождения данных при одновременной прозрачности местоположений в СОА - это первое препятствие для развития Хранилищ данных в современном мире.

Преимуществом СОА для Хранилищ данных является то, что эта архитектура предлагает прозрачность местоположений в сочетании с характеристиками сетевых вычислений, которые могут выполняться с помощью удаленного доступа. СОА - это один из наиболее удобных подходов, появившихся с момента возникновения Интернета. Она позволяет корпорациям делать Интернет полезным и управляемым с точки зрения бизнес-целей, а также облегчает его многократное использование в бизнесе, и при этом дает возможность выдерживать все основные принципы соблюдения логичности, слабых связей и объектно-ориентированного проектирования. Короче говоря, СОА позволяет практически воплощать то, что является одной из основных ценностей современной индустрии вычислений, - сделать процесс обеспечения информацией видом услуг.

В то же время нельзя недооценивать тех проблем, которые СОА создает для традиционного подхода к Хранилищам данных. По сути дела, СОА является полной архитектурной противоположностью традиционному Хранилищу, особенно когда оно представляет собой крупный, централизованный, постоянный склад данных. СОА требует, чтобы данные были прозрачными и независимыми от места их нахождения. Но несмотря на весь рост мощности компьютеров, который наблюдается в настоящее время, по-прежнему существуют сомнения в том, что эта мощность достаточно велика для осуществления действительно крупных операций с данными в режиме удаленного доступа без негативных эффектов для производительности или опасений, связанных с перемещением данных. Вот почему "виртуальное Хранилище данных" остается в значительной степени иллюзорным и не имеет под собой достаточных оснований, чтобы широко использоваться в корпорациях. В попытках создать законченную архитектуру (например, в форме компьютерной сети) существует определенное противоречие. Это противоречие между реальной производительностью систем и необходимостью избавиться от привязки к конкретному местоположению. Последнее необходимо для осуществления самой полезной функции СОА - превращения информационного обеспечения в сервис. Другими словами, есть все основания ожидать, что "соревнование" между растущими объемами сложных данных и вычислительными мощностями будет продолжаться, даже несмотря на то, что СОА все шире используется для создания Хранилищ данных.

Существует одна область, где в подходе СОА могут быть использованы инструменты извлечения, преобразования и загрузки (ETL). Преобразования данных сегодня тоже стали услугой. Технология ETL демонстрирует оригинальные подходы и инновации в создании адаптеров, соединений и интерфейсов метаданных для самых различных источников и мест назначения данных, причем на основе весьма разнообразных платформ. Если все эти достижения сочетаются с одновременной разработкой оперативных технологий интеграции данных, которые способны сопоставлять, комбинировать и сравнивать неструктурированную и полуструктурированную информацию в интерактивном режиме, пусть даже с некоторыми ограничениями, то создаются условия для значительного повышения оперативности в цепи доставки информации, а также в области обеспечения бизнес-ответами пользователей, которым эти ответы требуются вовремя для выполнения рекомендаций.

Стоявшие ранее особняком инструменты ETL сегодня преобразуются в настоящий центр интеграции данных, который включает процесс, подобный ETL, но уже на уровне работы с большими пакетными объемами данных, а также сообщения об интеграции данных для оперативных обновлений. Такой центр интеграции данных является идеальным местом в архитектуре Хранилища для проверки (и улучшения) качества данных и рационализации гетерогенной нормативно-справочной информации в соответствии с определенной парадигмой.

Неизменным атрибутом данных является нормативно-справочная информация. Обслуживание данной информации и управление ею - это способ представления рыночного контекста, в котором работает бизнес, в информационной системе. Нормативно-справочная информация - один из способов установления стандартов для определения качества данных и информации. Если данная информация некачественная, то то же самое можно сказать и об информации в целом. С появлением средств управления ресурсами предприятия (ERP) возникла надежда, что нормативно-справочная информация будет, наконец, консолидирована на основе единой системы записей сделок. Но эти надежды исчезли, когда стало понятно, что для каждого приложения ERP стали разрабатывать собственные приложения управления отношениями с клиентами (CRM) и цепями поставок (SCM), а также отдельные аналитические приложения (витрины данных). В результате появились многочисленные изолированные склады и витрины данных. Короче говоря, единое непротиворечивое представление данных (single version of the truth) и его адекватное отражение в системе записей по-прежнему остается недостижимым, несмотря на все усилия по разработке соответствующих систем. По сути, идет погоня за ускользающей целью. В нынешнем году в центре IT-функциональности будет управление нормативно-справочной информацией, правда, при условии, что крупные Хранилища данных окажутся достаточно распространенными и будут обладать возможностями для выполнения обновлений в режиме реального времени или приближенном к нему. В будущем основным направлением развития корпоративных Хранилищ данных будет проектирование и внедрение согласованного и единого представления информации о клиентах, продуктах и других категориях, необходимых для успешного ведения бизнеса.

Сейчас достигнута некоторая "точка поворота", поэтому в будущем потребуется только один вид базы данных для обслуживания как транзакционной части корпоративных систем, так и части, отвечающей за функции BI. По-прежнему будут существовать различные подсистемы, что связано с разными требованиями к производительности для поддержки рабочей нагрузки при работе со сделками и с инструментами BI, но обе эти подсистемы будут работать с одной и той же базой данных. Индивидуальные системы, работающие со специально созданными технологическими пакетами и базами данных, уходят в прошлое. Им на смену приходят открытые системы. Базы данных с открытым кодом будут оставаться несколько в стороне от основного вектора развития из-за недостатка определенных свойств и функций, а также в связи с пока незначительным опытом работы с ними. Но они станут оказывать достаточно сильное влияние на основных игроков рынка, заставляя их снижать цены.

Устройства для Хранилищ данных

Все это очень хорошо согласуется с тенденцией распространения устройств для Хранилищ данных, которые появились в течение последних двух лет и будут продолжать развиваться в нынешнем году1. Большинство компаний не имеют собственного опыта в установлении баланса между мощностью компьютеров, параметров ввода-вывода дисков и мощностью сетей в трудоемком итеративном процессе создания системы Хранилища данных. Поэтому все большую долю рынка будут завоевывать готовые устройства для Хранилищ данных с заданной конфигурацией или заранее определенными свойствами, а также системы со сбалансированной конфигурацией. Ожидается, что в ближайшие полтора года их доля рынка составит 2.5 миллиарда долларов США (что представляет около 20% всего рынка Хранилищ данных). Но большая часть этих доходов окажется у крупных и известных основных разработчиков, пришедших на данный рынок сравнительно недавно, а не у тех, кто был "первооткрывателем" подобных систем. Последние будут работать со стандартными реляционными базами данных.

Парадокс устройств для Хранилищ данных как специально создающихся решений на основе недорогих распространенных компонентов будет определять внешние границы рынка подобных устройств, и этими границами будут витрины данных. Не существует причин, по которым розничная цена серверов Dell Intel должна возрастать в три-пять раз при добавлении к ним параллельной базы данных. Этого и не произойдет. Наоборот, все больше будут распространяться скидки. Причины этого процесса - давление продолжающейся стандартизации, связанной с распространением открытых кодов и стандартной инфраструктуры, а также со все возрастающей конкуренцией. При этом витрины данных, какими бы большими они ни были, редко достигают размеров Хранилищ. Устройства для Хранилищ данных как явление также не смогут избежать процесса стандартизации, и в течение трех лет эти устройства сольются с корпоративными Хранилищами, но только если основные игроки рынка сумеют за это время сделать технологии устройств частью Хранилищ.

Мелкие порции информации и рост общего объема данных

Третий парадокс - это парадокс мелких порций информации при резком увеличении общего объема данных. Один из ключевых моментов согласованного проектирования Хранилища - принятие решения о необходимом уровне элементарности данных. Современная тенденция BI - это постоянный рост элементарности данных. Такая тенденция связана со сбором записей кассовых терминалов, индивидуальных сделок, а сейчас еще и идентификационных радиометок (radio frequency ID, сокр. RFID). Соответственно, процессы, имеющие отношение к потребителям, товарно-материальным запасам или услугам, рассматриваются со все большей детальностью. Идея состоит в том, что если можно работать с достаточно мелкими элементами информации, например, со сделками, показывающими, что покупатель собирается уходить, то можно провести соответствующие корректировки своей политики и сохранить клиентов. Но все эти элементы информации способствуют дальнейшему увеличению объема данных. Всегда есть вероятность, что то или иное значение, выпадающее за рамки алгоритма data mining, может оказаться мошенническим требованием или какой-либо еще интересной аномалией. Но аккумуляция всех детальных данных, необходимых для обнаружения тенденции, относительно которой аномалия может действительно оказаться аномалией, приводит к взрывообразному росту результатов обработки данных и их общего объема.

Парадокс работы с небольшими элементами информации состоит в том, что она ведет к значительному росту общего объема данных. Опытный продавец очень быстро понимает, хочет ли потенциальный клиент что-нибудь приобрести или же он скрывает свои истинные намерения. Это позволяет продавцу не тратить время на бесперспективных клиентов. Но когда обычный аналитик пытается переделать метод опытных продавцов, это приводит к "взрыву" данных. Как известно, "дьявол - в деталях", а этим деталям нет числа. Например, признаки неуважения в выражениях клиента сигнализируют о том, что в его отношениях с банком (или компанией мобильной связи) наметились проблемы. Но для того чтобы выявить эти выражения в записи телефонного разговора, надо закодировать буквально каждую миллисекунду 10-минутной беседы. Такая операция приведет к появлению 600 000 новых элементов данных. Моргание глаза - это очень маленький элемент данных, и необходим всего один такой элемент, чтобы сделать правильный вывод. Но задача состоит в том, чтобы понять - какой именно момент является тем самым искомым элементом? В результате обнаруживается, что таких моментов множество. Преимущество получает тот, кто сначала разрабатывает хорошие методы прогнозной аналитики для выявления нужных моментов. По мере того как все большее распространение получают крупные Хранилища с ясными, согласованными, рационализированными данными, конкурентное преимущество оказывается у тех компаний, которые обладают возможностями исследовать эти данные для целей прогнозной аналитики, касающейся потребителей, спроса на продукты и рыночной динамики.

Независимо от того, для чего предназначено Хранилище данных - для фильтрации информации или прогнозирования, ключевой проблемой является получение оттуда данных в нужный момент времени. Многие корпорации продемонстрировали способность к созданию действительно крупных Хранилищ - для того чтобы размещать в них данные. Суперкрупные Хранилища с объемами данных в несколько терабайт сейчас уже не являются чем-то удивительным. Гораздо большую проблему представляет обновление этой информации и получение доступа к ней с минимальными задержками, чтобы иметь возможность извлечь данные. К сожалению, это пока случается гораздо реже, чем можно судить по рекламе поставщиков и печати.

Для того чтобы решить такую проблему, многие идут по пути создания еще одной витрины данных. Но действительно ли такой путь лучше? На самом деле это небольшой "секрет": в результате неспособности обеспечить оперативный доступ к данным в специально созданных базах вокруг централизованного высокопроизводительного Хранилища появляется множество витрин данных. В дальнейшем преимущества получат те корпорации, которые смогут обеспечить устойчивое обновление Хранилища данных в режиме реального времени и получение доступа к оперативным данным в любой момент. Именно эта особенность будет выделять разработчиков Хранилищ среди конкурентов. Очевидным следствием такого подхода станет значимость (и тенденция) консолидации витрин данных.

Существует еще одна тенденция, о которой необходимо упомянуть, хотя ее развитие будет ограничено. Речь о конвергенции структурированных данных и неструктурированной информации, которая опять будет откладываться из-за незрелости технологий и приложений и неподготовленности бизнес-ситуаций. Пока XML не внедрится в базы данных и не станет таким же легким в использовании и распространенным, как SQL, управление информацией для целей Business Intelligence будет обречено на неудачу. Развитие метаданных облегчает задачу интеграции аналитической информации, но предстоит еще проделать длинный путь, прежде чем семантика станет достаточно прозрачной, чтобы быть масштабируемой для сотен систем.

Еще одна важная концепция - это концепция распределенных вычислений (grid). В течение нескольких лет такие вычисления будут постепенно обретать популярность в распределенных отраслях с отдельными "островками" автоматизации. Одна из таких отраслей - здравоохранение. В этой области требуется гетерогенная, весьма распределенная архитектура, а также существует очень конкретный бизнес-сценарий. В США широкое распространение компьютерных распределенных вычислений в здравоохранении возможно в течение ближайших трех-пяти лет. Могучим катализатором этого процесса является современное понимание медицинской карты сотрудника как единственно верного представления о физическом состоянии человека. Данное понимание поддерживают ведущие работодатели, такие как федеральное правительство, компании, входящие в Технологический Совет высших исполнительных руководителей (Technology CEO Council), и другие заинтересованные стороны. Следующим требованием станет перенос этой документации в виртуальную частную сеть здравоохранения, которая позволит использовать общие вычислительные ресурсы и средства связи для сокращения числа медицинских ошибок, повторяющихся клинических тестов, несоответствующих друг другу диагнозов и избыточных мест хранения одной и той же информации.

Обсуждение компьютерной сети здравоохранения позволяет вернуться к началу обсуждения - к использованию стандартных компонентов в целях снижения неэффективности цепи поставок информации между различными участниками в условиях "цифровой" экономики. Достаточно сказать, что распределенные вычисления - это не то же самое, что связывание отдельных кластеров серверов, хотя и является частью этого процесса. Распределенные вычисления основываются на все еще развивающихся стандартах управления гетерогенными платформами и вычислениями, а также на передовых технологиях календарного планирования, управления рабочими нагрузками, безопасности и отказоустойчивости. Но для полноценного использования этих грандиозных вычислительных возможностей еще предстоит проделать огромную работу.

Тем, для кого крупномасштабные коммерческие вычисления все еще представляют проблему, придется пока сосредоточиться на другой задаче - использовать системы Хранилищ данных для оптимизации операционных (транзакционных) систем. Если основные проблемы потребителей уже известны, то нужно разрабатывать коммерческие предложения и своевременно доносить их до клиентов, чтобы максимально использовать преимущества текущей ситуации. Ведущие компании уже делают это, но пока их немного. Все работают очень напряженно, но далеко не все применяют аналитические подходы. А это позволяет использовать преимущества передовых технологий в области обрабатывающих мощностей и программного обеспечения для создания гибких бизнес-процессов, которые могут быстро реагировать на новые запросы потребителей.

Инновации в области бизнес-процессов и Хранилищ данных позволят корпорациям лучше видеть взаимосвязи явлений и процессов. Со стороны бизнеса, сотрудники, занимающиеся продажами и маркетингом, смогут установить связь между поиском ответа на вопрос: "Какие покупатели уходят и почему?" и возможностями BI, которые обеспечивает Хранилище данных. Работники финансового отдела смогут установить связь между поиском ответа на вопрос: "Какие клиенты, продукты и категории являются наиболее прибыльными, а какие - убыточными?" и согласованным, единым представлением нормативно-справочной информации о продуктах и клиентах в Хранилище. Сотрудники операционных отделов смогут установить связь между поиском ответа на вопросы об эффективности поставщиков и снабжения, складских потерях, рисках и резервах капитальных затрат, а также динамическом ценообразовании, с одной стороны, и агрегатами транзакционных данных в Хранилище, - с другой. В результате эффективность деятельности корпорации должна заметно повыситься.


[1] Подробнее об этих устройствах см. статью "Что такое устройства для Хранилищ данных" в 48-м номере Журнала (прим. переводчика).