Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Десять основных тенденций в области Хранилищ данных

Несмотря на то, что за последние десять лет методология создания Хранилищ данных оформилась как отдельная отрасль знаний, предприятия, которые решаются построить Хранилище, сталкиваются с неожиданными проблемами, которые отражают изменения, происходящие в постоянно меняющемся мире бизнеса и технологий. В текущие задачи Хранилищ данных входит поддержка таких начинаний, как управление отношениями с клиентами и заведование логистикой, кроме того, идеология Хранилищ испытывает непосредственное воздействие со стороны бурно развивающейся технологии e-бизнеса. Поставщики Хранилищ данных разработали новые и более сложные технологии, а сами подверглись слиянию и поглощению другими компаниями. Рост числа внедрений пакетов приложений и собственных разработок в средних предприятиях сопровождался экспансией источников данных и расширением возможностей предоставления информации. Учитывая повышенную активность в области Хранилищ данных, трудно определить, какие вопросы и тенденция являются наиболее актуальными. С этой целью в данной статье подробно рассмотрены десять основных задач, которые стоят перед компаниями, строящими Хранилища данных.

Тенденция №10: переделка Хранилищ данных

Технология создания Хранилищ данных оформилась как отдельная отрасль знаний, и большинство крупных предприятий в той или иной форме и с различной степенью успеха реализовали такие решения, будь то Хранилище данных в масштабе целого предприятия или же один или два киоска данных для отдельных отделов. Теперь многие организации занимаются тем, что реорганизуют или даже полностью перестраивают инфрастуктуру своих данных. Согласно исследованию, проведенному консалтинговой компанией META Group, почти третья часть работ в области Хранилищ данных в 2001 году - это переделка уже существующих решений.

Чем же вызвана необходимость пересматривать уже готовые решения? Дело в том, что многие организации стали жертвами ряда заблуждений, которые при построении Хранилища данных предприятия имеют общий характер:

  • Множество компаний принялись за построение Хранилища, полагая, что достаточно "построить его, и они придут". К сожалению, такая философия обрекла на провал многие проекты по созданию Хранилища данных. Чтобы гарантировать, что конечные пользователи выкупят свою долю по завершении проекта построения Хранилища, необходимо вовлекать их в этот процесс с самого начала. Некоторые организации также не смогли создать прикладные программы-"приманки", которые действительно крайне привлекательны для конечного пользователя.
  • Еще одна ошибка заключает в том, что Хранилища данных не были спроектированы с учетом требований, предъявляемых к производительности, расширяемости и надежности. Многие организации при построении Хранилищ не учли будущие потребности и не смогли спрогнозировать запросы в отношении функционирования Хранилищ. Они вынуждены полностью перестраивать свои Хранилища данных, поскольку объемы данных и требования пользователей "захлестнули" их исходные системы.
  • Часто при внедрении Хранилищ данных вопросам качества данных не уделяется должного внимания. В компаниях не осознают губительное воздействие некачественных данных до того момента, пока Хранилище не будет полностью установлено и начнет работать. Многие из них уже изучают данные в своих Хранилищах и приступают к мучительному процессу разрешения проблемы качества данных.
  • Многочисленные проекты по созданию Хранилищ данных оказались неудачными, потому что в самом их начале заказчики поленились определить критерии успешной реализации Хранилища. По мнению специалистов META Group, только 40% предприятий измеряют показатель ROI (возврат инвестиций) для работ по внедрению Хранилища данных. А без четкого определения, что следует понимать под успешной реализацией такого проекта, очень сложно установить, приносит ли Хранилище данных реальные экономические прибыли.
  • Наконец, многие проекты оказываются "пойманными в ловушку" выхода за рамки бюджета. Предприятиям не удается оценить масштаб такого проекта, и они не могут выполнить приемлемое планирование.

Положительный момент во всех этих неудачах состоит в том, что организации учились на своих ошибках, а также развили ряд методик решения этих проблем. Это означает, что тот, кто в будущем решит построить свое Хранилище данных, сможет не совершать тех же самых ошибок, и, следовательно, достигнет желаемого успеха.

Тенденция №9: распространение источников данных

Стремительный рост числа корпоративных источников данных сопровождается ежегодным появлением новых типов этих источников. Наиболее интересный источник, разумеется, связан с функционированием приложений e-бизнеса. Для получения всеобъемлющего представления о своих клиентах и интеграции внутренних процессов, предприятиям необходимо соединить кликстрим-данные с другими внутренними данными. Помимо этого, следует включать данные из ERP-программ, источников операционных данных, пакетов аналитических приложений и доморощенных программ, а также из существующих киосков данных. Процесс интеграции всех этих источников в одно Хранилище данных может быть осложнен и даже трудно выполним в случае слияния или поглощения компаний.

Кроме того, предприятия заинтересованы в комплектовании своих внутренних данных внешними источниками. К ним могут относиться списки предполагаемых клиентов, демографические и психографические данные, а также бизнес параметры, приобретенные у третьих лиц. Предприятия также могут воспользоваться услугами других фирм при выполнении проверки адресов: сравнивая внутренние источники с главным списком, когда необходимо обеспечить точность данных. Помимо этого, в некоторых отраслях существуют собственные специфические источники данных. Например, в сфере розничной торговли используются запоминающие сканеры, а в фармацевтике - данные рецептов, которые были получены в результате агрегирования, выполненного третьими сторонними компаниями.

Тенденция №8: привлечение внешних ресурсов для решения собственных проблем

Несмотря на то, что предприятия еще не начали привлекать внешние ресурсы для действующих Хранилищ данных, они используют эту технологию для развития других приложений и, в расширительном смысле, данных, используемых и генерируемых этими приложениями. Практика привлечения внешних ресурсов стремительно растет. По оценке аналитической компании Gartner, к 2003 году 45% крупных компаний будут поддерживать или сдавать в аренду с поставщиками онлайновых приложений (Application Service Provider, ASP) те или иные разновидности бизнес-приложений. Эти поставщики предлагают быстрое размещение приложений и располагают необходимым опыт по внедрению и работе с приложением - то, чем предприятия не располагают. Несмотря на то, что преимущества такого подхода могут быть велики, предприятия, которые прибегают к услугам поставщиков приложений, должны уметь справляться с риском, который свойственен процессу привлечения внешних ресурсов для работы с данными.

Во-первых, предприятия должны быть уверены, что их поставщики принимают все необходимые меры безопасности для того, чтобы хранить их данные отдельно от данных других клиентов этой службы. Во-вторых, компании должны убедиться, что поставщик имеет достаточный опыт в перемещении огромных объемов данных, необходимый для того, чтобы эта миграция данных от поставщика и обратно к нему проходила гладко. В-третьих, поставщик должен быть достоверно компетентен в резервном копировании и восстановлении используемых баз(ы) данных. Наконец, предприятия должны гарантировать, что поток данных между внутренними системами предприятия и поставщиком может оставаться невредимым.

Тенденция №7: концентратор (hub) против реляционных баз данных

Чтобы контролировать расходы и повышать эффективность работы, предприятия все чаще и чаще заменяют в своих Хранилищах данных реляционные базы концентраторами данных. Хранение данных в реляционной базе данных может быть достаточно дорогой практикой - в три-пять раз дороже по сравнению с нереляционной базой. К тому же, запросы к такой базе данных могут превосходить запросы к реляционной базе. Надеясь получить эти преимущества, организации начинают сжимать плоские файлы с целью замены некоторых своих реляционных СУБД. Несмотря на выигрыш в производительности и повышении эффективности издержек при использовании этих концентраторов, их возможности ограничены: они не поддерживают SQL и непригодны для всех ситуаций.

Тенденция №6: активные Хранилища данных

Чтобы получить преимущества в условиях жесткой конкурентной борьбы предприятия вынуждены увеличивать скорость принятия решений, а это означает, что Хранилища данных должны поддерживать анализ и операции в реальном времени. "Активные" Хранилища данных являются одним из возможных решений этой задачи. По сравнению с традиционными Хранилищами данных, такие Хранилища тесно связаны с операционными системами, спроектированы для хранения как очень детальных, так и текущих данных и выводят укороченные окна пакета (shortened batch windows). В отличие от большинства источников операционных данных (operational data store) активные Хранилища данных содержат интегрированные данные и открыты для пользовательских запросов. Благодаря вышеупомянутым характеристикам активные Хранилища являются идеальным средством для анализа и принятия решений в реальном времени, а также автоматического событийного запуска.

С помощью активных Хранилищ данных предприятия могут своевременно реагировать на взаимодействия клиентов и меняющиеся бизнес условия. Например, компания, работающая с кредитными картами, может своевременно обнаружить мошенничество и остановить свои операции; компания, занимающаяся перевозками, в случае необходимости быстро поменяет маршруты своих транспортных средств; наконец, онлайн-продавец - передаст специальные предложения, основываясь на поведении клиента, "пролистывающего Web". Самое большое преимущество таких Хранилищ заключается в том, что они поддерживают принятие как тактических, так и стратегических решений.

Тенденция №5: слияние с CRM

Управление отношениями с клиентами (CRM) является одной из самых популярных тем. CRM-системы позволяют компаниям привлекать новых клиентов и добиваться чувства приверженности у существующих, увеличивая таким образом объемы продаж и повышая доходность. В Хранилище данных содержится информация, которая необходима для правильного понимания клиентов - вот почему все чаще и чаще эту информацию рассматривают как предпосылку успешного CRM-решения.

Одно из важнейших требований, предъявляемых к CRM-системам, - это интеграция практики продаж, маркетинга и обслуживания клиентов - все эти ориентированные на клиента функции должны использовать информацию и работать совместно. Раньше компании редко объединяли эти области, то теперь, с появлением CRM, предприятия вынуждены выполнять это требование для того, чтобы лучше понимать своих клиентов и эффективнее их обслуживать. Хранилище данных является неотъемлемой частью процесса интеграции, поскольку оно собирает данные изо всех каналов и точек соприкосновения с клиентом и позволяет работникам отделов продаж, маркетинга и обслуживания клиентов составить единое представление о клиенте. Появление пакетов программ: слияние программного обеспечения для обслуживания клиентов и управления маркетинговыми кампаниями, является отражением тенденции к интеграции этих функциональных областей.

Тенденция №4: рост числа конечных пользователей

По мере того, как Хранилища данных и средства Business Intelligence становятся все более доступными для массового использования, число пользователей Хранилищ стремительно увеличивается. По оценке исследовательской компании Survey.com, к 2002 году число пользователей Хранилищ данных должно увеличиться более чем в четыре раза и достигнуть 2.718 индивидуальных пользователей и 609 совместных пользователей на Хранилище. Поэтому разработчикам Хранилищ данных придется не только справляться с увеличивающимся числом потребителей их решений, но и стараться угодить различным типам конечных пользователей. Совсем недавно компания Gartner опубликовала результаты своего исследования, из которого следует, что наибольшим и устойчиво растущим спросом у администрации и функционеров пользуются средства Business Intelligence, а вслед за ними идет руководство. Таким образом, можно сделать вывод о том, что средства BI становятся все более легкими в использовании и способствуют принятию стратегических решений. Очевидно, что потребности конечных пользователей в том или ином продукте будут зависеть от занимаемой ими должности - так, если для бизнес-аналитика необходима возможность выполнения нерегламентированных запросов, исполнительному и финансовому директорам вполне достаточно получить статические отчеты.

Для управления постоянно увеличивающимся числом пользователей предприятия могут воспользоваться несколькими технологиями, в том числе параллелизмом и расширяемостью, разделением оптимизированных данных, агрегированием, кэшированием результирующих наборов и целевыми киосками данных. Благодаря этому большое число работников может получить одновременный доступ к Хранилищу данных без какого бы то ни было снижения производительности. Согласование различных потребностей разнообразных пользовательских групп потребует не только технических, но и в равной степени организационных решений. Поэтому разработчики Хранилищ данных должны с самого начала взаимодействовать с конечными пользователями, чтобы определить, какие типы данных и какие приложения будут необходимы для выполнения задач поддержки принятия решений.

Тенденция №3: более сложные запросы

Помимо роста числа запросов, сами запросы к Хранилищам данных будут становиться все более сложными. Пользователи испытывают потребность в получении именно желаемого типа информации и тогда, когда она необходима. Простое агрегирование данных больше не может удовлетворить пользователей, желающих выполнять углубление по многочисленным измерениям. Например, может быть уже недостаточно формировать еженедельный отчет о региональных продажах. Вместо него пользователям захочется посмотреть на данные по произвольным измерениям - по характеристике отдельного клиента, по местам определенных продаж или по времени покупки.

Кроме того, пользователи желают видеть более сложные средства Business Intelligence. Согласно утверждению компании Gartner, data mining - это наиболее быстро развивающаяся технология бизнес-анализа. Другие сложные технологии также стремительно набирают популярность. Поставщики разрабатывают приложения, которые могут контролировать репозитории данных и реагировать на события в реальном времени. Например, если клиент телефонной компании решает отказаться от функции отложенного звонка, аналитическое приложение реального времени может установить это событие и, чтобы удержать этого клиента, сгенерировать специальное предложение - снижение цены за данную услугу. Поставщики программного обеспечения также разрабатывают новое поколение алгоритмов data mining, соединяющих в себе возможности прогнозирования с элементами объяснения, устойчивости и самообучения. Эти новые алгоритмы автоматизируют функцию data mining, делая ее более доступной для большинства пользователей - предоставляя объяснения результатов, указывая, что полученные результаты не являются надежными, и автоматически настраиваясь на изменения в базовой модели прогнозирования и/или структурах данных.

Для обработки сложных запросов и удовлетворения потребностей в расширенных аналитических технологиях предприятия могут реализовать те же самые методы, которые используются для управления постоянно увеличивающимся числом пользователей, в том числе и параллелизмом. Применение этих методов гарантирует неизменность производительности Хранилища данных при выполнении таких сложных запросов. Кроме того, чтобы отвечать пожеланиям своих клиентом, предприятия должны предпринять меры для обеспечения доступности своих Хранилищ. В глобальных компаниях, например для предоставления информации необходимо поддерживать круглосуточный рабочий режим. В организациях с небольшими объемами данных это требование можно выполнить с высокой степенью дублирования. В компаниях с большими объемами данных, однако, необходимо тщательно проектировать системы с позиции надежности при использовании хорошо разработанных параллельных инфраструктур.

Тенденция №2: интегрированное представление о клиенте

Получение "объемного изображения" клиента - наиболее популярное логическое обоснование решения создать Хранилище данных. Предприятия стремятся получить исчерпывающее представление о клиенте, проектируя его на все каналы и направления бизнеса. Несмотря на внешнюю простоту, эту концепцию очень сложно воплотить в жизнь. Многих компании исторически структурировались относительно продуктов, регионов или других связанных с бизнесом измерений, в результате чего их IT-системы реализуют это требование. Движение к созданию "картины", ориентированной на клиента, требует глубоких изменений в методах сбора, хранения и распространения информации. Для этого предприятия должны интегрировать постоянно растущие источники данных, о которых говорилось выше, и гарантировать выполнение требований к качеству данных с тем, чтобы клиенты были точно представлены во всех системах.

Тенденция №1: "взрывание" объемов данных

Одна из серьезнейших проблем, которая сегодня встала перед организациями, - это "взрыв" объемов данных, который, как предполагается, произойдет через несколько лет. Так по прогнозам аналитиков Gartner, в 2004 году компании будут управлять данными, объем которых в 30 раз превосходит соответствующий показатель 1999 года. А специалисты Survey.com полагают, что величина используемых данных в среднем Хранилище данных увеличится на 290% и достигнет в 2002 году более 1.2 терабайта. "Главный виновник" этого "взрыва данных" - e-бизнес, поскольку, как ожидается, кликстрим-данные прибавят терабайты в Хранилище данных. А так как число каналов контакта с клиентом растет, они добавят даже еще больше данных. Растущие потребности конечных пользователей также сыграют свои роль - организации будут собирать и хранить больше информации и в течение более длительных интервалов времени.

Управление "взрывом" данных является исключительно важной задачей с точки зрения расширяемости. С помощью действительно расширяемого Хранилища данных организации смогут хранить увеличивающиеся объемы данных, просто добавляя аппаратное обеспечение. Расширяемые Хранилища обычно опираются на параллельные инфраструктуры. К счастью, снижение стоимости аппаратных средств делает параллельную технологию более доступной. Параллельный процессор распределенной памяти (distributed memory parallel processor) становится все менее дорогим, а альтернативные технологии постепенно совершенствуются - в качестве замены появилась серверная кластеризация (server clustering) как разновидность симметричных мультипроцессоров (SMP). Кроме того, с каждым годом продолжает уменьшаться стоимость хранения, позволяя компаниям хранить терабайты детализированных исторических данных.

В данной статье были рассмотрены основные задачи, стоящие сегодня перед отраслью Хранилищ данных. Надеюсь, что этот материал предоставит пищу для ума и будет полезен тем, кто вовлечен в эту область технологий, а также поможет выявить те проблемы, которые актуальны для вашей организации. Эта статья является всего лишь кратким обзором возможных предложений по устранению стоящих проблем, и мне хочется верить, что читатель сможет воспользоваться ею в качестве исходной точки для дальнейшего поиска приемлемых решений.