Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Новые технологии для бизнес-анализа больших объемов данных

Хранилища данных, системы Data Mining и бизнес-аналитические приложения уже готовы обслуживать электронную коммерцию. Но есть одно небольшое препятствие - информация, с которой они работают, как правило, представляет собой обработанные данные за несколько дней - или, чаще, недель, - прошедших с момента некоторого события.

Пользователи, занимающиеся бизнес-анализом, утверждают, что в онлайновой среде такая информация будет устаревшей. В этом случае требуется более частое ее обновление.

В ряде организаций изменения информации даже в течение дня могут оказаться ключевыми при принятии решений. Примером здесь может служить здравоохранение. Для таких случаев была разработана функция "контроля версий" (versioning), заложенная, в частности, в систему Хранилища данных, созданную секцией Red Brick компании Informix Software.


Versioning позволяет:

  • постоянно добавлять самые свежие данные в Хранилище и отображать их в самых последних запросах;
  • производить множество запросов к одним и тем же данным;
  • создавать таблицы баз данных, запросы к которым не блокируют другие запросы, обращающиеся к тем же самым данным.

В отличие от множества систем Хранилищ данных, в данном случае данные, образующие указанные выше таблицы, могут обновляться в фоновом режиме, не нарушая при этом выполнение пользовательских запросов. Запросы, пришедшие чуть позже, при необходимости также получают доступ к тем же самым данным, и в ряде случаев в итоге будут содержать информацию, обновленную согласно самым свежим данным - и все это без нарушения обработки первого запроса.

Эти новые возможности очень важны для пользователей, обладающих очень большими объемами быстро меняющихся данных (порядка многих сотен гигабайт) и выполняющих большое число запросов. Теперь у них появится возможность получать через запросы информацию, актуальность которой составляет всего несколько минут.

Огромное число пользователей бизнес-аналитических приложений также создает свои проблемы. В частности, в телекоммуникационных компаниях существуют всплески активности, требующие настройки обслуживающих систем. Для этого компанией Sybase разработана разновидность индексируемых данных IQ Multiplex, ускоряющая доступ к данным и возвращение результатов из системы Хранилища данных. Согласно данным ежегодного рейтинга крупнейших система баз данных, эта индексация работает на "самом большом в мире Хранилище данных на NT-платформе".

Самым же популярным средством Data Mining, по данным последнего опроса KDnuggets, на данный момент является АРМ Clementine 6.0 компании SPSS - американского поставщика программного обеспечения в области Data Mining. ПО Clementine 6.0, появившееся в декабре 2000 года, позволяет потребителям создавать онлайновые Data Mining-приложения. Кроме того, SPSS добавила к нему шаблоны Clementine Application Translater templates, обеспечивающие пользователей 80-90 % необходимой рабочей среды приложения. Используя эти шаблоны, разработчики могут быстро собрать машины профайлов и другие приложения, работающие с посетителями сайта, используя данные о них, содержащиеся в Хранилище.