Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

OLAP: Панацея для систем управления информацией?

Термин OLAP (On-Line Analytical Processing) был предложен доктором Е.Ф. Коддом, его супругой С.Б. Кодд и их компаньоном С.Т. Солли в исследовательской статье "OLAP для пользовтелей-аналитиков: информационно-технологический мандат". Эта статья была опубликована в начале 1993 года и спонсировалась корпорацией Arbor Software, создателем и распространителем ESSBASE.

В начале восьмидесятых доктор Кодд сформулировал правила, образовавшие основу, на которой базируется нынешнее поколение реляционных технологий. В начале девяностых корпорация Arbor Software искала такую рыночную нишу, которая дала бы возможность мирно сосуществовать реляционным и многомерным базам. Исследования, проведенные доктором Коддом и его коллегами, позволили формализовано переопределить требований к средствам, используемым для реализации поддержки решений, управления информацией, анализом бизнеса и системами исполнительной информации (executive information systems). Инструменты, используемые для поддержки моделирования бизнеса, должны были следовать правилам доктора Кодда чтобы оставаться на переднем крае технологии. Публикация статьи инициировала существенные изменения на рынке. Наиболее заметные положительные изменения пришлись на долю Arbor Software, сформировавшей сегодня стратегические альянсы с рядом участников рыночного пространства и о продуктах которой говорили, что их собирается распространять компания Microsoft, поскольку многомерная машина будет доступна для Microsoft Excel.

В целом, полемика на тему этих правил показала все, что окружало публикацию реляционных правил. Продавцы продукта одновременно были рады и лишний раз доказать, насколько податливы их инструменты и расширить правила для отражения их возможностей, но также и несколько охладить пыл их сторонников, утверждая, что исследование пристрастно и несерьезно.

Как и во множестве других дихотомий, правда в данном случае, возможно, находится где-то между этими двумя крайностями.

Что такое база данных OLAP?

"...многомерная серверная база данных, позволяющая предоставить возможность интерактивного управления информацией клиенту с рабочего стола конечного пользователя. Клиентом может быть похожий на электронную таблицу графический интерфейс, заказной интерфейс, система исполнительной информации (executive information system) или любой другой сходный с зтими программный инструмент. Во всех случаях пользователи могут выбирать необходимую им информацию, используя простое англоязычное диалоговое окно и средства навигации, а также меняя данные и получая немедленный отклик на свои действия. Пользователи могут осуществлять самостоятельный анализ в соответствии со своими потребностями и информационно-технологические подразделения могут больше не беспокоиться об их требованиях." ("Computing", 9.06.1994 г.).

Это, безусловно, достаточно широкое определение, охватывающее целый ряд приложений и инструментов. Требования этого определения могут соблюдаться в различных типах средств хранения данных и технологий их представления, от плоских файлов до реляционных баз данных. Это, разумеется, скорее техническое определение предмета.

Доктор Кодд определяет OLAP как "... имя, данное динамическому анализу предприятия, необходимому для создания, манипулирования, оживления и синтезирования информации на базе ... "Моделей информации о предприятии" ("Enterprise Data Models")... Оно включает в себя возможность выявления новых или непредвиденных отношений между переменными, способность идентифицировать параметры, необходимые для работы с большими объемами данных, создавать неограниченное число измерений (частей консолидации) и определять условия и выражения пересечения измерений." ("OLAP для пользователей-аналитиков: инфомационно-технологический мандат" ( Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate"), Е.Ф.Кодд, С.Б. Кодд и С.Т. Солли, 1993 г.).

Далее автор выделяет три важнейших характеристики OLAP:

  • Динамический анализ данных, в которых исторические данные должны всесторонне обрабатываться с участием множества измерений. Это может помочь в понимании изменений, происходящих на предприятии в течение определенного времени. Некоторые продавцы продуктов сосредоточились на создании баз данных именно для такого "анализа данных в рамках временного ряда".
  • Четыре модели данных о предприятии. Эти четыре модели предустаривают определение структуры данных (Безусловная модель), хранение исторических данных в структуре (Толковательная модель), исследование сценариев "что-если" (Пассивная модель) и модель, описывающую сложные отношения, существующие между явно разрозненными переменными (Формульная модель).
  • Обычные данные о предприятии. Данные, предоставляемые любым средством доступа OLAP, должны быть идентичны используемым в операционных системах.

Возможности базы данных OLAP

Ниже приведенные пункты представляют собой обзор ключевых аспектов 12 правил OLAP, как они были определены в статье доктора Кодда.

  1. Многомерное концептуальное представление
    Базы данных OLAP поддерживают многомерное представление данных, предусматривающее классические операции разбиения ("slice and dice") и вращения (pivoting and rotation) концептуального куба данных. Эти операции могут включать в себя анализ данных в терминах продуктов или их категорий, представляемых как на дисплее, так и с помощью канала вывода, созданного для данного бизнеса, а кроме того - дальнейшее движение в направлении уровней устройчивости, полученных этим бизнесом от каждого из источников. Все это доступно тогда и в такой форме, в какой и когда это необходимо пользователю-аналитику. Интересно, что это правило было создано для тонких уровней оттенков некоторыми поставщиками программного обеспечения типа OLAP, которые утверждали, что многомерное концептуальное представление данных может быть реализовано и без многомерного хранения.
  2. Прозрачность
    Пользователям не нужно будет знать, что они пользуются базой данных OLAP. Что касается них, они используют для получения необходимых им данных и принятия требующихся решений хорошо знакомые им инструменты. им также не нужно знать что-либо об источнике данных. Например, должно быть только одно определение устойчивости и оно должно применяться ко всем источникам данных независимо от их происхождения.
  3. Доступность
    Используемые инструменты должны содержать карту источников данных (реализацию Безусловной модели), которая будет указывать на наиболее подходящий источник данных для формирования ответа на конкретный запрос и выполнения любых преобразований данных или семантического значения с целью согласованную и заранее определенную интерпретацию бизнес-модели предприятия.
  4. Последовательное формирование отчетов
    Хотя число измерений или число уровней агрегации меняется, однако никакого изменения в способе подсчета ключевых показателей быть не должно. Системные модели должны быть достаточно мощными, чтобы справляться со всеми изменениями модели предприятия. Это важно, поскольку показатели, предоставляемые OLAP-средством, должны быть правдоподобны и их анализу, а также прогнозам на их основе, необходимо доверять.
  5. Архитектура клиент-сервер
    Средства OLAP должны быть в состоянии работать в клиент-серверной среде, так как предполагается, что сервер многомерной базы данных должен быть доступен из других приложений и инструментов. Это, возможно, одно из наиболее спорных среди правил Кодда, поскольку лишь немногие продукты на рынке удовлетворяют сейчас этому критерию. ESSBASE и, в меньшей степени, Express являются, похоже, единственными продуктами, которые соблюдают это правило.
  6. Единая размерность
    "Каждое измерение данных должно быть эквивалентно одновременно и по структуре и по операционным возможностям ... Основная структура данных, формулы и форматы отчетов не должны ориентироваться на какое-либо одно измерение данных." ("OLAP для пользователей-аналитиков: информационно-технологический мандат" ("Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate"), Е.Ф. Кодд, С.Б. Кодд и С.Т. Солли, 1993 г.).
  7. Обслуживание динамической распределенной матрицы
    Типичные многомерные модели могут с легкостью обращаться к миллионам ссылок на ячейки, многие из которых не имеют необходимых данных в какой-то конкретный момент времени. Эти отсутствующие (null) значения должны храниться эффективным образом и не иметь отрицательного влияния на точность или скорость извлечения информации.
  8. Поддержка множества пользователей
    Средства OLAP должны поддерживать и действительно поощрять работу в группах и обмен идеями и результатами анализа между пользователями. Для этого очень важно наличие многопользовательского доступа к данным.
  9. Неограниченные операции между измерениями (Cross-Dimensional Operations)
    Правила, управляющие развитием "свертков" ("roll ups") через иерархические уровни, должны определяться и быть доступны таким образом, чтобы они выполнялись последовательно и независимо от вида среза данных.
  10. Интуитивное управление данными
    Данные, предоставляемые пользователю-аналитику, должны в любой момент времени содержать всю информацию, необходимую для эффективной навигации (формирования срезов, " the slicing and dicing") и соответствующую запросу без необходимости дополнительной пересортировки с целью использования меню или множества перемещений в рамках пользовательского интерфейса.
  11. Гибкое формирование отчетов
    Пользователь должен иметь возможность извлекать любое представление необходимых ему данных и формировать их в любом необходимом ему виде.
  12. Неограниченные измерения и уровни агрегации
    Не должно быть навязанных OLAP-средством ограничений числа измерений модели.