Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Незапланированные запросы к Хранилищу данных на основе внешнего индекса

Вторая статья рубрики рассказывает о специфическом подходе, применяющемся
для повышения скорости выполнения незапланированных запросов - внешних
индексах, построенных с учетом структуры Хранилища данных и основанных на
метаданных приложения.
Инструмент выполнения незапланированных запросов на основе внешних индексов
предлагает компания Freedom Intelligence.

Компания Freedom Intelligence предлагает решение для ускорения выполнения незапланированных запросов за счет создания внешнего по отношению к базе данных индекса.

Продукт компании - Freedom Intelligence™ - состоит из трех компонентов: Freedom QDS (Query Data Set, набор данных запроса), Freedom QDS Builder (построитель набора данных запроса), Freedom QP (Query Processor, обработчик запросов).

Возможные архитектурные решения

Ниже приведены три типовые архитектурные схемы, показывающие, как можно развернуть Freedom Intelligence™.

Архитектура "разогнанных" данных

Благодаря внедрению разгоняющего слоя в существующие медленные системы можно существенно повысить скорость выполнения запроса (до 100 раз при работе с транзакционной базой данных).

 

Рис. 1. Архитектура "разогнанных" данных

Архитектура автономных витрин данных

В ряде случаях компании предпочитают организовать одно большое хранилище данных. При этом в работе отделов будет задействована только некоторая часть этих данных. В подобной ситуации Freedom Intelligence™ можно использовать для анализа самого хранилища и выбора релевантной информации для витрин данных, которая затем представляется руководителям отделов, ответственных за принятие решений.

 

Рис. 2. Архитектура автономных витрин данных

Архитектура интегрированного хранилища данных

В случае отсутствия централизованного хранилища с помощью Freedom Intelligence™ можно интегрировать данные из целого ряда источников: из оперативных БД, традиционных источников, XML-файлов или текстовых документов.





Рис. 3. Архитектура интегрированного хранилища данных

"Разогнанные" загрузка и индексирование

Традиционно системы баз данных загружают данные в таблицы. В таких системах индексирование является самостоятельным процессом, предназначенным для более быстрого доступа к данным. Индексирование может совпадать с загрузкой или выполняться после того, как произошло заполнение.

В Freedom Intelligence™ загрузка и индексирование - равнозначные процессы. Во время загрузки Freedom Intelligence™ организует 100% исходных данных. Это означает, что после завершения загрузки нет необходимости повторно организовывать или выбирать определенные колонки или таблицы для индексирования.

Фактически, индекс оказывается оптимизированным "раз и навсегда" под запросы всех пользователей.

Благодаря применению этого индекса, можно значительно повысить эффективность выполнения запросов, нерегламентированной пространственной агрегации и соединений.

Freedom Query Data Set

Freedom QDS - это своеобразный результат индексации. QDS объединяет три структуры: репозиторий метаданных (metadata repository), образ данных (data image) и индекс Freedom (Freedom index).

QDS включают описание типов данных всех источников данных: имена таблиц, имена колонок, типы колонок, маркеры колонок, первичные ключи и информацию о защите. В результате можно проводить индексацию любых источников, в том числе данных из статических систем, используемых для иных целей: из резервных файлов, автономных систем или статических хранилищ данных.

Индекс Freedom объединяет расширенные возможности инвертированного файла (Inverted file) сложной сортировки и вектора соединения (join vector), который предварительно подсчитывает все возможные (потенциальные) соединения.

В начале индексации значения атрибутов разбиваются на несколько элементов. Эти элементы, называемые маркерами (token), позволяют пользователям искать данные, которые могут оказаться более значимыми, чем, если просто использовать значение атрибута целиком. Например, разбив десятизначный номер телефона на два элемента, можно выделить трехзначный код региона (области).

Сжатие

Для уменьшения размера индекса в Freedom Intelligence™ используется технология сжатия. Версия 1.0 продукта позволяет в 6 раз уменьшить пространство, отводимое на диске под хранение необработанных данных. (Raw data, необработанные данные - это эквивалент плоских файлов или данных, которые были извлечены из исходной системы базы данных.) На рисунке ниже показаны реальные величины дискового пространства, занятого данными, для версии 1.0.




Рис. 4. Результаты сжатия

Сжатая копия исходных данных хранится в QDS. В результате, отпадает необходимость обращаться к первичным данным для генерации отчетов. А поскольку все данные проиндексированы, то любые запросы выполняются на базе QDS. Из рисунка видно, как уменьшаются показатели при переходе к сжатым исходным данным в финальном QDS.

Требования к системе

  • Два Pentium III (600 или выше).
  • Дополнительные процессоры улучшают эффективность выполнения запросов.
  • 1- 2 ГБ RAM.
  • NT Server или NT Workstation 4.0, service pack 3 или выше.
  • Клиентский доступ через открытый интерфейс доступа к базам данных (ODBC), или текстовые файлы с разделителями.
  • Доступ к чередующимся наборам RAID (RAID 0) - достаточно большим, чтобы хранить индекс в одном разделе.

В следующей таблице приведены требования, предъявляемые Freedom Query Processor версии 1.0 к оперативной памяти.

Объем необработанных данных Память
1 - 5 ГБ 0.5 ГБ
6 - 10 ГБ 1 ГБ
11 - 20 ГБ 2 ГБ
20 - 50 ГБ 3 ГБ

Автор: По материалам зарубежных сайтов