Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Метаданные и организация прохождения данных: использование XML в хранилищах данных: Получение данных

За последние 10 лет хранилища данных стали одной из наиболее популярных технологий, широко используемых различными предприятиями и фирмами в качестве одного из основных средств достижения лидирующего положения на рынке. В следующей декаде язык XML достигнет того же уровня. Единственный вопрос, на который пока нет ответа, это как эти две важнейшие технологии будут функционировать вместе.

На самом деле все Web-сайты построены на базе языка HTML, описывающего форматирование данных, но не содержащего информации об этих данных. Поэтому неструктурированные данные Web-сайтов очень трудно перенести в хранилище данных. XML обеспечивает решение данной проблемы путем присвоения информационных тэгов данным Web-сайта. Чтобы понять, каким образом эти тэги работают, давайте воспользуемся языком XML для описания информации о некотором учебнике:

David Marco
2000
John Wiley & Sons
New York
New York
First

Добавляя контекст к содержанию Web-сайта, язык XML дает возможность предприятиям помещать неструктурированные данные Web-сайта в свои хранилища данных. Это очень важно для множества аналитиков, работающих в этих компаниях и нуждающихся в такой информации для принятия более обоснованных решений. Давайте рассмотрим данный процесс на примере некоторой медицинской компании. Множество врачей, разрабатывающих лекарства, публикуют результаты разработок на своих Web-сайтах. Лица, принимающие решения в медицинских компаниях, чаще всего хотят быть в курсе последних разработок в сфере лекарственных средств для принятия наиболее правильных решений по медицинскому обслуживанию населения. Чтобы увидеть, как XML упрощает этот процесс, рассмотрим Рис. 1.

Рис. 1: XML перемещает данные в Хранилище

Рис. 1 иллюстрирует считывание данных с медицинского Web-сайта и помещения их в процесс XML-преобразования (см. Рис. 1, (1)). Этот процесс преобразования (3) соотносит данные Web-сайта с соответствующей схемой XML (разметкой тэгов данных). Заметьте, что одной из основных трудностей в языке XML является стандартизация имен и значений тэгов данных. Как индустрия, информационные технологии (IT) имеют весьма скромный успех в разработке общих стандартов, и я не думаю, что появление XML изменит такое положение дел. Поэтому нам придется использовать множество схем XML в своей работе. Далее, процесс XML-преобразования конвертирует содержащие тэги данные Web-сайта в формат записи путем удаления XML-тэгов, что важно постольку, поскольку эти тэги увеличивают затраты на обработку данных. Полученные записи передаются для обработки в процесс выборки, преобразования и загрузки (ETL) (4) Хранилища данных. Процесс ETL очищает, объединяет и загружает данные в Хранилище данных и связанные с ним витрины данных (5). Заметьте, что некоторые поставщики средств ETL собираются расширить свои нынешние наборы средств функциями XML-преобразования. Такое преобразование (3) может быть полностью встроено в ETL-процесс.

Часто, когда мы думаем об Интернет, мы подразумеваем транзакции <бизнес-потребитель> (, B2C); однако потенциал коммерческой модели <бизнес-бизнес> (, B2B) в Интернет гораздо серьезнее. Множество компаний занимаются продажей информации. Язык XML играет ведущую роль в этой области ввиду возможности переноса B2B-транзакций напрямую в хранилище данных. Рис. 1 (2) демонстрирует, как торговый партнер по B2B направляет информацию в процесс XML-преобразования. Но, как и раньше, далеко не все бизнес-партнеры будут использовать стандартные XML-схемы. Поэтому придется поддерживать множество XML-схем. Процесс (3) использует схемы XML, хранящиеся в базе данных XML и переносит преобразованные транзакции в ETL-процесс хранилища данных (4). Далее ETL-процесс помещает эту информацию в хранилище данных и связанные с ним витрины данных (5).

Таким образом, мы видим, что XML является одной из важнейших технологий, и уже вполне доступен для применения на практике и в вашем собственном хранилище данных!