Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Проблема качества в хранилищах данных

В статье поднимается вопрос качества данных, и даются некоторые рекомендации
по его повышению в ходе проекта по внедрению хранилищ данных.

Хранилища данных приобретают всё большее значение, поскольку организации осознают преимущества баз данных, ориентированных на принятие решений. Успех проекта по внедрению хранилища данных зависит от качества, собираемой в нёго информации. Исследования и отраслевые опросы показывают, что организации постоянно сталкиваются с проблемами качества данных.

Как отмечает в недавней статье из Harvard Business Review Томас Редман, президент консалтинговой компании Navesink Consulting: «Большинство руководителей знает, что их данные недостаточно хороши. Но за отсутствием бизнес-прецедента повышение качества данных имеет слишком низкий приоритет». В этой связи будет полезно подсчитать средства, потерянные из-за низкого качества данных, содержащихся в системах. Так, по оценкам Ассоциации управления страховыми данными США, в среднем эта цифра может составлять 15-20 процентов операционных доходов.

Сегодня созрела настоятельная необходимость в серьёзном подходе к управлению качеством данных. Процесс разработки хранилища данных должен включать в себя подготовку требований к качеству данных со стороны всех заинтересованных сторон. Для этого команда разработки должна понять факторы, влияющие на качество данных, важные для каждой группы. У каждой стороны есть своя цель в отношении качества- оценить, улучшить или исправить качество всего хранилища или его части. Цель в отношении качества – это абстрактное требование, определённое для объекта хранилища и документированное для целей, в достижении которых заинтересованы участники проекта. Цель в отношении качества намечается для одного или нескольких запросов в отношении качества, определяющих достигнута цель или нет. Каждый такой запрос фиксируется показателями качества, описывающими его измерение. Метрика качества определяется для конкретного объекта хранилища данных (см. Таблицу 1).

Таблица 1. Примерные параметры и метрики качества данных в хранилище

Параметр качества

Метрика качества

Функциональность

Количество модулей, не подходящих для выполнения задачи

Надёжность

Число отказов

Применимость

Принятие пользователями

Эффективность

Производительность (время отклика, время обработки и т. п.)

Обслуживаемость

Человеко-часы, необходимые для обслуживания и диагностики приложений

Точность

Количество записей с точными значениями

Согласованность

Количество записей, нарушающих ограничения

Полнота

Количество записей с неполными значениями

Достоверность

Количество записей с неточными значениями

Метрика качества определяет интервал ожидаемых значений для предметной области и включает в себя фактическое значение в конкретный момент, зафиксированный меткой времени. Фактические значения качества данных измеряются простым программным агентом.

Как только значения вычисляются, они сравниваются с заранее определёнными приемлемыми или ожидаемыми значениями. Если фактическое значение находится в диапазоне приемлемых, то хранилище данных удовлетворяет заданным требованиям качества. Однако, если фактическое значение находится вне допустимых пределов, то для исправления ситуации надо использовать методики повышения качества данных.

Коррекция значений – это комплексная задача, зачастую включающая в себя несколько вводов, выводов и этапов обработки. Обнаружение и исправление ошибок также может быть автоматизировано, если прибегнуть к методам, оптимизирующим анализ данных, извлечённых из хранилища, параллельно с генерацией новой информации, к системам обеспечения целостности на базе правил и программным агентам, обнаруживающим нарушения качества. Некоторые ETL-инструменты (Extract, Transform, Load, извлечение, преобразование и загрузка данных) также помогают автоматизировать обнаружение и исправление ошибок. С помощью политик обнаружения и исправления ошибок можно также улучшить качество данных, хотя это и не устраняет коренных причин ошибок и не снижает их влияния. Для этих данных процессы должны быть построены с нуля или можно преобразовать уже существующие, чтобы лучше управлять качеством данных и сократить количество ошибок за счёт встроенного управления процессом, поддерживать контроль качества метаданных и улучшить оперативную эффективность.

Другой вопрос - стоят ли данные этой корректировки, поскольку этот процесс может потребовать значительных временных и финансовых затрат, особенно если требуются отсутствующие данные. Поэтому к коррекции данных не стоит прибегать, если добавленная стоимость не оправдывает затрат. Исправления могут включать в себя нахождение альтернативного источника данных, извлечение значений из других данных или использование значений по умолчанию.

Качество данных имеет критическое значение для каждого хранилища данных. Высокое качество помогает в поддержании устойчивого конкурентного преимущества и улучшении взаимоотношений с клиентами, обеспечивает новый источник экономии и создание более эффективной организационной стратегии.

Публикации

  1. Винай Кумар (Vinay Kumar), Реема Тхарейджа (Reema Thareja). Упрощённый подход к управлению качеством данных в хранилищах (A SIMPLIFIED APPROACH FOR QUALITY MANAGEMENT IN DATA WAREHOUSE). Сентябрь 2013 г.
  2. Томас Редман (Thomas Redman). Создайте прецедент для лучшего качества данных (Make the Case for Better Quality Data). 24 августа 2014 г.

Автор: По материалам зарубежных сайтов