Хранилища данных приобретают всё большее значение, поскольку организации осознают преимущества баз данных, ориентированных на принятие решений. Успех проекта по внедрению хранилища данных зависит от качества, собираемой в нёго информации. Исследования и отраслевые опросы показывают, что организации постоянно сталкиваются с проблемами качества данных.
Как отмечает в недавней статье из Harvard Business Review Томас Редман, президент консалтинговой компании Navesink Consulting: «Большинство руководителей знает, что их данные недостаточно хороши. Но за отсутствием бизнес-прецедента повышение качества данных имеет слишком низкий приоритет». В этой связи будет полезно подсчитать средства, потерянные из-за низкого качества данных, содержащихся в системах. Так, по оценкам Ассоциации управления страховыми данными США, в среднем эта цифра может составлять 15-20 процентов операционных доходов.
Сегодня созрела настоятельная необходимость в серьёзном подходе к управлению качеством данных. Процесс разработки хранилища данных должен включать в себя подготовку требований к качеству данных со стороны всех заинтересованных сторон. Для этого команда разработки должна понять факторы, влияющие на качество данных, важные для каждой группы. У каждой стороны есть своя цель в отношении качества- оценить, улучшить или исправить качество всего хранилища или его части. Цель в отношении качества – это абстрактное требование, определённое для объекта хранилища и документированное для целей, в достижении которых заинтересованы участники проекта. Цель в отношении качества намечается для одного или нескольких запросов в отношении качества, определяющих достигнута цель или нет. Каждый такой запрос фиксируется показателями качества, описывающими его измерение. Метрика качества определяется для конкретного объекта хранилища данных (см. Таблицу 1).
Параметр качества |
Метрика качества |
Функциональность |
Количество модулей, не подходящих для выполнения задачи |
Надёжность |
Число отказов |
Применимость |
Принятие пользователями |
Эффективность |
Производительность (время отклика, время обработки и т. п.) |
Обслуживаемость |
Человеко-часы, необходимые для обслуживания и диагностики приложений |
Точность |
Количество записей с точными значениями |
Согласованность |
Количество записей, нарушающих ограничения |
Полнота |
Количество записей с неполными значениями |
Достоверность |
Количество записей с неточными значениями |
Метрика качества определяет интервал ожидаемых значений для предметной области и включает в себя фактическое значение в конкретный момент, зафиксированный меткой времени. Фактические значения качества данных измеряются простым программным агентом.
Как только значения вычисляются, они сравниваются с заранее определёнными приемлемыми или ожидаемыми значениями. Если фактическое значение находится в диапазоне приемлемых, то хранилище данных удовлетворяет заданным требованиям качества. Однако, если фактическое значение находится вне допустимых пределов, то для исправления ситуации надо использовать методики повышения качества данных.
Коррекция значений – это комплексная задача, зачастую включающая в себя несколько вводов, выводов и этапов обработки. Обнаружение и исправление ошибок также может быть автоматизировано, если прибегнуть к методам, оптимизирующим анализ данных, извлечённых из хранилища, параллельно с генерацией новой информации, к системам обеспечения целостности на базе правил и программным агентам, обнаруживающим нарушения качества. Некоторые ETL-инструменты (Extract, Transform, Load, извлечение, преобразование и загрузка данных) также помогают автоматизировать обнаружение и исправление ошибок. С помощью политик обнаружения и исправления ошибок можно также улучшить качество данных, хотя это и не устраняет коренных причин ошибок и не снижает их влияния. Для этих данных процессы должны быть построены с нуля или можно преобразовать уже существующие, чтобы лучше управлять качеством данных и сократить количество ошибок за счёт встроенного управления процессом, поддерживать контроль качества метаданных и улучшить оперативную эффективность.
Другой вопрос - стоят ли данные этой корректировки, поскольку этот процесс может потребовать значительных временных и финансовых затрат, особенно если требуются отсутствующие данные. Поэтому к коррекции данных не стоит прибегать, если добавленная стоимость не оправдывает затрат. Исправления могут включать в себя нахождение альтернативного источника данных, извлечение значений из других данных или использование значений по умолчанию.
Качество данных имеет критическое значение для каждого хранилища данных. Высокое качество помогает в поддержании устойчивого конкурентного преимущества и улучшении взаимоотношений с клиентами, обеспечивает новый источник экономии и создание более эффективной организационной стратегии.