Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

Управление качеством данных: настоящее и будущее

Для компании чрезвычайно важно владеть точной, актуальной и исчерпывающей информацией для обоснованного принятия решений. Исследование, проведённое Международной ассоциацией качества данных и информации (International Association for Information and Data Quality, IAIDQ) и сотрудниками Арканзасского Университета в Литтл-Роке (University of Arkansas at Little Rock), ответило на некоторые актуальные вопросы.

Мероприятия по обеспечению качества данных – цели и причины

Соотнесение усилий по обеспечению качества данных с потребностями бизнеса – обязательное условие. Участники исследования сообщили, что наиболее распространённой бизнес-целью кампании по обеспечению качества данных в их организациях является «Снижение рисков и обеспечение соответствия регулятивным требованиям» (38.6% опрошенных). Эта цель называлась вдвое чаще чем «Снижение расходов» (18.9% опрошенных) и «Увеличение прибыли» (18% опрошенных). Эти результаты заставляют предположить, что усилия по обеспечению качества данных получили бы более активную поддержку, если бы были теснее связаны с доходной стороной финансовой отчётности.

Что же касается основных стимулов, побуждающих компании заниматься качеством данных, участники опроса перечислили: общее стремление к улучшению качества своих данных (68.4% опрошенных), инструменты бизнес-аналитики и хранилища данных (47.2%), регуляторные, рисковые или законодательные требования (39.8% респондентов). В дополнение к причинам, представленным на диаграмме ниже (рис. 1.), были также: автоматизация продаж (9.5%), большие данные (9.1%), проекты сервис-ориентированной архитектуры (8.7%), слияния и поглощения (8.2%) и облачные вычисления (2.2%). Около 5% людей также перечислили прочие стимулы, такие как возрастающая сложность бизнеса, управление затратами и активами, улучшение процесса, архивные требования, безопасность пациентов, измерение рентабельности и требования к отчётности.

Рис. 1. Основные причины, почему компании начинают мероприятия по обеспечению качества данных.

Предметная область и практика управления качеством данных в организациях

С учетом того, что в качестве предметных областей, для которых в первую очередь необходимы программы по улучшению качества данных, чаще всего назвались клиенты (66.7% опрошенных), продукты (52.1% опрошенных) и финансы (51.6% опрошенных) можно с уверенностью утверждать, что организации пытаются улучшить качество широкого спектра данных. В дополнение к перечисленным предметным областям, респонденты перечислили такие, как недвижимость, образование, наука, здравоохранение, соблюдение нормативных требований и транспорт.

В соответствии с результатами исследования, большинство усилий по повышению качества данных осуществляется в масштабах всей организации либо в рамках функциональных областей (28.3% опрошенных). Около 20% респондентов сообщили, что эта задача решается в рамках департаментов, а 16.7% опрошенных отметили, что в их организациях управлением качеством данных сотрудники занимаются по собственной инициативе на индивидуальной основе.

Советы эксперта

Построение решения, которое будет обеспечивать качество данных – это достаточно тонкий и трудоёмкий процесс. Филип Рассом (Philip Russom), специалист-аналитик Института хранилищ данных (The Data Warehouse Institute) сформулировал несколько тенденций, знание которых помогут в решении этой задачи.

Более широкие возможности для обеспечения качества данных. О качестве данных говорится, словно это «цельный монолит». На самом деле качество данных – это совокупность восьми или более связанных технологий. Стандартизация данных – наиболее часто используемый метод, за ним следуют верификация, валидация, мониторинг, профилирование, согласование и т. д. TDWI регулярно сталкивается с организациями, которые применяют только один метод, причем порой лишь к одному набору данных или предметной области. Большинство решений для обеспечения качества данных должны расширить количество применяемых технологий, наборов данных и предметных областей.

Обеспечение качества данных в реальном времени. В соответствии с исследованием TDWI, обеспечение качества данных в реальном времени - это вторая быстро развивающая дисциплина после управления мастер-данными, предшествующая по популярности интеграции данных в реальном времени. Филип Рассом рекомендует наделить её высоким приоритетом, чтобы данные очищались и стандартизировались сразу после создания или обновления.

Координация с другими дисциплинами управления данными. Функции обеспечения качества данных полезны для связанных с ними дисциплин управления данными. Например, эти функции должны быть применены к справочным данным, управляемым с помощью решения для управления мастер-данными, а решения для интеграции неизменно выявят проблемы с качеством данных.

Углублённое профилирование. Профилирование данных зачастую поверхностно, генерирует простую статистику для значений, найденных в одной базе данных, таблице или столбце. Оно должно быть расширено для обнаружения более серьезных изъянов в данных. Следует повторно профилировать данные в формате мониторинга, что проверить, повысилось ли качество данных.

Инструменты поставщика. Многие решения для обеспечения качества данных первого поколения были самописными внутренними разработками. Например, стандартизация - наиболее часто используемый метод, и в самом простейшем случае она может быть выполнена путём ручного кодирования на SQL или разработана с помощью ETL-инструмента. Такие решения демонстрируют полезность программной автоматизации задачи обеспечения качества данных, однако следует ожидать этапов жизненного цикла, требующих наличия функциональности, которую лишь немногие организации могут обеспечить самостоятельно, например, выявления идентичности, вероятностного соответствия, интернационализации, операций в реальном времени, служб качества данных и узловой архитектуры.

Публикации

  1. «Отчёт об исследовании текущей ситуации в сфере качества данных» (The State of Information and Data Quality 2012 Industry Survey& Report), ноябрь 2012 года.
  2. Филип Рассом (Philip Russom). «Основные 10 приоритетов для решений по обеспечению качества данных» (Top 10 Priorities for Data Quality Solutions). 12 февраля 2013 года.