Низкое качество данных – проблема, о которой постоянно говорят специалисты. Решить ее не просто, но эффективные методы существуют и о них говорят ведущие эксперты.
Использование данных низкого качества по-прежнему дорого обходится компаниям. По оценке консалтинговой компании Oliver Wyman, австралийские компании, занятые в финансовой сфере, могли терять десятки миллионов долларов в год из-за использования данных низкого качества для принятия решений.
Майк Торнтон (Mike Thornton), директор управления рисками старейшей австралийской компании AMP, которая специализируется на финансовом консультировании, связывает низкое качество данных с наличием устаревших IT-систем: «Я думаю, любая крупная компания имеет прежние системы, в которых хранятся не те данные, которые вам нужны».
Внедрение хранилищ данных, которые объединяют разные источники информации, помогает снизить риски, связанные с низкокачественными данными. Однако, как отмечает Торнтон, объединение систем требует больших затрат.
Ховард-Джонс, эксперт Oliver Wyman, признавая полезность ПО и сервисов для улучшения данных, тем не менее, призывает решать проблемы качества данных в корне. По его словам, тем, кто принимает решения и управляет рисками, требуются точность, полнота, целостность, своевременность, долговечность, обоснованность, доступность и интегрированность данных.
«Вам нужно определить основные области, где качество данных низкое, пообщаться с сотрудниками, которые с ними работают, и понять контекст», - советует эксперт.
Следует также учитывать, что сотрудники, непосредственно создающие данные, могут не видеть преимуществ, которые дают данные высокого качества, отмечает эксперт. Также непросто определять ответственность за направления работы, связанные с данными, поскольку прибыль распределяется в целом по компании и ее сложно подсчитать. «Высчитать влияние данных низкого качества очень сложно», - говорит Торнтон.
По мнению Ховард-Джонса, для того чтобы улучшить качество данных, исполнительному и финансовому директорам, а также директору по рискам нужно работать над установлением в компании правильной культуры отношения к данным и созданием прозрачности в отношении стоимости данных низкого качества. Между теми, кто создает данные, и теми, кто принимает решения на их основе, существует большой разрыв. Если его обнаружить и исправить, это серьезно улучшить ситуацию с данными, считает эксперт.
Проблема качества данных становится особенно актуальной, учитывая высокие темпы роста объемов данных. Слияния, приобретения, новые каналы продаж и другие формы реструктурирования бизнеса приносят новые источники данных. Эта информация может быть крайне полезна, но зачастую превращается в неупорядоченную массу, которую трудно воспринимать как интегрированное целое. В результате пользователи не уверены, насколько можно доверять новым данным, насколько они целостны, точны и полны, это приводит к тому, что процессы подготовки финансовой отчетности или реализация стратегически важных проектов останавливаются в своем развитии.
В настоящее время все больше компаний и специалистов по данным сходятся во мнении, что объемы и сложность данных приводят к тому, что «ручные» способы их обработать требуют очень много времени, а порой решить эти проблемы вручную в принципе невозможно.
Институт хранилищ данных опубликовал отчет, посвященный улучшению ситуации с данными. Вот какие советы дают эксперты.
Первый этап. Улучшение качества данных с помощью установления и документирования отношений между данными. Многие компании хотят превратить свои данные в корпоративный актив. То есть выйти за рамки хранения информации в разрозненных источниках и обеспечить доступ к интегрированным данным в рамках компании в целом. Обычная цель – достичь единого видения всей информации о клиентах, продуктах, услугах и других областях. Однако если никто не знает точно, где находятся нужные данные и как они используются, эта цель вряд ли будет достигнута. Поэтому первый шаг – обнаружить эти данные. Это покажет, как элементы данных связаны внутри массивов данных и между ними. Документирование этих взаимосвязей может помочь компаниям в проектах на протяжении всего жизненного цикла данных, включая рационализацию, консолидацию и архивирование.
Процессы обнаружения данных начинаются с определения атрибутов данных, включая первичный и внешний ключи. Хотя эти взаимоотношения могут быть определены в каталоге базы данных, приложения нередко дают иное представление этих связей. Недокументированное применение этих отношений на уровне приложения – частый источник проблем с интегрированностью данных, отмечают специалисты.
Эти процессы должны также обнаружить, где разработчики могли оставить недокументированные изменения в именах колонок и строк базы данных. Автоматизация процесса обнаружения данных может помочь аналитику, работающему с источниками данных больших и сложных приложений, ускорить свою работу.
Второй этап. Определение бизнес-объектов внутри источников данных и между ними. Этот процесс может быть достаточно сложным даже в случае небольшого источника данных, а когда речь идет о тысячи таблиц и столбцов в множестве источников, задача находится за пределами ручного управления.
Процессы обнаружения данных позволят компаниям построить свои бизнес-объекты от начала до конца. Ускорить эти процессы можно за счет автоматизации.
Результатом на этом этапе будет использование процессов обнаружения данных для определения структуры и границ бизнес-объектов. Это позволит аналитикам увидеть, как таблицы могут быть естественным образом сгруппированы для поддержки бизнес-сущностей или объектов.
Определения бизнес-объектов помогают в случае, когда добавляются новые внешние источники данных, особенно в случае заключения сделок слияний и поглощений. После определения и документирования взаимоотношений между данными и бизнес-объектами, компании будут готовы предпринять дальнейшие шаги по преобразованию объектов для поддержки консолидации и трансформации данных.
Третий этап. Ускорение консолидации данных с помощью автоматизации преобразования бизнес-объектов. Столкнувшись с разрозненными источниками данных, многие руководители хотят консолидировать их. Обычно это данные ERP, CRM-приложений и других программных продуктов, и они обычно используют логические схемы обработки информации, которые не были хорошо задокументированы. Без должной документации и классификации всех элементов данных, которые важны для бизнес-объектов высокого уровня, усилия по консолидации потерпят крах из-за неупорядоченности данных и конфликтующих атрибутов. Таким образом, необходимо преобразовать бизнес-термины и объекты в физические активы данных. Документирование правил преобразования также важный результат этих усилий. Опять же, автоматизация значительно ускорит эти процессы.
Четвертый этап. Понимание трансформации данных для более эффективного управления. Преобразование данных имеет важнейшее значение для превращения исходных данных в полезные данные, пригодные для составления отчетности, OLAP- и операционных приложений. Понимание того, какие преобразования происходят, помогут понять, кто использует данные и что они с ними делают. Это важные вопросы, в частности, для приведения данных в соответствие с требованиями контролирующих органов. Зная о том, как происходит преобразование данных, можно уменьшить затраты на управление информацией там, где процессы могут быть устаревшими или избыточными.
Как показывает практика, случаи, когда логика и правила преобразования данных в крупной компании хорошо задокументированы, обычно редки. В результате аналитики часто вынуждены смотреть на сами данные, чтобы увидеть, как они перемещались и трансформировались. Правила и логика трансформации данных могут включать не только алгоритмы агрегации, но также арифметические вычисления, операции над записями и специализированные бизнес-правила. Их обнаружение нередко требует пристального внимания аналитиков. Поэтому необходимо уделять важное внимание обнаружению правил и логики преобразования данных. Автоматизированные инструменты могут помочь аналитикам ускорить этот процесс. Компании могут использовать полученное знание для более эффективного управления ETL- и другими процессами трансформации данных. Знание о преобразованиях, которые используются в компании, может ускорить процедуры, связанные с качеством данных и аудитом.
Пятый этап. Обнаружение схем и метаданных для поддержки управления метаданными. Когда компании вырастают до таких размеров, что имеют множество приложений и баз данных, они сталкиваются с проблемами управления бизнес-объектами, определениями и классификациями, важных для координации доступа к данным. В результате могут увеличиться затраты на управление информацией и снизиться адаптивность компании к изменениям. Давление контролирующих органов сделало практически недопустимым плохое управление доступом к конфиденциальным данным, относящимся к бизнес-объектам, неважно, где хранятся эти данные.
Для решения этих вопросов приоритетным направлением стало управление мастер-данными, но его сложно внедрить. MDM связано с созданием справочной системы, реестра или их гибрида, который предоставляет компании общие, бизнес-ориентированные определения клиентов и других бизнес-объектов. Для поддержки MDM необходимо выявить схемы внутри источников данных и между ними, особенно установить необъявленные и недокументированные взаимосвязи между данными. Эта информация должна быть зафиксирована в репозиториях метаданных. Компании должны оценить, как автоматизированные инструменты обнаружения данных могут дополнить существующие инструменты профилирования и преобразования, которые могут быть эффективными для одиночных систем, но не подходить для обнаружения правил, логики атрибутов между системами. Автоматизированные инструменты также могут позволить аналитикам сфокусироваться на обнаружении исключений, а не тратить время на решение рутинных задач.
Шестой этап. Определение местонахождения конфиденциальных данных с тем, чтобы предотвратить их нелегальное разглашение. Большинство организаций имеют ценную информацию, которую они пытаются всячески защитить от нелегального использования или попадания к конкурентам. Для этого необходимо обнаружить эти данные, заблокировать возможность их копирования и выявить взаимосвязи между элементами этих данных. Старые системы обычно не имеют должных метаданных для описания структур данных, что затрудняет поиск этих элементов. Повысить эффективность этих процессов можно с помощью автоматизации.
Седьмой этап. Поддержка политики управления множественными системами с помощью обнаружения данных. Потребность в управлении данными возрастает по мере того, как требования регулирующих органов концентрируются на использовании информации. Реализация политики управления данными включает определение и защиту данных, а также управление ими во множестве систем в разных местах. Без надежных и повторяемых методов определения того, где находятся данные и как они преобразуются, компании будут испытывать сложности с тем, чтобы соответствовать требованиям контролирующих органов.
Специалисты по управлению данными должны знать, как данные в одной системе соотносятся с данными в другой, и иметь средства для проверки этой информации, поскольку имена атрибутов данных и структур в системах могут быть ненадежными. На этом этапе важна возможность последовательно анализировать все источники данных и выявлять случаи избыточности, несоответствие и дублирования данных.
Мастер-данные играют основную роль в управлении данными, однако, инструменты MDM обычно не работают с обнаружением и преобразованием данных. Здесь могут помочь автоматизированные инструменты, которые могут ускорить получение необходимой информации и ее документирование.
Проблемы с качеством данных часто выявляются в процессе интеграции данных. Филипп Рассом (Philip Russom), директор по исследованиям и управлению данными Института хранилищ данных обращает внимание на тот факт, что результаты интеграции данных, которая повышает эффективность бизнеса, можно обнаружить повсюду в компании, но немногие понимают и задумываются над тем, как именно это происходит. Рассом выделяет несколько путей, посредством которых интеграция данных увеличивает ценность бизнеса.
Многие деловые практики зависят от одной или нескольких форм интеграции данных. Некоторые практики просто немыслимы без интеграции данных:
Признания ценности интеграции данных сложнее достичь, потому что решение по интеграции данных обычно отделено от приложений и интегрированных данных, которые видят пользователи. Однако эту ценность, тем не менее, можно увидеть. Например:
Даже когда информация видна в отчете или в графическом интерфейсе пользователя, пользователи могут забыть, что эта информаций предоставлена за счет интеграции данных.
Между тем нужно иметь в виду, что сегодня интеграция данных – быстрорастущая дисциплина, которая предоставляет данные для многих видов приложений, как аналитических, так и операционных, напоминает эксперт.
По мнению Рассома, обычное заблуждение заключается в том, что интеграция данных заключается просто в перемещении данных. Но все специалисты по интеграции данных знают, что невозможно просто перемещать данные. Необходимо их улучшить. В действительности, любое хорошее решение по интеграции данных – процесс, добавляющий ценность.
Решение проблемы качества данных – долгий процесс, требующий пристального внимания специалистов и автоматизации процессов. Однако кропотливая работа, связанная с выявлением связей между данными, их документирование и упорядочивание приносит свои плоды. Важное место занимает автоматизация этих процессов. Также не стоит пренебрегать интеграцией данных. Как показали материалы Института хранилищ данных, она играет важную роль в повышении ценности данных.