- 8 ноября 2011 г.
Качество и интеграция данных: практические советы
Исследователи TDWI делятся своим опытом, как повысить качество данных и
правильно оценить реальную ценность интеграционных проектов.
Низкое качество данных – проблема, о которой постоянно говорят специалисты. Решить ее не просто, но эффективные методы существуют и о них говорят ведущие эксперты.
Низкое качество данных как культурная проблема
Использование данных низкого качества по-прежнему дорого обходится компаниям. По оценке консалтинговой компании Oliver Wyman, австралийские компании, занятые в финансовой сфере, могли терять десятки миллионов долларов в год из-за использования данных низкого качества для принятия решений.
Майк Торнтон (Mike Thornton), директор управления рисками старейшей австралийской компании AMP, которая специализируется на финансовом консультировании, связывает низкое качество данных с наличием устаревших IT-систем: «Я думаю, любая крупная компания имеет прежние системы, в которых хранятся не те данные, которые вам нужны».
Внедрение хранилищ данных, которые объединяют разные источники информации, помогает снизить риски, связанные с низкокачественными данными. Однако, как отмечает Торнтон, объединение систем требует больших затрат.
Ховард-Джонс, эксперт Oliver Wyman, признавая полезность ПО и сервисов для улучшения данных, тем не менее, призывает решать проблемы качества данных в корне. По его словам, тем, кто принимает решения и управляет рисками, требуются точность, полнота, целостность, своевременность, долговечность, обоснованность, доступность и интегрированность данных.
«Вам нужно определить основные области, где качество данных низкое, пообщаться с сотрудниками, которые с ними работают, и понять контекст», - советует эксперт.
Следует также учитывать, что сотрудники, непосредственно создающие данные, могут не видеть преимуществ, которые дают данные высокого качества, отмечает эксперт. Также непросто определять ответственность за направления работы, связанные с данными, поскольку прибыль распределяется в целом по компании и ее сложно подсчитать. «Высчитать влияние данных низкого качества очень сложно», - говорит Торнтон.
По мнению Ховард-Джонса, для того чтобы улучшить качество данных, исполнительному и финансовому директорам, а также директору по рискам нужно работать над установлением в компании правильной культуры отношения к данным и созданием прозрачности в отношении стоимости данных низкого качества. Между теми, кто создает данные, и теми, кто принимает решения на их основе, существует большой разрыв. Если его обнаружить и исправить, это серьезно улучшить ситуацию с данными, считает эксперт.
Работа с данными. Советы экспертов.
Проблема качества данных становится особенно актуальной, учитывая высокие темпы роста объемов данных. Слияния, приобретения, новые каналы продаж и другие формы реструктурирования бизнеса приносят новые источники данных. Эта информация может быть крайне полезна, но зачастую превращается в неупорядоченную массу, которую трудно воспринимать как интегрированное целое. В результате пользователи не уверены, насколько можно доверять новым данным, насколько они целостны, точны и полны, это приводит к тому, что процессы подготовки финансовой отчетности или реализация стратегически важных проектов останавливаются в своем развитии.
В настоящее время все больше компаний и специалистов по данным сходятся во мнении, что объемы и сложность данных приводят к тому, что «ручные» способы их обработать требуют очень много времени, а порой решить эти проблемы вручную в принципе невозможно.
Институт хранилищ данных опубликовал отчет, посвященный улучшению ситуации с данными. Вот какие советы дают эксперты.
Первый этап. Улучшение качества данных с помощью установления и документирования отношений между данными. Многие компании хотят превратить свои данные в корпоративный актив. То есть выйти за рамки хранения информации в разрозненных источниках и обеспечить доступ к интегрированным данным в рамках компании в целом. Обычная цель – достичь единого видения всей информации о клиентах, продуктах, услугах и других областях. Однако если никто не знает точно, где находятся нужные данные и как они используются, эта цель вряд ли будет достигнута. Поэтому первый шаг – обнаружить эти данные. Это покажет, как элементы данных связаны внутри массивов данных и между ними. Документирование этих взаимосвязей может помочь компаниям в проектах на протяжении всего жизненного цикла данных, включая рационализацию, консолидацию и архивирование.
Процессы обнаружения данных начинаются с определения атрибутов данных, включая первичный и внешний ключи. Хотя эти взаимоотношения могут быть определены в каталоге базы данных, приложения нередко дают иное представление этих связей. Недокументированное применение этих отношений на уровне приложения – частый источник проблем с интегрированностью данных, отмечают специалисты.
Эти процессы должны также обнаружить, где разработчики могли оставить недокументированные изменения в именах колонок и строк базы данных. Автоматизация процесса обнаружения данных может помочь аналитику, работающему с источниками данных больших и сложных приложений, ускорить свою работу.
Второй этап. Определение бизнес-объектов внутри источников данных и между ними. Этот процесс может быть достаточно сложным даже в случае небольшого источника данных, а когда речь идет о тысячи таблиц и столбцов в множестве источников, задача находится за пределами ручного управления.
Процессы обнаружения данных позволят компаниям построить свои бизнес-объекты от начала до конца. Ускорить эти процессы можно за счет автоматизации.
Результатом на этом этапе будет использование процессов обнаружения данных для определения структуры и границ бизнес-объектов. Это позволит аналитикам увидеть, как таблицы могут быть естественным образом сгруппированы для поддержки бизнес-сущностей или объектов.
Определения бизнес-объектов помогают в случае, когда добавляются новые внешние источники данных, особенно в случае заключения сделок слияний и поглощений. После определения и документирования взаимоотношений между данными и бизнес-объектами, компании будут готовы предпринять дальнейшие шаги по преобразованию объектов для поддержки консолидации и трансформации данных.
Третий этап. Ускорение консолидации данных с помощью автоматизации преобразования бизнес-объектов. Столкнувшись с разрозненными источниками данных, многие руководители хотят консолидировать их. Обычно это данные ERP, CRM-приложений и других программных продуктов, и они обычно используют логические схемы обработки информации, которые не были хорошо задокументированы. Без должной документации и классификации всех элементов данных, которые важны для бизнес-объектов высокого уровня, усилия по консолидации потерпят крах из-за неупорядоченности данных и конфликтующих атрибутов. Таким образом, необходимо преобразовать бизнес-термины и объекты в физические активы данных. Документирование правил преобразования также важный результат этих усилий. Опять же, автоматизация значительно ускорит эти процессы.
Четвертый этап. Понимание трансформации данных для более эффективного управления. Преобразование данных имеет важнейшее значение для превращения исходных данных в полезные данные, пригодные для составления отчетности, OLAP- и операционных приложений. Понимание того, какие преобразования происходят, помогут понять, кто использует данные и что они с ними делают. Это важные вопросы, в частности, для приведения данных в соответствие с требованиями контролирующих органов. Зная о том, как происходит преобразование данных, можно уменьшить затраты на управление информацией там, где процессы могут быть устаревшими или избыточными.
Как показывает практика, случаи, когда логика и правила преобразования данных в крупной компании хорошо задокументированы, обычно редки. В результате аналитики часто вынуждены смотреть на сами данные, чтобы увидеть, как они перемещались и трансформировались. Правила и логика трансформации данных могут включать не только алгоритмы агрегации, но также арифметические вычисления, операции над записями и специализированные бизнес-правила. Их обнаружение нередко требует пристального внимания аналитиков. Поэтому необходимо уделять важное внимание обнаружению правил и логики преобразования данных. Автоматизированные инструменты могут помочь аналитикам ускорить этот процесс. Компании могут использовать полученное знание для более эффективного управления ETL- и другими процессами трансформации данных. Знание о преобразованиях, которые используются в компании, может ускорить процедуры, связанные с качеством данных и аудитом.
Пятый этап. Обнаружение схем и метаданных для поддержки управления метаданными. Когда компании вырастают до таких размеров, что имеют множество приложений и баз данных, они сталкиваются с проблемами управления бизнес-объектами, определениями и классификациями, важных для координации доступа к данным. В результате могут увеличиться затраты на управление информацией и снизиться адаптивность компании к изменениям. Давление контролирующих органов сделало практически недопустимым плохое управление доступом к конфиденциальным данным, относящимся к бизнес-объектам, неважно, где хранятся эти данные.
Для решения этих вопросов приоритетным направлением стало управление мастер-данными, но его сложно внедрить. MDM связано с созданием справочной системы, реестра или их гибрида, который предоставляет компании общие, бизнес-ориентированные определения клиентов и других бизнес-объектов. Для поддержки MDM необходимо выявить схемы внутри источников данных и между ними, особенно установить необъявленные и недокументированные взаимосвязи между данными. Эта информация должна быть зафиксирована в репозиториях метаданных. Компании должны оценить, как автоматизированные инструменты обнаружения данных могут дополнить существующие инструменты профилирования и преобразования, которые могут быть эффективными для одиночных систем, но не подходить для обнаружения правил, логики атрибутов между системами. Автоматизированные инструменты также могут позволить аналитикам сфокусироваться на обнаружении исключений, а не тратить время на решение рутинных задач.
Шестой этап. Определение местонахождения конфиденциальных данных с тем, чтобы предотвратить их нелегальное разглашение. Большинство организаций имеют ценную информацию, которую они пытаются всячески защитить от нелегального использования или попадания к конкурентам. Для этого необходимо обнаружить эти данные, заблокировать возможность их копирования и выявить взаимосвязи между элементами этих данных. Старые системы обычно не имеют должных метаданных для описания структур данных, что затрудняет поиск этих элементов. Повысить эффективность этих процессов можно с помощью автоматизации.
Седьмой этап. Поддержка политики управления множественными системами с помощью обнаружения данных. Потребность в управлении данными возрастает по мере того, как требования регулирующих органов концентрируются на использовании информации. Реализация политики управления данными включает определение и защиту данных, а также управление ими во множестве систем в разных местах. Без надежных и повторяемых методов определения того, где находятся данные и как они преобразуются, компании будут испытывать сложности с тем, чтобы соответствовать требованиям контролирующих органов.
Специалисты по управлению данными должны знать, как данные в одной системе соотносятся с данными в другой, и иметь средства для проверки этой информации, поскольку имена атрибутов данных и структур в системах могут быть ненадежными. На этом этапе важна возможность последовательно анализировать все источники данных и выявлять случаи избыточности, несоответствие и дублирования данных.
Мастер-данные играют основную роль в управлении данными, однако, инструменты MDM обычно не работают с обнаружением и преобразованием данных. Здесь могут помочь автоматизированные инструменты, которые могут ускорить получение необходимой информации и ее документирование.
В чем ценность интеграции данных?
Проблемы с качеством данных часто выявляются в процессе интеграции данных. Филипп Рассом (Philip Russom), директор по исследованиям и управлению данными Института хранилищ данных обращает внимание на тот факт, что результаты интеграции данных, которая повышает эффективность бизнеса, можно обнаружить повсюду в компании, но немногие понимают и задумываются над тем, как именно это происходит. Рассом выделяет несколько путей, посредством которых интеграция данных увеличивает ценность бизнеса.
1. Интеграция данных повышает ценность деловых практик.
Многие деловые практики зависят от одной или нескольких форм интеграции данных. Некоторые практики просто немыслимы без интеграции данных:
- Средства бизнес-анализа (BI) и хранилища данных. Принятие эффективных решений зависит от агрегированных, подсчитанных и привязанных ко времени значений данных в хранилище данных – данных и структур данных, которые не существовали бы без интеграции.
- Полное представление о бизнес-структурах. Например, успешные продажи или услуги часто зависят от полного представления каждого клиента, которое достигается обычно с помощью инструментов и методов интеграции данных.
- Интеграция разных бизнесов и их процессов посредством общих данных требует решения по интеграции данных. Это актуально как для случаев интеграции подразделений в рамках одной компании, так и разных компаний, которые используют обмен данными с помощью обмена данными по схеме "бизнес - бизнес".
- Предоставление информации в реальном времени. Такие деловые практики, как операционный BI, требуют решения по интеграции данных, которое может работать в реальном времени или близко к этому.
- Интеграция данных как процесс, добавляющий стоимость. Интеграция данных и схожие процессы (качество данных и управление мастер-данными) добавляют ценность данным, что в свою очередь увеличивает ценность бизнес-процессов, использующих данные.
2. Понимание ценности интеграции данных для бизнеса варьируется.
Признания ценности интеграции данных сложнее достичь, потому что решение по интеграции данных обычно отделено от приложений и интегрированных данных, которые видят пользователи. Однако эту ценность, тем не менее, можно увидеть. Например:
- Пользователь BI-инструментов, отправляя запрос в хранилище данных, видит данные, модели данных и метаданные, которые были построены решением по интеграции данных.
- Бизнес-пользователь видит (в графическом интерфейсе операционного приложения) полное представление о клиенте, которое было построено с помощью интеграции данных в форме синхронизации данных.
- Менеджер видит текущую информацию на инструментальной панели, которая обновляется в реальном времени или по запросу с помощью решения по интеграции данных.
Даже когда информация видна в отчете или в графическом интерфейсе пользователя, пользователи могут забыть, что эта информаций предоставлена за счет интеграции данных.
Между тем нужно иметь в виду, что сегодня интеграция данных – быстрорастущая дисциплина, которая предоставляет данные для многих видов приложений, как аналитических, так и операционных, напоминает эксперт.
3. По определению интеграция данных добавляет стоимость данным.
По мнению Рассома, обычное заблуждение заключается в том, что интеграция данных заключается просто в перемещении данных. Но все специалисты по интеграции данных знают, что невозможно просто перемещать данные. Необходимо их улучшить. В действительности, любое хорошее решение по интеграции данных – процесс, добавляющий ценность.
- Интеграция данных улучшает данные в процессе интеграции. Методы по улучшению качества данных включаются в решения по интеграции данных все чаще и чаще. Это естественно, потому что интеграция данных помогает обнаружить проблемы с качеством данных, которые требуют исправления, а также функциональные возможности для улучшения. Интеграция данных также улучшает модели данных, метаданные, мастер-данные и другие характеристики данных, благодаря чему данные становятся чище, полнее и согласованнее.
- Интеграция данных строит новые ценные базы данных. «Подумайте о собранных, рассчитанных и согласованных данных, которые находятся в хранилищах и витринах данных, репозиториях данных о клиентах и центрах мастер-данных», - говорит Рассом. Эти данные не найти больше нигде в компании. Интеграция данных собирает сырые данные из исходных систем и превращает их в продукт – новые выборки данных.
- Интеграция данных трансформирует данные, чтобы сделать их ценными для большего числа бизнес-процессов. Интеграция данных не просто помогает обработать данные, она также трансформирует данные таким образом, чтобы они соответствовали цели системы, отмечает эксперт. Другими словами интеграция данных видоизменяет данные так, чтобы больше людей могли извлечь из них пользу.
Заключение
Решение проблемы качества данных – долгий процесс, требующий пристального внимания специалистов и автоматизации процессов. Однако кропотливая работа, связанная с выявлением связей между данными, их документирование и упорядочивание приносит свои плоды. Важное место занимает автоматизация этих процессов. Также не стоит пренебрегать интеграцией данных. Как показали материалы Института хранилищ данных, она играет важную роль в повышении ценности данных.
Публикации
- Лиз Тэй. Актуарии подсчитывают стоимость данных низкого качества (Liz Tay. Actuaries count cost of poor data quality). 23 сентября 2011 г.
- Дэвид Стоддер. Семь этапов внедрения обнаружения данных. Отчет TDWI (David Stodder. TDWI Checklist Report: Seven Steps to Implementing Data Discovery). 19 сентября 2011 г.
- Филипп Рассом. Десять путей, которыми интеграция данных обеспечивает ценность бизнеса (Philip Russom. Ten Ways Data Integration Provides Business Value). 18 мая 2011 г.
Автор: По материалам зарубежных сайтов