Журнал ВРМ World

Мировая история развития технологий управления эффективностью бизнеса – обзоры зарубежных публикаций

Электронное качество данных: скрытая перспектива очистки данных

Безусловно, данные нуждаются в усовершенствовании. Но, как известно, в любом
деле - и данная задача здесь не является исключением - лучше соблюдать золотую
середину. В этой статье авторы описывают два вида типичных ошибок, характерных
для процесса очистки данных. Кроме того, описаны основные критерии, по которым
следует выбирать системы очистки данных.

Роль автора как системного интегратора дает возможность контактировать с рядом ведущих провайдеров бизнес-аналитических (BI) инструментов и средств обеспечения качества данных. Сохраняя нейтралитет относительно всех достоинств и недостатков различных продуктов, специалисты по Хранилищам данных и бизнес-анализу (BI) время от времени стремятся официально оформить отношения с поставщиками, вступая в различные партнерские соглашения. Такие отношения позволяют совершенствовать предоставляемые потребителям сервисы за счет увеличения знаний и возможностей используемых инструментов, а также за счет расширения доступа к базе знаний поставщиков.

Как раз в процессе такого обмена знаниями автору удалось провести несколько дней в компании Firstlogic в Ла Кроссе, Висконсин. Firstlogic работает на специализированном рынке очистки данных. Другими лидерами рынка в этом секторе являются такие фирмы, как Trillium Software, Group-1 Software, Vality Technology и Innovative Systems. Термин "очистка данных" может иметь множество значений, но в целом он означает обеспечение поддержки очистки данных, так или иначе связанных с потребителем. Приложения очистки данных в рамках таких средств обычно выполняют одну или несколько следующих функций:

  • Парсинг. Имя и адрес клиента часто хранится в текстовых полях свободного формата. Текст свободного формата иногда труден для разбиения на самостоятельные подстроки, соответствующие типу поля, к которому они относятся (номер улицы, улица адреса, город, штат, индекс и другие данные подобного характера). Программное обеспечение, осуществляющее парсинг, распознает такие подстроки и назначает им соответствующие поля. Например, приложение Firstlogic i.d.Centic содержит функции парсинга, включающие в себя возможность идентификации компонент имени, должности, компании и адреса даже в случае непоследовательно введенных данных. К тому же, парсинг фирм и стандартизация слов, связанных с описанием фирм, позволяет программе полностью проверить данные о фирмах - включая и сокращения - и стандартизировать фирмы в едином согласованном формате. Большинство поставщиков обеспечивают возможность изменение словарей парсинга в своих инструментах для обработки специфических имен и данных о фирмах, имеющихся у клиента. Vality Technology, например, использует собственный метод парсинга - "лексический анализ". На заре аналитики данных, INTEGRITY, флагманский продукт компании Vality, использовался при парсинге и анализе текста свободного формата для выявления в данных имен и адресов.


  • Стандартизация. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса. У Почтовой службы Соединенных Штатов Америки существуют стандарты для этих и других подобных случаев. Программы стандартизации трансформируют такие поля в согласованный набор обозначений, подходящих для Почтовой службы. Самым важным объектом стандартизации являются записи по клиентам, точность которых может быть существенно повышена за счет использования процесса согласования, описанного далее.


  • Проверка допустимости. Множество поставщиков предлагают средства распознавания допустимых международных и американских адресов. Например, приложение компании Firstlogic объединено с программой проверки допустимости и файлами почтовых адресов (postal address files, PAFs), проверяющих допустимость международных адресных данных. А компания Group-1 недавно объявила о выпуске аналогичного продукта - CODE-1 Plus International 1.5, - способного отсылать и возвращать адресные данные в формате конкретной страны, а в ряде случаев - и с использованием специфических символов, принятых в различных странах для обозначения соответствующей информации.


  • Улучшение. Ряд поставщиков предлагают программы, добавляющие к данным дополнительные факты о записях, изначально в них не содержавшиеся. Программное обеспечение Firstlogic, например, содержит возможность присвоения клиентам пола на основании анализа его имени и других показателей его профайла.

    Кроме того, многие поставщики могут устанавливать географическую информацию, обозначающую гео-код, долготу и широту указанной местности. Наиболее же ценным дополнением клиентского профайла являются данные третьих фирм, содержащие демографическую и психографическую информацию. Например, Trillium Software, подразделение Harte-Hanks, специализируется на обеспечении именно таких данных.


  • Согласование и консолидация. Как только имя и адрес очищены, для устранения дублирования клиентов в рамках каждого списка и соединения данных из различных источников применяется программа согласования. Большинство средств содержат алгоритмы расстановки приоритетов между полями (в процессе согласования) и контроля очередности сравнения полей.

Firstlogic поддерживает два набора продуктов: Postalsoft и i.d.Centric. Postalsoft представляет собой средство автоматизации документации и почты, предназначенное для печати настроенных согласно требованиям пользователя документов, а i.d.Centric является средством интеграции клиентских данных и реализации функций очистки, улучшения и согласования местных и международных клиентских данных.

Нынешний набор возможностей i.d.Centric включает Rapid Application Integration Deployment (для интерактивных и пакетно-ориентированных приложений); Links (программное обеспечение, интегрированное с Siebel, PeopleSoft, ONYX, Informatica, Informix - Ardent Datastage - и Torrent); eDataQuality (программное обеспечение для транзакционных, онлайновых, распределенных сред); Stand-Alone (готовое решение для пакетных файлов) и Library (набор инструментов для настраиваемой интеграции с существующим программным обеспечением приложений).

Во время визита в Firstlogic автор имел возможность пообщаться с ведущими менеджерами по продажам, маркетингу, финансам, разработке продуктов и т.д. В процессе такого общения автор отметил, что, в отличие от других аналогичных компаний Firstlogic не расширяет свою деятельность на рынках других привлекательных средств автоматизации, совершенствуя именно область очистки данных. В компании уверены, что развитие электронного бизнеса, бизнес-аналитики (BI) и управления отношениями с клиентами будет продолжать стимулировать расширение рынка мощных решений для очистки данных.

Разработчики Firstlogic положительно оценивают перспективы своих продуктов. Дополнив поддерживаемые платформы системой Linux, они планируют выйти на рынок серверов и сектор систем обеспечения качества информации на мейнфрейме. Кроме того, Firstlogic также собирается расширять возможности своих продуктов в области работы с данными других типов (не являющимися именами и адресами) за счет совершенствования возможностей обработки международных данных и связей с ключевыми пакетами электронного бизнеса и поставщиками соответствующих средств.

Как и многие другие в данном секторе рынка, Firstlogic рассматривает качество данных с корпоративной точки зрения. Качество информации становится важнейшим фактором успеха не только в области оформления заказов, но и в их обработке, в электронном бизнесе, планировании ресурсов предприятий (ERP) и управлении отношениям с клиентами. И весьма скоро можно будет убедиться, что очистка данных станет естественной и неотъемлемой частью всякого эффективного решения, предназначенного для работы с клиентским данными.



Автор: Роналд Фоурино (Ronald Forino)