Консалтинг и автоматизация в области управления
эффективностью банковского бизнеса

Журнал ВРМ World

«Большие данные» больше не проблема, а возможность для развития

Совсем недавно многие публикации, посвященные стремительному росту объемов данных, рассматривали этот процесс в негативном ключе, предрекая компаниям большие проблемы. Однако результаты последних исследований опровергают это мнение.

Стали известны результаты нового исследования Института хранилищ данных (TDWI). Оно было посвящено проблеме анализа «больших данных» (big data) и дает новое видение ситуации. В своем отчете эксперты обозначили интересные сдвиги в подходе к самой проблеме «больших данных». Если раньше они представляли серьезную техническую проблему, то теперь стали возможностью для развития бизнеса. Еще несколько лет назад возможности для хранения больших объемов данных были ограничены, а мощности процессоров не хватало для их обработки. Сегодня иная ситуация, объемы дисковых пространств, скорость и мощность процессоров значительно возросли, упав при этом в цене. Компании смогли перейти к накоплению и анализу больших объемов данных, пытаясь извлечь из них новую информацию, которая прежде была недоступна. Это крайне важная задача стала особенно актуальной в условиях экономического спада.

Исследование также ясно показало, что «большие данные» поступают из разных источников (мобильных устройств, веб-приложений, социальных сетей и пр.), при этом часть этих данных поступает в реальном времени. Другими словами, дело не только в больших объемах данных, а еще и в том, что эти данные разнообразны и извлекаются с разной скоростью и частотой.

Для обработки «больших данных» используются различные инструменты «продвинутой» аналитики: средства прогнозной аналитики и интеллектуальный анализ данных, статистические пакеты, приложения, опирающиеся на искусственный интеллект и обработку естественных языков и др. Все они вместе образуют технологии «аналитики больших данных» (big data analytics), одно из новейших направлений BI. Оно изучает мельчайшие детали бизнес-операций и взаимодействия с клиентами, которые редко попадают в хранилище данных или стандартные отчеты.

 «Большие данные» - дело не только в объеме

Большинство определений «больших данных» основывается на объеме, который, безусловно, имеет значение. Но эксперты обращают внимание на то, что есть и другие важные характеристики «больших данных» – это их разнообразие и скорость обращения. Очевидно, что объем данных – это базовая характеристика. Поэтому многие пользователи определяют большие объемы данных в терабайтах и петабайтах. Однако, эти данные могут быть определены также путем подсчета записей, транзакций, таблиц или файлов.

Предметная область также влияет на определение «больших данных». Например, во многих компаниях данные, собранные для обычных хранилищ данных, отличаются от данных, собранных специально для анализа «больших данных». Разные формы аналитики могут иметь разные выборки данных. И все эти подходы к определению «больших данных» постоянно меняются, в результате чего «большие данные» превращаются в «движущуюся мишень».

«Обнаруживающая» аналитика

Еще в 2009 году, согласно опросу TDWI, 38% компаний практиковали «продвинутую» аналитику, а 85% опрошенных планировали заняться ею в ближайшие три года. Эксперты Института хранилищ данных предлагают вместо «продвинутой аналитики» использовать другой термин – «обнаруживающая аналитика» (discovery analytics), поскольку пользователи стараются именно обнаружить новую информацию (некоторые используют термин «исследовательская аналитика»). Другими словами, пользователь выступает в качестве бизнес-аналитика, который пытается обнаружить новые факты, которые прежде были недоступны для аналитических инструментов. Для этого требуются большие объемы данных, откуда можно извлечь много детальной информации.

Обнаруживающая аналитика реализуется при помощи различных типов аналитических инструментов, включая те, которые основаны на средствах генерации SQL- запросов, интеллектуальном анализе данных, статистическом анализе, кластеризации фактов, визуализации данных, обработке естественных языков, анализе текста, искусственном интеллекте и т.д. Все эти технологии известны давно, многие из них появились еще в 1990-е. Но сегодня их использует намного большее число компаний, потому что многие из этих инструментов очень хорошо подходят для обработки очень больших объемов данных.

Аналитика «больших данных»

Аналитика «больших данных» (big data analytics) – область, где «продвинутые» аналитические технологии применяются для обработки больших объемов данных. Примечательно, что, как показали результаты опроса, большинство пользователей понимают концепцию «аналитики «больших данных»», независимо от того, пользуются ли они этим определением или нет.

Так, только 7% опрошенных сказали, что не видели и не слышали ничего похожего на аналитику «больших данных». Большинство респондентов не имеют отдельного термина для ее обозначения, но понимают определение (65% опрошенных). И 18% респондентов используют термин «аналитика «больших данных»». Часть опрошенных пользуются термином «продвинутая аналитика» (12%) или просто «аналитика» (12%).

Как показали результаты опроса, аналитика «больших данных» - быстрорастущая и важная сфера деятельности. Около трех четвертей респондентов (74% опрошенных) заявили, что используют аналитические инструменты того или иного типа. Это не удивительно, учитывая что это направление существует по меньшей мере 15 лет. При этом 40% опрошенных используют «продвинутую» аналитику не для «больших данных». Только треть компаний (34%) обрабатывают большие объемы данных. Другими словами, они используют ту или иную форму «продвинутой» аналитики и применяют ее для анализа «больших данных». Это довольно хороший показатель, считают эксперты, учитывая новизну самой этой комбинации – «продвинутой» аналитики и «больших данных».

В отчете также говорится, что аналитические приложения имеют привязку к определенному отделу. Они имеют свои задачи, области данных и возможности, связанные с определенным отделом. Следовательно, обычное аналитическое приложение удовлетворяет требования отдела, а не компании в целом.

Не все хранилища данных и технологии бизнес-аналитики разработаны для углубленной аналитики. Как показали результаты исследования, в большинстве компаний пользователи разрабатывают и оптимизируют свои приложения для составления отчетов, управления эффективностью бизнеса и OLAP. То есть без расчета на применение средств «продвинутой» аналитики и анализа «больших данных». Причем это ограничение возникло в результате сознательного решения пользователей, а не по вине поставщика, отмечают эксперты.

Сколько, где и какие?

Как показал опрос, треть опрошенных компаний уже перешли барьер в 10 Тб (37% респондентов). Таким образом, средний объем данных, обрабатываемых средствами продвинутой аналитики в настоящий момент, находится в диапазоне 10-100 Тб.

Меньшие объемы данных постепенно становятся редкостью, а вот диапазоны в 100-500 Тб и более 500 Тб станут более распространенными, согласно прогнозам.

Большая часть этих данных находится и обрабатывается в корпоративных хранилищах данных (64% опрошенных), витринах и оперативных складах данных (38% опрошенных), и только на третьем месте – в специализированных базах данных, предназначенных для анализа больших объемов данных (28%).

По результатам исследования получается, что «большие данные» - это прежде всего структурированные данные (92% респондентов). Полуструктурированные данные (XML и схожие стандарты) используют более половины опрошенных (54%). Столько же респондентов (54%) используют сложные данные (иерархические). Данные, связанные с событиями (сообщения, обычно в реальном времени), применяют чуть меньше половины опрошенных (45%). Далее идут неструктурированные данные (человеческий язык, аудио, видео - 35% респондентов); данные из социальных медиа (блоги, твиты, социальные сети – 34%); веб-логи и сведения о посещениях веб-страниц (31% респондентов) и др.

Скорость тоже важна

Скорость обращения данных – третья базовая характеристика «больших данных» (наряду с объемом и видом). Эта характеристика показывает, как часто данные генерируются приложением, а также с какой скоростью данные доставляются в аналитическую выборку данных.

Согласно результатам опроса, на сегодняшний день данные в большинстве аналитических приложений обновляются ежедневно, еженедельно, ежемесячно и/или ежегодно. Это значит, что обновление в течение дня (каждые несколько часов, ежечасно или в реальном времени) пока еще редкость для приложений, обрабатывающих «большие данные». Частота обновлений, по результатам опроса, распределилась следующим образом: ежегодно (15% опрошенных), ежемесячно (35%), еженедельно (14%), ежедневно (24%), каждые несколько часов (5%), в реальном времени (4%).

 «Большие данные» и хранилища данных

Примечательно, что Джеймс Кобьелус (James Kobielus), ведущий аналитик Forrester Research, пытаясь дать определение «большим данным», выделяет те же аспекты, что и эксперты Института хранилищ данных. Во-первых, объемы данных – от терабайтов до петабайтов и больше. Во-вторых, скорость обращения данных – получение данных в реальном времени, преобразование, запрос и доступ. В-третьих, многообразие данных.

Кобьелус выделяет три подхода, с помощью которых хранилища данных могут помочь извлечь полезную информацию из «больших данных».

Первый подход основан на том, что в хранилище данных данные организованы по предметным областям, которые часто сохраняются в кубах OLAP. Другими словами, клиентские данные хранятся в одном разделе, финансовые в другом и т.д. Это помогает лучше понять, какие данные будут полезны для тех или иных приложений и пользователей. И этот подход, по мнению эксперта, также можно использовать для анализа «больших данных» с помощью хранилища данных.

Второй подход основывается на базах данных, оптимизированных для выполнения аналитических операций (in-database analytics), и использует хранилище данных для выполнения профилирования данных, очистки данных и углубленного анализа данных (data mining) или регрессионного анализа для сегментирования данных. Другими словами, речь идет об использовании полного спектра возможностей углубленного анализа данных, но выполняется это внутри хранилища данных. Это поможет получить полезную информацию из этих данных с помощью углубленного анализа данных или регрессионного анализа для поиска паттернов в данных. Затем, пишет эксперт, можно применить встроенные в базу данных инструменты углубленного анализа данных для наполнения аналитических витрин данных, которые используются специалистами по интеллектуальному анализу данных и статистическому моделированию при визуализации сложных паттернов.

Кобьелус отмечает, что базы данных, оптимизированные для выполнения аналитических операций, все больше и больше используется компаниями. На сегодняшний день, по его словам, это лучший вид архитектуры, до которой можно развить хранилище данных, если компания занимается углубленным анализом данных. Большинство существующих хранилищ данных предназначены для операционной бизнес-аналитики, составления отчетности и обработки запросов, и не используются для углубленного анализа данных. Но чем крупнее становится компания, тем больше потребность во внедрении баз данных, оптимизированных для выполнения аналитических операций.

Третий и самый лучший подход, как считает эксперт, использовать хранилища данных для управления корпоративными данными и поддержания мастер-данных в хранилище данных в надлежащем состоянии. У компании могут быть десятки или сотни исходных приложений, которые поставляют данные в хранилище данных. Поскольку данные поступают в реальном времени, хранилище данных становится ключевым пунктом для понимания того, заслуживают ли «большие данные» доверия и могут ли быть использованы в дальнейшей работе.

Заключение

Новейшие исследования убедительно продемонстрировали, что «большие данные» не так страшны, как казалось. Мощности современных процессоров и уровень развития приложений и технологий позволяют не только не «утонуть» в лавинах информации, но и извлечь из нее пользу. Главное, использовать свои приложения должным образом.

Публикации

  1. Марк Брунелли. Концепции обычных хранилищ данных и Hadoop: интервью с Forrester Research (Mark Brunelli. Customary data warehouse concepts vs. Hadoop: Forrester makes the call). 11 августа 2011 г.
  2. Филипп Рассом. Аналитика «больших данных». Отчет TDWI (Philip Russom. Big data analytics). 4-й квартал 2011 г.