- 31 января 2006 г.
Способы оптимизации работы Хранилищ данных
В статье рассматриваются два из возможных способа оптимизации работы
Хранилищ данных. Это так называемое управление жизненным циклом информации -
разделение данных на активно используемые и исторические, и применение
устройств для Хранилищ данных, обеспечивающих массивную параллельную обработку
запросов.
Объем Хранилищ данных непрерывно растет, по некоторым оценкам - более чем в два раза ежегодно. При этом треть Хранилищ Северной Америки уже превышают терабайт по размеру. Одна из проблем, связанных с неуклонным ростом объема данных, - их эффективная обработка. В предлагаемой ниже статье освещаются два возможных способа оптимизации работы Хранилищ данных в условиях их неуклонного роста.
Управление жизненным циклом информации
Так называемое управление жизненным циклом информации (information life cycle management, сокр. ILM) и разделение информации на находящуюся в оперативном и квази-оперативном доступе (online/near-line partitioning) - это один из способов оптимизировать работу Хранилища в условиях непрерывного роста объема данных.
Применение компаниями данной стратегии обычно обусловлено двумя факторами. Первый - это стоимость поддержки устройств хранения данных, но он является менее важным. Основной фактор - стремление обеспечивать высокий уровень обслуживания пользователей Хранилища и при этом не выходить за рамки стоимости поддержки инфраструктуры, чтобы справиться с огромным объемом данных. Для каждой конкретной инфраструктуры увеличение объема Хранилища означает снижение производительности обработки запросов. Таким образом, с точки зрения управления хранением данных подход ILM может означать экспорт данных на более дешевый уровень хранения, а с точки зрения производительности - разделение информации в базе данных. При этом менеджерам Хранилища данных необходимо определить, какие данные лучше всего удовлетворяют потребности компании, находясь в активной базе данных оперативного доступа, а какие могут быть отправлены архив менее оперативного доступа.
Как показывают специальные исследования, а также примеры из практики, обычно не более 20% всех данных в Хранилище востребованы регулярно и большим количеством пользователей. Остальные данные, как правило, просто находятся в Хранилище или содержат историческую информацию. Таким образом, лишь 20% данных представляют значительную ценность для бизнеса в настоящий момент времени, а 80% - потенциально высокую "скрытую" ценность. Основной принцип ILM - это распределение ресурсов таким образом, чтобы доступность данных соответствовала их текущему значению для бизнеса.
В тех случаях, когда "оперативное" Хранилище содержит лишь 20% данных, которые действительно представляют значительную ценность для бизнеса, его размер существенно снижается, что позволяет увеличить производительность при обработке запросов пользователей и при осуществлении стандартных процедур, связанных с подготовкой отчетности и аналитикой. А это, в свою очередь, обеспечивает максимально возможную эффективность бизнеса при данных затратах. Остальные 80% данных, обладающих потенциально высоким значением для бизнеса, остаются также достаточно легко доступными для пользователей, но изымаются из "оперативного" Хранилища и поэтому не осложняют выполнение запросов к наиболее востребованным данным.
Корректно разделенное Хранилище, в котором находятся как активные данные оперативного доступа, так и легко доступный, но не активный архив, обеспечивает более эффективную работу без потери доступа к данным, когда это необходимо для бизнеса. Таким образом, данные, находящиеся в квази-оперативном доступе, превращаются из информации, которая хранится просто "на всякий случай", в легко доступные данные, которые пользователь может получить по первому требованию и тогда, когда это ему необходимо.
Принципы ILM для Хранилищ данных
Формальных стандартов ILM пока еще не существует. В их отсутствие организации, намеревающиеся использовать этот подход для повышения производительности своих Хранилищ, могут придерживаться нескольких правил, обеспечивающих успех, которые были получены из опыта.
- Необходимость понимания истинного значения данных для бизнеса:
- какие данные активно вовлечены в регулярные бизнес-операции, а какие представляют лишь историческую ценность или хранятся просто "на всякий случай". Пользователи часто указывают на последнюю категорию, поскольку боятся потерять доступ к этой информации. Но если они будут хорошо понимать, что эти данные не теряются, а остаются легко доступными, то это поможет принять соответствующее решение о переходе к ILM;
- поскольку приложение будет меняться с течением времени, необходимо, чтобы квази-оперативное решение включало слой абстракции метаданных. Это позволит осуществлять будущие изменения приложения (добавление, удаление, модификацию элементов данных) без изменений управления квази-оперативными данными.
- Стандартизация и упрощение критериев разделения:
- при установке правил архивации в первую очередь необходимо принимать во внимание временной критерий. Многие компании обнаруживают, что это наиболее простой для понимания и применения критерий, поскольку очень многие бизнес-процессы контролируются по времени. Уже один этот подход скорее всего позволит сократить оперативную часть Хранилища на 50% или более;
- после получения опыта в применении простой методологии на основе временного критерия можно переходить к использованию других правил, базирующихся на анализе журнала запросов. Эти правила основываются на таких понятиях, как "класс пользователей" или "отсутствие использования данных за определенный период времени";
- еще одна логичная стратегия разделения для управления ростом Хранилища заключается в хранении детальных данных в квази-оперативном доступе, а агрегатов данных - в оперативном с возможностью углубления в детали.
- Поддержка основной архитектуры приложений:
- основной архитектурой должна быть связь архивация-восстановление между оперативным и квази-оперативным отделами Хранилища. Это поддерживает уже существующую структуру приложений Business Intelligence (BI) и упрощает управление. Обычно процесс восстановления может быть автоматизирован для стандартных задач или запросов "по требованию". Модель углубления в детали, упомянутая в предыдущем пункте, также поддерживает целостность уже существующих приложений;
- в случае более непредсказуемых требований, для выполнения которых не нужно полное и активное восстановление квази-оперативных данных в оперативный доступ, можно использовать так называемый федеративный запрос, работающий сразу со всеми отделами Хранилища.
- Создание автономного архивного уровня, если есть необходимость в хранении расширенных исторических данных для приложений, которые не обслуживаются Хранилищем:
- это нужно в том случае, когда исторические данные требуется хранить продолжительное время, а пользователи должны иметь к ним доступ независимо от основных приложений Хранилища (например, при проведении аудита или осуществлении каких-либо специальных проектов);
- при этом необходимо, чтобы архивные файлы включали и метаданные. Это обеспечивает независимость контекста данных от изначальных приложений;
- также важно, чтобы существовал уровень автономного доступа в архив, основанный на отраслевых стандартах, например ODBC или XML.
Устройства для Хранилищ данных
Специалисты в области вычислительной техники потратили немало времени на решение проблемы эффективной обработки неуклонно возрастающих объемов данных. Ответ на этот вопрос всегда заключался в разделении общего объема информации на меньшие части. Другими словами, для решения значительной задачи (необходимость анализировать огромные объемы данных за короткий промежуток времени) необходимо разбить ее на некоторое число более мелких заданий, которые выполняются параллельно.
В этой формулировке заложена суть теории, лежащей в основе процесса, известного как массивная параллельная обработка (massive parallel processing). Этот процесс дает возможность крупным корпоративным Хранилищам справляться со все возрастающим объемом корпоративных данных. Все это на первый взгляд выглядит достаточно просто и логично, но, к сожалению, инфраструктура массовых параллельных вычислений является достаточно дорогостоящей и сложной (т.е. тоже дорогой) для управления.
Помимо этого, организации всех размеров все больше зависят от анализа данных. За период после 2000 г. в большинстве компаний аналитическая инфраструктура Хранилищ данных и бизнеса уже стала или становится самым важным приложением для бизнеса. Компании всегда старались найти наилучшие способы для понимания интересов своих клиентов и предугадать их потребности. Они старались увеличить скорость и точность принятия оперативных решений. Короче говоря, им было необходимо знать все "секреты", хранящиеся в огромных массивах все время увеличивающихся данных. Хотя потребность в улучшении анализа и своевременности данных организаций ощущается уже более 20 лет, мало кому удалось найти практические способы осуществления этой задачи, за исключением наиболее крупных IT-компаний. Но в последние годы развитие Хранилищ данных находилось под влиянием нескольких важных тенденций. Эти тенденции объединяют историческую потребность организаций в получении реальной пользы от данных, с одной стороны, и возможность (и, что еще важнее, реальные средства) удовлетворения растущих потребностей в бизнес-аналитике с помощью более простого и рентабельного подхода - с другой.
Сегодня, когда большинство IT-организаций уже осуществили внедрение крупных пакетов ERP и сделали основные приложения, ключевые для пользователей, доступными с помощью Интернета, их основное внимание сконцентрировано на Хранилищах данных и аналитике. Развитие технологий продолжает способствовать снижению стоимости, связанной с обрабатывающей мощностью серверов и возможностями хранения данных. Эти тенденции уже начинают оказывать влияние на стоимость коммерческих лицензий программных средств, которая и так находится под растущим воздействием со стороны программного обеспечения с открытым кодом. Повышенная вычислительная мощность при меньшей стоимости дает возможность по-новому оценить понятие "крупного" Хранилища или витрины данных. Вскоре аналитические репозитории размером в несколько терабайт превратятся из исключения в норму. Стоимость обрабатывающих средств снижается, но организации очень быстро насыщают все более мощные вычислительные структуры. Продолжая изобретать новые способы использования данных или даже создавая их новые классификации (например, данные составных элементов транзакций), организации будут все больше влиять на традиционную аналитическую инфраструктуру. Поэтому возникает необходимость в разрешении сложностей, связанных с этими процессами.
С первого появления концепции Хранилища данных конечные пользователи всегда стремились получить менее сложное решение. Многим пользователям хотелось, чтобы Хранилище данных было бы приобрести так же просто, как приложение для создания платежных ведомостей. К сожалению, потребности бизнес-аналитики постоянно меняются, что затрудняет превращение Хранилищ в тиражный продукт. Причем эти запросы меняются не постепенно, а очень быстро. Помимо этого, аналитическая структура усложняется за счет потребности не только в долговременном стратегическом анализе, но и в оперативном тактическом.
Передовые поставщики сейчас стараются решить проблемы, связанные со сложным устройством Хранилищ данных, используя многие вышеназванные тенденции в области программного обеспечения и технических средств. Создание пакетных Хранилищ данных не является практичным выходом, но проблема сложности их устройства может быть решена с помощью так называемой "продуктизации" (Productization)1 инфраструктуры, лежащей в основе Хранилища или витрины данных.
В устройствах для Хранилищ данных удачно сочетаются соотношение цена/производительность процессоров на основе Intel, программные средства с открытым кодом и низкая стоимость хранения данных на диске. Такая комбинация создается специально для быстрого и простого осуществления анализа огромных объемов данных, измеряемых терабайтами. Использование большого количества центральных процессоров позволяет этим устройствам эффективно работать со средствами хранения, вмещающими терабайты аналитических данных.
Стоимость приобретения и эксплуатации - основной дифференцирующий фактор
Общая стоимость приобретения и эксплуатации программных средств - это сегодня основной фактор практически для каждой IT-организации. Установление элементов, определяющих данную стоимость, иногда является проблемой для многих организаций. В число этих элементов обязательно входит изначальная цена приобретения программного решения, а также время, которое требуется поставщику для обеспечения работающей среды продукта. Сюда же необходимо добавить стоимость поддержки производительной стабильной среды. Именно этот третий элемент часто составляет до 80% общей стоимости приобретения и эксплуатации приложения. Он, в свою очередь, в основном включает стоимость оплаты работы персонала, обеспечивающего мониторинг и настройку системы.
Поскольку устройства для Хранилищ данных создаются специально для больших аналитических задач, соотношение цена-время является достаточно простым элементом общей стоимости приобретения и эксплуатации. Это соотношение является очень важным показателем, поскольку оно напрямую определяет окупаемость инвестиций в среду Хранилища или витрины данных. Как правило, время, необходимое для получения стабильной работающей аналитической среды при использовании устройств для Хранилищ данных, на несколько порядков меньше времени, требуемого для получения работающей инфраструктуры крупного Хранилища. Помимо этого, и производительность устройств в 10-50 раз выше. Необходимо отметить, что поставщики, не занимающиеся устройствами для Хранилищ данных, также обеспечивают достаточно хорошее соотношение цена-время, Но обычно их продукты используются для корпоративных стратегических проектов Business Intelligence (BI), требующих решений, настроенных для нужд пользователей, и профессионального сервиса. В будущем устройства для Хранилищ данных также могут быть использованы для стратегических целей, но на сегодня существует огромная потребность в тактическом и оперативном анализе, который должен выполняться очень быстро. Пользователям нужно применять те инструменты, которые лучше всего подходят для выполнения той или иной задачи. Например, если телекоммуникационной компании необходимо ежедневно работать с детальными записями о 18 миллиардах звонков, чтобы вовремя высылать счета пользователям, то такая работа является оперативной по своим временным рамкам, но глубоко аналитической по природе. Устройство для Хранилищ данных способно справиться с такой работой за минуты, а не часы, как в случае использования более традиционных продуктов.
Устройства для Хранилищ данных также имеют преимущество по сравнению с традиционной инфраструктурой Хранилищ в плане обеспечения своей поддержки. Среда устройств для Хранилищ действует по принципу "загрузил и запустил". Поскольку эти устройства эффективно работают с данными, обеспечивая высокое соотношение диск/процессор2 и создавая средства массивной параллельной обработки запросов, им не требуется индексация. Что еще более важно, им не нужно никакого специального дизайна физической базы данных или подсказок оптимизатору базы относительно использования индексов, которые с трудом создаются администратором базы данных. Поэтому организации тратят основное время именно на реальные запросы к данным, а не на настройку базы.
Поскольку потребность в анализе данных все время возрастает, IT-организации должны уделять особое внимание созданию инструментов для удовлетворения постоянно меняющихся нужд своих клиентов - бизнес-пользователей. Хотя устройства для Хранилищ данных - это не то же самое, что пакетное Хранилище, но они все же существенно упрощают основную аналитическую инфраструктуру. На данный момент не существует инструмента, который мог бы удовлетворить весь спектр аналитических потребностей, но модель на основе устройств для Хранилищ данных, безусловно, будет востребована большинством IT-организаций как одно из мощных аналитических средств.
Публикации
- Роберт Томпсон (Robert Thompson). Управление жизненным циклом информации - способ оптимизации работы Хранилища данных (Information Life Cycle Management (ILM) for Data Warehousing).
- Чарльз Гэрри (Charles Garry). Устройства для Хранилищ данных: превращение аналитической инфраструктуры в продукт (Data Warehouse Appliances: Productizing Analytic Infrastructure).
1 Концепция "продуктизации" подразумевает конфигурацию приложений таким образом, чтобы их можно было настраивать в зависимости от конкретных потребностей пользователей и задач, требующих решения, без внесения изменений в основной программный код. (прим. переводчика).
2 Соотношение диск/процессор (disk/processor ratio) - это место на диске, которое выделяется каждому процессорному узлу ввода-вывода. (прим. переводчика).
Автор: По материалам зарубежных сайтов