Как бы это провокационно не звучало, но сами по себе «сырые» данные не представляют ценности для бизнеса. Напротив, они порождают дополнительные расходы на хранение и создание соответствующей инфраструктуры. Для того, чтобы превратить неисчерпаемый поток информации, Big-Data, в «умные данные» и извлекать из них максимальную пользу, компании требуются соответствующие подходы и методы. Помимо этого, обработка больших объемов информации предполагает высокопроизводительное аппаратное обеспечение.
Это подталкивает компании к поиску оптимальной системы хранения данных, которая поможет анализировать и использовать данные для принятия бизнес-решений. Важным вопросом становится доступность данных, возможность их предоставления из ЦОДа или облачной среды. Эксперт Lenovo расскажет, какой метод хранения данных подойдет в каждом отдельном случае и поможет меньше беспокоиться о выбранном типе СХД.
Сочетание локальных и облачных хранилищ
Для этих целей применяются платформы хранения на основе протокола S3 и другие решения, которые предоставляют доступ к данным как локально, так и в облаке. Они позволяют при необходимости перемещать редко используемые («холодные») данные в мощные вычислительные системы для дальнейшего анализа и обработки. Этот же подход лежит в основе многоуровневого хранения данных, что способствует созданию интеллектуальных СХД. Для этого подходит стратегия гибридных облачных сред, позволяющая найти оптимальное решение для хранения информации.
Хранение редко и часто используемых данных
Прежде чем сделать первый шаг, необходимо определиться, о каких данных идет речь в первую очередь – классифицировать данные. От этого зависит качество и количество приобретаемых ресурсов для хранения.
С одной стороны, имеются «холодные» данные, которые желательно поместить на долгосрочное хранение в архив. Для этих целей подходят ленточные СХД — их надежность хорошо известна, и они обладают оптимальным соотношением цены и качества. Хорошим вариантом станут также блочные системы хранения.
И наоборот, для быстрого анализа часто используемых («горячих») данных необходимы мощные СХД с поддержкой протокола NVMe. Это позволяет с высокой скоростью передавать данные в систему, где выполняется их анализ и обработка. Для использования «холодных» и «горячих» данных необходима архитектура, которая сможет анализировать и обрабатывать большой объем информации с помощью технологий искусственного интеллекта.
Самый важный момент здесь — выбор оптимальной технологии для предварительной обработки данных, поскольку только правильная приоритизация имеющихся наборов данных позволит достичь желаемой цели. Так, например, целесообразно сортировать и оценивать посещенные веб-сайты по определенному критерию, а не только на основе общедоступных метрик – показов.
Оптимизация рабочих процессов
Корреляция существующих данных может иметь критически важное значение для первоначального предварительного отбора. Это позволит выполнить оптимизацию как в больших, так и в малых масштабах в полностью автоматическом режиме во время выполнения соответствующих процессов. Такой подход позволит, например, компенсировать и устранять перебои в поставках, что особенно важно в условиях пандемии.
Если говорить о СХД с поддержкой протокола NVMe, то стоит упомянуть о системе Lenovo ThinkSystem DM5100F. Она представляет собой дальнейший этап развития СХД среднего класса и поддерживает end-to-end NVMe-технологии. Эта СХД дает возможность компаниям среднего бизнеса оценивать и оптимально использовать большие данные с помощью ИИ и передовых аналитических методов.
Скорость работы сетевой инфраструктуры должна соответствовать скорости обработки данных
Когда речь идет о редко и часто используемых данных, очень важно выбрать сеть с оптимальной топологией. В среде Ethernet, например, скорость 25 Гбит/с — это почти стандарт, который получает все более широкое распространение. Наблюдается тенденция повышения пропускной способности сетей до уровня 100 Гбит, что в условиях генерирования больших объемов данных логически выглядит, как следующий шаг на пути развития Ethernet.
Одновременно с этим важную роль продолжает играть технология Fibre Channel, особенно в сегменте блочных систем хранения данных. Это подтверждает тот факт, что стандарты FC продолжают развиваться. В настоящее время стандартная пропускная способность интерфейсов СХД составляет 32 Гбит/c, но в скором времени в продажу поступят первые СХД с поддержкой скорости передачи данных на уровне 64 Гбит/c.
Здесь следует отметить, что некоторые производители уже прекратили выпуск 16-гигабитных компонентов для СХД на базе технологии FC. Поэтому следует задуматься о том, чтобы пропустить СХД, использующие только пятое поколение FC (16 Гбит/с) и сразу перейти к 32-гигабитным системам, или даже к 64-гигабитным.
Перенос локальных хранилищ в гибридные облачные среды
Для гибкого доступа к данным в гибридных облачных сетях для управления данными используется разработанное компанией NetApp ПО ONTAP, которое доступно в различных СХД, включая Lenovo ThinkSystem DM5100F. Помимо предоставления других преимуществ, программное обеспечение ONTAP значительно повышает доступность данных. Эта задача решается на прикладном уровне, путем назначения приоритетов для существующих приложений. Благодаря этому можно определять, какие приложения сохранят работоспособность в случае выхода из строя оборудования, а какие – нет. Кроме того, в ПО ONTAP, начиная с версии 9.8, добавлен расширенный функционал по работе с моментальными снимками, с помощью которого локальные СХД могут осуществлять синхронизацию с облачными средами (например, с S3 и AWS).
Получение умных данных с помощью ИИ и аналитических методов
Для максимально эффективного анализа колоссальных объемов данных довольно давно используется искусственный интеллект: его высокоразвитые алгоритмы обеспечивают использование имеющихся данных оптимальным образом. На практике применяются всевозможные подходы и решения, предназначенные для обработки и анализа больших данных, например, технологии Apache Hadoop и Spark, которые работают на базе высокопроизводительных систем. Выбор подходящей системы управления базами данных также имеет важное значение. Здесь мощными инструментами являются Microsoft SQL Server, Big Data Cluster, IBM Db2 Warehouse и решения SAP. Однако специализированные системы, такие как IBM Watson Studio и Lenovo Intelligent Computing Orchestrator (LICO), также позволяют извлечь максимум практической информации из имеющихся данных с помощью технологий ИИ.
В этом контексте представляет интерес инструмент TIM (ThinkSystem Intelligent Monitoring) версии 2.0. Он позволяет контролировать работу СХД и управлять ими с помощью технологий ИИ. TIM самостоятельно обнаруживает узкие места в работе СХД и ошибки в конфигурации и может помочь устранить их автоматически.
Кроме того, TIM осуществляет проверку текущих версий прошивок, освобождая ИТ-администраторов от необходимости выполнения рутинных рабочих задач. Поскольку TIM – облачное решение, его могут использовать как сами компании, так и их партнеры.