Выбрать страницу

Но вопрос снижения затрат на хранение данных все еще актуален для большинства пользователей. Почему — расскажем ниже.

Где живут данные?

Задумайтесь на секунду, где хранится фотография, которую вы загрузили в социальные сети, или детали заказа из интернет-магазина? Доступность Интернета позволила отказаться от традиционной модели локального хранения в пользу облачных сервисов. Но «облако» — лишь красивое маркетинговое название, означающее достаточно сложные системы обработки и хранения информации. Четкого понимания, где именно находятся данные, оно не дает.

Длительное хранение требует вполне осязаемых и дорогостоящих накопителей информации. Типов таких устройств много, различаются они в основном по объему, стоимости и надежности. Поговорим о каждом отдельно.

Традиционные жесткие диски

Один из старейших типов накопителей — жесткий диск (HDD, Hard Disk Drive). Первый из них был создан в 1956 году компанией IBM, содержал 50 металлических пластин и весил почти тонну. При этом его объем по нынешним меркам смехотворный — всего лишь 3,5 Мбайта. В то время это был прорыв, а фундаментальная основа, заложенная в конструкции, и сейчас позволяет создавать компактные и емкие HDD. Максимальный объем современного жесткого диска составляет 20 Тбайт, тогда как размер — всего 3,5 дюйма.

У HDD есть существенный недостаток: по серверным меркам они достаточно медленные. Если надо дешево хранить данные и нет высоких требований к скорости доступа, то жесткие диски — идеальный вариант. Важно понимать, что внутри HDD есть движущиеся части (шпиндель, головки чтения/записи), так что рано или поздно это может стать причиной отказа и повреждения данных. Почти все существующие накопители информации следует рассматривать как расходники, требующие периодической замены.

Еще одна беда с традиционными HDD заключается в том, что некоторые производители, стремясь увеличить плотность, используют технологии, плохо совместимые с современными механизмами объединения физических накопителей в логические дисковые массивы. Одна из таких технологий, так называемая SMR (Shingled Magnetic Recording — черепичная магнитная запись), привела к массовой потере данных у пользователей.

Дело в том, что диски, выполненные по технологии SMR, нельзя смешивать с обычными CMR (Conventional Magnetic Recording) в рамках одного RAID-массива, иначе они станут причиной деградации массива, что обернется серьезными проблемами. Так что лучше вообще избегать SMR-дисков, а если они все же используются, то не создавать с ними смешанных массивов.

Твердотельные накопители

Когда скорость доступа к данным важнее, чем их объем, стоит обратить внимание на твердотельные диски (SSD, Solid State Drive). Они не имеют движущихся частей внутри и используют чипы флеш-памяти для хранения данных, за счет чего достигается высочайшая скорость доступа к информации. SSD –достаточно надежный, но дорогой накопитель информации.

Как и HDD, твердотельные накопители не лишены недостатков. Первый — риск потери данных при длительном хранении без питания. Если вы запишете важную информацию на SSD и положите его на год в сейф, то, скорее всего, потеряете все данные. Второй — в большинстве случаев SSD резко выходят из строя. Если повезет, то твердотельник просто войдет в режим read-only и данные можно будет скопировать. В противном случае он просто перестанет определяться в системе и о восстановлении данных можно даже не мечтать. Для сравнения: HDD обычно умирают долго, так что у системного администратора есть возможность перенести файлы до поломки накопителя.

Магнитная лента

Удивительно, но факт: магнитная лента как накопитель никуда не исчезла, а значительно усовершенствовалась и стала превосходным вариантом хранения больших объемов данных. То, что о ней нечасто упоминают, — следствие особенностей этого типа хранения данных. Магнитная лента идеальна для архивного хранения, когда к данным обращаются редко и скорость доступа не имеет значения.

Картридж с современной магнитной лентой формата LTO-9 способен вместить 18 Тбайт несжатых данных и до 45 Тбайт сжатых. Срок хранения ленты составляет от 15 до 30 лет. Это отличный вариант для хранения «холодных» данных, таких как бэкапы, и обеспечения защиты от вирусов-шифровальщиков. Именно благодаря холодным резервным копиям на магнитных лентах многие компании смогли избежать полной потери данных после массовой кибератаки вируса WannaCry.

Отказоустойчивость

Основной способ обеспечения сохранности данных при отказе одного или нескольких дисковых накопителей в хранилище — объединение их в RAID-массивы. Это обеспечит данным избыточность в зависимости от выбранного уровня массива. Всего существует шесть базовых уровней массивов, часть которых основана на контроле четности.

Наиболее показательный пример: RAID 1 (зеркальный массив) из двух дисков означает, что, когда вы записываете файл на один из них, система автоматически запишет его на второй. Если любой диск массива выйдет из строя, на втором диске данные сохранятся без повреждений.

Есть системы, повышающие отказоустойчивость без дисковых массивов. В основном они используют технологии виртуализации для построения программно-определяемых сред хранения. Такие комплексы самостоятельно реплицируют фрагменты данных и распределяют их по доступным накопителям так, чтобы обеспечивать целостность и сохранность. Если какой-либо накопитель выходит из строя, то система перестраивает фрагменты данных с других накопителей, восстанавливая их. Доступ к данным при этом не прекращается.

Используя аппаратные RAID-контроллеры, позаботьтесь о наличии в ЗИП (запасные части, инструменты и принадлежности) хотя бы одного-двух точно таких же контроллеров. Неочевидный момент: когда обновляете прошивку на рабочих RAID-контроллерах, ее надо обновлять и на запасных контроллерах. Это убережет данные от несовместимости прошивок, когда потребуется экстренная замена.

Как хранить меньше данных

В первую очередь стоит распределить данные на более и менее критичные. Под критичными понимаются те, без которых бизнес не может полноценно функционировать. Все остальные по умолчанию будут считаться некритичными. Для каждой категории следует определить предельный срок хранения. К примеру, финансовые документы могут храниться бессрочно, а логи работы некритичных сервисов можно удалять полностью раз в год и чаще.

Мы уже мельком упомянули, что при использовании технологий сжатия данных можно добиться значительного уменьшения объема занятого пространства, а, следовательно, сэкономить на хранении. Но это работает только для редко запрашиваемых данных, поскольку компрессия и декомпрессия — процессы не мгновенные и требуют процессорного времени.

Еще один важный момент: при сжатии особое внимание уделяется целостности данных, ведь «битый» архив будет невозможно распаковать, а данные могут быть утеряны. Многие приложения стараются на программном уровне внедрять механизмы проверки целостности, резервируя часть места под контрольные суммы.

Для некоторых задач, таких как хранение резервных копий, можно использовать особенности алгоритмов сжатия. К примеру, алгоритм LZO (lzop) был разработан для достижения максимальной скорости распаковки. Таким образом достигается баланс между экономией места и скоростью восстановления бекапа. LZO часто противопоставляется алгоритму Deflate (gzip).

Практически в любом массиве информации можно обнаружить копии данных, хранить которые не имеет смысла. Проще оставить одну копию, а все остальные удалить, заменив ссылками. Такой процесс называется дедупликацией и активно применяется для экономии дискового пространства.

Облака — белогривые лошадки

Выгоднее ли хранить данные в облаках? На этот вопрос нельзя дать однозначного ответа. С одной стороны, облачные провайдеры позволяют организовать хранение без серьезных капитальных затрат. Даже при многократном резервировании облачному провайдеру проще удерживать приемлемый уровень цен за счет уже созданной сетевой инфраструктуры и выгодных поставок накопителей.

Если данных становится слишком много, то приобретение готовой аппаратной или построение собственной программно-определяемой системы хранения данных (СХД) становится выгодным решением. Но даже в этом случае облачные хранилища можно рассмотреть как основу для гибридной СХД или как часть мультиоблачной среды.

Раз мы заговорили о типах СХД, назовем лидеров на этом рынке. В первую очередь это такие компании, как NetApp, Pure Storage и IBM. Их решения обеспечивают интеллектуальное управление данными и отказоустойчивость на аппаратном уровне. Предсказуемая производительность при использовании определенных накопителей — одна из сильных сторон любой аппаратной СХД. Это позволяет заранее оценить затраты на организацию хранения.

Если вы приобретаете аппаратную СХД, уделите особое внимание совместимости с дисковыми накопителями разных вендоров. Чем шире будет поддерживаемый «ассортимент», тем лучше. Обязательно смотрите на срок жизни СХД, после которого оборудование уйдет в статус EOL (End-Of-Life). Починить ее своими силами будет весьма проблематично.

Совет из практики: старайтесь использовать в СХД диски одного вендора, но из разных партий. Брак на производстве возможен всегда, можно столкнуться с ситуацией, когда диски из одной партии умирают с разницей в несколько десятков минут. Даже при использовании отказоустойчивого RAID-массива выход из строя нескольких дисков ведет к стремительной деградации массива и потенциальной потере данных.

Еще один важный сегмент — чисто программные решения. Особую популярность в последние годы получили программные комплексы для виртуализации хранилища, такие как VMware vSAN. Технология позволяет создавать системы хранения данных практически любого размера и легко масштабироваться по требованию. Данные распределяются по нодам в соответствии с заданной системным администратором политикой резервирования. Выход из строя одной или нескольких нод не приведет к потере данных.

Более того, современные программно-определяемые хранилища зачастую можно «растянуть» на несколько дата-центров в разных городах, тем самым предусмотрев даже самый экстремальный вариант с полной потерей площадки. Если один из дата-центров с данными будет физически уничтожен, информация не будет потеряна. Конечно, такой вариант крайне маловероятен, но история знает примеры.

Подводя итоги

В большинстве сценариев на хранении критичных данных лучше не экономить – финансовые потери в случае спонтанного или намеренного уничтожения информации могут быть выше стоимости самых топовых решений по хранению данных. Но это не означает, что нет возможностей для маневра. В мире регулярно сохраняются петабайты ненужных данных, так что самым полезным будет отказ от длительного хранения файлов, которые никогда не понадобятся.

Критичные данные необходимо резервировать, но при этом можно воспользоваться алгоритмами их сжатия и дедупликации, сократив тем самым количество занимаемого места. Многие файлы можно спокойно размещать в облаках и экономить на инфраструктуре.