АНАЛИЗ И ПЕРСПЕКТИВЫ СОВРЕМЕННЫХ СИСТЕМ ХРАНЕНИЯ ЦИФРОВЫХ ДАННЫХ

Автор публикации:

Дата публикации:

Краткое описание: ...



АНАЛИЗ И ПЕРСПЕКТИВЫ СОВРЕМЕННЫХ СИСТЕМ
ХРАНЕНИЯ ЦИФРОВЫХ ДАННЫХ
А
.Г.Битенова


Проведен анализ надежности и долговечности систем хранения цифровых
данных
. Обоснован метод хранения цифровых файлов в виде двухмерных графических
штрих
-кодов.

Ключевые слова: системы хранения цифровых данных, надежность и долговечность, микрофильмирование, СОМ-система, штрих-код.

На сегодняшний день информационное общество находится на стадии, характеризующейся наличием огромного массива информации в цифровом виде и одновременно с этим отсутствием надежных технологий ее
долговременного хранения (более 30 лет). Ни одна из существующих систем хранения цифровых данных большого объема (более 64 Гб) (HDD
(Hard Disk Drive), SSD (Solid State Drive)) (рис. 1) на данном этапе технологического развития не гарантирует продолжительности надежного хранения однажды записанных данных более 5 лет.

Информационная безопасность и информационные технологии
369
HDD SSD гибридный HDD/SSD

Рассмотрим каждую из них с точки зрения «надежности» более
подробно.
Накопитель на жестком диске (HDD) относится к наиболее совершенным и сложным устройствам современных систем хранения цифровой
информации, характеризующийся значимым объемом хранимой информации при низкой себестоимости. Однако, исходя из исследований доктора
Бианки Шредер и Google, в силу своих конструктивных особенностей и
элементов (качество магнитного покрытия пластин, способы защиты считывающей головки, особенности механизмов позиционирования и элементной базы управляющей всем этим платы контроллера) количество отказов после 3-го года работы стабильно увеличивается (рис. 2).
При начальной разметке и тестировании современного винчестера
на заводе почти всегда обнаруживаются дефектные сектора, которые заносятся в специальную таблицу переназначения. При обычной работе контроллер винчестера подменяет эти сектора резервными, которые специально оставляются для этой цели на каждой дорожке, группе дорожек или выделенной зоне диска. Благодаря этому новый винчестер создает видимость
полного отсутствия дефектов поверхности, хотя на самом деле они есть
почти всегда.
равного объёма
Известия ТулГУ
. Технические науки. 2013. Вып. 3
Результаты исследования, проведенного университетом Карнеги –
Меллона, говорят о том, что показатели надежности жестких дисков, обозначенные в спецификациях производителей, существенно расходятся с
действительностью. Утверждается, что основной показатель надежности –
среднее время наработки на отказ (mean-time before failure, MTBF), завышается приблизительно в 15 раз [1].
Для получения статистики исследователями была изучена практика
эксплуатации около 100 тыс. жестких дисков от разных производителей,
задействованных в самых различных приложениях. Серьезное завышение
MTBF демонстрируется на примере накопителей серии Seagate Cheetah
X15, для которых этот показатель номинально равен 1,5 млн часов, или
более чем 171 году эксплуатации. Статистика реального использования позволяет говорить о том, что на самом деле эти устройства имеют время наработки на отказ ближе к 9-11 годам.
Наиболее простой способ повышения надёжности данных - использование зеркалированного массива RAID 1. В этом случае два винчестера
работают как один, дублируя содержимое друг друга. При установке двух
дисков в RAID 1 следствием является потеря объёма и стоимости в два
раза, но при отказе любого из них, система сохранит состояние рабтоспособности и имеется время для резервного копирования и замены жёстких
дисков.
Исследование Шредера охватывает диски Enterprise-класса, задействованных в больших RAID-массивах одной из крупнейших лабораторий
по высокопроизводительным вычислениям. Согласно отчёту Шредера распределение времени между заменами диска показывает снижение частоты
отказов, означающее, что ожидаемый промежуток времени до очередной
замены диска постепенно увеличивается с тех пор, как был заменён предыдущий диск. Таким образом, отказ одного накопителя в массиве повышает вероятность отказа другого накопителя. Чем больше времени прошло
с последней замены диска, тем больше времени пройдёт до замены другого. Конечно, это имеет последствия с точки зрения реконструкции RAIDмассива. После первого отказа в четыре раза возрастает вероятность наступления очередного выхода из строя того или иного диска в течение того
же часа, однако в пределах 10 часов вероятность отказа диска увеличивается только в два раза.
К особенности SSD накопителей развитая схема чередования блоков (в SSD чипов флеш-памяти всегда несколько) и технология выравнивания износа ячеек. Флеш-память часто представлена чипами MLC (MultiLevel Cell), в которых каждая ячейка памяти может находиться не в одном
из двух, а в одном из нескольких дискретных состояний. Работа флешпамяти основана на явлении диффузии электронов в полупроводнике. Из
этого следуют два вывода:
срок хранения зарядов на плавающих затворах недостаточно велик.
Информационная безопасность и информационные технологии
По законам термодинамики электроны стремятся со временем равномерно
распределиться по всему объему кристалла. При достижении равновесия
все содержимое памяти утрачивается;
каждый цикл записи понемногу "подтачивает" слой, отделяющий
затвор от остальной массы кристалла. Кроме того, со временем неизбежно
происходит деградация самого материала и р-n-переходов. Из-за этого
срок жизни ячейки ограничен некоторым числом циклов записиперезаписи.
Продолжительность надежного хранения однажды записанных
данных составляет не менее 5 лет. Для некоторых моделей Intel в ходе экспериментальных исследований был установлен срок 10 лет и более – при
суммарном количество записанных терабайт (формула JEDEC) 228,5 TBW
для 160 Гбайтового SSD при циклах программирования/ стирания - 5000
получено число лет до исчерпания возможности записи (10 Гбайт в день,
WA = 1,75), которое составляет 62,6 года.
Число циклов перезаписи тоже иногда оговаривается. Например,
ранние модели Kingston Compact Flash были рассчитаны на 300 000 циклов
перезаписи, Transcend Compact Flash — на 1 000 000, а флеш-диски USB
Transcend объемом 1 Gb образца 2006 года — всего на 100 000. Многие
модели после 2010 года преодолели рубеж в 2 000 000 циклов.
Однако SSD дают преимущества, которые нельзя получить на
обычных механических жёстких дисках, например, при использовании с
ZFS и гибридными системами хранения накопители SSD дают существенный прирост производительности по сравнению с вращающимися пластинами. На 2011 год хостинг "No Support Linux" в вопросах преимущества
при применении твердотельных дисков в серверах, придерживается следующего мнения: «В сочетании с ZFS и гибридными системами хранения,
применение SSD-накопителей позволяет получить существенный прирост
производительности, по сравнению с традиционными дисками на магнитных пластинах. Мы по-прежнему используем жёсткие диски в качестве основного хранилища, так что мы можем сохранить их преимущество в цене,
одновременно извлекая преимущество от SSD по скорости. Рано или поздно, мы планируем полностью перевести наши сервера SAN на SSDнакопители. Но в течение 2011 году мы будем придерживаться гибридной
системы хранения, используя ZFS».
ZFS (Zettabyte File System) — файловая система, изначально созданная в Sun Microsystems для операционной системы Solaris. Эта файловая система поддерживает большие объёмы данных, объединяет концепции файловой системы и менеджера логических дисков (томов) и физических носителей, новаторскую структуру данных на дисках, легковесные
файловые системы (англ. lightweight filesystems), а также простое управление томами хранения данных. ZFS является проектом с открытым исходным кодом.
Известия ТулГУ
. Технические науки. 2013. Вып. 3
Одна из самых главных возможностей ZFS — это RAID-Z. Это массив, состоящий из блоков фиксированного размера, с которого может происходить чтение или запись. С тех пор, как RAID обычно реализуется
близко к блочному слою (часто на уровне аппаратного обеспечения, открыто к операционной системе), устройства RAID также предоставляют
этот интерфейс. В массиве RAID-5 с тремя дисками, запись блока вызывает сохранение блока на диск 1, а результат XOR-а блока, соответственно,
один из дисков 2 или 3. Это вызывает две взаимосвязанных проблемы.
1. Невозможность получения простейших записей на группу дисков. Если что-то нарушится между записью первого блока и контрольной
суммой, система будет содержать невозможный для этого блока индекс на
всех дисках. Современные RAID-контроллеры обходят эту проблему путем хранения записей в энергонезависимой RAM, до тех пор, пока они не
получать подтверждение от диска о том, что данные были сохраненны.
2. Вышеупомянутый сценарий, записывание одного блока на диск 1
требует, чтобы вы затем считали блок с диска 2 и сохранили контрольную
сумму на диск 3. Эта дополнительная операция чтения в середине каждой
записи может быть дорогой.
Принципиальным отличием RAID-Z является ключевая составляющая — категория — переменной ширины. С существующими реализациями RAID, она составляет либо 1 байт (например, каждый нечетный байт
будет записан на диск 1, каждый четный — на диск 2, а каждый сравнимый по модулю — на диск 3), либо величину, равную длине блока. В ZFS
этот размер категории определяется размером записи. То есть, каждый раз
когда производится запись на диск, происходит полностью запись категории. Такое строение решает обе проблемы, указанных выше. С тех пор,
как ZFS транзакционна, категория либо записывается корректно и метаданные обновляются, либо нет. Таким образом, поскольку категория содержит только данные, состоящие на записи, никогда не понадобится считывать что-то с диска для осуществления записи.
Не являясь частью RAID-Z, ZFS включает в себя ещё одну возможность, которая помогает решить проблемы потери данных: так как каждый
блок содержит хеш SHA256, поврежденный сектор на диске будет отображаться, как содержащий ошибки, даже если котроллер диска этого не замечает. Это является существенным превосходством над существующими
реализациями RAID. Используя RAID-5, например, всегда можно восстановить раздел, но если одиночный сектор на диске поврежден, весь диск
может сообщить о существующей ошибке. Раздел RAID-Z может сообщить, какой диск содержит ошибку (тот, чей блок не соответствует хешу)
и восстановить данные с другого. Он также может сообщать заранее о том,
какой диск может быть поврежден.
Применительно к системам хранения информации в аналоговом виде, можно утверждать, что единственной надежной среди всех сущест-
Информационная безопасность и информационные технологии
вующих сегодня технологий долговременного хранения является технология микрофильмирования (500 лет).
Микрофильми́рование — процесс получения (копирования) фотографическим способом уменьшенного в десятки и сотни раз изображения с
бумажных носителей информации (чертежи, рукописи, рисунки, архивные
документы).
Проблематика долговременного хранения и одновременного обеспечения оперативного доступа к большим объемам цифровых данных приобретает наилучшее решение в свете применения гибридных технологий,
таких как СОМ-технологии (Computer Output Microfilm), разработанных на
основе микрофильмирования.
Гибридные системы совмещают в себе функции сканирования и
микрофильмирования, позволяя переводить бумажную документацию одновременно в электронную для оперативного доступа (используя неформализованные данные с компьютерных систем) и микрографическую форму для обеспечения сохранности – т.е. создают два типа архивов - цифровой и микрографический, при экономном расходе времени и усилий, обеспечивая надежное долговременное хранение данных, практически исключая аспект устаревания оборудования и смену форматов носителей.
Однако некоторые оригиналы (картины, чертежи и др.), содержащие большое количество мелких, но значительных деталей (полутона, тех
детали) при печати на микрофотоноситель, сканировании микрофильмов
либо требуют дополнительных усилий операторов для отрисовки, либо содержат неточности в воспроизведенном образце.
Вариантом решения данной проблемы является воспроизведение
непосредственно бинарных данных (двоичного кода) оригинала на микрофотоносителе [2] (рис. 3).
Рис
. 3. Воспроизведение бинарных данных (двоичного кода) оригинала
на микрофотоносителе
Известия ТулГУ
. Технические науки. 2013. Вып. 3
374
Целесообразно в целях автоматизации производства и уменьшения
объемов занимаемой площади эту битовую информацию кодировать с помощью специального программного обеспечения (генераторы) и выводить
на микрофотоноситель в виде двухмерного штрих-кода.
Все штрихкоды можно разделить на два типа: линейные и двухмерные.
Линейный штрихкод – это код, который читается в одном направлении, характеризуется простой эксплуатацией и низкой себестоимостью
(рис. 4).
Первый коммерческий формат штрихкода был разработан в 1972
году и получил название UPC – Universal Product Code, являлся частью
системы, автоматически считывающей информацию о продукте. Главный
недостаток линейных штрихкодов – малый объем кодируемой информации
(до 20—30 символов, обычно цифр).
Потребность кодировать больше информации на меньшем пространстве привела к разработке, стандартизации и росту использования
двумерных (2D) штриховых кодов. Двухмерными называются символики,
разработанные для кодирования большого объёма информации. Расшифровка такого кода проводится в двух измерениях (по горизонтали и по вертикали). Таким образом, двухмерный код, содержащий в себе не только
идентификатор, но и некий набор описывающих объект реквизитов является своего рода «портативной базой данных», что позволяет обходиться
без внешней базы данных, значительно расширяя сферу применения технологии штрихового кодирования.
На сегодняшний день существуют более 300 стандартов штрихового кодирования.
В настоящее время наиболее распространён вид двухмерного
штрихкода Aztec. В каждом символе можно выделить область мишени и
область данных. Мишень представляет собой набор концентрических
квадратов и служит для определения геометрического центра символа в
процессе его декодирования. Существуют два основных формата символа
Aztec Code: «Compact» - символ с мишенью из двух квадратов и «FullRange» - символ с мишенью из трех квадратов (рис 5).
Информационная безопасность и информационные технологии
Aztec Code «Compact» Aztec Code «Full-Range»
Рис
. 5. Представление кодов Aztec
Aztec Code интересен для применений, требующих размещения кода на ограниченном пространстве (производство, коммерция, медицина,
фармацевтика и в том числе микрофильмирование), поскольку код обеспечивает высокую плотность размещения информации и не требует свободного пространства вокруг кода.
Еще одним кодом, активно применяющимся в промышленности является DataMatrix (рис. 6). В частности, его активно используют такие
крупные компании как «Intel», «AMD», «BMW», «Mercedes Benz»,
«Siemens», «Philips», «NASA», «Vodaphoone». Во многих странах он также
используется для сортировки почтовых отправлений. Главное преимущество этой разновидности двухмерных кодов – его сверхмалый размер. С
помощью DataMatrix можно поместить информацию в 50 символов на
площадь размером в два квадратных миллиметра. При этом код может
быть нанесен на поверхность огромным количеством способов: это и
струйная печать, и гравировка, и лазер, и многое другое.
Известия ТулГУ
. Технические науки. 2013. Вып. 3
376
Код DataMatrix, приведенный на рис.6, к примеру, содержит 560
алфавитно-цифровых символов, и может быть точно считан после сканирования с разрешением 200 точек на дюйм. Матрица образца данных
штрих-кода, содержащего 2046 символов примерно такой же плотности,
займет около 3×3 дюйма, что достаточно для полного отображения любой
информации размещенной изначально на листе формата А4.
Также одним из главных преимуществ кода перед другими двухмерными кодами является непривязанность к фиксированной квадратной
форме отображения, т.е. код Data Matrix может отображаться в прямоугольной форме, быть размещенным вертикально и т.д., также без потери
качества и с возможностью коррекции ошибок (рис. 7).
Рис
. 7. Штрих-код Data Matrix, содержащий 65 алфавитно-цифровых
символов
, расположенных на 16 строках и 48 столбцах
В заключение следует отметить, что ни одна из эксплуатируемых
систем хранения цифровых данных большого объема HDD, SSD на данном
этапе технологического развития в силу своих конструктивных особенностей и элементов не гарантирует продолжительности надежного хранения
однажды записанных данных более 5 лет. Однако с развитием гибридных
технологий (СОМ-технологии), разработанных на основе микрофильмирования, появляется возможность долговременного (500 лет) и надежного хранения цифровых данных в аналоговом виде.
Рассмотренные в статье методы сохранения цифровых данных на
микрофильме открывают новую эру в истории микрографии. Их значение
заключается в том, что впервые появилась теоретически обоснованная и
технологически реализуемая возможность долгосрочно сохранять на микрофильме любую цифровую информацию и документацию.
В предложенном методе хранения тип электронного документа не
имеет значения, так как все цифровые файлы состоят из набора двоичных
данных и могут быть представлены в виде двухмерных графических
штрих-кодов.
Помимо сохранения цифровой цветной и черно-белой чертежнографической, текстовой и фотографической документации, применение
данного метода открывает перспективы сохранения на микрофильмах
цифровой аудиовизуальной документации, программных продуктов, трехмерной документации CAD-приложений и др., т.е. любого типа цифровых
данных.