Жёсткие диски и стримеры – кто кого?
В компьютерном центре университета был реконструирован прадед всех компьютеров – калькулятор, который Шихард ещё в XVII веке построил для своего друга, Йохана Кеплера. Он может выполнять четыре простейших арифметических действия.
Конечно, лишь немногие наши читатели вообще когда-либо встречались с системами резервирования масштабов терабайта. Однако организация такого хранилища достойна восхищения: представьте себе систему ёмкостью в 70 Тбайт, составленную полностью из жёстких дисков IDE! Звучит слишком смело? Но в действительности так и есть.
Когда мы посещали выставку CeBIT, 3Ware пригласила нас взглянуть на массив жёстких дисков, который был построен с помощью контроллеров RAID производства этой компании. Сначала мы не поверили: сотни жёстких дисков общим объемом в 70 Тбайт – и все они осуществляют операцию, если мы правильно расслышали, резервирования? Наверняка некоторые специалисты в этот момент ухмыльнуться, ведь жёсткие диски IDE очень редко используются в таких целях. Другие подумают: “Прекрасно, раз такая система установлена в университете, она наверняка служит каким-то исследовательским целям”. Но мы вынуждены огорчить пессимистов – эта система уже достаточно давно находится в практической работе.
Стандартным подходом к резервированию является использование ленточного накопителя, также известного как стример (вы можете ознакомиться с нашим
Самый главный параметр системы резервирования – её надёжность. Причём она не является решающим фактором при разработке IDE-винчестеров. Что ещё хуже, большинство производителей осенью сократили свой срок гарантии всего до одного года. Возникает вопрос: почему мы вообще используем IDE?
Ёмкость против цены
Ответ, равно как и главный аргумент сторонников IDE, очень прост: экономия. Если вы посмотрите на отношение объёма винчестеров к их цене, то вряд ли будете обрадованы показателями приводов SCSI. Чем больший объём вам нужно, тем хуже ситуация. По цене одного привода SCSI ёмкостью 147 Гбайт вы можете купить три современных винчестера IDE, каждый по 200 Гбайт и выше. Весомый аргумент.
Вспомните, что мы говорим о резервировании. SCSI остаётся непобедимым чемпионом в файловых серверах, где нужна высокая производительность, поскольку изготовители подстраивают свои приводы и контроллеры для обеспечения максимально возможной скорости операций ввода/вывода. Причём здесь на пятки SCSI наступают современные приводы IDE. С другой стороны, максимальная производительность редко требуется в системах резервирования.
Не будем забывать и о существовании классических стримеров. У роботов не возникает никаких затруднений с огромными объёмами данных, но цена даже простейшей автоматической системы велика – от $50.000 и выше. За эти деньги вы получите несколько стримеров, десятки или сотни кассет, сервер резервирования и специальную программу. Фактически, подобные колоссальные инвестиции окупятся, если вы будете резервировать такое большое количество данных, что придётся платить только за кассеты, которые относительно дёшевы.
Учитывая сказанное, уменьшенная надёжность жёстких дисков IDE на самом деле не столь критична. В любом “настоящем” массиве RAID часть жёстких дисков не используется. Запасные диски подключаются при отказе действующих жёстких дисков из-за возникновения какого-либо дефекта. Контроллер определяет сбой и автоматически начинает восстанавливать данные на запасной диск. И не забывайте критерий ёмкости: вы можете купить запасной диск SCSI на 147 Гбайт или три винчестера с интерфейсом IDE по 200 Гбайт. Если какой-либо активный диск “умрёт”, то у вас ещё останется два дополнительных диска для замены.
Конструкция системы: массив резервирования RAID на обычных компьютерах
Лаборатория доктора Коха выиграла грант на строительство массива резервирования RAID. Предполагалось, что система резервирования будет использоваться университетом Тюбингена в течение пяти лет – именно на этот срок работы должны быть рассчитаны современные жёсткие диски при условии соблюдения правил эксплуатации. Винчестеры SCSI почти всегда работают в течение такого срока при непрерывной эксплуатации. Доктор Кох предположил, что лишь ограниченное число дисков IDE не переживёт пятилетний возраст, так как резервирование в основном выполняется ночью и поэтому винчестеры находятся в работе не постоянно. Причём сейчас массив отличается относительно низким числом сбоев.
Построение подобной системы ничего сложного собой не представляет: берёте стандартный сервер начального уровня, скажем, двухпроцессорную систему на Athlon MP, добавляете современные компоненты и три мощных контроллера IDE RAID на каждый компьютер. К примеру, восьмиканальные IDE RAID контроллеры от американского производителя 3Ware (модель 7500-8). Существуют две причины, по которым лучше не использовать двенадцатиканальные контроллеры. Во-первых, восьми жёстких дисков достаточно, чтобы максимально загрузить пропускную способность 64-битного интерфейса PCI на 33 МГц (266 Мбайт/с). Во-вторых, вы вряд ли сможете установить и подключить к компьютеру 36 жёстких дисков: даже 24 винчестера это – очень и очень проблематично.
Доктор Кох разработал открытые 19″ вставные модули, или узлы, для отдельных систем. Они состоят из двух слоёв: сверху размещены три ряда по восемь дисков каждый. Ниже находится компьютер на базе двухпроцессорной материнской платы для Athlon – S2460 от Tyan с 1 Гбайт памяти ECC и установленной операционной системой на отдельном массиве RAID 1. Два блока питания вместе с мощным “бесперебойником” гарантируют безотказную и непрерывную работу сервера.
Жёсткие диски: 576 x 160 Гбайт от Maxtor
Когда проект был запущен (начало 2002 года), самыми большими жёсткими дисками являлись Maxtor D540X с ёмкостью 160 Гбайт. Скорости вращения 5400 об/мин более чем достаточно для целей RAID, тем более что такая скорость предотвращает чрезмерный перегрев системы.
Каждая система (узел) оснащена тремя контроллерами 3Ware, каждый из которых управляет восемью жёсткими дисками.
Вся система резервирования содержит в общей сложности 24 узла, размещённых в пяти больших 19″ шкафах. Если умножить 24 жёстких диска на 24 узла, то мы получаем в общей сложности 576 винчестеров, каждый ёмкостью по 160 Гбайт. То есть, теоретическая ёмкость всей системы резервирования составляет 92.160 Гбайт. Из этого числа нам следует вычесть 11.520 Гбайт, поскольку каждый контроллер RAID имеет один диск для “горячей замены”. К тому же, в силу использования массива RAID5, ёмкость примерно одного диска должна отводиться под информацию избыточности (однако, в отличие от RAID 3, здесь информация избыточности распределена по всем дискам). Поэтому мы опять должны произвести вычитание. В результате мы получаем суммарную ёмкость системы – 69.120 Гбайт.
Может, хватит “лапши”? Время для Serial ATA!
Выше показана фотография узла сзади со всеми подключёнными картами. Из-за огромного количества кабелей IDE внутренности напоминают клубок спагетти. Конечно же, доктор Кох выбрал круглые кабели IDE, чтобы облегчить их подключение и сохранить максимальный воздушный поток внутри корпуса.
На данный момент доктор Кох и доктор Диллинжер, директор компьютерного центра университета Тюбингена, с нетерпением ждут появления на рынке приводов с последовательным интерфейсом ATA и соответствующих многоканальных контроллеров. С кабелями Serial ATA намного легче работать, к тому же их длина может составлять до одного метра, в отличие от 45 см IDE.
Система: двухпроцессорный сервер на Athlon MP 1500+
Материнская плата Tyan (S2460) обеспечивает в общей сложности четыре 64-битных слота PCI – три для контроллеров 3Ware и один для гигабитной сетевой карты Ethernet. Плата поддерживает процессоры Athlon MP с тактовой частотой FSB 266 МГц. Доктор Кох решил устанавливать процессоры с низкой тактовой частотой (реальная частота Athlon MP 1500+ составляет 1,33 ГГц), поскольку они обладают достаточной скоростью и не слишком перегреваются. Причина выбора AMD, а не Intel, признанного лидера серверного сегмента, заключается в том, что процессоры Athlon имеют значительно более короткий конвейер по сравнению с Pentium 4. В результате процессоры Athlon более эффективно справляются с коммутацией пакетов контроллеров 3Ware, равно как и с обработкой пакетов TCP для передачи по сети.
Чтобы обеспечить стабильность системы резервирования, все вентиляторы в ней заменяются каждые два с половиной года. Для охлаждения 19″ стоек используется большой вентилятор в верхней части стойки и небольшие вентиляторы позади каждого жёсткого диска. Результат впечатляющ: несмотря на наличие такого большого количества вентиляторов, пять 19″ шкафов работают достаточно тихо. По крайней мере, вы не оглохнете.
Операционная система: на ваш выбор
Конечно, самой дешёвой системой является Linux. Но вы также можете установить Windows 2000 Server или Windows Server 2003 – по производительности между ними практически нет разницы. 3Ware поставляет драйверы для любой из перечисленных систем.
Архитектура: подключение через гигабитный Ethernet
Выше мы описали строение систем. Но как же поставлять данные в массив RAID? Хорошим решением стало подключение компьютеров к университетской сети по гигабитному Ethernet. Такое решение не только легко реализуемо, но и даёт дополнительную свободу действий. Если кому-либо потребуется дополнительная ёмкость для хранения данных, то можно подключить столько дополнительных модулей, сколько необходимо. Причём вовсе необязательно размещать все модули в одной комнате – можно разбросать компьютеры по всему университету с единственным условием – они должны быть подключены к гигабитной сети. Благодаря этому мы получаем в своё распоряжение избыточную архитектуру, позволяющую безопасно и надёжно хранить резервные данные. Среднее хранение данных в университете составляет максимум несколько месяцев.
В принципе, вы можете увеличить скорость передачи данных, подключив компьютеры к сети Ethernet 10 Гбит/с, но цена такого решения плохо соотносится с приростом производительности. Например, для 10 Гбит/с Ethernet потребуется прокладывать волоконно-оптические кабели. К тому же оборудование должно успевать обрабатывать пакеты TCP, ведь сеть будет обеспечивать десятикратный прирост скорости передачи данных. Другими словами, вам потребуется мощный процессор. При этом ваша платформа должна обладать шиной PCI-X и скоростными контроллерами.
Управление резервированием: программное обеспечение
После подключения отдельных узлов к гигабитной сети возникает вопрос о работе самого процесса резервирования. Не забывайте, что система не оснащена каким-либо специальным контроллером и сервером. Программное обеспечение для обслуживания системы разрабатывалось внутри университета Тюбингена: специальная серверная программа была установлена на все компьютеры центра. Клиентская часть устанавливается на все компьютеры, которым требуется зарезервировать свои данные. Клиент связывается с сервером и осуществляет фактическое резервирование данных.
Администратор управляет всем массивом данных и может определить, какие данные хранятся на каждом модуле системы резервирования. Добавление или удаление модуля осуществляется не сложнее переноса данных на компакт-диск.
Реальный мир: тяжёлые времена для стримеров?
Существует один аспект, по которому система резервирования доктора Коха не может соревноваться с решениями на базе стримеров: перенос лент в другое месторасположение после осуществления резервирования.
Если же этот аспект не является критичным, то система доктора Коха обеспечивает уникальные преимущества. К примеру, решения на базе стримеров всегда связаны с многочисленными усилиями: ленты стримеров являются постоянной причиной головных болей. Доктор Диллинжер сообщил нам о своём печальном опыте: некоторые приводы ломаются просто из-за использования лент от других производителей. Ещё одной проблемой здесь является заклинивание лент при их смене роботом. То есть, для обслуживания подобной системы резервирования понадобится опытный администратор, работающий 24 часа в сутки каждый день: ночью, во время резервирования, и днём, когда необходимо восстановить информацию. Поскольку задержки при восстановлении информации являются очень критичными, руководству вряд ли понравится идея нанимать сотрудника, который будет прибегать по телефонному звонку. То есть выявляется ещё один негативный аспект подобных систем – издержки на круглосуточное содержание квалифицированного персонала.
Существует и несколько других, довольно банальных проблем, с которыми могут столкнуться пользователи: система резервирования имеет ограниченное число стримеров. Если во время запроса все они будут заняты, вам придётся ждать целую вечность для восстановления данных (помните, что когда за чайником наблюдаешь – он очень долго не закипает) или вам придётся прервать чужую операцию. Не говоря уже о времени, которое требуется на переключение лент и быструю перемотку ленты к нужному месту.
Ещё одним пробелом в броне является сервер резервирования, или контроллер стримеров, да и сами роботы – тоже. Если любой из этих компонентов сломается, – вам не повезло. Что же касается системы IDE, то вы можете немедленно выявить и заменить дефектный узел в системе, а уже потом разбираться с его работоспособностью.
Заключение: первый год непрерывной работы прошёл легко и без проблем
По сравнению с системами хранения данных на лентах, система резервирования с использованием жёстких дисков обладает очень низкими накладными расходами. Из 576 (!) жёстких дисков за двенадцать месяцев отказали только три – то есть уровень отказа составляет 0,52% в год. Контроллеры RAID автоматически восстановили массив, используя запасной диск. После этого администратор может с лёгкостью заменить дефектный диск.
Мы считаем, что к концу пятилетнего срока эксплуатации число вышедших из строя приводов будет выше, но по деньгам это не слишком большая проблема. Доктор Кох гарантирует пятилетнюю безошибочную работу своей системы – довольно щедрое обещание, учитывая трёхлетнюю гарантию Matrox на свои диски. Как мы уже упоминали выше, система находилась в эксплуатации пока всего год.
В любом случае, цены на приводы IDE падают так быстро, что вы сможете купить замену без всяких проблем. Также вы можете реорганизовать отдельные массивы RAID 5 под больший процент отказа жёстких дисков или под увеличение ёмкости. Если строить подобную систему сегодня, то её можно оснастить 576 винчестерами по 250 Гбайт, что даёт 144 Тбайт физической ёмкости или 108 Тбайт чистой ёмкости. Доктор Кох сообщил нам, что система может поддерживать до 100 узлов, что составляет в общей сложности объём 450 Тбайт.
Плюсом для потребителя окажется и высокая производительность: резервирование и восстановление данных производятся на высокой скорости, конечно, если в вашем распоряжении будет находиться сеть с достаточной пропускной способностью.
Цена на систему резервирования составляет около $435.000, включая техническую поддержку и пятилетнюю гарантию, но эта была цена на январь 2002 года. Сегодня подобная система обойдётся значительно дешевле, или будет обладать существенно большей ёмкостью.