Bensley или платформа AMD HyperTransport?
Два процессора используют собственные шины для связи с MCH, но вот встроенного контроллера памяти, как у процессоров AMD, у них нет.
Как мы уже упоминали в предварительном обзоре платформы Bensley, чипсеты Blackford и Glidewell отличаются двумя важными инновациями по сравнению с платформой Lindenhurst (чипсеты E7520/E7320). А именно, двумя независимыми шинами для каждого из процессоров и четырёхканальным контроллером DDR2 DIMM (FB DIMM).
В теории, независимая шина между новым двуядерным Xeon и северным мостом Blackford MCH, работая на частоте FSB1066, должна обгонять интерфейс AMD HyperTransport на скорости 400 МГц DDR. Пропускная способность шины памяти благодаря четырём каналам возрастает до 17 Гбайт/с, что в 2,5 раза превышает пропускную способность памяти старой платформы Intel Lindenhurst, хотя, конечно, задержки при этом увеличиваются. Кроме того, маршрутизация проводящих линий от MCH до FB-DIMM стала менее сложной. По этой причине дизайн материнских плат должен упроститься, да и памяти можно использовать больше.
Маршрутизация проводящих линий от сокета процессора AMD до слотов памяти DDR. Показан только один слой проводящих линий, но сложная архитектура хорошо заметна. Обратите внимание на петли, которые создают равную длину всех проводящих линий.
На плате Bensley проводящие линии проложены проще. Плата использует меньшее число слоёв, да и число линий меньше. FB-DIMM производятся по схожему технологическому процессу, что и обычные модули DDR/DDR2, поэтому цены в перспективе высокими быть не должны.
HyperTransport всё ещё лучше?
Как можно видеть, “маршрут” для данных здесь короче и не такой “загруженный” по сравнению с архитектурой Intel (Lindenhurst). Память напрямую подключена к каждому процессору.
Суммарная пропускная способность памяти систем AMD увеличивается с числом процессоров, что позволяет поднять общую производительность. Подобная архитектура даёт преимущества по производительности ввода/вывода, даже при небольшом числе процессоров.
Что же выбрать?
В нашем тестировании мы попытались выявить как преимущества, так и недостатки обеих платформ. Следует помнить: если даже ваше приложение теоретически быстрее на одной из-за платформ по причине чувствительности к высокой частоте CPU или скорости операций ввода/вывода, практические результаты могут оказаться весьма неожиданными. Мы всегда рекомендуем тестировать платформы в конкретной инфраструктуре, прежде чем вкладывать деньги в покупку сервера.
Процессор от Intel: Dempsey на 3,46 ГГц
В нашу лабораторию мы получили инженерный образец процессора Dempsey в паре с чипсетом Blackford, который будет использоваться в двухпроцессорных системах Intel следующего поколения. Чипсет Blackford использует процессорную шину FSB1066, но модули памяти FB-DIMM поддерживают, максимум, DDR2-533. Новые модули FB-DIMM (полностью буферизованные, fully buffered) обещают дать не меньше, чем в три раза большую пропускную способность по сравнению с обычной регистровой памятью DDR2 в четырёхканальном режиме.
Полностью буферизованная память в перспективе должна дать менее дорогие и более мощные системы. Протокол FBD является индустриальным стандартом, что вселяет надежду в быстрое внедрение. Но есть и недостаток: FB-DIMM отличаются на 20% более высокими задержками по сравнению с DDR, зато дают пропускную способность больше 4 Гбайт/с.
Обратите внимание на радиатор в центре, который помогает охлаждать чип буфера.
Как можно видеть, в системе присутствует восемь процессоров – благодаря Hyper-Threading. В инженерном образце мы не смогли отключить Hyper-Threading, поэтому все тесты проводились со включённой технологией. Кстати, диспетчер устройств показывает тактовую частоту 3,46 ГГц, в то время как BIOS сообщает только 3,2 ГГц.
CPU-Z пока не распознаёт процессоры Dempsey. Конечно, перед нами отнюдь не Pentium 4 Extreme Edition.
Вполне понятно, текущая версия CPU-Z не распознаёт полностью буферизованные DIMM.
Процессор от AMD: Opteron 280
Opteron 280 работает на частоте 2,4 ГГц и оснащён кэшем L2 2×1 Мбайт. На момент выхода статьи это был самый быстрый двуядерный серверный процессор от AMD.
В качестве тестовой платформы мы использовали проверенную Tyan GX28 с чипсетом AMD 8131/8111. Интерфейс памяти двухканальный DDR400 для каждого процессора. Поскольку мы сравнивали этот сервер с инженерным образцом, то решили не углубляться в подробности дизайна или конструкции шасси.
Два двуядерных процессора: итого четыре CPU.
Методика тестирования
Создать хороший набор многопоточных тестов – задача непростая. Поэтому мы решили параллельно запустить одно и то же однопоточное приложение несколько раз (скажем, тот же WinRAR). Мы провели тесты с одним, двумя, четырьмя и восемью параллельными задачами на одном и том же массиве данных. В целом, оптимальное число задач определяется числом активных ядер (будь то логические или физические ядра).
Мы также запускали и реальные многопоточные приложения, которые, сами по себе, нагружали несколько ядер. Мы хотели узнать, насколько хорошо масштабируются две платформы на приложениях, которые используют несколько потоков с “тяжёлой” загрузкой, а также оценить влияние технологии Hyper-Threading. Как мы предполагаем, будущие приложения будут ещё сильнее опираться на многопоточность, поскольку именно такой подход позволит использовать потенциал двух- и четырёхядерных систем в будущем.
Обе системы тестировались в одно-, двух-, четырёх- и восьмипоточных окружениях с несколькими приложениями. Некоторые однопоточные тесты были синтетическими и не отражали реальных сценариев. Но результаты этих тестов хорошо показали, насколько хорошо обе платформы смогут конкурировать в многопоточном окружении.
Из-за ограничений памяти нам пришлось запускать тесты с физических дисков и настроить массив RAID 0 из двух SCSI-накопителей на 15 000 об/мин с контроллером LSI MegaRAID 320-1, оснащённым 64 Мбайт кэша. Обе системы использовали одни и те же диски и интерфейсы, так что ограничения интерфейса относились к обеим платформам. Кроме того, перед каждым тестом мы перезагружали системы, чтобы очистить кэш.
Важно заметить, что кэш RAID-контроллера может повлиять на время загрузки при одновременном запуске нескольких однопоточных тестов, поскольку они используют один и тот же массив данных. Впрочем, этот эффект на обеих платформах проявляет себя в равной силе.
Каждый тест проводился три раза, чтобы получить объективный результат. Мы использовали среднее значение трёх тестов и оценивали среднее время выполнения двух-, четырёх- или восьмипоточных тестов, пытаясь просчитать время, которое требуется на один поток. Если приложение хорошо масштабируется, то оно не требует заметно большего времени выполнения на поток при увеличении числа потоков.
Наш инженерный образец Intel поставлялся без драйвера системного контроллера прерываний. Мы решили не устанавливать драйвер AMD на соответствующую систему, чтобы условия тестирования были максимально честными. Впрочем, тесты с установленным драйвером AMD не показали какой-либо заметной разницы в производительности.
Тестовая конфигурация
Системное аппаратное обеспечение | |
Процессоры | Intel Xeon DP Dempsey двуядерный (инженерный образец) 3,46 ГГц, FSB1066, 2x 2 Мбайт кэша L2 Intel Xeon DP одноядерный 3,8 ГГц, FSB800, 2 Мбайт кэша L2 AMD Opteron 254 одноядерный 2,6 ГГц, 1 ГГц HTT, 1 Мбайт кэша L2 AMD Opteron 280 двуядерный 2,4 ГГц, 1 ГГц HTT, 2x 1 Мбайт кэша L2 |
Платформа | Dell PowerEdge 2850 Intel E7520, Bios A04 Инженерный образец Intel для платформы Bensley Blackford MCH, BIOS NA Материнская плата Tyan GX28-2881 (Socket 940) AMD 8131/8111, BIOS 2.06B11 |
Память | Bensley: Micron Technology MT9HTF6472FY ECC FB-DIMM 8x 512 Мбайт DDR2 533, (CL4,0-4-4-4-12) Tyan GX28: Corsair CM72SD1024RLP-3200/S ECC DDR 8x 1024 Мбайт DDR 400, (CL3,0-3-3-8-11) |
Жёсткий диск | Bensley – два Fujitsu Siemens MAS3367NP 36 Гбайт, 15 000 об/мин, кэш 8 Мбайт, SCSI Tyan – два Fujitsu Siemens MAX3036NC 36 Гбайт, 15 000 об/мин, кэш 8 Мбайт, SCSI |
Сеть | Bensley – два встроенных контроллера Intel, гигабитный Ethernet Dell – два встроенных контроллера Intel, гигабитный Ethernet Tyan – два встроенных контроллера Broadcom, гигабитный Ethernet |
Видеокарты | Bensley – Radeon 7000 VE PCI 64 Мбайт Dell – Radeon 7000 VE PCI 16 Мбайт Tyan – встроенный ATI Rage XL PCI (B21) 8 Мбайт |
Блок питания | Bensley – Delta DPS-700FB, 700 Вт Dell – Dell NPS700-AB A Tyan – Emacs P1M-6400P, 400 Вт |
Системное ПО и драйверы | |
ОС | Microsoft Windows Server Enterprise Ed. 5.20.3790 SP0 |
Версия DirectX | 9.0c (4.09.0000.0904) |
Драйвер платформы | Н/Д для Bensley. Не устанавливался на Tyan GX28. |
Графический драйвер | ATi Tyan: Ver 5.10.2600.6014 (“родной” драйвер Window) ATi Dell: Ver 6.13.10.6153 (“родной” драйвер Windows) ATi Bensley: Ver 6.13.10.6153 (“родной” драйвер Windows) |
Чтобы гарантировать максимальную стабильность, мы использовали “родные” драйверы Windows. Ни один из наших тестов не использовал 3D-графику.
Кроме того, для сравнения мы добавили результаты двух одноядерных платформ.
Тесты и настройки
Тесты и настройки | |
Видео | |
Mencoder XVID | Version 1.0 Pre7-3.4.2 Xvid 1.10-Beta2 encoding Xvid Datafiles: PAL DV avi files total 27:50 min. Total 5953MB. Options: -ovc xvid -xvidencopts bitrate=740 -oac mp3lame -lameopts br=192 |
Аудио | |
Lame MP3 | Version 3.97.1 Multi-threaded Alpha 12 Wav files: 1:17:20 minutes total (783 MB) to mp3 32 – 320 kb VBR = level 3 Options: -v -b32 -B320 |
Приложения | |
Winrar | Version 3.50 Datafiles: 11 text files 575MB total and 48 binary files 645MB total Compression = Best, Dictionary = 4096kb, Options: a -m5 -md4096 -r |
Ilog Cplex | Version 8.0 With a custom test suite and a 6094 kB input file. |
Autodesk 3D Studio Max | Version 8.0 A batch tracing of the following datasets. Provided by Intel. 3ds max 7 5_rays 640×480 Ape 320×240 CBALLS2 800×600 InkPaintChameleon 640×480 MissleBuilding 640×480 Radiosity 1280×720 SinglePipe2 640×480 Stadium 320×240 Underwater_Environment_Finished 800×600 WaterShots 640×480 |
BlackScholes | Version 1.0 Optimized for both platforms. |
Тесты Futuremark и Sisoft Sandra не запустились на обеих платформах, поэтому мы решили отказаться от синтетических тестов.
Mencoder
В тестах Mencoder системы Intel выходят вперёд, хотя и с незначительным отрывом.
Lame
Lame очень хорошо масштабируется на системе AMD с числом потоков до четырёх. Система Bensley масштабируется не так хорошо, но обгоняет AMD при использовании восьми потоков. Hyper-Threading в данном случае даёт ощутимый прирост.
WinRAR
Система AMD находится в лидерах.
Cplex
В тесте Cplex система Intel Bensley масштабируется лучше, хотя система AMD даёт больше чистой производительности при запуске одного потока.
3DSMax
Программа Autodesk 3D Studio Max 8.0 оптимизирована под многопоточность и использует все доступные ресурсы. Intel в данном тесте обгоняет конкурента на несколько процентов.
BlackScholes
Этот тест можно назвать вполне синтетическим. Исходный код перед запуском был оптимизирован под обе системы. Система AMD лидирует по производительности с числом потоков от одного до четырёх, но отстаёт при увеличении числа потоков до восьми. Мы также добавили результат и с шестнадцатью потоками, чтобы показать, насколько плохо растёт производительность при добавлении потоков. Вполне понятно, что одноядерные процессоры выглядят не слишком хорошо. Обратите внимание: когда на двуядерном Bensley запущены четыре потока, а также два потока на PE 2850, то технология Hyper-Threading, на самом деле, ухудшает производительность. Система AMD хорошо масштабируется по числу ядер.
Тестовый образец
Intel предоставила нашей лаборатории тестовый образец, который не является финальным. Как мы полагаем, после оптимизации платформа даст более хорошие результаты, тем более что тактовая частота будет увеличена до 3,73 ГГц. Если Intel решит добавить поддержку DDR2-667 и DDR2-800, то можно будет ожидать большую производительность. Наконец, в третьем квартале этого года процессор Dempsey будет заменён в системе Bensley на Woodcrest, так что время жизни Dempsey всё равно слишком короткое.
Производительность
Процессор Dempsey в паре с платформой Bensley не слишком впечатлил нас в тестах. По крайней мере, по сравнению со схожей (но уже устаревающей) архитектурой AMD. Когда AMD где-то в середине лета выпустит новую платформу Socket F, как мы считаем, она опять поднимается в лидеры, если только Intel не сможет выжать ещё больше производительности. Но пока весьма сложно предположить, какое влияние окажут процессоры Woodcrest. Тем более что оно зависит от доступности новых процессоров.
Архитектура Intel по-прежнему получает преимущество от Hyper-Threading, особенно в двухпроцессорном сервере на базе двуядерных процессоров. Такая система позволяет ускорить работу параллельных web-серверов и серверов баз данных. Впрочем, на некоторые приложения технология Hyper-Threading действует негативно.
В целом, победителем в нашем тестировании можно назвать систему AMD. В ближайшем будущем мы планируем сравнить её с финальным образцом Dempsey, а затем и с процессорами Woodcrest.
Одно ядро или несколько?
Наши одноядерные системы наглядно показывают, что будущие и современные многопоточные приложения действительно выигрывают от нескольких ядер. Использовать одноядерные процессоры имеет смысл, только если ваше приложение базируется на одном потоке из-за возраста или лицензионных ограничений. В любом случае, одноядерные процессоры скоро уйдут в историю по мере того, как многоядерные CPU будут набирать тактовые частоты. Поставщики программного обеспечения, которые не начали переход на многопоточные приложения или продолжают политику лицензирования на ядро, могут потерять рынок. Многоядерные процессоры и параллелизм – вот движитель будущего роста производительности.
Заключение
Новая технология памяти FBD выглядит обещающей, а в планах Intel значится использование этой памяти на всех сегментах, включая недорогие серверы. Такой подход имеет смысл, если Intel пытается быстро получить большие объёмы производства и низкие цены. Но ситуацию ухудшает падение производительности на 20%, если память используется не в полную силу. Действительно, немногие недорогие серверы используют память с нагрузкой 4 Гбайт/с и выше. Преимущество получат серверы виртуализации, СУБД и схожие приложения.