Время Hammer: AMD атакует
Настроение в наших лабораториях было приподнятым – нам предоставили неделю, чтобы детально протестировать в общей сложности четыре платформы. AMD выслала нам сервер с двумя процессорами Opteron. Мы быстро обнаружили, что соперником платформы AMD является система на двух Intel Xeon 3 ГГц. В этой статье мы направили основные усилия на сравнение двух указанных платформ.
Нам пришлось разработать новую тестовую методику, чтобы задействовать 64-битную архитектуру Opteron как при работе с серверными приложениями, так и в среде рабочей станции. Был использован новый сервер Suse Linux Enterprise Server 8 (SLES) с последним ядром 2.4.19. В общей сложности нашей лабораторией проведено тридцать тестов приложений для серверов и рабочих станций, которые позволили сравнить производительность Opteron и Xeon.
Opteron “Великолепный”: новый процессор заключён в корпус, напоминающий Intel Pentium 4, если не считать того, что AMD решила использовать керамику.
Время Hammer: AMD атакует, продолжение
Если вы не слишком увлекаетесь процессорами, напомним, что Opteron является 64-битным процессором, который может аппаратно выполнять обычный 32-битный x86-код. Как вы помните, эта функция называлась “x86-64”, но сейчас AMD переименовала её в “AMD64”. Процессор Opteron имеет важное отличие от 64-битного процессора Intel и архитектуры “IA64”, который способен лишь медленно эмулировать 32-битный код. Кроме того, AMD Opteron является первым процессором x86, получившим встроенный двухканальный контроллер памяти DDR333, что позволяет выделять память для каждого процессора Opteron, а также уменьшить задержки при обращении к памяти. Наконец, AMD оснастила Opteron тремя каналами HyperTransport, отвечающими за связь процессора с внешним миром.
Увеличенное изображение: “244” указывает на номер модели. Мы ещё вернёмся к этому в нашем тестировании.
Первый сервер от AMD: два Opteron на частоте 1,8 ГГц с модельным номером 244.
Так тоже работает: двухпроцессорная система Opteron под Windows XP для тестирования приложений рабочей станции.
Впечатления от сервера Opteron – вы можете скачать видеоролик
Мы так долго ждали, что даже не поверили появлению сервера Opteron в нашей лаборатории. Чтобы вы могли наглядно представить себе сервер на базе Opteron, мы создали видеоролик. Он позволит вам “прочувствовать” сервер и станет “лакомым кусочком” для всех фанатов AMD, которые с нетерпением ждали выпуска Opteron. Чтобы поддержать оптимальное качество видео и, в то же время, минимальный размер, мы закодировали ролик в формат MPEG-4, как и все предыдущие наши файлы. Затем видео было сжато архиватором ZIP. Вы можете скачать его по следующим адресам.
Сервер 1
Сервер 2
Сервер 3
Требования для проигрывания видео
Небольшой размер имеет свою цену – вы должны обладать мощным процессором, чтобы проиграть видеоролик. Вам, также, лучше установить кодек DivX версии 5.03. Самую последнюю версию можно скачать с сайта DivX.com, причём без кодека вы не сможете проиграть видео вообще. Звук был сжат в формат MP3, но в связи с тем, что этот кодек уже входит в комплект поставки большинства версий Windows, для воспроизведения MP3 вам не потребуется прилагать какие-либо дополнительные усилия.
Детальная информация о ядре Opteron: улучшенный Athlon
Ядро долгожданного Opteron: наибольшую площадь занимает 1 Мбайт кэша L2 (более 50%).
При внимательном рассмотрении вы заметите, что физически ядро AMD Opteron очень похоже на старое ядро Athlon. Одна из инноваций Opteron заключается в добавлении встроенного контроллера памяти, который занимает пространство, отводимое в ядрах Palomino и Thoroughbred под кэш L2. Кстати, размер кэша L2 был увеличен в Opteron до 1 мегабайта (16 путей).
SledgeHammer имеет более 940 контактов, что ставит рекорд в мире x86.
Вид на Opteron сбоку – наконец-то процессор обзавёлся распределителем тепла (heat spreader)! Мы уже давно ждали появления подобной функции на Athlon, но так её и не получили – главным аргументом была цена.
Детальная информация о ядре Opteron: улучшенный Athlon, продолжение
В остальном, помимо новых функций типа встроенного контроллера памяти и увеличенного кэша L2 (1 Мбайт, 16 путей, ассоциативный), ядро во многом осталось прежним. Сходство наглядно заметно при сравнении фотографий ядер Opteron и Thoroughbred.
Как и раньше, ядро содержит девять функциональных блоков (3 ALU, 3 AGU, FADD, FMUL и FMISC – три целочисленных блока и три блока операций с плавающей запятой), а также три декодера x86, тщательно проработанные AMD. Практически не изменился кэш L1 для инструкций и данных (по 64 кбайт на каждый компонент), хотя сейчас в нём появилась логика ECC.
Сердце кристалла: ядро процессора без кэша L2 и контроллера памяти. Следующая иллюстрация объясняет ситуацию.
Сравнение ядер Opteron (слева) и старого Athlon на ядре Thoroughbred (справа). На первый взгляд они практически идентичны. Как можно заметить, AMD осуществила лишь небольшие изменения в архитектуре Opteron, конечно, если не считать контроллер памяти и кэш L2.
Детальная информация о ядре Opteron: улучшенный Athlon, продолжение
Наиболее интересна детальная информация о процессоре. Сердцем кристалла является перекрёстный коммутатор (XBAR), он управляет потоками данных между контроллером памяти, ядром процессора и тремя портами HyperTransport. По сравнению с Athlon 64, который предназначается для однопроцессорных конфигураций, Opteron оснащён логикой, позволяющей работать в многопроцессорных системах. Например, в серверах можно использовать до восьми процессоров Opteron совместно, без наличия северного моста.
Более того, процессор приобрёл блок команд SSE2, который удвоил количество регистров до шестнадцати, как у Intel P4. На уровне обработки команд произошли фундаментальные изменения: буферы TLB (Transition Look-aside Buffers) были переработаны под большую нагрузку (1000 входов максимум). Чем больше входов записано в TLB, тем реже придётся загружать таблицы перевода адресов из основной памяти при передаче физического адреса.
Основная структура Opteron не слишком сильно отличается от Athlon: не изменились три блока целочисленных операций и три блока работы с плавающей запятой, равно как и декодеры x86. Кэш приобрёл логику ECC. Истинные изменения начинают проявляться лишь при детальном рассмотрении процессора.
Ядро процессора | Hammer | Barton | Thoroughbred “B” |
Площадь подложки (диаметр 200 мм) | 31416 мм² | 31416 мм² | 31416 мм² |
Площадь кристалла | 193 мм² | 101 мм² | 84 мм² |
Техпроцесс | 0,13 мкм | 0,13 мкм | 0,13 мкм |
Потери годных кристаллов (приближ.) | 18% | 18% | 18% |
Выход годных кристаллов (теоретический) | 148 единиц/подложку | 255 единиц/подложку | 306 единиц/подложку |
Выход годных кристаллов (при учёте 60% доли выхода) | 89 единиц/подложку | 153 единиц/подложку | 183 единиц/подложку |
Ядро процессора | Thoroughbred “A” | Palomino | Thunderbird |
Площадь подложки (диаметр 200 мм) | 31416 мм² | 31416 мм² | 31416 мм² |
Площадь кристалла | 80 мм² | 128 мм² | 128 мм² |
Техпроцесс | 0,13 мкм | 0,18 мкм | 0,18 мкм |
Потери годных кристаллов (приближ.) | 18% | 18% | 18% |
Выход годных кристаллов (теоретический) | 322 единиц/подложку | 201 единиц/подложку | 201 единиц/подложку |
Выход годных кристаллов (при учёте 60% доли выхода) | 193 единиц/подложку | 120 единиц/подложку | 120 единиц/подложку |
По сравнению с ядрами Thoroughbred и Barton, TLB работает с уменьшенными задержками, что, в свою очередь, повышает скорость. Предсказание ветвлений также подверглось доработке, и сейчас счётчик истории переходов может содержать до 16.000 вхождений (Athlon XP – 4000). Чтобы процессор мог работать на высоких тактовых частотах, AMD увеличила конвейер Hammer до 12 ступеней, по сравнению с 10 ступенями старого Athlon, в то время как процессор Intel P4 (и Xeon) использует конвейер с 20 ступенями. В результате исполнительные блоки смогут быстрее получать команды, что уменьшит циклы ожидания.
Важная новая особенность: расширенные 64-битные регистры.
HyperTransport: скоростная шина
Вместо распараллеливания FSB, процессоры связываются между собой по интерфейсу HyperThransport. Последовательный интерфейс с переменной скоростью потока позволяет SledgeHammer получать суммарную скорость передачи в 3,2 Гбайт/с – в обоих направлениях одновременно. В результате общая пропускная способность достигает 6,4 Гбайт/с на порт HyperTransport. Для сравнения, Pentium 4 с 533 МГц FSB обладает скоростью передачи по шине 3,97 Гбайт/с, но только в одном направлении.
Последовательный интерфейс был специально разработан для максимальной гибкости пропускной способности. AMD оснастила серверную версию Opteron тремя портами HyperThransport. Все данные процессора Opteron проходят через интерфейс HyperTransport и встроенный контроллер памяти. Чтобы соседний процессор получил прямой доступ к памяти, к примеру, Opteron использует коммутатор XBAR. Причём этот коммутатор в полной мере задействует 64-битные шины для адресов и команд.
Пять режимов работы
Пять режимов работы AMD Opteron.
В зависимости от установленных битов регистра LME, процессор работает в одном из режимов, указанных на иллюстрации. Такой подход позволяет гарантировать обратную совместимость, что является одним из самых больших преимуществ архитектуры AMD “AMD64” над Intel “IA64”.
Важная особенность: 64-битные регистры Opteron
A significant new feature: the extended 64-bit register.
Opteron может работать с памятью объемом до 1 Тбайт (1024 Гбайт), то есть он использует 40-битную физическую адресацию и 48-битную виртуальную адресацию. Такая ширина может показаться несколько меньше, чем ожидалось от 64-битной архитектуры, однако процессор уже может работать с большим объёмом памяти, чем 32-битное адресное пространство Pentium 4, Xeon или Athlon XP. Архитектура AMD64 расширяет 32-битные регистры процессоров IA-32 до 64 битов. С приложениями, работающими в “наследственном (legacy)” или “совместимом (compatibility)” режимах, процессор продолжает использовать восемь обычных 32-битных регистров EAX, EBX, ECX, EDX, EBP, ESI, EDI и ESP (см. иллюстрацию выше).
Если процессор переходит в 64-битный режим, то архитектура x86-64 расширяет эти восемь регистров с помощью префикса R до 64 бит. Расширенные регистры называются от RAX до RSP. Кроме того, в 64-битном режиме Opteron может получать доступ к восьми регистрам общего назначения GPR (General Purpose Registers) от R8 до R15, которые тоже имеют ширину 64 бита. Для вычислений с плавающей запятой используются восемь 128-битных регистров SSE, а именно с XMM8 до XMM15. Однако они работают только в 64-битном режиме.
Прощай, Socket 462: встречаем Socket 754 и 940
Новая серверная платформа от AMD: Socket 940.
Процессор всё ещё закрепляется с помощью рычага.
Мощь двух Opteron: два процессора в серверной системе.
Мы уже привыкли к Socket 462. Однако с запуском процессоров Hammer в апреле (Opteron) и сентябре (Athlon 64) этого года, дни Socket 462 сочтены. Athlon 64 использует новый разъём Socket 754, а Opteron – Socket 490. Различие в числе контактов двух процессоров Hammer связано с наличием дополнительных канала памяти и двух портов HyperThransport на Opteron. Все процессоры Hammer будут использовать упаковку mPGA, как и Intel Pentium 4 и Xeon. Однако для нас остаётся загадкой, почему AMD решила выбрать старый, “керамический”, вариант корпуса.
Гигантский элемент охлаждения обеспечивает низкую температуру ядра процессора.
Встроенный интерфейс памяти: без участия северного моста
Концепция построения многопроцессорных систем на базе Opteron основана на выделении для каждого процессора локальной памяти, к которой другие процессоры могут получать доступ через шину HyperThransport. Пока только серверная версия Hammer, Opteron, оснащается двумя 72-битными каналами DDR SDRAM. Учитывая восемь слотов DIMM, каждый процессор может адресовать 8 Гбайт памяти. В результате Opteron с двухканальным интерфейсом памяти получает пропускную способность шины в 5,4 Гбайт/с на процессор. Пропускная способность памяти масштабируется соответственно числу процессоров.
Однако интеграцию контроллера памяти на процессор можно рассматривать как замедляющий негативный фактор. Начиная с 2004 года, стандарт DDR2 будет активно продвигаться на рынке, и AMD придётся вносить изменения в процессор. Что интересно, тайваньские производители чипсетов уже готовы предложить своё решение: отказаться от использования встроенного в процессор контроллера памяти и работать через обычный контроллер в чипе северного моста. Однако, отказавшись от встроенного в процессор контроллера памяти, мы приходим туда, откуда ушли. Что ж, всё развивается по спирали.
Процент выхода годных кристаллов Fab30: максимум 89 процессоров Opteron с подложки!
AMD использует подложки диаметром только 200 мм (Intel сегодня переходит на подложки диаметром 300 мм), что даёт суммарную площадь 31416 мм². Поделив площади подложки и кристалла одного процессора, можно подсчитать теоретический выход без учёта геометрических потерь. С подложками 200 мм они составляют около девяти процентов. В результате мы получаем теоретический выход 148 процессоров, при нулевом проценте брака.
На практике же лишь 60 процентов кристаллов не имеют дефектов. В результате имеем 89 годных процессоров на подложку. Конечно, по нашим приближённым расчётам. Точная информация о числе годных процессоров конфиденциальна, но наши вычисления наверняка близки к истине. Вряд ли AMD имеет выход меньше 30 процентов – такой вывод мы можем сделать на основе полученной информации от других производителей, использующих сходные техпроцессы.
Подложка с процессорами Opteron: если всё идёт по плану, то AMD получает примерно 89 процессоров с одной подложки. Выводы основаны на наших внутренних расчётах и информации из других источников.
Сравнение различных платформ AMD
Производитель | AMD | AMD | AMD |
Процессор | Opteron с ядром Hammer | Athlon XP с ядром Barton | Athlon XP с ядром Thoroughbred “B” |
Дата выпуска | 22 апреля 2003 | 10 марта 2003 | третий квартал 2002 |
Тактовые частоты | 1,8 – 3,xx ГГц | 2,16 – 2,xx ГГц | 1,86 – 2,66 ГГц |
Техпроцесс производства | 0,13 мкм | 0,13 мкм | 0,13 мкм |
Размер кристалла | 193 мм² | 101 мм² | 84 мм² |
Число транзисторов | 54,3 млн. | 37,5 млн. | |
Платформа | Socket940 | Socket462 | Socket462 |
Частота шины процессора (Front Side Bus) | – | 166 МГц / 333 МГц DDR | 133/166 МГц / 266/333 МГц DDR |
Размер кэша инструкций L1 | 64 кбайт | 64 кбайт | 64 кбайт |
Предварительное декодирование инструкций? | нет | нет | нет |
Размер кэша данных L1 | 64 кбайт | 64 кбайт | 64 кбайт |
Аппаратная упреждающая выборка (prefetch) данных | да | да | да |
Частота работы кэша L1 | частота ядра | частота ядра | частота ядра |
Ширина шины данных кэша L1 | 64 бит | 64 бит | 64 бит |
Размер кэша L2 | 1024 кбайт | 512 кбайт | 256 кбайт |
Частота кэша L2 | частота ядра | частота ядра | частота ядра |
Адресуемый диапазон памяти кэша L2 | 64 Гбайт | 64 Гбайт | 64 Гбайт |
Ширина шины данных процессора | 64 бит | 64 бит | 64 бит |
Поддержка платформами | |||
Чипсеты | AMD 8131 | от VIA KT333 до KT400 SiS 735 и SiS 745 nVidia nForce, nForce 2 AMD 750 и 760 |
от VIA KT333 до KT400 SiS 735 и SiS 745 nVidia nForce, nForce 2 AMD 750 и 760 |
Тип памяти | DDR SDRAM (два канала) | DDR SDRAM | SDRAM, DDR SDRAM |
Частота памяти | 166 МГц | 133/166/200 МГц | 100/133/166/200 МГц |
Расширенные наборы инструкций |
|||
MMX | да | да | да |
Enhanced 3DNow! | да | да | да |
3DNow! Professional | да | да | да |
SSE | да | да | да |
SSE2 | да | нет | нет |
Электрические спецификации |
|||
Поддержка SMP | да | нет (“официально не поддерживается”) | нет (“официально не поддерживается”) |
Напряжение ядра | 1,65 В | 1,65 В | 1,65 В |
Защита от перегрева (термодиод) | да | да | да |
Встроенная логика защиты от перегрева | да | нет, требует наличия логики на материнской плате | нет, требует наличия логики на материнской плате |
Производитель | AMD | AMD | AMD |
Процессор | Athlon XP на ядре Thoroughbred “A” | Athlon XP на ядре Palomino | Athlon на ядре Thunderbird |
Дата выпуска | второй квартал 2002 | 9 октября 2001 | 9 октября 2001 |
Тактовые частоты | 1,46 – 1,80 ГГц | 1,2 – 1,80 ГГц | 0,65 – 1,40 ГГц |
Техпроцесс производства | 0,13 мкм | 0,18 мкм | 0,18 мкм |
Размер кристалла | 80 мм² | 128 мм² | 128 мм² |
Число транзисторов | 37,5 млн. | 37,5 млн. | 37,5 млн. |
Платформа | Socket462 | Socket462 | Socket462 |
Частота шины процессора (Front Side Bus) | 133 МГц / 266 МГц DDR | 133 МГц / 266 МГц DDR | 100/133 МГц; 266 МГц DDR |
Размер кэша инструкций L1 | 64 кбайт | 64 кбайт | 64 кбайт |
Предварительное декодирование инструкций? | нет | нет | нет |
Размер кэша данных L1 | 64 кбайт | 64 кбайт | 64 кбайт |
Аппаратная упреждающая выборка (prefetch) данных | да | да | да |
Частота работы кэша L1 | частота ядра | частота ядра | частота ядра |
Ширина шины данных кэша L1 | 64 бит | 64 бит | 64 бит |
Размер кэша L2 | 256 кбайт | 256 кбайт | 256 кбайт |
Частота кэша L2 | частота ядра | частота ядра | частота ядра |
Адресуемый диапазон памяти кэша L2 | 64 Гбайт | 64 Гбайт | 64 Гбайт |
Ширина шины данных процессора | 64 бит | 64 бит | 64 бит |
Поддержка платформами | |||
Чипсеты | от VIA KT133A до KT400 SiS 735 и SiS 745 ALi Magik 1 nVidia nForce, nForce 2 AMD 750 и 760 |
от VIA KT133 до KT400 SiS 735 и SiS 745 ALi Magik 1 nVidia nForce, nForce 2 AMD 750 и 760 |
от VIA KT133 до KT400 SiS 735 и SiS 745 ALi Magik 1 nVidia nForce, nForce 2 AMD 750 и 760 |
Тип памяти | SDRAM, DDR SDRAM | SDRAM, DDR SDRAM | SDRAM, DDR SDRAM |
Частота памяти | 100/133/166/200 МГц | 100/133/166 МГц | 100/133/166 МГц |
Расширенные наборы инструкций |
|||
MMX | да | да | да |
Enhanced 3DNow! | да | да | да |
3DNow! Professional | да | да | да |
SSE | да | да | да |
SSE2 | нет | нет | нет |
Электрические спецификации |
|||
Поддержка SMP | нет (“официально не поддерживается”) | нет (“официально не поддерживается”) | нет (“официально не поддерживается”) |
Напряжение ядра | 1,65 В | 1,75 В | 1,75 В |
Защита от перегрева (термодиод) | да | да | нет |
Встроенная логика защиты от перегрева | нет, требует наличия логики на материнской плате | нет, требует наличия логики на материнской плате | нет |
Наша тестовая платформа: сервер Opteron от Newsys
Наша лаборатория получила сервер Newsys с двумя процессорами Opteron, 2 Гбайт памяти и двумя винчестерами Ultra 320 SCSI на небольшой срок для тестирования.
Первая серверная система от AMD на двух процессорах Hammer с модельным номером 244.
Типично: привод CD-ROM в форм-факторе slimline.
Вид на переднюю панель серверной системы.
Внутренности сервера AMD.
Ещё не готова к массовому производству: материнская плата с проводами коррекции.
Наша тестовая платформа: сервер Opteron от Newsys, продолжение
Ничего нового: хорошо известный чипсет AMD.
Редкие драйверы: два Opteron под Windows XP.
Из каменного века: графический чип Trident с сервером Opteron. Конечно, разрешения 640 x 480 пикселей вполне хватит для 2D.
Работает: сервер Opteron в качестве рабочей станции под управлением Windows XP.
Конкурент: система Intel Xeon
Где появляется Opteron, там сразу же возникает Xeon. Чтобы получить наиболее репрезентативные тесты, мы построили двухпроцессорную систему на базе Intel Xeon с новыми 3 ГГц процессорами. Чипсет Intel E7505/Placer в серверах пока непобедим по производительности, поэтому наша тестовая платформа Xeon была укомплектована именно им. У сервера AMD получился достойный конкурент. Большинство платформ Xeon на рынке основаны на старых чипсетах для 100 МГц FSB (соответствует “маркетинговой” частоте 400 МГц).
Прямо из коробки: Intel Xeon 3 ГГц с 512 кбайт кэша L2.
Конкурент: два Xeon на 3 ГГц.
Два Socket 604.
Материнская плата Intel на чипсете Intel E7505/Placer поддерживает двухканальную работу с DDR333. По сравнению с новым чипсетом Canterwood (875), плата обеспечивает только 133 Гц FSB (маркетинговое значение 533 МГц!).
Конкурент: система Intel Xeon, продолжение
Два процессора Xeon с кулерами из комплекта поставки.
Малоизвестный факт: начиная с версии 3 ГГц, Intel Xeon приобрёл новую корпусировку. 3 ГГц Xeon (слева) и предыдущая модель 2,8 ГГц (справа).
Двухпроцессорная система Xeon: Windows XP для тестов рабочей станции.
Самая последняя платформа от Intel: два Xeon на 3,06 ГГц. Процессор использует модифицированную корпусировку.
64 бита: когда и для кого?
Что касается обычных приложений, то здесь вряд ли 2 Гбайт памяти можно назвать недостаточным объёмом, особенно учитывая тот факт, что операционные системы типа Windows XP могут выдавать приложениям логическое адресное пространство, ограниченное 2 Гбайт.
Типичными приложениями, базирующимися на 64-битной технологии, можно считать большие базы данных и программы по проектированию CAD. Непосредственная польза 64-битной архитектуры заключается в увеличенном адресном пространстве. Если стандартная 32-битная система может адресовать максимум 4 Гбайт, то при 64-битной адресации компьютер получает в своё распоряжение, по меньшей мере, 16 Тбайт. Большие базы данных сегодня уже значительно превысили объём в 4 Гбайт.
Чтобы обойти 32-битное ограничение в 4 Гбайт, Windows 2000 и XP применяют несколько уловок. Благодаря использованию расширения физических адресов (Physical Address Extension, PAE) и промышленной архитектуры памяти (Enterprise Memory Architecture), Windows 2000 и XP позволяют приложениями адресовать до 8 Гбайт памяти (Advanced Server) и 64 Гбайт памяти (Data Center Server). Однако подобные решения не являются быстрыми, поскольку они применяют технику, подобную EMS-памяти, что была в старые добрые дни 16-битных вычислений. Кроме того, 64 Гбайт всё равно является пределом 32-битных процессоров. Приложения, которым необходим быстрый доступ к базам данных больше 4 Гбайт или медленный доступ к базам выше 64 Гбайт, не могут обойтись без использования 64-битных систем.
SuSE Linux Enterprise Server – здесь показана официальная x86-32 версия. 64-битный вариант ещё не вышел в финальной стадии – мы использовали “Gold Master.”
Современные 64-битные системы обеспечивают не только более высокую пропускную способность, которая позволяет более эффективно хранить и обрабатывать высокоточные данные с плавающей запятой, но и предоставляют более эффективный путь для работы с числами с плавающей точкой. Корпоративное окружение только возрастает: работа всё большего числа компаний зависит от использования больших компьютерных систем, использующих огромные базы данных. В качестве примера можно привести CRM и биллинговую систему телекоммуникационных компаний, а также высокоскоростные Web-серверы. Во всех описанных случаях переход на 64-битную технологию позволит достичь лучшей масштабируемости.
Жёсткий диск 15.000 об/мин Ultra SCSI, включая контроллер. Для тестов под Linux.
Приводы систем Opteron чаще всего будут устанавливаться в съёмные отсеки.
64 бита – всё, что вам нужно знать
Для обработки данных, хранения промежуточных результатов или осуществления косвенной адресации, каждый процессор использует внутренние ячейки памяти, называющиеся регистрами, к которым можно обращаться без какой-либо задержки. Каждый регистр обладает фиксированной длиной.
32-битные процессоры типа Intel Pentium 4 или AMD Athlon XP могут, к примеру, складывать 32-битные числа за один шаг, в то время как старый 16-битный процессор (например, Intel 80286) на выполнение той же работы тратит два шага.
Следует отметить, что регистры должны, по крайне мере, соответствовать арифметическим блокам (ALU), именно поэтому 32-битные x86 процессоры используют 32-битные регистры. Процессору важно не только работать с регистрами достаточной длины, он должен иметь достаточное их количество, чтобы обрабатывать большое количество данных “на лету”.
AMD 64 обеспечивает не 8, а 16 64-битных регистров, что позволяет ускорить выполнение приложений (при должной их компиляции), поскольку такое количество регистров предотвращает частую запись в память.
Операции с плавающей запятой и потоковые операции SIMD (SSE, SSE2) получают преимущество от увеличения ширины обрабатываемых данных. 64-битный процессор по своей природе может просчитывать данные с плавающей запятой в 64-битном формате (“двойная точность” – до 15 десятичных позиций), поэтому он оказывается быстрее, и именно поэтому 64-битные процессоры лидируют в операциях с плавающей запятой.
Тестовая конфигурация
Процессоры AMD (Socket 940) | |
неизвестная FSB, двухканальная DDR 333 (166 МГц) | Opteron 1,8 ГГц (1800 МГц / 128/1024 кбайт) |
Процессоры AMD (Socket A) | |
166 МГц FSB (двухканальная DDR333) | Athlon XP 3000+ (2166 МГц 128/512 кбайт) Athlon XP 2800+ (2083 МГц 128/512 кбайт) Athlon XP 2500+ (1833 МГц 128/512 кбайт) |
166 МГц FSB (двухканальная DDR333) | Athlon XP 2700+ (2166 МГц 128/256 кбайт) |
133 МГц FSB (двухканальная DDR266) | Athlon XP 2600+ (2133 МГц 128/256 кбайт) Athlon XP 2400+ (2000 МГц 128/256 кбайт) |
Процессоры Intel (Socket 604) | |
133 МГц FSB (двухканальная DDR266) HT | Xeon 3,06 ГГц (3066 МГц 12-8/512 кбайт) |
Процессоры Intel (Socket 603) | |
100 МГц FSB (двухканальная RD PC800) HT | Xeon 2,8 ГГц (2800 МГц 12-8/512 кбайт) |
Процессоры Intel (Socket 478) | |
200 МГц FSB (двухканальная DDR400) HT | Pentium 4 3,00 ГГц (3000 МГц 12-8/512 кбайт) |
133 МГц FSB (двухканальная DDR333) HT 133 МГц FSB (RD PC1066) HT |
Pentium 4 3,06 ГГц (3066 МГц 12-8/512 кбайт) |
133 МГц FSB (двухканальная DDR333) | Pentium 4 2,80 ГГц (2800 МГц 12-8/512 кбайт) Pentium 4 2,66 ГГц (2800 МГц 12-8/512 кбайт) Pentium 4 2,53 ГГц (2533 МГц 12-8/512 кбайт) |
Память | |
PC 1066 (533 МГц) | 2 x 256 Мбайт / 32 нс / 16 бит (Kingston) |
DDR400 (200 МГц) | 2 x 256 Мбайт / 5 нс / 64 бит (Corsair) |
PC 800 (400 МГц) | 4 x 256 Мбайт / 45 нс / 16 бит (Infineon) |
DDR333 (166 МГц) ECC, REG. | 4 x 512 Мбайт / 6 нс / 64 бит (Infineon) |
DDR266 (133 МГц) ECC, REG | 2 x 256 Мбайт / |
Материнская плата | |
Intel 850E | Asus P4T533-C Версия: 1.03 Bios: 1010 BETA 001 (1/20/2003) |
nVidia nForce2 | Asus A7N8X Версия: 1.03 Bios: 1002 Beta 004 |
Intel 875 | Asus P4C800 Версия: 1.03 Bios: 1003 Beta 3 |
Intel 860 | MSI MS-6508 Версия: 1 Bios: |
Intel 7505 | Intel SE7505VB2 Версия: неизвестна Bios: |
Общее аппаратное обеспечение | |
Видеокарта | ATI Radeon 9700 Pro Память: 128 Мбайт DDR-SDRAM Частота памяти: 620 МГц (256 бит) Частота чипа: 325 МГц |
Жёсткий диск | 40 Гбайт, 6L040J2 , Maxtor UDMA100, 7200 об/мин, кэш 2 Мбайт |
Сеть | D-Link DFE-530TX (10/100 Мбит/с) |
CDROM | Asus 52x |
Драйверы | |
Чипсет Intel | V 5.00.1009 |
Intel IAA | V 2.3.0.2160 |
nVidia nForce | Asus V1.16 |
Драйвер видеокарты | CATALYSTTM 3.2 Версия: 6.14.01.6307 ATI Control Panel Версия: 6.14.10.4029 |
DirectX | Версия: 9a |
ОС | Windows XP, Build 2600 SP1 (English) Linux Enterprise 8.1 |
Серверные тесты под Linux 32/64 бит | |
Базы данных | MySQL 3.23.52 – 32 Bit SuSE Enterprise 8 MySQL 3.23.52 – 64 Bit SuSE Enterprise 8 |
Пропускная способность памяти | Stream 5.1 со специальными настройками – 64 бит |
Производительность в целых числах/с плавающей запятой | Unixbench 4.1 (Drystone/Whetstone) |
Производительность FPU | Whetstone с тремя флагами компилятора |
NASA Benchmark 1 | ARC 2D (Euler algorithm, depth 100) |
NASA Benchmark 2 | NPB (BT, CG, EP, IS, LU, MG, SP) |
Передача файлов Samba 1 | D-Bench 2.0 (Мбайт/с) |
Передача файлов Samba 2 | T-Bench 2.0 (Мбайт/с) |
Тесты рабочей станции под Windows XP | |
3D-рендеринг | Lightwave 7.5 Build 572 Cinema 4D XL 8.001 3D Studio Max 5.1 |
Кодирование звука MP3 | mp3 Maker Platinium 3.04 |
Кодирование видео MPEG-2 | Pinnacle Studio 8.5 Main Concept 1.3.1 |
Сжатие файлов | Winrar 3.11 |
Тесты процессора и мультимедиа | PC Mark 2002 SiSoft Sandra 2003 SP1 |
Мы использовали несколько различных тестов, чтобы обеспечить наиболее полную и сбалансированную картину производительности двух серверов. Приведённые результаты аналогичных тестов на нескольких процессорах для настольных компьютеров и рабочих станций позволяют лучше оценить производительность.
Серверные тесты под Linux 32/64 бит
Базы данных: MySQL 3.23.52 – 32 Bit SuSE Enterprise 8
Функция “alter table”, время в с, меньше – лучше
Функция “insert”, время в с, меньше – лучше
Функция “select”, время в с, меньше – лучше
Тест MySQL под SuSE Linux Enterprise Server 8 в 32-битной и 64-битной версиях симулирует доступ к большой базе данных. Функция “alter table” модифицирует таблицу, в то время как функция “insert” симулирует вставку данных в существующую таблицу. Третья дисциплина, “select”, отражает запросы к базе данных.
Пропускная способность памяти: Stream 5.1 – 32/64 бит
Расчёт пропускной способности памяти с помощью потоковых инструментов является стандартным тестом под Linux. Мы провели его в 32-битной и 64-битной версиях.
Производительность FPU: Whetstone с тремя флагами компилятора
Тест Whetstone Benchmark позволяет измерить чистую производительность FPU под Linux. Этот тест был проведён в трёх различных режимах: “не оптимизированном”, “оптимизированном с 02” и “оптимизированном с 03”.
NASA Benchmark 1: ARC 2D (эйлеровый алгоритм, глубина 100)
Широко известный тест NASA использует алгоритм Эйлера, в котором глубина вычислений выставлена на 100 циклов (требование: m=20 миллионов).
NASA Benchmark 2: NPB (BT, CG, EP, IS, LU, MG, SP)
Второй тест NASA отражает семь различных дисциплин. Чтобы упростить результаты, мы взяли два наиболее важных теста (BT, SP).
Передача файлов Samba 1: D-Bench 2.0
Популярный тест D-Bench 2.0 симулирует клиентский доступ к серверу под Linux. В общей сложности симулируется 16, 32, 48, 64, 80, 96, 112 и 128 клиентов. Диаграмму следует читать снизу вверх, тогда первый результат соответствует 16 клиентам.
Передача файлов Samba 1: T-Bench 2.0
То же самое относится и к T-Bench 2.0. Тест также симулирует доступ клиентов к серверу под Linux. И снова симулируется число клиентов 16, 32, 48, 64, 80, 96, 112 и 128. Диаграмму следует читать снизу вверх, тогда первый результат соответствует 16 клиентам. Теоретически, можно было бы симулировать доступ и более тысячи клиентов, но мы бы тогда не уложились в срок тестирования.
Тесты рабочей станции под Windows XP
3D-рендеринг: Newtek Lightwave 7.5
В тесте Lightwave становится очевидна его оптимизация под процессоры Pentium 4 и Xeon.
3D-рендеринг: Cinema 4D XL 8.001
3D-рендеринг: 3D Studio Max 5.1
В этом тесте сцена “Dragon_Charater_rig” просчитывается при разрешении 1024 x 768.
Кодирование звука MP3: mp3 Maker Platinium 3.04
Кодирование видео MPEG-2: Main Concept 1.3
Мы кодировали поток DV (файл 1,2 Гбайт) в MPEG-2 с помощью кодера Main Concept.
Кодирование видео MPEG-2: Pinnacle Studio 8.5
Мы создавали фильм в формате MPEG-2 из оригинального материала формата DV с помощью Pinnacle Studio 8.5.
Сжатие файлов: WinRAR 3.11
Сжатие файлов – очень жизненная задача. С помощью популярного архиватора WinRAR 3.1 мы сжимали 178 Мбайт WAV-файл под Windows XP.
Распределённые вычисления: Seti@Home
Производительность мультимедиа: PC Mark 2002
Тесты SiSoft Sandra 2003: процессор и мультимедиа
Тест SiSoft Sandra Benchmark 2003 SP1 показывает, что его вряд ли можно использовать в качестве эталонного.
Многозадачность: 3D Studio Max 5.1 и Main Concept 1.3
Тест многозадачности наглядно демонстрирует, что технология Intel HyperThreading пока что остаётся непревзойдённой.
Заключение: хорошо для сервера Linux, плохо для рабочей станции
Наши расширенные тесты под Linux Enterprise Server 8 (32-бита и 64-бита) оставили хорошее впечатление о производительности AMD Hammer. Особенно в серверных областях тесты (MySQL, Whetstone, ARC 2D, NPB и т.д.) наглядно показывают, что двухпроцессорный Opteron ставит двойной Xeon на место.
Однако в тестах приложений для рабочих станций ситуация несколько иная: двойной Xeon там легко обгоняет двухпроцессорный Opteron. Мы включили эти результаты по причине того, что двухпроцессорный Opteron будет доступен и в виде рабочих станций. Впрочем, они дают нам довольно интересное представление о производительности Opteron по сравнению с настольными процессорами типа Athlon XP или Intel P4.
Opteron осуществил неплохой старт, несмотря на то, что AMD выжидала до последнего момента, прежде чем выслать системы в руки обозревателей. С хорошими результатами на 64-битной арене, даже при ограниченном числе тестов, AMD смогла вновь укрепить ряды своих сторонников. Сейчас ключевым моментом продажи Hammer будет совместимость с существующими x86 приложениями, что позволит сэкономить существенные средства при разработке и эксплуатации, особенно в бизнес-секторе. Переход на 64 бита можно осуществлять поэтапно и только при необходимости. Существует ли сегодня достаточная потребность для перехода – уже другой вопрос.
Что касается архитектуры Opteron, то AMD смогла интегрировать 64-битные расширения в существующую концепцию x86 гладко и эффективно. Под Linux переход на 64 бита происходит без проблем: операционная система поддерживала 64-битный режим годами (начиная с ядра 2.0), и вам нужно лишь обновить ядро. В Windows же с 64 битами совершенно другая история. Скептикам и пессимистам не придётся беспокоиться, поскольку, помимо очень немногих исключений, 32-битное программное обеспечение будет работать без всяких проблем.
Архитектура Hammer не претерпела, по сравнению с Athlon, никаких существенных изменений в дизайне ядра или в обработке команд. Ядро было более оптимизировано под высокие тактовые частоты. 12-ступенчатый конвейер вкупе с технологией SOI должны стать основой для повышения тактовых частот. Модельный номер серверного процессора заслуживает критики: число 244 (сегодняшняя производительная модель на 1,8 ГГц) несколько смущает. И вряд ли ситуация разъяснится, если примечания в документах AMD будут гласить: 44 быстрее 42, но медленнее 46. Как насчёт интерпретации “44” как рейтинга 4400+?
В общем, модельный номер имеет какое-то отношение к актуальной производительности процессора. В скором времени должны появиться процессоры SledgeHammer на 2,4 ГГц (модель 52). В любом случае, нумерацию процессоров не мешало бы упростить, чтобы клиент мог самостоятельно осуществить сравнение. Однако следует отметить, что потребитель заинтересован не только в производительности, но и в стабильности, наличии программ, поддержке и доступности.
Следующим шагом можно ожидать выпуск настольной версии процессора Hammer, Athlon 64 с двухканальной DDR333 или даже DDR400. А затем настанет время и Prescott.
Opteron 240 | 1,4 ГГц | $283 |
Opteron 242 | 1,6 ГГц | $690 |
Opteron 244 | 1,8 ГГц | $794 |
Российская редакция Tom’s Hardware хотела бы попросить российское представительство AMD проводить технические семинары для журналистов, причём приглашать туда прессу со всей России, а не только из Москвы.