Может ли Woodcrest обогнать Opteron?
А вот и наследник: линейка Xeon 5100 или Woodcrest.
Конец июня стал для Intel поворотным моментом. За последние 18 месяцев компания подвергалась жёсткой критике, несмотря на хорошие общие прибыли и броские улучшения в производстве. В отличие от процессоров AMD, линейки Pentium и Xeon часто ругали за непропорциональную энергетическую прожорливость. И было лишь делом времени, чтобы упомянутые недостатки сказались на рыночной доле. А это акционерам уже далеко не по душе. Intel пришлось принимать энергичные меры.
Микро-архитектура Core 2 призвана изменить сложившуюся ситуацию. После месяцев напряжённой работы Intel желает исправить все горькие недостатки. На сегодняшний день грядущие процессоры, как обещает компания, быстрее и эффективнее продуктов конкурента. Наступление новой микро-архитектуры началось с серверных процессоров Xeon, за которыми следуют модели Core 2 Duo для настольных ПК и ноутбуков.
Отдел маркетинга Intel на славу потрудился, и большая часть технических деталей, кодовых названий и имён продуктов поколения Core 2 хорошо известны публике. Известно и то, что ожидать от новых процессоров. Курс был заложен на прошлогоднем осеннем Форуме Intel для разработчиков – многоядерность, производительность на ватт. На нынешнем весеннем Форуме Intel компания выдала впечатляющее количество деталей новой микро-архитектуры. Intel позволила также провести первые тесты систем Core 2. В результате всей этой работы продвинутые пользователи, журналисты и аналитики в той или иной мере знают, чего можно ожидать от Core 2.
В ближайшие недели наша лаборатория приложит все усилия, чтобы определить, соответствуют ли новые платформы тому, что от них ожидают. Первая статья посвящена техническим деталям процессорной линейки Xeon 5100 (Woodcrest) и платформы Bensley (чипсет 5000). Немного позднее мы опубликуем полное сравнительное тестирование между текущим AMD Opteron 285 и Xeon 5160.
AMD против Intel: другие миры
Если отбросить такие уже ставшие привычными функции, как поддержку 64-битных вычислений, технологию виртуализации или опции энергосбережения, то процессоры AMD и Intel полностью различаются. AMD сделала ставку на 90-нм технологию производства “кремний на диэлектрике” (SOI, Silicon on insulator), а контроллер памяти перенесён из чипсета на кристалл процессора. Оба фактора улучшают эффективность энергопотребления: SOI снижает токи утечки, а встроенный контроллер памяти сокращает путь передачи данных между CPU и памятью, вместе с тем, работая на тактовой частоте процессора. Кроме того, каждый процессор AMD в многопроцессорном окружении SMP (symmetric multi-processing) использует собственный контроллер памяти. Отсюда при добавлении процессоров масштабируется пропускная способность памяти, приводя к великолепной производительности.
Intel сочетает классический дизайн процессора с высокой эффективностью производства: большинство процессоров изготавливаются по 65-нм технологии, а к концу 2007 года намечен переход на 45-нм технологию. Транзисторы меньшего размера позволяют Intel добавлять на процессор большее количество кэша или увеличивать число ядер. Или даже и то, и другое. Технология напряжённого кремния, использующая слои германия для расширения атомарной структуры кремния, облегчает движение электронов, позволяя процессору достигать высоких тактовых частот. Чтобы токи утечки не выходили за разумные пределы, Intel очень щепетильно подходит к соблюдению промежутков, разделяющих восемь слоёв современных процессоров.
Под классическим дизайном процессора мы понимаем контроллер памяти, являющийся частью северного моста. Поэтому его пропускная способность разделяется на оба процессора. В некоторых ситуациях подобный подход сказывается весьма негативно, зато здесь не требуется дополнительно проверять память на когерентность.
При сравнении серверных процессоров AMD Opteron и Intel Xeon следует понимать и учитывать несколько важных фактов.
AMD Opteron.
- Был самым быстрым процессором, особенно для вычислений с плавающей запятой.
- Процессоры и логика чипсета соединяются каналом HyperTransport. Этот канал точка-точка масштабируется намного лучше шинных интерфейсов.
- Приемлемое энергопотребление даже при больших нагрузках.
- Основой для всех выпущенных моделей Opteron стал Socket 940. Обычно не возникает проблем при переходе к двуядерным моделям.
- Каждый процессор оснащён собственным контроллером памяти.
- Память FB-DIMM не требуется. Вполне достаточно регистровой памяти DDR400.
- Четырёхядерные Opteron будут работать на платформе Socket F.
Intel Xeon.
- Интерфейсом между процессором (процессорами) и северным мостом служит шина Front Side Bus. Чипсет 5000 в какой-то мере устраняет это “узкое место”, используя раздельные шины FSB на процессор (DIB).
- Двуядерный Xeon Paxville DP отличается высокими или очень высокими требованиями к энергопотреблению.
- Двуядерный Xeon Dempsey 5000 отличается высокими требованиями к энергопотреблению.
- Менее гибкий дизайн платформы: Xeon Nocona или Irwindale (Socket 604) можно модернизировать только с двуядерным Xeon Paxville DP. Если вам нужен Xeon 5000 (Dempsey) или Xeon 5100 (Woodcrest), то следует использовать платформу на чипсете 5000 для Socket 771 (Bensley).
- Четырёхканальный контроллер памяти DDR2 даёт большую пропускную способность, но требует память FB-DIMM.
- Чипсет Intel и память FB-DIMM требуют больше энергии, чем эквивалентные компоненты Opteron.
- Для Socket 771 вполне реально будет получить четырёхядерные Xeon.
Платформа Bensley (чипсет 5000)
Платформа Bensley была анонсирована ещё в начале 2006 года. Существуют две серверные версии (Bensley 5000P и 5000V для недорогих систем), а также модель для рабочих станций (Glidewell или 5000X). На сайте Intel даётся полная информация и технические спецификации, поэтому мы ограничимся лишь краткой выжимкой.
Северный мост 5000P/X и 5000V (MCH).
- Упаковка FC-BGA с 1432 контактами.
- Поддерживает два процессора по двум независимым шинам (DIB).
- FSB1066 (266 МГц, 16,6 Гбайт/с) и FSB1333 (333 МГц, 20,8 Гбайт/с).
- Четырёхканальный контроллер памяти DDR2 для FB-DIMM (Fully Buffered DIMM), DDR2-533 или DDR2-667, макс. 64 Гбайт (5000P/X) или 16 Гбайт (5000V).
- Опциональное зеркалирование памяти (5000P).
- 5000P поддерживает до трёх слотов x8 PCI Express Slots, 5000V поддерживает только один.
Концентратор PCI-X 6700PXH.
- Упаковка FC-BGA с 567 контактами.
- Этот компонент опционален.
- Подключается к чипу 5000 по x8 или x4 PCI Express.
- Даёт две независимые шины PCI-X 133.
Южный мост 6321ESB (I/O Hub).
- Упаковка FC-BGA с 1284 контактами.
- Шесть портов SATA/300 с поддержкой NCQ.
- Поддерживает программные массивы RAID 0, 1 и 5.
- Шесть портов USB 2.0.
- Три слота x4 PCI Express.
- Одна шина PCI-X 133.
Последовательная работа с памятью: FB-DIMM
DIMM с полной буферизацией (Fully Buffered DIMM) обладают как преимуществами, так и недостатками. Серверным системам часто требуются большие объёмы памяти, которых нельзя достичь с обычной памятью DDR SDRAM из-за быстро падающей силы сигнала. В таких случаях помогает регистровая память, где маленький компонент (регистр) отвечает за целостность сигналов.
Но последний профессиональный чипсет Intel 5000 позволяет использовать четыре модуля памяти одновременно для четырёх каналов, чтобы дать более высокую производительность. Следовательно, электрическая нагрузка на контроллер памяти должна была бы стать ещё выше даже с регистровой памятью. Особенно в случаях установки нескольких модулей на канал.
Поэтому Intel решила перейти на технологию полностью буферизованных DIMM, использующую память DDR2 вместе с небольшим чипом-контроллером AMB (Advanced Memory Buffer). Он, по своей сути, преобразует параллельный дизайн модулей DRAM в последовательный протокол передачи, устанавливая соединение точка-точка между контроллером памяти и модулем. Это позволяет использовать на канал несколько полностью буферизованных модулей, но платить тоже приходится: AMB работает на высоких тактовых частотах (3,2 ГГц для DDR2-533 и 4 ГГц для DDR2-667) и потребляет не меньше 6 Вт на чип. Поэтому если использовать восемь модулей памяти, то система будет потреблять дополнительные 50 Вт тепла. Зато вы с лёгкостью получите сервер с 64 Гбайт памяти.
Технология FB-DIMM не оказывает прямого влияния на производительность. Чипсет 5000 работает с DDR2-533 на FSB1066 и DDR2-667 на FSB1333, при этом скорость такая же, как и у настольных решений. Хотя четырёхканальный контроллер памяти даёт более высокую пропускную способность, она масштабируется не так хорошо. Можно ожидать рост пропускной способности где-то на 50% по сравнению с двухканальным контроллером, так как задержки тоже возрастают.
Наша тестовая система использует четыре FB-DIMM. Поскольку мы желали проанализировать энергопотребление, то измеряли параметры с четырьмя и двумя модулями (см. раздел тестов).
Серверная плата Intel S5000PAL
Так как тестовую систему нам выслала Intel, то вполне логично было встретить внутри её собственную материнскую плату S5000PAL. Каждый процессор снабжается питанием от 5-фазного стабилизатора напряжения. Плата даёт четыре слота DIMM на процессор, что позволяет установить до 32 Гбайт памяти, если использовать 4-Гбайт модули. Intel решила не устанавливать чип PCI-X 6700PXH, поскольку южный мост 6321ESB уже содержит полноценный контроллер PCI-X 133, к которому подключены два 64-битных слота. При установке двух карт расширения они будут совместно разделять пропускную способность 1066 Мбайт/с.
Но на плате зато есть сетевой контроллер последнего поколения Intel 82563EB. Он поддерживает два порта гигабитного Ethernet и подключён по интерфейсу PCI Express. Контроллер ATi ES1000 с 16 Мбайт памяти DDR обеспечивает выход на дисплей через интерфейс D-Sub (он заменил старый Rage 128 от ATi).
S5000PAL не имеет звуковых выходов, но есть все необходимые порты и встроенная графика.
Socket 771 и 775 выглядят практически одинаково, различаясь по числу контактов. Двухпроцессорные материнские платы используют Socket 771 для Xeon, а однопроцессорные платы в большинстве своём – Socket 775.
Эталонная система Intel
Корпус эталонной системы Intel.
Достаточно незамысловатый дизайн. За вентиляцию отвечают большие 120-мм вентиляторы.
Xeon Woodcrest (Xeon 5160)
Woodcrest и линейка Xeon 5100 являются основой нового поколения процессоров, призванного обогнать семейство AMD Opteron по соотношению производительности на ватт. Хотя платформа предлагает ряд интересных функций, мы всё же несколько скептически относимся к заявлениям по поводу эффективности. Часто учитывается только процессор, хотя во внимание следует принимать все компоненты. Мощный северный мост и многочисленные FB-DIMM вполне способны перетянуть чашу весов.
Все процессоры Xeon 5100, за исключением топовой 3,0-ГГц модели, имеют относительно низкий тепловой пакет 65 Вт (у 3-ГГц процессора 85 Вт). Действительно, весьма существенное улучшение, поскольку энергопотребление системы в режиме бездействия под Windows оказалось меньше 160 Вт. Примерно такое же энергопотребление вы получите на двуядерной high-end настольной системе с топовой графикой (в ней вторым источником потребления энергии будет уже не второй CPU Xeon, а графический процессор).
При высокой нагрузке сервер с двуядерными Xeon 5160 потреблял примерно 250 Вт. Опять же, великолепный результат. Несколько high-end настольных ПК в нашей лаборатории потребляют существенно больше энергии. Если учитывать установку четырёх FB-DIMM, то при переходе от старых Xeon на новые модели Woodcrest мы должны получить существенное падение энергопотребления.
Вид сверху: Woodcrest против Dempsey (Xeon 5160 против Xeon 5080).
Вид снизу: Woodcrest против Dempsey (Xeon 5160 против Xeon 5080).
Для правильного распознавания Xeon Woodcrest требуется CPU-Z версии 1.34.1.
Механизмы энергосбережения
Не обращайте внимания на логотип Core, для этого скриншота мы использовали старую версию CPU-Z (1.33.1), которая не распознаёт Xeon 5160 Woodcrest должным образом. Зато она отображает понижение тактовой частоты Demand Based Switching: множитель уменьшается с x9,0 до x6,0, что даёт падение с 3,0 ГГц до 2,0 ГГц.
Широкое динамическое выполнение (Wide Dynamic Execution)
Технология широкого динамического выполнения (Wide Dynamic Execution) собирает в себя все улучшения, которые Intel внесла касательно ширины выполнения (четыре параллельных процесса вместо трёх) и эффективности работы с микро-операциями (micro-ops).
Возросшая ширина из четырёх потоков (а частично даже из пяти) соблюдается на всём пути выполнения, то есть налицо внутреннее увеличение пропускной способности. Другими словами, процессор может выбирать (fetch), выдавать (dispatch), выполнять (execute) и возвращать (return) четыре инструкции одновременно.
Кроме того, архитектура Core поддерживает технологии, которые появились в Pentium M для снижения общего числа микро-операций. Напомним, что микро-операции (micro-ops) являются результатом разбивки команд x86 на мелкие части, понятные процессору. Две микро-операции могут быть сложены в одну, что позволяет экономить как время выполнения, так и энергию. По информации Intel, примерно каждая десятая инструкция может быть слита с другой с помощью движка Micro Ops Fusion.
Идея слияния микро-операций была реализована и на уровне инструкций x86 (параллелизм на уровне инструкций), позволяя двум независимым инструкциям (скажем, операциям сравнения и перехода) сливаться для ступеней декодирования и выполнения. Эта функция, называемая Macro Ops Fusion, перешла даже и на АЛУ: последние обеспечивают выполнение инструкций за один такт, будь то две слитые воедино инструкции или простые.
Оба механизма слияния позволяют существенно повысить эффективность работы каждого ядра на уровне инструкций и микро-операций.
Улучшенный “умный” кэш (Advanced Smart Cache)
Ядра используют единый кэш L2 объёмом 2 или 4 Мбайт. Кэширование производится более эффективно, ведь данные не нужно хранить по два раза в отдельных кэшах L2 (дублировать). Кэш L2 полностью динамический и способен адаптироваться под нагрузку каждого ядра. Например, одно ядро может динамически забрать 100% кэша L2, если это требуется (строчка за строчкой).
Да и обмен данными между ядрами теперь производится более эффективно, поскольку процессорная шина при этом не нагружается (в отличие, скажем, от Pentium D). И задержки, если два ядра пытаются получить доступ к шине, теперь не происходит. В качестве хорошего примера можно привести многопоточное окружение, когда одно ядро записывает в кэш, а второе ядро может в это время что-либо считывать из него. Снижаются промахи кэша, снижаются задержки, да и доступ теперь происходит быстрее, ведь раньше “узким местом” являлась FSB.
“Умный” доступ к памяти (Smart Memory Access)
После разработки, без сомнения, более эффективной процессорной архитектуры и мощного кэша L2 Intel создала условия, чтобы они использовались в полной мере. Каждый двуядерный процессор Core оснащён восемью блоками предварительной выборки (prefetch): два блока выборки данных и один блок выборки инструкций на ядро, а также два блока выборки в общем кэше L2. Как утверждает Intel, блоки можно оптимизировать для каждой из моделей Core (Merom/Conroe/Woodcrest), в результате чего они будут по-разному выполнять предварительную выборку для секторов мобильных, настольных или серверных вычислений.
Блок предварительной выборки предоставляет данные вышестоящим блокам, используя сложные алгоритмы предсказания. Он должен запросить данные, которые вероятно будут использоваться в ближайшем времени, что снижает задержки и повышает эффективность. Блоки предварительной выборки памяти постоянно оценивают картину использования памяти, пытаясь предсказать будущие запросы и закачать соответствующие данные в кэш L2. В то же время, блоки предварительной выборки должны следить за потоковым трафиком, кэшировать который смысла не имеет.
Улучшенная работа с цифровым медиа-содержанием (Advanced Digital Media Boost) или SSE4?
АЛУ обычно разбивает инструкции на два блока, что приводит к двум микро-операциям и, соответственно, двум тактам выполнения. Intel решила увеличить ширину выполнения трёх АЛУ до 128 бит, что позволяет обрабатывать за один такт восемь блоков с одинарной точностью или четыре блока с двойной точностью. Эта функция была названа улучшенной работой с цифровым медиа-содержанием (Advanced Digital Media Boost), поскольку она касается и инструкций SSE. Здесь мы подходим к выполнению команд SSE за один такт (Single Cycle SSE). Например, можно объединить четыре 32-битных вектора в один 128-битный блок.
Intel предполагает, что новая технология даст ощутимое влияние на скорость обработки медиа-содержания (кодирование, перекодирование, сжатие и т.д.), и даже указывает на то, что Core даёт самую высокую в истории IA вычислительную плотность для работы с векторами.
Модели процессоров и цены
Модель | Частота | Цена | TDP |
Xeon 5110 | 1,6 ГГц – FSB1066 | $209 | 65 Вт |
Xeon 5120 | 1,86 ГГц – FSB1066 | $256 | 65 Вт |
Xeon 5130 | 2 ГГц – FSB1333 | $316 | 65 Вт |
Xeon 5140 | 2,33 ГГц – FSB1333 | $455 | 65 Вт |
Xeon 5148 | 2,33 ГГц – FSB1333 | $519 | 40 Вт (!) |
Xeon 5150 | 2,66 ГГц – FSB1333 | $690 | 65 Вт |
Xeon 5160 | 3,0 ГГц – FSB1333 | $851 | 80 Вт |
Четыре ядра уже на горизонте!
Тестовая конфигурация
Системное аппаратное обеспечение | |
Процессоры | 2x Intel Xeon (ядро Woodcrest) 3,0 ГГц, FSB1333, 4 Мбайт общего кэша L2 |
Платформа | Чипсет Intel S5000 (LGA 771) Intel Blackford MCH, BIOS 04/04/2006 |
Память | Micron MT18HTF12872FDY (DDR2-533 FB) 4x 1 Гбайт, CL4-4-4-12 |
Системный жёсткий диск | Hitachi T7K250 164 Гбайт, 7200 об/мин, кэш 8 Мбайт, SerialATA/300 |
Контроллер накопителей | Intel ESB-2 I/O Hub |
Видеокарта | Встроенная ATi ES1000 |
Системные тесты | |
Производительность | SiSoft Sandra 2007 1098 |
Системное ПО и драйверы | |
ОС | Microsoft Windows Server 2003 Enterprise Edition, Service Pack 1 |
Драйвер платформы | Intel Chipset Installation Utility 7.3.1.1013 |
Графический драйвер | Default Windows Graphics Driver |
Тесты энергопотребления
Пропускная способность двух каналов против четырёх
Заключение
Первые тесты, проведённые в наших лабораториях, оставляют мало почвы для сомнений в превосходстве 3-ГГц Woodcrest над самым быстрым 2,6-ГГц Opteron 285. Но мы решили опубликовать результаты позже, поскольку хотим добавить тесты, соответствующие различным серверным сценариям. Здесь же мы привели результаты синтетического теста пропускной способности памяти. По нему заметно улучшение из-за четырёхканального контроллера. Также мы добавили и результаты тестов энергопотребления. Они весьма впечатляют, поскольку становится вполне очевидно, что Intel, с учётом высоких результатов в первых тестах, способна встать на место лидера по соотношению производительности на ватт, но у AMD всё же есть шансы побороться.
Можно вполне уверенно сказать, что Woodcrest станет лучшим выбором для двухпроцессорных серверов. По крайней мере, пока AMD не выпустит более скоростные модели и не представит Socket F. Интерфейс Intel FSB1333 на 333 МГц работает достаточно быстро, а раздельные шины позволяют обеспечить каждый процессор полной пропускной способностью шины. Звучит как хороший задел на будущее, но это не так. Как только в начале 2007 года Intel выпустит четырёхядерный Clovertown, он с лёгкостью нагрузит шину Front Side Bus.
Впрочем, не стоит думать, что Woodcrest полностью сбрасывает AMD с рынка серверов, ведь архитектура HyperTransport по-прежнему остаётся лучшим выбором для четырёхпроцессорных решений из-за режима точка-точка и выделенного контроллера памяти на каждом процессоре. Кроме того, Socket F должен ускорить каналы HyperTransport, чтобы многоядерные процессоры не перегружали этот интерфейс.
Наконец, Intel ещё должна убедить потребителей в сфере малого и среднего бизнеса в преимуществах полностью буферизованной памяти, поскольку двухпроцессорный сервер на Opteron по-прежнему является хорошим вложением средств. Особенно, если вам хватит 4-8 Гбайт памяти. FB-DIMM дают существенные преимущества, только если использовать большое количество модулей памяти.
Дополнительные фотографии и иллюстрации