Встречаем Intel Xeon X5680
В 2005 году Intel изменила свою стратегию развития настольных компьютеров, представив первые двуядерные процессоры Pentium. Поняв, что битва гигагерц проиграна, и к уровню выше 10 ГГц стремиться вряд ли разумно, компания изменила свою стратегию, нацелившись на параллелизм.
Помогло и то, что серверы и рабочие станции уже использовали платформы с несколькими CPU, чтобы быстрее справляться с нагрузкой. В то время Xeon на базе Irwindale понесли тяжёлый удар со стороны AMD Opteron. Их можно было устанавливать на двухсокетные материнские платы, но процессоры были одноядерными, хотя ситуацию несколько скрашивала та же самая технология Hyper-Threading, что используется во многих процессорах Intel в наши дни.
Если в сфере настольных ПК оптимизация программ под многопоточность затягивается (сегодня по-прежнему широко распространены такие приложения, как iTunes и WinZip, унаследованные из однопоточной эпохи), то в сфере бизнес-приложений для рабочих станций переход на многопоточные приложения произошёл очень давно. И если мы не прекращаем спорить насчёт того, насколько интересны шестиядерные CPU по сравнению с четырёхъядерными процессорами в ПК для геймера, то рабочие станции могут использовать всю доступную вычислительную мощность.
Просто представьте, насколько выгодно переходить с одноядерной двухсокетной системы на двуядерную односокетную рабочую станцию. Или как насчёт прироста производительности при переходе с одноядерной двухсокетной платформы на двуядерную двухсокетную конфигурацию? Вы получаете удвоение вычислительных ресурсов при сохранении платформы того же класса. Если рассматривать конфигурации с четырьмя или даже восемью сокетами, то материнские платы и процессоры для них обойдутся существенно дороже.
Сегодня же мы можем использовать шестиядерные процессоры с поддержкой Hyper-Threading, что даёт нам 12 логических процессоров для операционных систем, подобных Windows 7 – и это при одном занимаемом сокете!
Intel возвращается к активной конкуренции
По мере того, как “железо” становится более мощным, программное обеспечение адаптируется под него, требуя, в свою очередь, ещё более мощных вычислительных ресурсов. То есть мы получаем своего рода замкнутый круг.
В прошлом году Intel представила свою линейку Xeon 5500 для двухсокетных серверов и рабочих станций. Затем вице-президент Intel Патрик Гелсингер охарактеризовал это объявление как самое важное на протяжении более чем десяти лет. И хотя мы обычно не повторяем рекламные лозунги, для Intel это оказалось действительно так.
Архитектурное преимущество, которое AMD получила благодаря использованию каналов HyperTransport, особенно сильно проявляло себя в многосокетных платформах, где Intel продолжала опираться на пропускную способность шины FSB для обмена информацией между процессорами. С линейкой Xeon 5500 Intel, наконец, решила эту проблему через интерфейс QuickPath Interconnect, добавив поддержку технологий Hyper-Threading и Turbo Boost для дальнейшего улучшения производительности в многопоточных окружениях и однопоточных приложениях.
Конечно, прогресс не стоит на месте. В этом году переход на 32-нм техпроцесс дал Intel прекрасную возможность увеличить сложность своих процессоров для малого и среднего бизнеса, не выходя за пределы теплового пакета. Встречайте линейку Xeon 5600, которая оснащена до шести физических ядер на CPU и 12 Мбайт общего кэша L3 – и всё это при сохранении такого же теплового пакета 130 Вт, что и в случае линейки Xeon 5500.
Нажмите на картинку для увеличения.
Обратите внимание, что в нашей статье вы не обнаружите процессоров AMD. Когда мы предложили этой компании поучаствовать в наших сравнительных тестах рабочих станций вместе с последними процессорами Xeon, AMD признала, что уже не является сильным игроком на рынке рабочих станций. В частности, для сохранения конкурентоспособности необходимо иметь современную логику чипсета. И если у линеек Intel Xeon 5500 и 5600 есть сопровождающий чипсет 5520 и 5500, то варианты AMD намного более скромные. Конечно, у AMD есть линейка SR56x0 и южный мост SP5100 (и Tyan даже продаёт двухсокетные материнские платы на этой платформе). Но, по тем или иным причинам, AMD не заинтересовалась нашим предложением. Обидно, конечно. Во времена, когда на рынок вышел процессор Athlon 64, эксклюзивная 64-битная архитектура считалась крупной победой AMD на рынке рабочих станций.
В любом случае, в нашей статье вы найдёте сравнение большого количества интересного “железа”, включая пару Xeon 5600, два Xeon 5500 и Core i7-980X, который покажет, оправдывает ли себя второй процессор в сценариях рабочей станции.
Встречайте линейку Xeon 5600
Если вы уже читали наш обзор Intel Core i7-980X, то многое о новой линейке Intel Xeon 5600 вам уже известно. Основное отличие заключается в том, что если Intel продаёт всего два 32-нм настольных шестиядерных процессора для энтузиастов (-980X и -970), в линейке Xeon 5600 насчитывается целых 12 разных моделей с тепловым пакетом от 40 Вт до 130 Вт, с числом ядер от четырёх до шести и с тактовыми частотами от 1,86 ГГц дл 3,46 ГГц, но с кэшем 12 Мбайт у всех процессоров.
Теперь вы знаете, почему я был так воодушевлён мыслью получить настоящие 32-нм четырёхъядерные чипы для настольных ПК при написании обзоре Gulftown. И факт в том, что Intel уже продаёт четырёхъядерные 32-нм процессоры для рабочих станций. Что касается настольных ПК, то на данный момент у компании нет смысла портить продажи своих 45-нм моделей. Бизнес-пользователи получат от новой линейки Xeon 5600 дополнительное преимущество: она позволяет подобрать нужный процессор под любую задачу.
Если 12 моделей кажутся вам слишком большим ассортиментом, то для облегчения выбора Intel решила использовать префиксы. Всего доступно три класса процессоров. Линейка Advanced (с префиксом”X”) состоит из моделей на 130 и 95 Вт. Как правило, шесть представленных моделей в классе будут использоваться в высокопроизводительных рабочих станциях, в которых просторные корпуса обеспечивают достаточно хорошее охлаждение. Три чипа класса Standard можно идентифицировать по префиксу “E”, они отличаются тепловым пакетом 80 Вт, который уже лучше подходит для стоечных серверов 1U и 2U. Тройка экономичных моделей “L” ограничена тепловым пакетом 60 и 40 Вт. Эти процессоры работают на меньших тактовых частотах, но даже модель начального уровня обладает четырьмя физическими ядрами – прекрасный вариант для серверов начального уровня.
Модель | Скорость QPI | Кэш L3 | Штатная частота | Макс. частота Turbo | Тепловой пакет (TDP) | Ядра/ потоки | Цена |
Xeon X5680 | 6,4 GT/s | 12 Мбайт | 3,33 ГГц | 3,6 ГГц | 130 Вт | 6/12 | $1663 |
Xeon X5677 | 6,4 GT/s | 12 Мбайт | 3,46 ГГц | 3,73 ГГц | 130 ВТ | 4/8 | $1663 |
Xeon X5670 | 6,4 GT/s | 12 Мбайт | 2,93 ГГц | 3,33 ГГц | 95 Вт | 6/12 | $1440 |
Xeon X5667 | 6,4 GT/s | 12 Мбайт | 3,06 ГГц | 3,46 ГГц | 95 Вт | 4/8 | $1440 |
Xeon X5660 | 6,4 GT/s | 12 Мбайт | 2,8 ГГц | 3,2 ГГц | 95 Вт | 6/12 | $1219 |
Xeon X5650 | 6,4 GT/s | 12 Мбайт | 2,66 ГГц | 3,06 ГГц | 95 Вт | 6/12 | $996 |
Xeon L5640 | 5,86 GT/s | 12 Мбайт | 2,26 ГГц | 2,8 ГГц | 60 Вт | 6/12 | $996 |
Xeon L5630 | 5,86 GT/s | 12 Мбайт | 2,13 ГГц | 2,4 ГГц | 40 Вт | 4/8 | $551 |
Xeon L5609 | 4.8 GT/s | 12 Мбайт | 1,86 ГГц | 1,86 ГГц | 40 Вт | 4/4 | $440 |
Xeon E5640 | 5,86 GT/s | 12 Мбайт | 2,66 ГГц | 2,93 ГГц | 80 Вт | 4/8 | $774 |
Xeon E5630 | 5,86 GT/s | 12 Мбайт | 2,53 ГГц | 2,8 ГГц | 80 Вт | 4/8 | $551 |
Xeon E5620 | 5,86 GT/s | 12 Мбайт | 2,4 ГГц | 2,66 ГГц | 80 Вт | 4/8 | $387 |
Знакомая платформа
Процессор Gulftown (шестиядерный процессор для настольных ПК) совместим по интерфейсу с процессорами Bloomfield (оригинальная линейка Core i7-900). Точно так же процессоры семейства Xeon 5600 устанавливаются в тот же интерфейс LGA 1366, что и Xeon 5500. Причины этого шага мы уже обсуждали в обзоре Core i7-980X – среди них можно отметить фундаментальное сходство архитектуры и тепловых пакетов. Конечно, если в сфере настольных ПК есть пользователи, которые выполняют апгрейд процессора раз в год или два, то для рынка серверов и рабочих станций это не принято. Так что если для бизнес-пользователей аргументов в пользу перехода с систем Xeon 5500 на процессоры 5600 не так и много, использование одинаковых материнских плат, модулей памяти и видеокарт обрадует поставщиков новейшего оборудования Intel.
Нажмите на картинку для увеличения.
Вкратце из нашего обзора Gulftown напомним, что появление Westmere-EP (внутреннее название Xeon 5600)…
“…стало возможным благодаря 32-нм технологическому процессу Intel – мы уже видели дебют этого техпроцесса в январе 2010 года с появлением моделей Clarkdale и Arrandale. Но на этот раз энтузиастам не придётся удивляться второму 45-нм кристаллу, встроенному в упаковку, на котором присутствуют графическое ядро, контроллеры памяти и PCI Express. Процессор Xeon 5600 полностью удовлетворяет любителей производительности: контроллер памяти интегрирован на кристалл CPU, контроллер PCI Express присутствует в чипсете [5520 и 5500], а графика поддерживается только дискретная.
С выпуском Westmere-EP Intel использовала 32-нм техпроцесс для добавления ядер и кэша, решив не идти путём увеличения интеграции. В итоге мы получили шестиядерный процессор с 12 Мбайт общего кэша L3. Во всём остальном Westmere-EP по архитектуре очень похож на Nehalem-EP. Каждое ядро получает 32 кбайт кэша L1 для данных, 32 кбайт кэша L1 для инструкций и выделенный кэш L2 объёмом 256 кбайт.
Несмотря на добавление двух ядер и 4 Мбайт кэша L3, Westmere-EP по площади кристалла оказался меньше предшественника (248 квадратных миллиметров против 263 у Nehalem-EP). Число транзисторов увеличилось с 731 миллиона до 1,17 миллиарда. Впечатляет, поскольку самый быстрый процессор в линейке Xeon 5600 соответствует тому же тепловому пакету 130 Вт, что и существующая линейка процессоров Xeon 5500.”
Нажмите на картинку для увеличения.
Конечно, технологии Turbo Boost и Hyper-Threading тоже используются. Если быть более конкретным, то все процессоры кроме одной модели поддерживают Turbo Boost для ускорения производительности в нагрузках, слабо оптимизированных под многопоточность, а также все процессоры кроме одного в семействе 5600 поддерживают технологию Hyper-Threading, которая предоставляет два логических процессора для каждого физического ядра, улучшая использование доступных вычислительных ресурсов в многопоточных окружениях.
Среди значимых улучшений можно отметить обновление контроллера памяти. Раньше процессоры семейства Xeon 5500 поддерживали только модули памяти DDR3-1333 (со стороны high-end), но при этом можно было занимать только один слот памяти на канал. Самые быстрые процессоры Xeon 5600 теперь поддерживают скорость 1333 MT/s с двумя модулями на канал. Мы проверим это в нашем тестировании, поскольку мы будем использовать 12 1-Гбайт модулей DDR3-1333 (шесть модулей на процессор, по три канала и по два модуля на каждый).
Материнская плата Intel S5520SCR
Рабочие станции во многом похожи на серверы, включая процесс валидации и тестирования для подготовки компьютера. Если вы используете рабочую станцию по назначению, то для неё недопустим “вылет” в середине выполнения задания. Она должна совмещать производительность уровня энтузиастов с надёжностью критически важного сервера. По этой причине выбранные нами комплектующие отличаются от традиционных тестовых сборок Tom’s Hardware.
Нажмите на картинку для увеличения.
Мы начали сборку с материнской платы Intel S5520SCR, которая стоит около $430 и предназначена для рабочих станций из-за своих слотов с 16 линиями PCI Express 2.0. На плате есть и множество других слотов расширения, но мы использовать их не планировали.
Плата оснащена двумя интерфейсами LGA 1366, каждый из которых позволяет установить любой из процессоров в линейке Xeon 5600. Всего на плате присутствуют 12 слотов памяти, по шесть на процессор, что даёт три канала на CPU с двумя слотами каждый. Материнская плата использует северный мост 5520 (он предоставляет 36 линий PCIe) и южный мост ICH10R. Платформа очень похожа на Intel X58 за исключением двух интерфейсов QPI к процессорам Xeon (в отличие от одного к Core i7).
Память 4 x Kingston KVR1333D3E9SK3/3G
Мы взяли четыре 3-Гбайт комплекта от Kingston, что дало 12 Гбайт в сумме. Небуферизованные модули с поддержкой ECC можно назвать приятным изменением по сравнению с горячими FB-DIMM, которые использовались в серверах с процессорами Xeon 5400.
Да и скорость передачи 1333 MT/s является вполне приличной. Помните, что high-end процессоры Xeon 5600 поддерживают память до DDR3-1333 с двумя слотами на канал, а процессоры линейки Xeon 5500 поддерживают DDR3-1333 только с одним слотом на канал. Поэтому переход на процессоры Xeon W5580 в нашем случае привёл к замедлению конфигурации памяти до DDR3-1066. Впрочем, как вы увидите в тестах, влияние этого шага на производительность памяти оказалось не таким ощутимым, если верить SiSoftware Sandra 2010.
Если вы планируете собирать собственную рабочую станцию, то следует помнить подобные детали конфигурации. Поскольку на плате доступны 12 слотов, то для расширения возможности богатые. Но для оптимальной производительности следует заполнять все три канала для обоих CPU, то есть модули должны устанавливаться, как минимум, в шесть слотов.
Nvidia Quadro FX 3800
Видеокарта не самая быстрая в профессиональной линейке Nvidia, однако в нашей лаборатории на момент тестов ничего более производительного не было. Да и эта модель достаточно быстрая, чтобы предотвратить появление “узких мест”, связанных с GPU, в наших тестах сравнения процессоров.
Однако всё же одно следует помнить, особенно при оценке тестов Adobe CS5, что Quadro FX 3800 – одна из немногих карт в списке Adobe, которые обеспечивают ускорение CUDA через GPU. Конечно, движок Mercury Playback Engine не должен особо повлиять на наши тесты, но всё же следует отметить, что видеокарта присутствует в кратком списке поддержки.
2 x Intel X25-M 160 GB SSD
Для рабочей станции имеет смысл использовать high-end RAID-контроллер, чтобы все расчёты, связанные с подсистемой хранения, не ложились на плечи CPU, но наша простая конфигурация RAID 0 вряд ли вызовет проблемы. Поэтому мы решили отказаться от контроллера Intel RS2BL080, использовав вместо него подключения SATA 3 Гбит/с южного моста ICH10 с поддержкой Rapid Storage Technology.
При некоторых нагрузках, подобных монтажу видео, требуется существенная пропускная способность записи. Но пара 160-Гбайт твёрдотельных накопителей X25-M в RAID 0, которые мы использовали, для наших задач кажется даже чрезмерной.
Тестовая конфигурация
Аппаратное обеспечение | |
Процессоры | 2 x Intel Xeon X5680 (Westmere-EP) 3,33 ГГц, LGA 1366, 6,4 GT/s QPI, 12 Мбайт общего кэша L3, Hyper-Threading активна, функции энергосбережения включены 2 x Intel Xeon W5580 (Nehalem-EP) 3,2 ГГц, LGA 1366, 6,4 GT/s QPI, 8 Мбайт общего кэша L3, Hyper-Threading активна, функции энергосбережения включены 1 x Intel Core i7-980 Extreme (Gulftown) 3,33 ГГц, LGA 1366, 6.4 GT/s QPI, 12 Мбайт общего кэша L3, Hyper-Threading активна, функции энергосбережения включены |
Материнская плата | Intel S5520SCR (LGA 1366) Intel 5520/ICH10R, BIOS 50;53;28;112 |
Память | Kingston 12 Гбайт (12 x 1 Гбайт) DDR3-1333 ECC небуферизованная, KVR1333D3E9SK3/3G x 4 |
Накопители | 2 x Intel SSDSA2M160G2GC 160 Гбайт SATA 3 Гбит/с |
Видеокарта | Nvidia Quadro FX 3800 |
Блок питания | Chicony CPB09-003A 1000 W |
Системное ПО и драйверы | |
Операционная система | Windows 7 Ultimate 64-bit |
DirectX | DirectX 11 |
Графический драйвер | Quadro Driver 258.49 |
Тесты и настройки
Кодирование видео | |
TMPGEnc 4.7 | Version: 4.7.3.292, Import File: “Terminator II” SE DVD (5 Minutes), Resolution: 720×576 (PAL) 16:9 |
DivX 6.9.2 | Encoding mode: Insane Quality, Enhanced Multi-Threading, Enabled using SSE4, Quarter-pixel search |
Xvid 1.2.2 | Display encoding status=off |
HandBrake 0.9.4 | Version 0.9.4, convert first .vob file from The Last Samurai to .mp4, High Profile |
Приложения | |
Adobe After Effects | CS4 And CS5; Custom Workload, SD project with three picture-in-picture frames, source video at 720p |
Adobe Photoshop | CS4 And CS5; Custom Workload, Radial Blur, Shape Blur, Median, Polar Coordinates filters |
Adobe Premiere Pro | CS4 And CS5; Custom Workload, 1280x720p, 59.94 FPS video, Panasonic DVCPro100, HVX-200 camcorder on P2 media, Render to Work Area. |
Adobe Media Encoder | Custom Workload, Encode Premiere Pro project to h.264 for Blu-ray |
e-on Software Vue 8 PLE | 1920×1080 landscape render, Global Illumination enabled |
NewTek LightWave 3D 9.6 | Custom Workload, high-poly Tom’s Hardware logo; clone surface detail across logo (Modeler, script); OpenGL preview of 600-frame animation of Tom’s Hardware logo (Layout); 1.68 million polygon render of four captured frames using motion blur, ray-traced shadows, global illumination. |
Euler3D | CFD simulation over NACA 445.6 aeroclastic test wing at Mach .5 |
Autodesk MatchMover 2011 | Custom workload, 720p camera footage tracked in 3D space |
Синтетические тесты и настройки | |
SPECapc LightWave 9.6 | LightWave 3D Discovery Edition, Render and MT benchmark scores |
SPECviewperf 11 | Default GUI options; Workloads: CATIA, EnSight, LightWave, Maya, Pro/E, SolidWorks, Teamcenter Visualization Mockup, NX |
SiSoftware Sandra 2010 | CPU Test=CPU Arithmetic/Multimedia, Memory Test=Bandwidth Benchmark, Cryptography |
Cinebench 11.5 | CPU and GPU tests, Built-in benchmark |
Sandra 2010
Синтетические тесты лучше всего демонстрируют, на что способна данная аппаратная конфигурация, пусть даже в реальных приложениях мы не наблюдаем такого же результата. В тесте Sandra Arithmetic мы получаем линейную масштабируемость с одного Core i7-980X до пары Xeon X5680 – эквивалент пары 980X на той же материнской плате.
Масштабируемость Xeon W5580 вполне ожидаема. Но поскольку тактовая частота на 133 МГц ниже X5680, мы не получаем масштабируемость 66%, что привело бы к 196 GIPS и 141 GFLOPS на паре 3,33-ГГц CPU.
То же самое мы видим и здесь. Тест Sandra, будучи оптимизированным под столько потоков, сколько вы ему дадите, полностью использует доступные ресурсы на наших тестовых системах, масштабирование практически линейное.
Ещё когда мы тестировали Core i7-980X, тест Sandra 2010 демонстрировал потенциал ускорения инструкций шифрования AES-NI на 32-нм процессоре, пропускная способность AES256 составила целых 11,1 Гбайт/с. Но в данном случае мы получили не очень приятные новости от Intel. Если наш инженерный образец Core i7-980X поддерживал инструкции AES-NI, что подтверждала утилита CPU-Z, то эта функция не была активна на процессорах Xeon X5680 – что тоже подтверждается последней версией CPU-Z. В итоге пропускная способность AES новых процессоров существенно ниже, чем у 32-нм моделей для настольных ПК.
В целом же, конфигурации на нескольких сокетах масштабируются в зависимости от доступных вычислительных ресурсов, и тест SHA256 для пары Xeon X5680 даёт в два раза более высокую производительность, чем для Core i7-980X.
Одно из преимуществ перехода на линейку Intel Xeon 5600 заключается в поддержке режима памяти DDR3-1333 с двумя модулями на канал. Наша 12-слотовая конфигурация памяти с двумя сокетами и тремя каналами на CPU идеально подошла для проверки этого утверждения.
Плохая новость заключается в том, что мы не наблюдаем прироста пропускной способности при переходе на память DDR3-1333 с памяти DDR3-1066 у линейки Xeon 5500. К счастью, она уже составляет около 35 Гбайт/с, так что по пропускной способности памяти мы превзошли архитектуры предыдущего поколения, у которых контроллер памяти находился в чипсете, а сам чипсет подключался к CPU через шину FSB. Конечно, здесь масштабирование уже не 2:1 по сравнению с односокетным Core i7-980X, но пропускная способность увеличивается достаточно, чтобы оба шестиядерных процессора были загружены данными. Мы не обнаружили случаев, когда архитектура Westmere (Nehalem) “голодала” в ожидании получения данных через трёхканальный контроллер памяти.
SPECviewperf 11 и SPECapc LightWave 9.6
Недавно выпущенный тестовый пакет SPECviewperf 11 предназначается, главным образом, для измерения производительности графики OpenGL. Он содержит новые наборы viewset из последних версий LightWave, CATIA, EnSight, Maya, Pro/ENGINEER, SolidWorks, Siemens Teamcenter Visualization Mockup и Siemens NX.
SPECviewperf 11 | 2 x Xeon X5680 | 2 x Xeon W5580 | 1 x Core i7-980X |
catia-03 | 21,32 | 22,3 | 22,5 |
ensight-04 | 11,4 | 11,86 | 12,03 |
lightwave-01 | 40,06 | 40,87 | 41,88 |
maya-03 | 8,94 | 14,55 | 16,02 |
proe-05 | 7,74 | 8,09 | 9,21 |
sw-02 | 32,58 | 32,64 | 33,14 |
tcvis-02 | 16,24 | 16,66 | 16,41 |
snx-01 | 13,92 | 16,55 | 16,6 |
Мы надеялись получить высокую производительность в этих тестах, по крайней мере, из-за видеокарты Nvidia Quadro FX 3800 в нашей платформе. Но, увы, ситуация получилась даже обратной. Самые высокие результаты мы получили с одним CPU Core i7-980X – хотя разница, конечно, невелика.
Тест LightWave 9.6 дал нам три результата. Однако из-за пробной версии пакета мы не смогли провести их полностью. Сейчас мы решаем эту проблему с NewTek.
Но даже у пробной версии мы смогли получить интересные результаты в тестах Render и многозадачном прогоне (да, тест LightWave был специально адаптирован, чтобы выигрывать от многозадачности). Тест Render демонстрирует существенный прирост при переходе с одного сокета на двухсокетную конфигурацию Xeon W5580, а затем и на двухсокетную систему Xeon X5680. В тесте MT прирост уже не такой ощутимый, но он всё равно отдаёт преимущество паре Xeon X5680 над парой W5580, а последняя обгоняет один Core i7-980X.
CS4 и новый пакет Adobe CS5
Мы уже довольно долгое время выполняем тесты на пакете Adobe CS4 – в частности, мы использовали Photoshop CS4 во всех наших обзорах процессоров. Но профессионалы в области графики используют некоторые дополнительные программы Adobe для других задач, таких как монтаж видео и компоновка.
Нашему тестовому сценарию требовалось серьёзное усиление, поэтому мы попросили помочь Йона Кэррола (Jon Carroll), фрилансера Tom’s Hardware и графического профессионала из Южной Калифорнии, чтобы он разработал тесты с программами Adobe After Effects и Premiere Pro, которые бы дополнили наш многопоточный тест Photoshop.
Как вы увидите по диаграммам ниже, тесты Йона для пакета CS4 дали весьма интересные результаты при переходе с 12 потоков на 16, а затем и на 24. Мы также адаптировали все тесты Йона для новой версии пакета CS5 и сравнили результаты. Мы обнаружили просто невероятные детали!
After Effects CS4/CS5
Рабочая станция HP, которую использует Йон для работы, справилась с тестом After Effect CS4 за 28 минут. После чего мы были шокированы тем, что наша 24-поточная рабочая станция на Xeon X5680 выполнила ту же самую работу за 44 минуты. Это тем более странно, если посмотреть на результаты 16-поточной системы на Xeon W5580, которая справилась с заданием быстрее, но в лидеры вышла 12-поточная сборка на Core i7-980X.
Как мы подозревали, могли возникнуть проблемы с выделением памяти. Программа After Effects CS4 может использовать только 4 Гбайт оперативной памяти – треть от того объёма, который установлен в рабочей станции Xeon. По мере добавления вычислительных ресурсов к пулу AE, всё меньше и меньше памяти остаётся на каждый процессор, будь то логический или физический. Это приводит к увеличению работы с файлом подкачки на твёрдотельном накопителе – он работает быстро, но всё равно значительно уступает по скорости трём каналам DDR3.
Затем мы взяли программу After Effects CS5, которая поддерживает “родное” 64-битное окружение, причём программа заняла в памяти 9 Гбайт, оставив для других приложений около 3 Гбайт. И задача, которую CS4 выполнял за 44 минуты, в новой версии CS5 просчиталась за чуть более чем одну минуту. Что ещё лучше, мы получили правильное масштабирование: конфигурации с 24 и 16 потоками отделены тремя секундами, как и системы с 16 и 12 потоками.
Кроме того, важно отметить, что в CS4 мы получили наилучшие результаты, когда все ядра работали над каждым кадром, а в CS5 производительность существенно возросла, когда множество кадров прорабатывались одновременно (опция в пункте Memory and Multiprocessing), поэтому в таких режимах мы и выполняли тесты.
Premiere Pro CS4/CS5
С той же самой ситуацией мы столкнулись в Premiere Pro, хотя ускорение при переходе с CS4 на CS5 было уже не так заметно, да и проблем масштабирования в CS4 мы не обнаружили. В любом случае, переход на 64-битное окружение и возможность использования Nvidia Quadro FX 3800 (то есть Mercury Playback Engine) позволила уменьшить время рендеринга 3:40 (в CS4) до 19 секунд (в CS5) на двухсокетной платформе Xeon X5680. Рендеринг проекта в Adobe Media Encoder выполнился за 2:55 вместо 7:41 у CS4 на той же конфигурации.
Photoshop CS4/CS5
Доработав наш скрипт, мы смогли использовать ту же рабочую нагрузку Photoshop CS4 для тестов пакета CS5. Мы уже использовали 64-битную версию программы, поэтому нас не удивил скромный прирост при переходе на последнюю версию пакета Adobe.
С учётом всего сказанного, мы работаем над подготовкой материала, посвящённого тестированию последнего пакета Adobe Creative Suite, в котором мы исследуем эффект от перехода на 64-битное рабочее окружение, от поддержки Mercury Playback Engine и ускорения GPU на немногих видеокартах Nvidia, которые умеет использовать пакет. Сейчас же можно вполне уверенно сказать, что профессионалам с многосокетными многоядерными рабочими станциями стоит переходить на CS5.
Кодирование мультимедиа и Cinebench
Четырёхпоточный Core i5-655K, разогнанный до 4,66 ГГц, потребовал более восьми минут для завершения нашей тестовой нагрузки HandBrake, поэтому весьма приятно видеть, что 12-поточный Core i7-980X на штатной тактовой частоте 3,33 ГГц выполняет ту же самую работу примерно за половину времени. Отдача от вложений в апгрейд до 16-поточной системы Xeon W5580 в данном случае будет минимальной, хотя прирост скорости всё равно измеряемый. Переход на 24-поточную систему тоже дал некоторый выигрыш, что говорит о хорошей оптимизации этого бесплатного приложения под многопоточность.
Напротив, для Xvid 24 потока оказались совершенно избыточны. Этот кодек даже теряет по производительности, если вы будете переходить на более сложные системы.
DivX дал самые высокие результаты на конфигурации Xeon X5680, но совершенно очевидно, что этот кодек оптимизирован под меньшее число потоков, чем 12, поскольку отставание Xeon W5580 по частоте 133 МГц заметно повлияло на производительность.
Тест рендеринга CPU Cinebench 11.5 оптимизирован вплоть до 64 потоков, поэтому он явно отдаёт предпочтение паре Xeon X5680, демонстрируя при этом впечатляющую масштабируемость.
Напротив, тест рендеринга OpenGL даёт более высокую частоту кадров на Core i7-980X, то есть когда нагрузка менее зависима от процессора, более сложная платформа может негативно сказываться на производительности.
MatchMover 2011, Vue 8 PLE и Euler3D
Технология “match moving” позволяет добавлять компьютерную графику в обычный фильм, при этом она синхронизируется с расположением, масштабом, ориентацией и движениями снятых объектов в кадре. Первым шагом при использовании “match moving” является определение и отслеживание объектов – и именно это и делает тест MatchMover 2011, а в качестве тестового задания используется ролик, снятый Йоном Кэрролом на Аллее славы в Голливуде.
Как видим, оптимизация под многопоточность незначительна, если она вообще есть. Вполне естественно, что у пары Xeon X5680 есть преимущество по тактовой частоте по сравнению с W5580, но довольно сложно объяснить, почему обе двухсокетные конфигурации обходят Core i7-980X. По крайней мере, вам точно не стоит переходить на двухсокетную рабочую станцию, если вы используете данную программу.
С другой стороны, Vue демонстрирует явное преимущество более производительных процессоров. Программа Vue используется для создания, анимации и рендеринга 3D-окружений, поэтому неудивительно, что это профессиональное приложение хорошо оптимизировано для многоядерных и многопоточных рабочих станций.
Наш тест завершился менее чем за 10 минут на паре Xeon X5680. Та же самая задача заняла более 18 минут на Core i7-980X. Как видим, масштабирование великолепное.
Тест Euler3D базируется на программе расчёта гидродинамики STARS Euler3D. Подробное описание нагрузки можно прочитать здесь. Тест хорошо оптимизирован под многопоточность (есть и другая версия, которая предназначена для выполнения в однопоточных окружениях). Вполне очевидно, что двухсокетная платформа Xeon X5680 выходит на первое место. Пара Xeon W5580 занимает второе место, хотя её несколько сдерживают меньшие тактовые частоты.
LightWave 3D 9.6
Нажмите на картинку для увеличения.
При использовании приложений с множеством компонентов можно заметить, что некоторые из них содержат оптимизации под многопоточность, а другие – нет.
Наш тест LightWave 3D Modeler, который выполняет рендеринг логотипа Tom’s Hardware с более чем одним миллионом полигонов, не выигрывает от дополнительной вычислительной производительности, предоставляемой одновременным выполнением 24 потоков. То же самое верно и для “пролёта” над логотипом на основе OpenGL в тесте LightWave Layout. Фактически, в обоих случаях (как мы уже видели раньше) более сложная архитектура приводит к падению производительности по сравнению с простыми и менее дорогими конфигурациями.
2 x Xeon X5680 | 2 x Xeon W5580 | 1 x Core i7-980X Extreme | |
Рендеринг, кадр 8 | 6 мин., 7 с | 7 мин., 30 с | 9 мин., 35 sec |
Рендеринг, кадр 41 | 6 мин., 29 с | 7 мин., 49 с | 10 мин., 6 с |
Рендеринг, кадр 500 | 7 мин., 8 с | 8 мин., 35 с | 11 мин., 12 с |
Рендеринг, кадр 600 | 5 мин., 20 с | 6 мин., 12 с | 8 мин. |
Но стоит запустить рендеринг отдельных кадров нашего логотипа, как ядра CPU включаются в работу. Хотя два Xeon X5680 не могут уполовинить время рендеринга одного процессора Core i7-980X, они подходят к этому уровню достаточно близко, чтобы профессионалы, выполняющие много рендеринга в LightWave, по достоинству оценили добавление второго процессора.
Просто помните – не все компоненты программного пакета NewTek могут выигрывать от многосокетной конфигурации.
Энергопотребление и эффективность
Обычно мы запускаем Prime95 для определения максимального энергопотребления, а затем PCMark Vantage для оценки энергопотребления при выполнении тестового прогона в зависимости от времени. Однако в данном случае максимальное энергопотребление не так и важно, а тест Vantage просто не запустился на наше двухсокетной конфигурации. Тест SYSmark Preview 2007 основан на устаревшем программном обеспечении, которое всё равно не смогло бы использовать многопоточность настолько эффективно, чтобы мы с чистой совестью добавили этот тест для оценки рабочих станций. Так что мы решили остановиться на LightWave 3D 9.6. Процесс рендеринга кадров нагружает все доступные ядра CPU, а также выполняется достаточно долго, чтобы мы смогли оценить среднее энергопотребление.
Результаты говорят сами за себя. Неудивительно, что самое низкое энергопотребление мы получили на одном Core i7-980X. Впрочем, этот процессор дольше других выполнял рендеринг восьмого кадра нашей тестовой нагрузки.
Пара Xeon W5580 (130 Вт TDP) оказалась более “прожорливой” – при этом финишировали эти процессоры ничуть не раньше. Самой быстрой оказалась конфигурация из двух Xeon X5680 (тоже 130 Вт).
Мы выполняли измерения энергопотребления каждые две секунды, что позволило получить точное время выполнения рендеринга восьмого кадра. Мы перевели это время в часы, после чего умножили его на среднее энергопотребление во время тестового прогона.
Суммарная затраченная энергия в ватт-часах.
Как мы обнаружили, один Core i7-980X позволяет улучшить эффективность рабочей станции по сравнению с двумя четырёхъядерными CPU, такими как Xeon W5580 (несмотря на тот факт, что два Xeon работают быстрее), но пара Xeon X5680 приводит к совершенно противоположным выводам. Подобная конфигурация справляется с работой достаточно быстро, чтобы увеличенное энергопотребление с лихвой компенсировалось повышением производительности.
Конечно, всё это касается только многопоточной нагрузки. Если вы запустите приложение, которое не оптимизировано под многопоточность, или оптимизировано не так хорошо, то вы не увидите значительного прироста производительности, способного оправдать более высокое энергопотребление. Вместо этого вам придётся надеяться на функции отключения неиспользуемых блоков каждого процессора Intel Xeon, чтобы они не потребляли энергию в режиме бездействия.
Заключение
Честно говоря, мы бы хотели добавить старые системы уровня Xeon 5400 в наши тесты. Переход с линейки Xeon 5500 на 5600 ощущается очень хорошо – но этот переход всё же эволюционный. А старые процессоры Harpertown могли бы показать выигрыш от перехода на архитектуру Intel Nehalem, который проявился бы более значительно.
В любом случае, благодаря новому набору тестов и платформе на основе 5520, которая облегчила нам сравнение процессоров LGA 1366, можно явно видеть, когда имеет смысл переходить на 24-поточные двухсокетные рабочие станции. Вам следует оценить, насколько хорошо ваше программное обеспечение оптимизировано под многопоточность. Если вы возьмёте, например, пару Xeon X5680, то получите намного больший прирост производительности, чем в случае любых других двухсокетных конфигураций от Intel.
Впрочем, есть и “подводные камни”, например, в тестовом пакете Adobe CS4. Распределение 4 Гбайт памяти между 24 логическими ядрами в 32-битных приложениях вызывает некоторые проблемы, негативно сказываясь на производительности. Поэтому если вы хотите полностью раскрыть потенциал платформы в многопоточном окружении, то придётся переходить на 64-битные приложения.
Мы неоднократно подчёркивали важность сборки сбалансированных настольных ПК, и в данном случае баланс тоже необходимо соблюдать. Мощная двухсокетная рабочая станция должна дополняться большим объёмом памяти и быстрой подсистемой хранения данных. В нашем случае мы взяли 12 Гбайт памяти DDR3-1333 и пару 160-Гбайт SSD в массиве RAID 0. Вполне естественным будет и прирост от быстрой видеокарты. В некоторых приложениях GPU серьёзно сказывался на производительности, в отличие от процессоров Xeon.
Мы можем достаточно уверенно утверждать, что пара Xeon X5680, несмотря на 133-МГц прирост частоты по сравнению с более старым Intel Xeon W5580, работает более эффективно в многопоточных приложениях. Новые процессоры существенно более сложные, с двумя дополнительными ядрами и увеличенным на 4 Мбайт кэшем L3. Однако они умещаются в том же тепловом пакете благодаря 32-нм техпроцессу, да и даже потребляют меньше энергии в нашем тесте рендеринга LightWave, чем чипы линейки Xeon 5500.
Хотя пара шестиядерных Xeon намного более “прожорлива”, чем один Core i7-980X, производительность в многопоточных нагрузках оказывается намного выше – достаточно, чтобы дать более высокую эффективность энергопотребления, чем у односокетного Core i7.
Что касается AMD, то мы надеемся, что чипсеты SR56x0 и SP5100 помогут вернуть конкурентоспособность этой компании в сфере рабочих станций. Будет интересно оценить скорость 12 физических ядер процессоров семейства Opteron 6100 c шестью ядрами/12 потоками у линейки Intel Xeon 5600.