Обзор Intel Xeon E5-2600 V3 | Знакомимся с платформой
Рынок серверов с поддержкой двух сокетов огромен. Поэтому любое значительное обновление технологии в данном сегменте приносит производителям миллиарды долларов. HP уже анонсировала новые серверы ProLiant Generation 9, а другие вендоры начали выпускать свои собственные решения. Жизненный цикл большинства серверных систем составляет три-пять лет. Получается, что процессоры Haswell-EP призваны заменить платформы Nehalem-EP, Westmere-EP и Sandy Bridge-EP. Но, в отличие от настольных ПК, цена двухпроцессорного сервера легко может перевалить за несколько тысяч долларов.
Вы наверняка знаете, что под брендом Xeon выходят три линейки процессоров. E5 предназначены для платформ среднего уровня. E3 по характеристикам ближе к мейнстримным настольным конфигурациям, в то время как E7 представляет high-end-уровень: такие платформы могут поддерживать до восьми процессоров, несколько терабайт системной памяти и функции RAS для критически важных приложений. E5 – универсальные платформы, подходящие для самых разнообразных задач: от виртуализации до приложений для высокопроизводительных вычислений (HPC). Цифра 2 в модельном номере обозначает на одно- и двухсокетовые платформы. Цифра 6 теперь ничего не обозначает. Раньше процессоры на базе Sandy Bridge-EP и Ivy Bridge-EP выпускались как решения Xeon E5-2400 с урезанной функциональностью. Однако на этот раз Xeon E5-2400 v3 не будет. Теперь все чипы E5 принадлежат серии 2600.
В процессоре Sandy Bridge-EP (Xeon E5-2600) установлено восемь ядер, разработанных на основе техпроцесса 32 нм. В Ivy Bridge-EP (Xeon E5-2600 v2) литография уменьшилась до 22 нм, а число ядер выросло до двенадцати. Haswell-EP (Xeon E5-2600 v3) производится в конфигурациях, имеющих до 18 ядер. Каждое поколение следует базовому дизайну и включает технологии, которые мы можем встречать в решениях потребительского сегмента. Это означает, что схема регуляции напряжения в Haswell-EP перемещена с системной платы на чип. Ещё одним важным изменением (также в решениях для настольного сегмента) является переход Haswell-EP на интерфейс LGA 2011-3, не совместимый с процессорами Sandy Bridge-EP, Ivy Bridge-EP или новым разъёмом Ivy Bright-EX 2011. Новый процессорный интерфейс обеспечивает совместимость с памятью DDR4, которая, по сравнению с предыдущим поколением, обеспечивает более низкое энергопотребление, большую плотность и более высокую скорость передачи данных.
Ниже представлен краткий обзор отличий между различными моделями линейки Xeon E5-2600 v3:
Количество моделей впечатляет. По словам Intel, чтобы создать такое разнообразие чипов, понадобилось три кристалла. Не забывайте, многие системы Haswell-EP призваны заменить текущие платформы Westmere-EP, поддерживающие два шестиядерных процессора и память DDR3-1066 со скоростью 1333 МТ/с. Обновление до Xeon E5-2600 v2 позволит удвоить или утроить количество ядер без изменений форм-фактора и потенциально снизить энергопотребление.
Платформы Intel имеют от четырёх до восемнадцати ядер с базовой тактовой частотой до 3,6 ГГц и оптимизированы под различные сферы применения. Тепловой пакет варьируется с 55 до 145 Вт для серверов, и до 160 Вт в случае Xeon E5-2687W v3 для рабочих станций. Последний включает интегрированный регулятор напряжения (FIVR), характерный для процессоров на архитектуре Haswell для ПК.
Ещё одно замечание: выше предложен предварительный модельный ряд. Известно, что Intel разрабатывает специальные модификации для EMC, NetApp и других крупных заказчиков, которым требуется особый набор функций. Такие модели на массовый рынок не выпускаются.
Обзор Intel Xeon E5-2600 V3 | Встречаем платформу Intel Grantley
Кроме новых процессоров на Haswell-EP, многое можно сказать о платформе Intel Grantley. Основные её параметры приведены на схеме ниже.
В Grantley есть ряд эволюционных изменений, однако самым важным их них является поддержка нового стандарта памяти. Четыре поколения серверных платформ, начиная с Nehalem-EP, использовали оперативную память DDR3, и производители пытались модифицировать её, чтобы снизить энергопотребление или повысить плотность. Сертифицированные модули DIMM DDR4 успешно демонстрируют данные усовершенствования и также отличаются повышенной пропускной способностью на канал.
Сервера зачастую оснащаются большими объёмами RAM для управления большим числом виртуальных машин или даже использования ресурса оперативной памяти для приложений кэширования, например, memcached или redis. Для этих задач, как правило, требуется больше модулей DIMM на канал памяти, что негативно сказывается на пиковой скорости передачи данных. Память DDR4 разработана таким образом, чтобы совмещать большое количество модулей в одной конфигурации без потерь в производительности, что характерно для DDR3. И поскольку новая память работает при более низком входном напряжении (даже ниже, чем DDR3L), энергоэффективность заметно повышается.
Конечно, поддержка такого объёма памяти ложится на встроенный в CPU контроллер. Но пока ещё не все функции реализованы в процессорах Intel. Для управления периферийными устройствами нужен PCH (концентратор контроллеров платформы). PCH Wellsburg, по аналогии с X99 Express, предоставляет 10 портов SATA 6 Гбит/с. Это значительное усовершенствование по сравнению с платформами Xeon E5-2600 v1 и v2, в которых большее внимание уделялось поддержке дополнительных соединений SAS. На этот раз Intel пошла по другому пути, который весьма логичен, учитывая появление SSD на базе NVMe. Мы рады видеть поддержку большего количества SATA-устройств: такие решения отлично подходят для недорогих SSD и традиционных механических жёстких дисков, в то время как высокопроизводительные устройства хранения данных переходят на шину PCIe.
Из других характеристик следует отметить шесть портов USB 3.0 и восемь портов USB второго поколения, которые будут полезны для ускоренного доступа к карте KVM и ускоренной загрузки VMware ESXi с USB. В частности, несколько платформ, с которыми мы ознакомились в нашей лаборатории, поддерживали только стандарт USB 3.0. Это большой шаг вперёд по сравнению с наличием только интерфейсов USB 2.0 в платформах прошлого поколения.
Процессоры по-прежнему имеют 40 линий PCI Express 3.0, разделённых в различных конфигурациях. Это общая черта процессоров серии -EP. Учитывая более высокую скорость передачи данных по сети и более значительную поддержку флэш-накопителей с интерфейсом PCIe, этим линиям найдётся применение.
Ближе к концу нашей статьи мы покажем, какие изменения претерпели решения на базе Haswell-E в плане энергопотребления и распределения потребляемой мощности Haswell-EP. Главным элементом, влияющим на изменение данных характеристик, является перенос регулятора напряжения в чип, и, как следствие, более точная регулировка параметра P-state. При тестировании настольных чипов мы выяснили, что энергопотребление в простое понизилось. Но, в отличие от Haswell мейнстримного класса, Haswell-EP имеет в 4,5 раза больше исполнительных ядер и более чем в пять раз больше кэша последнего уровня. В массивах из двух CPU показатели экономии энергии на каждую машину удваиваются.
Нам кажется, что самые впечатляющие изменения в платформе коснулись сетевых подключений, в частности, контроллера Fortville 40 GbE
Обзор Intel Xeon E5-2600 V3 | Fortville: 40 GbE в массы
Наряду с платформой Grantley, Intel представила новое поколение сетевых адаптеров Ethernet под кодовым названием Fortville. Контроллер поддерживает скорость 40 Гбит/c и открывает решениям Intel новые возможности в отношении сетевого подключения.
Учитывая, насколько возросла производительность современных систем, как никогда важна высокая пропускная способность сетей, характеризующихся к тому же низкими задержками. Grantley создана для подключения ещё большего числа виртуальных машин к одному серверу. Такие технологии, как VMware vSAN, используют локальное хранилище для создания распределённых систем SAN для данных виртуальных машин. Большее число портов и повышенная производительность важны также для работы программно-конфигурируемые сети (SDN). Fortville – это решение Intel в данной сфере.
Есть три основных конфигурации адаптера Fortville: 2 x 40 GbE, 1 x 40 GbE и 2 x 10 GbE. Сравните их с предыдущим поколениям адаптера Spring Fountain X520 в конфигурации 2 x 10 GbE. Сразу видно, что в семействе Fortville X710 потенциал полосы пропускания увеличился с 20 до 80 Гбит/с.
Хотя четырёхкратный прирост пропускной способности звучит впечатляюще, этой отметки достичь пока невозможно. В основной массе серверы предлагают множество слотов на восемь линий PCIe. Сегодня стандарт третьего поколения обеспечивает чуть меньше 8 Гбит/с пропускной способности. Более того, всегда есть издержки. Таким образом, при подключении к сетевому коммутатору Cray-Gnodal GS0018 (18 x 40 GbE) в нашей лаборатории мы получили пиковую производительность 50-55 Гбит/с. У нас недостаточно данных для публикации официальных показателей. Тем не менее, с точки зрения пропускной способности сети, в решении определённо имеется узкое место.
Однако в большинстве серверных сред два порта QSFP будут подключаться к разным коммутаторам для повышения отказоустойчивости, и карта имеет значительный потенциал для того, чтобы осуществлять управление, по сути, полноценным соединением 40 Гбит/c, плюс обеспечивать передачу большого объёма трафика через второй порт.
Ещё одной особенностью решений стандарта 40 GbE, к которым относится XL710, является способность порта QSFP использовать разводные кабели QSFP-to-4x SFP+. Таким образом, к каждой карте XL710 с двумя портами QSFP можно подключать до восьми устройств 8x SFP+ 10 GbE. В теории, можно установить восемь двухпортовых карт в сервер и использовать эту машину с 72 сетевыми соединениями по 10 GbE. Цели такой конфигурации не совсем очевидны, но, по крайней мере, технически это возможно.
Кроме высочайшей производительности контроллера и улучшения характеристик плотности, Fortville обладает повышенной энергоэффективностью. Fortville потребляет меньше энергии, чем адаптеры X520 10 GbE предыдущего поколения, как в простое, так и при нагрузке. X520 имеет тепловой пакет 8,6 Вт, у XL710 это значение снизилось до 7 Вт. В теоретическом измерении эффективности Fortville обеспечивает в 3,5 раза больше пропускной способности на ватт по сравнению с предыдущим поколением. Это тоже значительный прогресс. В соответствии с этим, типичное энергопотребление Fortville можно приравнять к 3,6 Вт при использовании двух линий 40 GbE, так что TDP в 7 Вт дан с большим “запасом прочности”.
В итоге адаптеры Intel Fortville – это больше пропускной способности, более низкие задержки и более высокая плотность портов, и всё это при пониженном энергопотреблении.
Обзор Intel Xeon E5-2600 V3 | Особенности тестирования
В сегодняшних тестах учувствуют стандартные серверные платформы формата одной стоечной единицы (1U). Supermicro прислала новый SuperServer форм-фактора 1U с двумя процессорами Intel E5-2690 v3 и 16 модулями DDR4-2133 DIMM по 8 Гбайт от Samsung. У нас нашлась аналогичная платформа Supermicro и пара процессоров Intel Xeon E5-2690 v1 и v2, поэтому удалось провести прямое сравнение. Xeon E5-2690 начинал свой путь в сегменте high-end и закончил в классе “мейнстрим”. Например, компания Amazon довольно долгое время использует E5-2670 v1 и v2 в своих вычислительных платформах AWS EC2. Е5-2690, как правило, предлагает такое же число ядер при более высокой тактовой частоте.
Intel также прислала серверную платформу 2U “Wildcat Pass”, включающую два образца Xeon E5-2699 v3, модули DDR4 в конфигурации 8 x 16 Гбайт (по одному на канал) и два SSD DC S3500. E5-2699 v3 – это процессор с серьёзными спецификациями. Он несёт в себе 18 полноценных ядер, способных обрабатывать 36 потоков посредством Hyper-Threading. На каждое ядро приходится по 2,5 Мбайт кэша третьего уровня, всего 45 Мбайт. Тепловой пакет процессора в такой конфигурации составляет 145 Вт.
Это не самая выгодная система с точки зрения цены, но она может продемонстрировать весь потенциал Haswell-EP. Мы используем серверы Wildcat Pass в качестве “точки отсчёта” для новой архитектуры Intel.
Тем временем сервер Lenovo RD640 2U послужит стандартом для сравнения архитектур Sandy Bridge-EP и Ivy Bridge-EP. В нём используется память DDR3 в конфигурации 8 x 16 Гбайт, которая в сумме обеспечивает 128 Гбайт ОЗУ. Для хранения данных мы также установили пару SSD DC S3500.
Знакомясь с результатами нашего анализа, необходимо помнить две вещи. Во-первых, на момент тестирования цены на модули DDR4 были неприлично высокими. Рыночная стоимость гигабайта в несколько раз превышала показатель DDR3. По мере активизации производства она, естественно, снизится. Однако чрезмерная дороговизна не позволила укомплектовать сервер памятью объёмом более 128 Гбайт.
В сегодняшнем обзоре основное внимание будет уделено производительности процессоров и энергопотреблению. Поэтому мы используем два SSD DC S3500 по 240 Гбайт в массиве RAID 1. У нас есть несколько надёжных накопителей SanDisk Lightning 400 Гбайт SLC. Но ни у одной из подопытных платформ нет разъёмов SAS. Хотя контроллеров, способных справиться с такой нагрузкой, предостаточно, рынок явно отказался от подобных конфигураций. При применении SSD с интерфейсом SATA энергопотребление подсистемы хранения данных остаётся на относительно низком уровне, в то же время они представляют собой довольно типичную конфигурацию для хранения данных, используемую в серверах с хранилищем общего доступа.
Также необходимо учесть, что мы используем стойки формата 1U и 2U, в каждой по одному серверу. Платформы серии Xeon E5 часто находят место в кластерах высокой плотности в корпусах 1U, 2U или 4U. Например, проверенный временем Dell C6100 на базе Nehalem-EP и Westmere-EP был крайне популярным в таких средах Web 2.0, как Facebook и Twitter. Многие платформы были заменены на версии OpenCompute, но мы ожидаем, что вместе с поколением Xeon E5-2600 v3 начнётся эра нетрадиционных конфигураций, особенно учитывая характеристики энергопотребления новых процессоров.
Обзор Intel Xeon E5-2600 V3 | Supermicro SYS-6018R-WTR
Основной платформой для наших тестов является Supermicro 1U SYS-6018R-WTR на базе процессора Xeon E5-2600 v3. Данная модель является последовательницей SYS-6017R-WRF, которая побывала у нас в лаборатории. Несмотря на формат 1U, сервер имеет встроенные средства резервирования и отличается высокой функциональностью.
Во-первых, что примечательно для корпуса 1U, у него имеется очень много доступных отсеков для фронтально подключаемых накопителей. Конкретно в нашем образце есть четыре отсека с функцией горячей замены для накопителей формата 3,5-дюйма. Мы используем первый и второй отсек для установки SSD. Также есть стандартные светодиодные индикаторы и кнопки включения питания и сброса. Пустая лицевая часть корпуса используется для вентиляции, затягивая воздух для охлаждения мощных компонентов, установленных внутри.
Для охлаждения используются дублируемые в целях обеспечения отказоустойчивости вентиляторы. В нашем случае два вентилятора спаянны вместе. Если один даст сбой, второй продолжит работать. В центрах обработки данных стоимость аварийной замены вентилятора может доходить до $100. Так что сведение последствий внеочередного ремонта к минимуму существенно экономит деньги. Более того, благодаря дублированию при отказе вентилятора, система не перестанет охлаждаться.
По этой же причине система оснащается и двумя блоками питания на 700 Вт с сертификатом 80 PLUS Platinum, установленными в задней части корпуса. Дешёвые системы 1U часто оснащаются одним чипом Xeon E3, и для понижения стоимости в них монтируют только один БП. Серверы более высокого класса (как наш образец) получают питание в режиме A+B, таким образом, имея возможность справиться при отказе одного из блоков питания. Стоит отметить, что мощности каждого блока питания достаточно для нормальной работы сервера.
Сзади корпуса имеется стандартный набор разъёмов. Здесь находятся два встроенных порта Ethernet и один разъём IPMI/KVMoIP для удалённого управления. Если вы когда-нибудь сталкивались с серьёзным сбоем в удалённом сервере и использовали KVMoIP для решения проблемы, то наверняка согласитесь, что это потрясающая функция. Supermicro также предоставляет четыре разъёма USB и выход VGA. Любопытно, что у сервера нет отдельного последовательного порта. При реальной необходимости, вы всегда можете использовать адаптер c USB на последовательных портах.
Внутри сервера имеются два отсека расширения. Для тестирования мы использовали один из слотов расширения PCIe для адаптера Supermicro dual 40 GbE Fortville.
Пластиковые направляющие обеспечивают прохождение потока воздуха через радиаторы, RAM и карты расширения.
Наша система оснащена восемью модулями Samsung DDR4-2133 ECC RDIMM по 8 Гбайт. На момент получения тестового образца купить данное решение на рынке было довольно сложно. У сервера по четыре слота для ОЗУ с обеих сторон каждого процессора, в сумме модулей памяти получается шестнадцать.
Обзор Intel Xeon E5-2600 V3 | Компоненты Linux-Bench
Хотя While Windows Server по-прежнему является популярной платформой, многие серверы на базе Xeon E5 используют в качестве операционной системы Linux. Серверные комплектующие отличаются относительно слабыми возможностями в плане графики. Большинство из них способны визуализировать один 2D-терминал сбора данных с большой задержкой, но не более того. Поэтому для тестирования Xeon E5-2600 v3 мы используем целый ряд бенчмарков для Linux.
Если вы когда-нибудь вручную конфигурировали и запускали тесты под Linux, то наверняка знаете, насколько “занимательным” может быть это занятие. Для данного обзора мы используем “простой” тестовый сценарий автоматизированного запуска нескольких общих бенчмарков под Linux. Они бесплатны и доступны по адресу linux-bench.com или на GitHub. Также на GitHub для данного сценария есть новая версия Docker.io, так что тесты можно провести, используя самую новую технологию этого года.
Тест был разработан для запуска на стандартном LiveCD Ubuntu 14.04 LTS всего тремя командами. Поэтому его можно проводить удалённо посредством KVMоIP на серверах без локального хранилища. Мы проводили тест на локальном образе LiveCD, загружая среду CLI перед каждым повтором, чтобы избежать появления артефактов от предыдущих прогонов.
Скрипт Linux-Bench устанавливает зависимости и запускает бенчмарки. (Прим. ред.: автор данной статьи участвует в сообществе, внёсшем вклад в разработку данного скрипта. Однако он не осуществляет поддержку отдельных бенчмарков).
UnixBench 5.1.3
Проект byte-unixbench можно найти на Google Code по этой ссылке. Его корни уходят в 1983 год. Это крайне популярный пакет, включающий ряд компонентов, таких как Dhrystone, Whetstone и shell-скрипты. В частности, нас интересуют тесты CPU, поэтому мы исключили модули 2D/3D для GPU и тесты системы хранения. Кроме того, ввиду большого числа исполнительных ядер в системе, мы использовали патч для теста множества CPU.
c-ray 1.1
c-ray 1.1 – простой и популярный тест трассировки лучей для систем на Linux, созданный программистом под ником jtsiomb (John Tsiombikas). Особенность бенчмарка заключается в том, что на большинстве систем ему не нужен доступ к ОЗУ, поэтому он крайне чувствителен к производительности процессора. Архивные результаты, включая системы от SGI, можно найти здесь.
STREAM
STREAM называют инновационным приложением для тестирования пропускной способности памяти. Бенчмарк создавался и поддерживался силами доктора Джона Д. Макалпина (Dr. John D. McCalpin). Дополнительную информацию можно найти по этой ссылке.
OpenSSL
OpenSSL все помнят по нашумевшей уязвимости Heartbleed в 2014 году. Данная технология служит для обеспечения безопасности трафика в сети Интернет, также это распространённое серверное приложение.
HardInfo
HardInfo – простой, но популярный бенчмарк в средах Linux. Его популярность также связана с тем, что он устанавливается на многие настольные системы Ubuntu по умолчанию.
NAMD
NAMD – тест молекулярного моделирования. Он был разработан группой Theoretical and Computational Biophysics Group в институте передовой науки и технологий Бекмана (Beckman Institute for Advanced Science and Technology) на базе Иллинойского университета в Урбане-Шампейне (University of Illinois at Urbana-Champaign). Дополнительную информацию можно узнать, пройдя по этой ссылке.
NPB
NPB или NAS Parallel Benchmarks – это набор приложений для вычисления динамики жидкостей, который изначально предназначался для тестирования параллельных вычислений в суперкомпьютерах NASA. Для наших тестов мы используем только один узел, хотя современные многопроцессорные системы в какой-то степени отражают особенности параллельных супервычислений тех лет. Дополнительную информацию можно найти на сайте NASA.
p7zip
7-Zip – популярный архиватор с открытым кодом. Серверы сжимают данные для хранения и перед передачей. Это крайне распространённый инструмент и приложение.
Redis
Redis – это популярная новая веб-технология для масштабирования сетевых приложений. Это хранилище ключей, ограниченное пропускной способностью памяти и производительностью процессора. Технология перспективная, и ей занимается большое сообщество разработчиков.
Sysbench CPU
Sysbench – ещё одно известное и проверенное приложение для тестирования. Его очень легко использовать. Для наших целей мы оставили только тест производительности CPU.
Вы можете без проблем повторить тесты, загрузив и запустив их по отдельности. Параметры скрипта Linux-Bench были отработаны более чем на сотне различных систем – от дешёвых платформ на базе Atom до четырёхпроцессорных серверов Xeon и Opteron, благодаря активному участию сообщества и публикациям на GitHub.
Обзор Intel Xeon E5-2600 V3 | Результаты тестов
В качестве первого набора тестов мы рассматриваем самые распространённые тестовые пакеты, включая UnixBench (в одно- и многопоточном режиме), HardInfo, sysbench и STREAM.
UnixBench 5.1.3
Одним из способов обеспечить работу наиболее производительных процессоров Intel Haswell-EP в нормальных температурных пределах является снижение тактовой частоты. Например, Xeon E5-2699 v3 работает при частоте всего 2,3 ГГц, которая на 300 МГц ниже, чем у Е5-2690 v3. Показатель производительности в однопоточных приложениях для серверных сред по-прежнему актуален, для этого и существует технология Turbo Boost. Хорошим примером является Minecraft – изначально малопонятная игра, которая впоследствии обрела феноменальный успех. Игровой сервер сталкивался с проблемой ограничения производительности скоростью одного потока, заставляя системных администраторов подумать об использовании Xeon E3 ввиду его более высоких частот.
В первом прогоне UnixBench Whetstone/Dhrystone мы запускали тест в однопоточном режиме.
Результаты однопоточного теста Whetstone почти не меняются на трёх процессорах, несмотря на разницу в 700 МГц между базовыми частотами Intel Xeon E5-2690 v2 и Е5-2699 v3.
В однопоточном модуле Dhrystone картина кардинально меняется. Xeon E5-2690 v1 вырывается вперёд почти на 10%. Но, несмотря на кажущуюся разницу на диаграмме, результаты, на самом деле, очень близки. Хотя мы надеемся, что архитектурные усовершенствования Haswell должны обеспечить внушительное преимущество на Sandy Bridge.
Более явные различия в результатах наблюдаются в многопоточных режимах представленных выше тестов.
Как мы и ожидали, эти результаты показывают, что внедрение дополнительных ядер значительно повышает производительность в грамотно оптимизированных под многоядерные процессоры задачах. Xeon E5-2699 v3 показал почти двукратное ускорение по сравнению с E5-2690 v1, который в своё время считался топовым решением.
На представленных диаграммах прекрасно отслеживается эволюция чипов линейки Intel Xeon E5-2690 от первой до третьей версии. Особняком стоит Xeon E5-2699 v3, демонстрирующий, что 18 ядер и 36 потоков в процессоре обеспечивают огромное преимущество в распараллеленных задачах, особенно если сравнивать с Xeon E5-2690.
HardInfo
Здесь различия не такие впечатляющие, как в тестах Whetstone и Dhrystone, тем не менее, можно наблюдать достойное масштабирование показателей производительности.
Далее идут тесты Fibonacci и модуль FPU FFT.
Большее число ядер снова обеспечивает преимущество процессорам v3.
Во всех трёх тестах мы наблюдаем последовательное улучшение показателей от поколения к поколению, а на вершине оказывается Xeon E5-2699 v3. Первый Intel Xeon E5-2690 имел частоту 2,9 ГГц, Е5-2690 v2 перешёл на 3 ГГц, а v3 лидируют при меньшей тактовой частоте.
Sysbench CPU
Поиск простых чисел – это вычислительная задача, которую можно легко выполнять в параллельном режиме. В результате можно наблюдать масштабирование производительности в соответствии с количеством ядер.
По скорости однопоточной обработки чипы Haswell-EP находятся на одном уровне с Sandy Bridge-EP и Ivy Bridge-EP. Учитывая увеличение количества ядер, понятно, что Intel делает упор на дополнительные исполнительные ресурсы, а не тратит весь запас TDP на обеспечение пиковых значений тактовой частоты. Так что сохранение статус-кво в данном случае – это вполне приемлемо. Достаточно нагрузить все ядра работой, и вы сразу увидите главное преимущество Haswell-EP.
STREAM
Мы скорректировали один элемент в тестовой конфигурации, прежде чем провести эти тесты. Заметив, что контрольный сервер с Xeon E5-2699 и сервер Supermicro показали одинаковые результаты, мы решили провести небольшой сторонний эксперимент, предоставив процессору Е5-2699 v3 четыре модуля DDR4 16 Гбайт на каждый процессор. Xeon E5-2690 v3 получил восемь модулей RDIMM по 8 Гбайт на каждый процессор, что позволило сопоставить платформы первого и второго поколения.
Результаты показали положительное влияние дополнительной памяти и неплохое повышение производительности при переходе с DDR3L-1600 на DDR4-2133. Новый стандарт памяти обеспечивает явное преимущество, которое проявляется не только в энергопотреблении.
Обзор Intel Xeon E5-2600 V3 | Больше результатов тестов
Далее идут специфические тесты на базе приложений, включающие c-ray 1.1, NAMD, NPB, p7zip, redis и OpenSSL. В какой-то момент оптимизации под Haswell-EP дойдут и до них. Но пока результаты демонстрируют статус-кво. В частности, большое влияние на результаты будет оказывать AVX 2.0.
c-ray 1.1
Linux-Bench проводит три различных теста c-ray. Первый называется “простым”, он отлично подходит для выявления различий в производительности между процессорами Atom и настольными CPU. Мы исключаем эти тесты, поскольку разница между тремя платформами укладывается в одну секунду. Вместо этого мы используем более жёсткую категорию команд sphfract | ./c-ray-mt -t $threads -s $resolution -r 8 для демонстраций различий между платформами.
Трассировка лучей, как правило, хорошо масштабируется в зависимости от тактовой частоты и числа ядер процессора. Именно это мы и наблюдаем сегодня. В лидерах Xeon E5-2600 v3.
В то время как тест на разрешении 1920×1200 точек реагирует на дополнительные исполнительные ресурсы, бенчмарк на 3840×2160 точек оказался менее чувствительным. Это может быть связано с преимуществом Е5-2690 v3 по частоте, которое составляет 300 МГц на ядро. Тем не менее, масштабирование производительности чипов Xeon E5-2690 при смене поколений довольно очевидное.
NAMD
Наши тесты NAMD используют процесс молекулярного моделирования для нагрузки серверных платформ. Люди, вовлечённые в проекты наподобие Folding@Home, знают, что задачи такого типа полностью нагружают многопоточные процессоры.
Haswell-EP без проблем выходит на первое место.
Результаты Xeon E5 первого и второго поколения оказались довольно неожиданными. Тем не менее, Ivy Bridge-EP имеют привычку слишком агрессивно снижать энергопотребление, возвращая все ядра на более низкие параметры P-state при снижении нагрузки. Возможно, нечто подобные мы и наблюдаем сейчас. Для сравнения Xeon E5-2600 v3 осуществляют управление для каждого ядра, поэтому влияние включения и отключения ядер не так сильно отражается на производительности.
NPB
В этом тесте мы ожидаем, что преимущество по количеству ядер Haswell-EP обеспечит новым чипам существенный прирост производительности.
При переходе с первого поколения Xeon E5-2690 на поколение Haswell-EP прирост небольшой, однако Intel Е5-2699 v3 заметно обгоняет остальные CPU. Поскольку результаты отличаются постоянством, мы можем предположить, что преимущество в данном тесте заключается в большом кэше третьего уровня, составляющем 45 Мбайт.
P7zip
p7zip – это стандартный тест на скорость архивирования. Алгоритмы такого типа, как правило, пользуются преимуществами многопоточных вычислений. Мы предполагаем, что справиться с небольшой нехваткой тактовой частоты и занять первую позицию чипам на базе Haswell-EP помогает увеличенное количество инструкций, выполняемых за такт, и число физических ядер.
При переходе на новые поколения Intel Xeon E5-2690 наблюдается последовательный рост производительности. Xeon E5-2699 v3 снова вырывается вперёд. В данном случае Xeon E5-2690 первого поколения в два раза медленнее Xeon E5-2699 v3.
Redis
Redis работает с внутреннем памятью, поэтому количество ядер не оказывает выраженного эффекта на результаты.
Как мы и думали, по аналогии со STREAM результаты платформ оказались очень близки. Но даже в этом случае конфигурация с одним модулем DDR4 16 Гбайт на канал выигрывает.
OpenSSL
OpenSSL – распространённая технология, и это, возможно, один из самых подходящих тестов для веб-серверов. Некоторые компании настаивают на более широком применении SSL для шифрования данных, поэтому данный тест особенно важен.
Процессоры Haswell-EP показывают хорошее масштабирование производительности. В частности, Xeon E5-2699 v3 показал более чем двукратный прирост скорости по сравнению с первым Xeon E5-2690.
Обзор Intel Xeon E5-2600 V3 | Энергопотребление
В последнее время сформировалась тенденция, когда Intel сначала представляет новую архитектуру в сегменте мобильных/настольных ПК, а затем в сфере рабочих станций и серверов. Сначала мы ознакомились в преимуществами техпроцесса 22 нм в Ivy Bridge, после появилась Ivy Bridge-EP. Затем в чипы Haswell был интегрирован регулятор напряжения платформы для более точного управления питанием. Разумеется, от Haswell-EP мы ждали существенных улучшений в энергопотреблении, с которыми уже ознакомились в настольных версиях чипов, и мы их получили.
Haswell-EP имеет ряд технологий, которые способствуют понижению энергопотребления. Во-первых, схема электропитания, если сравнивать Xeon E5 первого и второго поколения, находится на кристалле. Haswell-EP может управлять параметрами P-state для каждого ядра, при необходимости обеспечивая регулировку питания. Intel заявляет о 36%-ном снижении энергопотребления благодаря технологии Per-Core P-States (PCPS.)
Не стоит забывать про внедрение памяти DDR4, которая, в дополнение к повышенной скорости передачи данных, работает при меньшем входном напряжении. Для большинства настольных систем экономия менее 1 Вт на модуль мало что значит. Однако для сервера, где количество модулей DIMM на процессор достигает восьми, а процессоров в узле может быть несколько, возможность убрать несколько ватт из общего энергопотребления системы довольно привлекательна.
Компаниям, желающим обновить платформы Westmere-EP, появившиеся три поколения назад, стоит учесть ещё один важный момент. Новый PCH Wellsburg (серии Intel C610) работает при очень низкой температуре и может управлять десятью устройствами SATA через стандартные разъёмы. Во времена Westmere единственным способом получить столько линий PCIe в сервере для расширения системы хранения было внедрение второго чипа IOH36. Этот компонент подразумевает наличие достойного радиатора и очень активного воздухообмена, чтобы отвести лишнее тепло. При установке двух таких чипов в систему приходилось решать проблемы с охлаждением. Поскольку Haswell-EP имеет 40 линий PCIe 3.0 на кристалле в паре с PCH C610, произведённым с использованием нового техпроцесса, платформа обеспечивает существенную экономию энергии по сравнению с системами, доступными на рынке до Sandy Bridge-EP. Серверы на базе Westemere-EP начали массово выводиться из эксплуатации в начале 2014 года, и, скорее всего, сейчас их будут заменять системами на Haswell-EP.
Чтобы получить достоверные данные, мы взяли тестовый стенд 1U Supermicro и проверили его энергопотребление в простое при “пустых” слотах PCIe (активными остались только встроенные сетевые контроллеры). Результаты просто поражают:
Не забывайте, наш сервер на базе Haswell-EP использует два процессора Xeon E5-2690 v3 135 Вт и шестнадцать модулей памяти по восемь гигабайт. Также в нём установлены резервируемые средства охлаждения. Это повышает отказоустойчивость системы, но не очень хорошо сказывается на энергопотреблении. Тем не менее, энергопотребление системы Haswell-EP в простое очень низкое.
Затем мы запустили сразу три многопоточных теста: c-ray 1.1, sysbench CPU (поиск простых чисел) и STREAM. Получились довольно интересные результаты. В целом, Xeon E5-2699 v3 потребляет заметно больше энергии, чем мы думали. Однако во многих тестах производительности данный CPU обеспечивает двукратный прирост скорости по сравнению с Xeon E5-2690 первого поколения. Это станет хорошим стимулом владельцев серверов заменить устаревшее оборудование на системы на базе Xeon E5-2600 v3, которых потребуется гораздо меньше, при следующем обновлении.
Обзор Intel Xeon E5-2600 V3 | Haswell-EP – новый шаг в развитии серверов и рабочих станций
В нашей статье мы пришли к выводу, которым завершили обзор Core i7-4770K: Haswell не очень интересен для владельцев настольных ПК. Однако с Haswell-EP ситуация совсем другая. Intel использует литографию следующего поколения для внедрения дополнительных ядер, дополнительного кэша и нового контроллера памяти с поддержкой DDR4. Эти факторы обеспечивают преимущество новых решений по сравнению с Ivy Bridge-EP. Если учесть, что данные CPU призваны заменить четырёх- и восьмиядерные серверные чипы, то потенциальная выгода будет весьма ощутима. Двукратное ускорение при сохранении прежнего форм-фактора побудит корпоративных клиентов как минимум рассмотреть консолидацию аппаратной инфраструктуры.
Говоря об энергопотреблении, следует упомянуть, что платформа Haswell была изначально разработана для мобильного сегмента. Но она также актуальна и в области серверов. Конечно, разница в том, что процессоры на архитектуре Haswell-EP гораздо больше (и используются в двухпроцессорных конфигурациях), так что все положительные эффекты от новой архитектуры проявляются ещё заметнее.
С точки зрения производительности на ядро, если ваше ПО не оптимизировано на использование AVX 2.0, то основное преимущество Haswell связано с присущими архитектуре улучшениями IPC (инструкции, выполняемые за такт). Однако потенциал Haswell-EP особенно хорошо раскрывается в распараллеленных задачах, в которых важно большее количество физических ядер.
Поддержка памяти DDR4 также является крайне важной особенностью процессоров Xeon E5-2600 v3 нового поколения. Со временем мы с большой вероятностью увидим версии данного стандарта с более высокой скоростью передачи данных, повышенной плотностью и, вполне возможно, меньшим энергопотреблением. В отличие от DDR3, поставки DDR4 очень ограничены, поэтому цены на новые серверы будут завышены до тех пор, пока не подтянутся остальные производители. Сейчас рынок разделён. Большинство устройств для конечных пользователей основано на стандарте DDR3. Haswell-E/EP – это первое решение с поддержкой DDR4, но постепенно появятся и другие. Хотя стоимость новой технологии пока слишком высока, её преимущества в плане производительности и энергопотреблении, в конечном счёте, оправдают её распространение.
Основное время в ходе презентации Haswell-EP Intel уделяла увеличению количества ядер, DDR4 и поддержке ISA. Однако не менее, а может, и более захватывающими нам показались адаптеры Fortville. Возможности, которые даёт контроллер, предлагающий два интерфейса 40 GbE или восемь линий по 10 Гбит, нельзя игнорировать. Некоторые время мы использовали адаптеры Mellanox ConnectX-3 VPI в режиме 40 Gb Ethernet. Однако улучшения показателей энергопотребления у технологии Intel заставили нас купить новый коммутатор 40 Gb Ethernet.
Это настоящий прогресс. Больше пропускной способности инструкций на такт, больше ядер, больше памяти, больше возможностей ввода/вывода, что важно для обработки данных, – всё идет к решениям, способствующим консолидировать нагрузки. Intel явно движется в сторону сетей SDN и делает большой шаг к свой цели, выпустив Xeon E5-2600 v3. С другой стороны, стратегия Intel больше направлена на разработку полноценных решений для центров обработки данных. По аналогии с HP, Intel больше не предлагает Xeon как новый, более быстрый процессор отдельно от других компонентов (даже если это и так). Вместо этого у компании есть более важная цель: обеспечить высокую производительность вычислений, СХД и сетевых соединений в течение ближайших нескольких лет. Haswell-EP является хорошей демонстрацией этого видения.