Intel Xeon E5-2600 v4 и Intel SSD NVMe | Введение
Более года прошло с момента анонса новой стратегии Intel Scalable Systems Framework (SSF), в рамках которой компания вместе с партнёрами по шагам формирует сбалансированную универсальную программно-аппаратную вычислительную платформу следующего поколения для высокопроизводительных вычислений. С момента анонса стратегия Intel SSF была взята на вооружение такими лидерами рынка HPC как Cray, Hewlett Packard Enterprise, Lenova, Fujitsu, Ansys, SGI, Dell, SuperMicro, Altair, Colefax, Inspur, Penguin Computing, MSC Software и многими другими.
Основная идея Intel SSF заключается в построении сбалансированной информационной инфраструктуры и экосистемы на базе новых поколений процессоров, коммуникаций, накопителей и памяти, способной масштабироваться на системы любых размеров – вплоть до горизонта “экзаскейла”, соответствуя при этом единым стандартам компонентов и правилам их взаимодействия.
Первым в реализации стратегии Intel SSF стал прошлогодний анонс высокопроизводительной коммуникационной архитектуры Omni-Path, а также “пред-премьерный” показ мультиядерных ускорителей Xeon Phi нового поколения Knights Landing (KNL).
Нынешний анонс процессоров Intel Xeon E5-2600 v4 на архитектуре Broadwell-EP, равно как и корпоративных SSD Intel с шиной NVMe является следующим этапом, завершающим формирование базовой платформы Intel SSF на этом этапе. В каком-то смысле, сегодня для суперкомпьютеров вместо “Intel inside” было бы более уместным использование слогана “Intel SSF inside”.
Инфраструктурные изменения не ограничиваются рынком кластерных систем, тектонические изменения сегодня происходят также на рынке облачных вычислений и систем хранения. Так, например, если в 2015 году до 66% потребления облачных услуг приходилось на потребительский сектор, то к 2020 году прогнозируется преобладание спроса со стороны Интернета вещей (IoT), аналитики больших данных и корпоративного сектора, с преобладающей – до 85%, долей доставки приложений посредством облачных инфраструктур.
Вычислительные архитектуры, системы хранения и коммуникаций также вынуждены трансформироваться на фоне растущей популярности программно-определяемых инфраструктур (SDI), обеспечивающих быстрое разворачивание приложений, оперативное резервирование, скоростные загрузки и максимальную гибкость на фоне значительно меньших по сравнению с традиционными инфраструктурами операционных расходов. Новые процессоры Intel Xeon E5 v4 и новые корпоративные SSD Intel с шиной PCIe/NVMe призваны сыграть значительную роль в формировании экосистемы нового поколения ЦОДов на базе SDI-технологий с оптимальным соотношением производительность и стоимости владения.
Таким образом, нынешний анонс новых процессоров Intel Xeon – это ни в коем случае не рутинный переход на следующие нормы 14-нм техпроцесса с улучшением вычислительных и энергосберегающих технологий, равно как и новые корпоративные SSD – это не только внедрение 3D-технологий производства и скоростные интерфейсы.
Всё это – элементы более обширного многолетнего комплексного процесса разработки платформ со сбалансированной производительностью и ценой, уменьшенной латентностью, оптимизированным энергопотреблением и, наконец, гибкой масштабируемостью в огромных пределах для нужд широкого круга заказчиков – от рынка SMB до крупных компаний и государственных предприятий.
Intel Xeon E5-2600 v4 и Intel SSD NVMe | Intel Xeon E5-2600 v4: варианты и версии
Семейство Intel Xeon E5-2600 v4 на базе архитектуры Broadwell-EP для 2-процессорных серверных систем, рабочих станций знаменует перевод процессорной “тяжёлой артиллерии” на новые 14-нм нормы технологического процесса.
Подложка с процессорами Intel Xeon E5-2600 v4
Старшие модели процессоров Intel Xeon E5-2600 v4 состоят из примерно 7,2 млрд транзисторов, при этом размер кристалла достигает 18,1 х 25,2 мм.
Сразу после анонса процессоры Intel Xeon E5 v4 доступны в 27 версиях исполнения – от 4 до 22 вычислительных ядер (до 18 ядер у предыдущего поколения Xeon E5-2600 v3 на базе архитектуры Haswell-EP, представленного в сентябре 2014 года), TPD в диапазоне от 55 Вт до 160 Вт, и, соответственно ценой (от $213 до $4115 в партиях от тысячи штук).
Семейство Intel Xeon E5 v4 идентично по процессорному разъёму LGA 2011-3 и обратно совместимо с предыдущей платформой Intel Xeon E5-2600 v3 (Grantley). Возможность использования предыдущей платформы обеспечивает некоторую экономию R&D расходов для производителей серверных систем, равно как и сокращение расходов потребителей на адаптацию программной части.
Помимо увеличения максимального числа вычислительных ядер, процессоры Intel Xeon E5 v4 и также обзавелись поддержкой более производительной памяти DDR4-2400, увеличенной до 55 Мб кэш-памятью и архитектурных нововведений, обеспечивающих в среднем прирост производительности до 44% по сравнению с предыдущим поколением.
Список ключевых архитектурных изменений в процессорах семейства Xeon E5 v4 включает улучшение системы безопасности, новые и улучшенные функции QoS, новые возможности виртуализации и управления питанием, а также ряд совершенно новых векторных инструкций, технологий и возможностей работы с кэшем и памятью.
Платформа | Intel Xeon E5-2600 v3 (Haswell-EP) | Intel Xeon E5-2600 v4 (Broadwell-EP) |
Процессорный разъём | Socket R3 | Socket R3 |
Технология производства | 22 нм | 14 нм |
Архитектура | Haswell | Broadwell |
Число ядер/потоков | До 18 ядер / 36 потоков | До 22 ядер / 44 потоков |
Поддержка памяти | 4 канала DDR4 | 4 канала DDR4 |
Производительность памяти | До 2133 Mт/с | До 2400 Mт/с |
Память: максимум на процессор | До 8 каналов, 24 слотов DIMM, 1536 Гб | До 8 каналов, 24 слотов DIMM, 1536 Гб |
Порты QPI | 2 канала QPI 1.1, до 6,4, 8,0, 9,6 ГТ/с | 2 канала QPI 1.1, до 6,4, 8,0, 9,6 ГТ/с |
Поддержка PCIe | До 40 потоков, 10 контроллеров PCIe 3.0 (2,5, 5, 8 ГТ/с) | До 40 потоков, 10 контроллеров PCIe 3.0 (2,5, 5, 8 ГТ/с) |
TDP | До 145 Вт для серверов, до 160 Вт для рабочих станций | До 145 Вт для серверов, до 160 Вт для рабочих станций |
Набор системной логики | Чипсеты семейства Intel C610 (Wellsburg PCH) | Чипсеты семейства Intel C610 (Wellsburg PCH) |
Коммуникации | До 40 GbE -контроллер Intel Ethernet XL710 (Fortville) | До 40 GbE -контроллер Intel Ethernet XL710 (Fortville) |
Intel Xeon E5-2600 v4 и Intel SSD NVMe | Intel Xeon E5-2600 v4: новые возможности архитектуры
Архитектура процессоров Xeon E5 v4 (Broadwell-EP) базируется на принципах, аналогичных предыдущему 22-нм дизайну Haswell-EP. Все вычислительные ядра процессоров Broadwell-EP обладают 2,5 Мб собственной кэш-памяти L3. Линейка процессоров представлена тремя базовыми дизайнами.
Процессоры с большим (HCC) числом ядер – от 16 до 22, выполнены на 7,2 млрд транзисторах, при этом размеры кристалла составляют 18,1 х 25,2 мм, а площадь кристалла составляет 454 кв. мм. Четыре массива ядер в этом дизайне объединены парой кольцевых шин с двумя мостами между ними и соответствующими “агентами” шин – PCIe, QPI и памяти (Home).
В каждом кольце данные перемещаются по двум разнонаправленным шинам в противоположных направлениях, таким образом снижая латентность благодаря доставке по кратчайшему пути (синим на схеме ниже отмечены точки подключения к кольцевым шинам и мостикам). Питание кольцевых шин и других элементов “ядерной обвязки” регулируется отдельно в динамическом режиме, как и частота, достигающая на пике 3,0 ГГц.
Второй дизайн архитектуры Broadwell-EP со средним (MCC) числом ядер – от 12 до 15, выполнен на примерно 4,7 млрд транзисторов, имеет площадь 306 кв. мм, размеры кристалла составляют 16,2 х 18,9 мм. Для этого дизайна также характерны две кольца с разнонаправленными шинами и два отдельных контроллера памяти, с той лишь разницей, что ядра разделены на три массива.
Третий дизайн Broadwell-EP с минимальным (LCC) числом ядер – до 10, выполнен на базе примерно 3,2 млрд транзисторов, при этом площадь кристалла составляет примерно 16,2 х 15,2 мм. В этом дизайне предусмотрена только одна двунаправленная кольцевая шина и единственный 4-канальный контроллер памяти.
Для обеспечения когерентности кэш-памяти в протоколе MESIF для архитектуры Broadwell-EP к трём уже имеющимся режимам проверки состояния добавлен дополнительный Opportunistic Snoop Broadcast, отправляющий запросы состояния сокетов в процессе опроса памяти и не требующий фактического подтверждения совместного использования. Этот режим является основным для процессоров Xeon E5 v4.
В новых процессорах Broadwell-EP сделан ряд улучшений на уровне микроархитектуры. Так, операции деления теперь производятся с меньшими задержками и большей производительностью. Значительным образом – с 5 тактов у Haswell-EP до 3 тактов у Broadwell-EP снизилась латентность векторного умножения с плавающей запятой (AVX). По словам представителей Intel, это обеспечивает прирост производительности до 47% в финансовых приложениях, до 35% в научных приложениях и до 47% в нефтегазовой сфере по сравнению с архитектурой Haswell-EP.
Помимо этого, был увеличен буфер ассоциативной трансляции (TLB), немного увеличился планировщик внеочередного исполнения (с 60 до 64 операций), который в исполнении Broadwell-EP теперь обеспечивает больший параллелизм при распределении микроопераций. Также была улучшена работа модуля предсказания ветвлений. Для некоторых инструкций (ADC, CMOV, PCLMULQDQ) снижена латентность их исполнения до 1 микрооперации, что значительно ускоряет исполнение алгоритмов безопасности.
Процессоры Xeon E5 v4 поддерживают ряд новых функций для защиты и дополнительного шифрования, такие как инструкции ADCX/ADOX для работы с библиотеками GNU многократной точности и открытыми криптографическими ключами RSA, дополнительный независимый генератор случайных чисел RDSEED по стандарту ANSI X9.82, а также режим SMAP (Supervisor Mode Access Prevention) для защиты адресного пространства пользовательских данных на аппаратном уровне. В итоге все эти архитектурные нововведения позволили повысить производительность шифрования ключей до 70% на ядро по сравнению с предыдущим поколением.
Впервые в процессорах Intel Xeon E5 v4 дебютировала совершенно новая технология Resource Director Technology (RDT) для мониторинга и управления распределёнными ресурсами кэша и памяти на уровне операционной системы и виртуальных машин. Комплекс RDT включает функцию мониторинга (Cache Monitoring Technology, CMT) и распределения (Cache Allocation Technology, CAT) кэша, технологию ассоциирования отдельных масок для кода и данных (Code and Data Prioritization, CDP – особое расширение CAT, например, для защиты кода на уровне кэша L3), а также технологию мониторинга загрузки памяти (Memory Bandwidth Monitoring, MBM) для выявления конфликтов в памяти и распределения потоков.
Помимо этого, процессоры с архитектурой Broadwell-EP поддерживают расширенную функцию аппаратного управления энергопотреблением, технологию Intel Processor Trace для программной отладки с помощью трассировки выполнения команд, расширенный комплекс повышения качества обслуживания Quality-of-Service (CMT, CAT, MBM) и другие возможности для повышения производительности при снижении латентности и энергопотребления.
Расширения для транзакционной синхронизации – Intel TSX (Transactional Synchronization Extensions), зачатки которой впервые дебютировали в предыдущей архитектуре Haswell-EP (и были отключены недоработки на аппаратном уровне), полностью раскрыли свой потенциал в новом поколении процессоров Xeon E5 v4. Intel TSX – это расширения инструкций x86 для аппаратной поддержки транзакционной памяти и ускорения выполнения многопоточного программного обеспечения посредством обхода аппаратной блокировки (элизии) – Hardware Lock Elision (HLE). Именно эта технология чрезвычайно важна для снятия ограничений производительности при виртуализации, и в целом, при внедрении программно-определяемых сетевых инфраструктур (SDN, Software Defined Networking).
Архитектура Haswell-EP поддерживает так называемые “отправленные прерывания” (posted interrupt), обеспечивающие доставку прерывания непосредственно к виртуальной машине, минуя VM-выход благодаря таблице переназначения прерываний.
Корпоративные SSD Intel с шиной NVMe/PCIe: ещё один кирпичик в стене
Вместе с процессорами Haswell-EP компания Intel также представила четыре новых линейки твердотельных накопителей корпоративного класса – Intel DC P3320, P3520, D3600 и D3700. Все эти новые SSD оснащены скоростным интерфейсом NVMe, производительность которого значительно превышает возможности традиционного интерфейса SAS.
Новые SSD Intel корпоративного класса ориентированы на использование в современных центрах обработки данных провайдеров облачных сервисных услуг, в корпоративных частных облаках, а также в кластерных системах с высокой вычислительной нагрузкой.
Семейства Intel SSD DC P3320 и P3520 выполнены на новейшей многоуровневой (TLC) флеш-памяти 3D NAND, обеспечивающей в 1,3 раза более высокую скорость считывания, улучшенную энергоэффективность и долговечность по сравнению с традиционной 2D NAND флеш-памятью.
Накопители серий DC P3320 и P3520 обладают рекордной плотностью хранения и обеспечивают высокие показатели производительности в IOPS. Кроме того, эти SSD впервые позиционируются как накопители с интерфейсом NVMe для массовых корпоративных систем.
Твердотельные накопители серии DC P3320
Производительность накопителей серии Intel DC P3320 в 3,2 раза превышает скорость SATA-устройств при последовательном чтении (при сравнении в эквиваленте цен) и предназначена для систем хранения с интенсивной нагрузкой чтения. Накопители серии Intel DC P3520, обеспечивающие лучшую производительность и латентность нежели модели P3320, ориентированы на работу в онлайновых и гиперконвергентных системах хранения.
Твердотельные накопители серии DC P3320
Накопители DC P3320 и P3520 выпускаются в двух форм-факторах: в виде платы под стандартную шину PCIe 3.0 x4, и в 2,5-дюймовом корпусе толщиной 15 мм с компактным NVMe портом U.2 с производительностью PCIe 3.0 x4. Накопители обеих серий будут доступны в вариантах ёмкостью 450 Гб (только в 2,5-дюймовом форм-факторе), 1,2 Тб и 2 Тб. Накопители обеспечивают надёжность хранения c коэффициент неисправляемых битовых ошибок (UBER) до 10 в степени -17 и проводят самотестирование через каждые 2 млн циклов.
Двухпортовые твердотельные накопителей семейств DC D3700 и DC D3600 представляют собой SSD с интерфейсом NVMe, предназначенные для работы с критически важными данными предприятия, с возможностью масштабирования.
Твердотельные накопители серии DC D3700
Модели этих серий обеспечивают выборочное чтение 4K-файлов со скоростью до 470K IOPS (в 3,9 раза быстрее SAS), выборочную 4K-запись со скоростью до 95K IOPS (в 1,3 раза быстрее SAS) и выборочное чтение-запись 4К фрагментов при соотношении 70/30% чтение/запись со скоростью до 213K IOPS (в 2,9 раза быстрее SAS). Скорость последовательного чтения и записи достигает 2100 Мб/с и 1500 Мб/с, что в 1,8 раза и в 2,0 раза быстрее, чем возможности накопителей с интерфейсом SAS. Такие показатели особенно критичны при обработке заданий баз данных и для повышения показателя качества обслуживания (QoS).
Накопители DC D3700 и D3600 обеспечивают надёжность хранения c коэффициент неисправляемых битовых ошибок (UBER) до 10 в степени -17, проводят самотестирование через каждые 2 млн циклов. Обе серии выпускаются в 2,5-дюймовом корпусе толщиной 15 мм с компактными NVMe портами U.2 (PCIe 3.0 x4). Серия DC D3700 представлена моделями ёмкостью 800 Гб и 1,6 Тб, в серии D3600 выпущены модели ёмкостью 1 Тб и 2 Тб.