Обзор AMD Radeon Vega RX 64 8 GB | Введение
Последний раз компания AMD представляла графические ускорители класса high-end почти 26 месяцев назад. И тогда Radeon R9 Fury X на равных конкурировала с GeForce GTX 980 Ti и Titan X — лучшими картами, которые могла предложить Nvidia. И он становился всё лучше и лучше. Обновлённые драйверы оптимизировали производительность, а поддержка DirectX 12 позволила разработчикам игр выжать максимум из архитектуры Graphics Core Next.
По словам представителей AMD, официально представленные 14 августа видеокарты Radeon RX Vega означают возвращение компании на рынок игровых ускорителей класса high-end. Но по их собственному утверждению, это вовсе не означает, что AMD собирается биться с Nvidia за корону самой производительной карты. Напротив, Radeon RX Vega 64 ориентирована на производительность и цену GeForce GTX 1080.
Нам уже известно многое из того, что можно узнать о Radeon RX Vega 64. В AMD уже убедились в том, что тщательно выверенные по времени выдачи порции информации поддерживают в среде энтузиастов разговоры о новом графическом железе.
Обзор AMD Radeon Vega RX 64 8 GB | Технические характеристики
Основные технические характеристики AMD Radeon Vega RX 64 8 GB | |
Графический процессор (кодовое название) | Vega 10 |
Потоковых процессоров | 4096 |
Базовая и турбо-частоты | 1274/1546 МГц |
Объём и тип памяти | 8 Гбайт HBM2 |
Частота памяти | 945 МГц |
Пропускная способность памяти | 484 Гбайт/с |
Вентиляторы | 1 х 7 см, центробежный |
Разъёмы питания | 2 х 8-pin |
Габаритные размеры | 26,8 х 10,5 х 3,8 см |
Масса | 1066 г |
Обзор AMD Radeon Vega RX 64 8 GB | Главное о конструкции
Как и в процессоре Fiji в Radeon R9 Fury X, в Radeon RX Vega 64 есть четыре шейдерных блока, в каждом из которых есть свой геометрический процессор и растеризатор. И снова, как и в Fiji, в Vega
мы видим по 16 вычислительных блоков на каждый шейдерный блок, в каждом из которых работают 64 потоковых процессора и четыре блока обработки текстур. Если всё это помножить, получается 4096 потоковых процессоров и 256 блоков обработки текстур.
По сравнению с Fiji, выросли тактовые частоты. В то время как максимальная частота Fiji составляла 1050 МГц, 14-нм техпроцесс FinFET LPP от GlobalFoundries и целенаправленная оптимизация для высоких частот позволяют Radeon RX Vega 64 работать на базовой тактовой частоте 1247 МГц с примерной турбо-частотой 1546 МГц. Очевидно, что заявленная AMD пиковая производительность в режиме FP32 в размере 12,66 Тфлопс основана именно на этой более высокой частоте. Впрочем, мы обычно используем в расчётах гарантированную базовую частоту. Но даже 10,2 Тфлопс — это почти 20-процентный прирост по сравнению с Radeon R9 Fury X.
Модель с жидкостным охлаждением работает на повышенных частотах: базовая выросла до 1406 МГц, а турбо — до 1677 МГц. Это почти на 13% и 8% выше, чем у стандартной модели, что даёт максимальную производительность в 13,7 Тфлопс. Однако при этом вы не просто отдадите лишние $200 за премиальную модификацию с закрытым контуром. Энергопотребление Liquid Cooled Edition составляет 345 Вт, что на целых 17% выше базового варианта с 295 Вт. Оба значения существенно превышают потребление карты Nvidia GeForce GTX 1080 Ti — 250 Вт.
Что касается энергопотребления, то наш образец с воздушным охлаждением поставляется с двумя файлами BIOS, и каждый из них поддерживает по три профиля питания. Первичный BIOS со сбалансированным профилем ограничивает энергопотребление графического процессора 220 ваттами. Переключение на энергосберегающий даёт лимит в 165 Вт, а в режиме “Турбо” потолок поднимается до 253 Вт. Второй BIOS понижает планку до 200, 150 и 230 Вт соответственно. Мы безусловно ценим наличие столь тонких настроек, но при этом понимаем, что большая часть энтузиастов, выложивших по $500 за видеокарту, не станут искать способы снизить её производительность. Тем не менее, мы планируем опубликовать статью, в которой изучим влияние каждой из этих настроек на энергопотребление, производительность и уровень шума видеокарты.
У каждого шейдерного блока в Vega 10 есть четыре модуля рендеринга с производительностью 16 пикселей за такт, что даёт 64 ROP. Эти модули рендеринга, как мы уже знаем, стали клиентами кэш-памяти второго уровня L2. Объём L2 теперь составляет 4 Мбайта, в то время как в Fiji он составлял 2 Мбайт (что, в свою очередь, вдвое больше, чем у Hawaii). В идеале, это означает, что графический процессор реже обращается к видеопамяти HBM2, снижая зависимость Vega 10 от пропускной способности внешней шины. А поскольку тактовые частоты теперь могут быть примерно на 60% выше, чем у Fuji, а пропускная способность памяти реально упала на 28 Гбайт/с, больший объём кэша может предотвратить появление узких мест.
Кстати, по словам “графического архитектора” AMD и одного из её руководителей Майка Ментора, общий объём SRAM в процессоре Vega 10 превышает 45 Мбайт. Неудивительно, что площадь этой микросхемы, состоящей из 12,5 миллиарда транзисторов, составляет 486 кв. мм. Здесь больше транзисторов, чем в Nvidia GP102 на микросхеме ещё большей площади.
Переход на память типа HBM2 позволило конструкторам AMD вдвое уменьшить число стеков по сравнению с Fiji и урезать общую 4096-битную шину до 2048-битной. Тем не менее, если в Radeon R9 Fury X максимальный объём видеопамяти мог составлять 4 Гбайта, RX Vega 64 без проблем работает с 8 Гбайтами, а карта AMD Frontier Edition и вовсе может похвастаться 16 Гбайтами памяти на борту. Странная скорость передачи данных в 1,89 Гбит/с позволила достичь показателя пропускной способности в 484 Гбайт/с. Схожие показатели достигаются в GeForce GTX 1080 Ti c помощью памяти GDDR5X и её 11 Гбит/с.
28 августа AMD планирует выпустить отдельную версию Radeon RX Vega 56, производную от старшего чипа. В этой карте с энергопотреблением 210 Вт используется тот же самый графический процессор и 8 Гбайт памяти HBM2, но восемь вычислительных блоков в ней отключены, что означает потерю 512 потоковых процессоров и 32 текстурных блоков. Как процессор, так и память будут работать на пониженных тактовых частотах. Между тем, в AMD утверждают, что эта карта за $400 должна опережать по производительности GeForce GTX 1070. В нашей американской лаборатории как раз идёт тестирование Radeon RX Vega 56, и с его результатами мы вас обязательно познакомим.
Обзор AMD Radeon Vega RX 64 8 GB | Внешний вид и разъёмы
AMD RX Vega 64 весит 1066 г, что на 16 тяжелее, чем Frontier Edition. Длина карты от скобы до конца кожуха составляет 26,8 см, высота от верхней части слота на системной плате до вершины кожуха — 10,5 см, а ширина — 3,8 см. Это по-настоящему двухслотовая карта, даже несмотря на то, что задняя пластина добавляет ещё 0,4 см к толщине.
Как кожух, так и задняя пластина изготовлены из анодированного алюминия чёрного цвета, благодаря чему карта выглядит дорогой и качественной. Текстура поверхности образована простой холодной формовкой, проведённой перед процессом анодизации. Все винты выкрашены матовой чёрной краской. Напечатанный красным логотип Radeon — единственное цветовое пятно на фронтальной панели.
На верхней панели карты находятся два восьмиконтактных разъёма питания PCI Express и красный подсвечиваемый логотип Radeon. Здесь же расположен двухпозиционный переключатель, позволяющий переходить на упомянутую выше вторую BIOS с пониженным энергопотреблением и её профили, который делают карту тише, холоднее и, конечно, немного медленней.
Торцевая часть карты закрыта кожухом и на ней имеются монтажные отверстия, типичные для видеокарт, предназначенных для рабочих станций. На выкрашенной чёрной матовой порошковой краской скобе расположились три разъёма DisplayPort и один порт HDMI 2.0. Отсутствие порта DVI — это разумный выбор, поскольку без него улучшается циркуляция воздуха. Скоба также служит в качестве вентиляционной решётки для выброса горячего воздуха.
Обзор AMD Radeon Vega RX 64 8 GB | Архитектура Vega и память HBM2
Ранее в новостях мы неоднократно сообщали различные подробности об архитектуре Vega, но имеет смысл собрать всё воедино и освежить наши знания. Vega — это новое поколение графических процессоров AMD, в котором заявлены более 200 изменений и улучшений, отличающие его от предыдущих вариантов GCN.
HBM2: архитектура масштабируемой памяти
И AMD, и Nvidia работают над снижением нагрузки на основной процессор, расширением пропускной способности интерфейсов для передачи данных на GPU и над устранением выявленных узких мест — особенно тех, которые возникают при обработке больших объёмов данных. Похоже, что целью разработки Radeon Pro SSG было именно получение большей ёмкости в непосредственной близости от процессора малыми средствами. Очевидно, что в Vega эта миссия продвинулась на ступеньку дальше благодаря более гибкой иерархии памяти.
Конечно же, в Vega используется память типа HBM2, которую AMD официально представила более полугода назад. Оказалось, что сегодня компания называет этот массив памяти, всегда известный как “кадровый буфер”, “высокопроизводительной кэш-памятью”. По терминологии AMD, HBM2 это то же самое, что и высокопроизводительный кэш. Вы поняли?
Как рассказывал Джо Макри, технический директор по продукции AMD, HBM задумывалась как высокопроизводительная память, расположенная максимально близко к графическому процессору. Однако, при этом он также хотел, чтобы графическому процессору была также доступна системная память и системные накопители. Конечно, в контексте этой более широкой иерархии памяти, было логично представить HBM2 в качестве высокоскоростного кэша — по сравнению с более медленными технологиями. Но во избежание путаницы, мы продолжим называть HBM2 тем, чем она на самом деле является.
Помимо прочего, HBM2 уже представляет собой существенный шаг вперёд. Восьмикратное увеличение объёма на стек по сравнению с HBM первого поколения отвечает на вопросы, возникавшие у энтузиастов по поводу долговечности Radeon R9 Fury X. Кроме того, удвоение пропускной способности существенно увеличивает потенциальную производительность.
Мы полагаем, что именно это изменение окажет наибольшее влияние на геймеров в том, что касается подсистемы памяти Vega. Однако в AMD также предоставили высокопроизводительному кэш-контроллеру (уже не просто контроллеру памяти) возможность адресовать 512 терабайт виртуального пространства для больших объёмов данных.
Когда у представителей AMD поинтересовались о том, как должна использоваться расширенная иерархия памяти в Vega, там предположили, что Vega сможет точно перемещать страницы памяти при помощи разных программируемых технологий. Она может получать запрос на выдачу данных и отправлять их через DMA, в то время как графический процессор переключается на другой поток и продолжает работу без остановок. Контроллер может получать данные по запросу, но также и предиктивно отправлять их обратно. Информация в HBM может быть продублирована в системной памяти как во внутреннем кэше, либо HBCC сохраняет только один экземпляр для экономии место. Всё это управляется на аппаратном уровне, так что должно работать быстро и с минимумом ресурсов.
В драйвере AMD для Radeon RX Vega 64 есть опция под названием HBCC Memory Segment, с помощью которой можно передавать часть системной памяти под управление кэш-контроллера Vega. Перемещая слайдер, можно изменять объём выделяемой памяти. Согласно AMD, включённый контроллер HBCC будет отслеживать использование локальной памяти видеокарты и при необходимости перемещать неиспользуемую информацию в более медленную системную память, тем самым эффективно увеличивая объём памяти, доступной графическому процессору. Учитывая наличие целых 8 Гбайт HBM2 в Vega 64, эта опция явно нацелена на перспективу — существует немного игр, которым нужно больше памяти. Конечно, единственной рекомендацией перед использованием HBCC, может быть установка большого объёма ОЗУ. Если у вас 16 Гбайт, то вам вряд ли захочется отдавать 4 или 8 Гбайт в управление HBCC.
В AMD предположили, что некоторое влияние от задействования сегмента памяти через HBCC будет заметно в Unigine Heaven, поэтому мы провели тест на разрешении 4K, используя 8-кратное сглаживание и качество Ultra. При отключённом HBCC мы получили 25,7 кадра в секунду. Присоединение дополнительных 4 Гбайт памяти DDR4 3200 повысило результат до 26,9 FPS.
Новый программируемый геометрический конвейер
Графический процессор Hawaii (Radeon R9 290X) получил несколько важных улучшений по сравнению с Tahiti (Radeon HD 7970), одним из которых было два блока обработки геометрии вместо двух. Более поздний Fiji (Radeon R9 Fury X) сохранил ту же четырёхканальную конфигурацию шейдерных блоков. Однако, поскольку она также благополучно пережила третью архитектуру AMD GCN, существовали некоторые проблемы со скоростью тесселляции. В Ellesmere
(Radeon RX 480/580) был реализован целый набор технологий, чтобы выжать ещё больше из четырёхблочной конфигурации.
В прошлом году в AMD пообещали нам, что пиковая производительность геометрического конвейера составит 11 полигонов за такт, в 2,75 раза больше, чем в предыдущем поколении, где было 4 полигона за такт. Такая спецификация получилась путём добавления к геометрическому конвейеру новой стадии примитивных шейдеров. Вместо использования аппаратных средств с фиусированными функциями, этот примитивный шейдер использует для работы массив шейдеров.
Позже AMD опубликовала новые данные об архитектуре Vega, в которой пиковая скорость геометрического конвейера выросла до более 17 примитивных полигонов за такт.
Как вычислительный шейдер для обработки геометрии, конвейер лёгкий и программируемый, и имеет возможность сбрасывать примитивные шейдеры с высокой скорость. Функциональность примитивных шейдеров включает в себя многие из тех ступеней которые могут выполнять вершинные, поверхностные, доменные и геометрические шейдеры но она более гибка по отношению к контенту и порядку, в котором выполняется работа.
Ещё одно изменение — улучшенный распределитель нагрузки по рабочим группам Intelligent Workload Distributor, предназначенный для обеспечения баланса нагрузки между программируемыми конвейерами. В AMD утверждают, что это решение пришло в результате взаимодействия с разработчиками консолей, особенно заинтересованных в эффективности, а теперь оно принесёт пользу и геймерам, предпочитающим ПК.
Вычислительный блок нового поколения (NCU)
Nvidia, располагая множеством графических процессоров с архитектурой Pascal, очень тщательно относится к сегментации продуктов. Самый большой и дорогой процессор GP100 обеспечивает пиковую производительность 10,6 Тфлопса в режиме FP32 (на максимальной турбо-частоте). Вдвое меньшее число ядер FP64 даёт в точности вдвое меньшую производительность 5,3 Тфлопса, а поддержка половинной точности FP16 позволяет получить 21,2 Тфлопса. Более доступные процессоры GP102 и GP104 , естественно, обеспечивают полноценную производительность FP32, но намеренно снижают показатели в FP64 и FP16, чтобы вам не удалось использовать более дешёвые карты для научных расчётов или моделирования.
Похоже, что AMD, напротив, пытается дать больше каждому. Они сохранили вычислительный блок с 64 шейдерами, совместимыми со стандартом IEEE 754-2008, только теперь он назвается NCU Next-Generation Compute Unit — “Вычислительный блок нового поколения”, и это название отражает поддержку новых типов данных. Разумеется, располагая 64 шейдерами и максимально двумя операциями с плавающей запятой за такт, вы получите не более 128 32-битных операций за такт. Используя режим FP16, можно добиться 256 16-битных операций за такт. Конечно, для использования этой функциональности требуется поддержка разработчиков, поэтому она не станет таким откровением сразу после презентации новинки.
Двойная точность — это совсем другой зверь. У AMD, похоже, не возникло проблем с выводом FP64 на целевой рынок, и мы подтвердили, что соотношение FP64 в Vega 10 к показателям одинарной точности составляет 1:16. Это ещё одна специфически игровая архитектура и она не сможет существовать в пространстве высокопроизводительных вычислений и суперкомпьютеров.
Причина такой гибкости Vega 10, вероятно, кроется в мире игровых приставок. Известно, что Sony PlayStation 4 Pro может использовать половинную точность, чтобы добиться 8,4 Тфлопса, то есть, удвоить свою производительность при 32-битных операциях. Или, быть может, всё началось с увлечением AMD проектами машинного обучения, которые привели к созданию таких продуктов, как грядущий Radeon Instinct MI25, призванный уменьшить долю рынка Nvidia. В любом случае, от этого выиграют и консоли, и центры обработки данных, и геймеры на ПК.
В AMD утверждают, что NCU оптимизированы под высокие тактовые частоты, что не слишком удивляет, однако в них также реализованы буферы инструкций большего объёма, чтобы вычислительные блоки не сидели без дела.
Пиксельный движок нового поколения: в ожидании чуда
Давайте взглянем на так называемый Draw Stream Binning Rasterizer, который должен служить своего рода дополнением к традиционным ROP и в этом качестве призван повышать производительность при одновременном снижении энергопотребления.
На высоком уровне, встроенный кэш только единожды позволяет пастеризатору забирать данные для перекрытия примитивов, а затем только единожды отбирать пиксели, не видимые в окончательной сцене.
В AMD коренным образом изменили иерархию кэша, сделав модули пост-обработки клиентами L2.
В архитектурах до Vega существовал независимый доступ к памяти пикселей и текстур, что означало отсутствие общих точек для синхронизации каждой стадии конвейера. Например, при запекании текстур, где сцена рендерится в текстуру для последующего использования, а затем извлекается через массив шейдеров, данные должны были проходить через внешнюю память. Теперь архитектура обеспечивает согласованный доступ, который, как утверждают в AMD, особенно повышает производительность в приложениях, использующих отложенный рендеринг.
Спойлер: Драйвер, который AMD предоставила при запуске новой видеокарты, не смог раскрыть существенных улучшений в производительности, на которые мы рассчитывали после тестирования платы Frontier Edition. Впрочем, напомним, что Fiji и Hawaii, как хорошему вину (особенно хорошему красному вину), потребовалось некоторое время, чтобы полностью реализовать свой потенциал.image
Продолжение обзора AMD Radeon Vega RX 64 8 GB читайте в ближaйшее время.