|
Обзор Radeon R9 290X | Hawaii: 6,2 миллиарда транзисторов для игрового GPU
Сегодня самой быстрой видеокартой с одним графическим процессором является
Сейчас AMD заявляет, что новая Radeon R9 290X готова к мониторам 4K. Компания утверждает, что Ultra HD – это следующая ступень развития игр для ПК. Однако технология всё ещё очень дорогая и несовершенная. Мы рекомендуем попробовать поиграть в любимые игры на 32-дюймовом экране с 8,3 миллионами пикселей и потом вернуть его обратно. В целом 4K, скорее всего, станет полем битвы, на которое AMD и Nvidia постоянно будут выводить новые GPU класса high-end.
На прошлой неделе в ходе мероприятия в Монреале Nvidia объявила о запуске нескольких новых технологий и инициатив, включая предстоящую GeForce GTX 780 Ti. AMD на примере нескольких тестов продемонстрировала, что Radeon R9 290X быстрее, чем
Что же находится в сердце новой видеокарты, которая играючи обгоняет решение Nvidia за $650? Графический процессор Hawaii — гораздо более сложный чип, нежели Tahiti, на всё той же архитектуре Graphics Core Next. В нём есть как что-то новое, так и что-то старое.
AMD возвращается к методу "больших GPU"?
В 2007 году, AMD изменила стратегию разработки GPU, переключившись с больших монолитных процессоров на более масштабируемые структуры. Они разрабатывались с прицелом на относительно невысокую цену и показатели энергопотребления и устанавливались в недорогие решения, либо же объединялись в конфигурации ultra-high-end.
С течением времени инженеры AMD двигались в сторону усложнения чипов, и примерно 100-ваттный RV670 уступил дорогу 150-ваттному RV770, за которым последовали Radeon HD 5870 с процессором Cypress мощностью 200 Вт, 6970-я модель с Cayman 250 В и такой же "прожорливый" Tahiti. Однако на каждом этапе AMD умудрялась установить два флагманских GPU на одну печатную плату, выпуская невероятно быстрые решения. Последний пример из череды таких продуктов,
С приходом Hawaii, AMD, похоже, уклоняется от философии небольших чипов, поскольку новый GPU имеет 6,2 миллиарда транзисторов – это на 44% больше, чем у Tahiti, причём при производстве использовался всё тот же технический процесс 28 нм. Однако площадь кристалла меньше, чем у Nvidia GK110, "всего" 438 мм², но при этом новый кристалл больше всех существующих графических процессоров AMD (включая R600 размером 420 мм2; Tahiti же занимает 352 мм2 площади).
Radeon R9 290X | Radeon R9 280X | GeForce GTX Titan | GeForce GTX 780 | |
Техпроцесс, нм | 28 | 28 | 28 | 28 |
Кол-во транзисторов, млрд. | 6,2 | 4,3 | 7,1 | 7,1 |
Частота GPU | 1 ГГц | 1 ГГц | 836 МГц | 863 МГц |
Кол-во шейдерных ядер | 2816 | 2048 | 2688 | 2304 |
Производительность FP32, ТФлопс | 5,6 | 4,1 | 4,5 | 4 |
Кол-во блоков текстурирования | 176 | 128 | 224 | 192 |
Скорость заполнения текстур, Гтекс/с | 176 | 128 | 188 | 166 |
Кол-во блоков растеризации (ROP) | 64 | 32 | 48 | 48 |
Скорость заполнения пикселей, Гпикс/с | 64 | 32 | 40 | 41 |
Шина памяти, бит | 512 | 384 | 384 | 384 |
Объём памяти, Гбайт | 4 GDDR5 | 3 GDDR5 | 6 GDDR5 | 3 GDDR5 |
Скорость передачи даннных памяти, Гбит/с | 5 | 6 | 6 | 6 |
Пропускная способность памяти, Гбайт/с | 320 | 288 | 288 | 288 |
Потребляемая мощность видеокарты, Вт | 250 (заявленная) | 250 | 250 | 250 |
Архитектура GCN, лежащая в основе чипа Hawaii, осталась прежней. Структурные элементы вычислительного блока (Compute Unit) не изменились: 64 шейдерных ядра, совместимых со стандартом IEEE 754-2008, разделены между четырьмя векторными блоками и 16 текстурными блоками.
Однако в дизайне реализован ряд изменений, включая прямую адресацию устройств для поддержки стандартных соглашений о связях, повышение точности исходных операций LOG и EXP и оптимизацию функции Masked Quad Sum of Absolute Difference (MQSAD), ускоряющей алгоритмы анализа параметров движений. Кстати говоря, эти функции дебютировали в рамках GPU Bonaire, который мы рассматривали в марте (
Изменилось и расположение вычислительных блоков (CU). В Tahiti использовалось 32 вычислительных блока, а всего было 2048 шейдерных ядра и 128 блока текстурирования. Hawaii оснащается 44 CU, собранных в четыре шейдерных движка (Shader Engines), как их называет AMD. Нетрудно посчитать, что в общей сумме мы имеем 2816 шейдерных процессора и 176 блоков текстурирования. При частотое до 1 ГГц (позже это станет важным различием), процессор обеспечивает 5,63 TFLOPS вычислений с плавающей запятой, или, с учётом соотношения один к четырём, 1,4 TFLOPS вычислений двойной точности.
Hawaii также использует восемь переделанных движков асинхронных вычислений (Asynchronous Compute Engine), ответственных за диспетчеризацию задач в реальном времени и фоновых задач на CU. Каждый ACE управляет максимум восемью очередями (всего 64) и имеют доступ к кэшу L2 и общей памяти. Для сравнения, Tahiti оснащается двумя ACE. APU Kabini и Temash, о которых мы писали чуть раньше, имеют по четыре таких движка. Почему Hawaii по этому пункту так сильно отличается? Есть свидетельства, что на асинхронный метод вычислений Hawaii сильно повлиял дизайн PlayStation 4, хотя AMD это пока не подтвердила. Ясно, что инженеры Sony рассчитывают использовать много эффектов, основанных на массивных вычислениях в играх следующего поколения, и дополнительные графические и вычислительные ресурсы обеспечивают недоступную ранее продуктивность.
Внешний интерфейс (front-end) Tahiti подаёт вертексные данные на шейдерные ядра через пару геометрических процессоров. Через структуру из четырёх шейдерных движков Hawaii удваивает это число, обеспечивая четыре простейших элемента за тактовый цикл вместо двух. Также расширилось промежуточное хранилище между внешним и внутренним интерфейсом для сокрытия задержек и реализации максимальной пиковой пропускной способности простейших элементов.
В дополнение к выделенному геометрическому движку (и 11 CU), шейдерные движки также получили собственный блок растеризации и четыре внутренних интерфейса для рендеринга, способные выводить 16 пикселей за такт. То есть весь графический процессор выдаёт 64 пикселя за такт — вдвое большое, чем у Tahiti. Hawaii обеспечивает до 256 команд задания глубины и формата за тактовый цикл, у Tahiti их вдвое меньше - 128. Увеличенная скорость заполнения пикселей может быть полезна для видеокарты, работающей с высокими разрешениями, и AMD утверждает, что во многих ситуациях бутылочное горлышко в производительности перемещается от скорости заполнения к пропускной способности памяти.
Общий кэш второго уровня для записи/чтения вырос с 768 Кбайт у Tahiti до 1 Мбайт. Он поделён на 16 разделов по 64 Кбайт. 33%-е увеличение приводит к соответствующему повышению пропускной способности между кэшем L1 и L2 на 33%, в итоге получается 1 Тбайт/с.
Логично, что повышение пропускной способности по геометрии, добавление 768 шейдерных ядер и удвоение скорости заполнения пикселей на внутреннем интерфейсе накладывают дополнительные требования на подсистему памяти Hawaii. AMD решает проблему, переосмысливая принцип работы контроллера. Новый GPU использует 512-битный совокупный интерфейс, который, по словам представителей AMD, занимает на 20% меньше пространства, чем 384-битная структура у Tahiti, при этом обеспечивая на 50% больше пропускной способности на 1 мм². Как такое возможно? Поддержка очень высокой скорости передачи данных возможна за счёт потери пространства на кристалле. Таким образом, достигая 6 Гбит/с при повышенном напряжении, шина Tahiti была менее эффективна, чем шина Hawaii, которая нацелена на более низкие частоты и напряжение, и, следовательно, может занимать меньшую площадь. В случае Radeon R9 290X 512-битная шина работает на скорости 5 Гбит/с и обеспечивает полосу пропускания до 320 Гбайт/с на 4 Гбайт памяти GDDR5. Для сравнения, пропускная способность памяти Tahiti упиралась в 288 Гбайт/с.