Обзор Radeon R9 290X | Hawaii: 6,2 миллиарда транзисторов для игрового GPU
Сегодня самой быстрой видеокартой с одним графическим процессором является
Сейчас AMD заявляет, что новая Radeon R9 290X готова к мониторам 4K. Компания утверждает, что Ultra HD – это следующая ступень развития игр для ПК. Однако технология всё ещё очень дорогая и несовершенная. Мы рекомендуем попробовать поиграть в любимые игры на 32-дюймовом экране с 8,3 миллионами пикселей и потом вернуть его обратно. В целом 4K, скорее всего, станет полем битвы, на которое AMD и Nvidia постоянно будут выводить новые GPU класса high-end.
На прошлой неделе в ходе мероприятия в Монреале Nvidia объявила о запуске нескольких новых технологий и инициатив, включая предстоящую GeForce GTX 780 Ti. AMD на примере нескольких тестов продемонстрировала, что Radeon R9 290X быстрее, чем
Что же находится в сердце новой видеокарты, которая играючи обгоняет решение Nvidia за $650? Графический процессор Hawaii — гораздо более сложный чип, нежели Tahiti, на всё той же архитектуре Graphics Core Next. В нём есть как что-то новое, так и что-то старое.
AMD возвращается к методу “больших GPU”?
В 2007 году, AMD изменила стратегию разработки GPU, переключившись с больших монолитных процессоров на более масштабируемые структуры. Они разрабатывались с прицелом на относительно невысокую цену и показатели энергопотребления и устанавливались в недорогие решения, либо же объединялись в конфигурации ultra-high-end.
С течением времени инженеры AMD двигались в сторону усложнения чипов, и примерно 100-ваттный RV670 уступил дорогу 150-ваттному RV770, за которым последовали Radeon HD 5870 с процессором Cypress мощностью 200 Вт, 6970-я модель с Cayman 250 В и такой же “прожорливый” Tahiti. Однако на каждом этапе AMD умудрялась установить два флагманских GPU на одну печатную плату, выпуская невероятно быстрые решения. Последний пример из череды таких продуктов,
С приходом Hawaii, AMD, похоже, уклоняется от философии небольших чипов, поскольку новый GPU имеет 6,2 миллиарда транзисторов – это на 44% больше, чем у Tahiti, причём при производстве использовался всё тот же технический процесс 28 нм. Однако площадь кристалла меньше, чем у Nvidia GK110, “всего” 438 мм², но при этом новый кристалл больше всех существующих графических процессоров AMD (включая R600 размером 420 мм2; Tahiti же занимает 352 мм2 площади).
Radeon R9 290X | Radeon R9 280X | GeForce GTX Titan | GeForce GTX 780 | |
Техпроцесс, нм | 28 | 28 | 28 | 28 |
Кол-во транзисторов, млрд. | 6,2 | 4,3 | 7,1 | 7,1 |
Частота GPU | 1 ГГц | 1 ГГц | 836 МГц | 863 МГц |
Кол-во шейдерных ядер | 2816 | 2048 | 2688 | 2304 |
Производительность FP32, ТФлопс | 5,6 | 4,1 | 4,5 | 4 |
Кол-во блоков текстурирования | 176 | 128 | 224 | 192 |
Скорость заполнения текстур, Гтекс/с | 176 | 128 | 188 | 166 |
Кол-во блоков растеризации (ROP) | 64 | 32 | 48 | 48 |
Скорость заполнения пикселей, Гпикс/с | 64 | 32 | 40 | 41 |
Шина памяти, бит | 512 | 384 | 384 | 384 |
Объём памяти, Гбайт | 4 GDDR5 | 3 GDDR5 | 6 GDDR5 | 3 GDDR5 |
Скорость передачи даннных памяти, Гбит/с | 5 | 6 | 6 | 6 |
Пропускная способность памяти, Гбайт/с | 320 | 288 | 288 | 288 |
Потребляемая мощность видеокарты, Вт | 250 (заявленная) | 250 | 250 | 250 |
Архитектура GCN, лежащая в основе чипа Hawaii, осталась прежней. Структурные элементы вычислительного блока (Compute Unit) не изменились: 64 шейдерных ядра, совместимых со стандартом IEEE 754-2008, разделены между четырьмя векторными блоками и 16 текстурными блоками.
Однако в дизайне реализован ряд изменений, включая прямую адресацию устройств для поддержки стандартных соглашений о связях, повышение точности исходных операций LOG и EXP и оптимизацию функции Masked Quad Sum of Absolute Difference (MQSAD), ускоряющей алгоритмы анализа параметров движений. Кстати говоря, эти функции дебютировали в рамках GPU Bonaire, который мы рассматривали в марте (
Изменилось и расположение вычислительных блоков (CU). В Tahiti использовалось 32 вычислительных блока, а всего было 2048 шейдерных ядра и 128 блока текстурирования. Hawaii оснащается 44 CU, собранных в четыре шейдерных движка (Shader Engines), как их называет AMD. Нетрудно посчитать, что в общей сумме мы имеем 2816 шейдерных процессора и 176 блоков текстурирования. При частотое до 1 ГГц (позже это станет важным различием), процессор обеспечивает 5,63 TFLOPS вычислений с плавающей запятой, или, с учётом соотношения один к четырём, 1,4 TFLOPS вычислений двойной точности.
Hawaii также использует восемь переделанных движков асинхронных вычислений (Asynchronous Compute Engine), ответственных за диспетчеризацию задач в реальном времени и фоновых задач на CU. Каждый ACE управляет максимум восемью очередями (всего 64) и имеют доступ к кэшу L2 и общей памяти. Для сравнения, Tahiti оснащается двумя ACE. APU Kabini и Temash, о которых мы писали чуть раньше, имеют по четыре таких движка. Почему Hawaii по этому пункту так сильно отличается? Есть свидетельства, что на асинхронный метод вычислений Hawaii сильно повлиял дизайн PlayStation 4, хотя AMD это пока не подтвердила. Ясно, что инженеры Sony рассчитывают использовать много эффектов, основанных на массивных вычислениях в играх следующего поколения, и дополнительные графические и вычислительные ресурсы обеспечивают недоступную ранее продуктивность.
Внешний интерфейс (front-end) Tahiti подаёт вертексные данные на шейдерные ядра через пару геометрических процессоров. Через структуру из четырёх шейдерных движков Hawaii удваивает это число, обеспечивая четыре простейших элемента за тактовый цикл вместо двух. Также расширилось промежуточное хранилище между внешним и внутренним интерфейсом для сокрытия задержек и реализации максимальной пиковой пропускной способности простейших элементов.
В дополнение к выделенному геометрическому движку (и 11 CU), шейдерные движки также получили собственный блок растеризации и четыре внутренних интерфейса для рендеринга, способные выводить 16 пикселей за такт. То есть весь графический процессор выдаёт 64 пикселя за такт — вдвое большое, чем у Tahiti. Hawaii обеспечивает до 256 команд задания глубины и формата за тактовый цикл, у Tahiti их вдвое меньше – 128. Увеличенная скорость заполнения пикселей может быть полезна для видеокарты, работающей с высокими разрешениями, и AMD утверждает, что во многих ситуациях бутылочное горлышко в производительности перемещается от скорости заполнения к пропускной способности памяти.
Общий кэш второго уровня для записи/чтения вырос с 768 Кбайт у Tahiti до 1 Мбайт. Он поделён на 16 разделов по 64 Кбайт. 33%-е увеличение приводит к соответствующему повышению пропускной способности между кэшем L1 и L2 на 33%, в итоге получается 1 Тбайт/с.
Логично, что повышение пропускной способности по геометрии, добавление 768 шейдерных ядер и удвоение скорости заполнения пикселей на внутреннем интерфейсе накладывают дополнительные требования на подсистему памяти Hawaii. AMD решает проблему, переосмысливая принцип работы контроллера. Новый GPU использует 512-битный совокупный интерфейс, который, по словам представителей AMD, занимает на 20% меньше пространства, чем 384-битная структура у Tahiti, при этом обеспечивая на 50% больше пропускной способности на 1 мм². Как такое возможно? Поддержка очень высокой скорости передачи данных возможна за счёт потери пространства на кристалле. Таким образом, достигая 6 Гбит/с при повышенном напряжении, шина Tahiti была менее эффективна, чем шина Hawaii, которая нацелена на более низкие частоты и напряжение, и, следовательно, может занимать меньшую площадь. В случае Radeon R9 290X 512-битная шина работает на скорости 5 Гбит/с и обеспечивает полосу пропускания до 320 Гбайт/с на 4 Гбайт памяти GDDR5. Для сравнения, пропускная способность памяти Tahiti упиралась в 288 Гбайт/с.
Обзор Radeon R9 290X | CrossFire: прощай мост, здравствуй DMA
До недавнего времени, чтобы добавить вторую, третью или четвёртую видеокарту Radeon в связку CrossFire, нужно было подобрать совместимую системную плату (с правильным размещением слотов PCI Express), установить дополнительную карту и соединить их коннектором типа мост, начиная с верхней карты. Этот коннектор передавал кадры второй карты на первую, где встроенный в кристалл блок наложения объединял потоки вместе для вывода на дисплей.
Такой подход хорошо работал на разрешениях до 2560×1600 точек. Однако на разрешениях в четыре мегапикселя выявились проблемы, поскольку информация должна передаваться по PCI Express, что негативно сказывается на практической частоте кадров при разрешениях 5760×1080 пикселей и Ultra HD.
Поэтому AMD реализовала ядро DMA в блоке наложения, что обеспечивает прямую коммуникацию между несколькими GPU через PCI Express, а также необходимую полосу пропускания для трёх экранов и конфигураций 4K, которые до этого работали очень плохо. Всё логично. Перемещение данных изображения – это операция в реальном времени, требующая активного использования полосы пропускания, буферизации и задания приоритетов.
Основное преимущество состоит в том, что внешние мосты больше не нужны. В то время как взаимодействие между коннектором CrossFire и шиной PCIe загоняет в угол остальные карты AMD (кроме R7 260X на базе Bonaire — её GPU также имеет функцию xDMA), пара
Окно параметров рядом с CCC, показывает, что регуляция кадров работает на разрешении 3840×2160 точек
Вам даже не потребуется соединение PCI Express 3.0 — движок xDMA как он есть не опирается на какие-либо особенные функции стандарта третьего поколения. По словам AMD, функция работает на платформах с более старыми версиями PCIe. С учётом сказанного, если вы собрались покупать две
AMD выбрала идеальное время. При написании статьи
Обзор Radeon R9 290X | TrueAudio: выделенные ресурсы для обработки звука
TrueAudio мы разбирали в обзоре
В данный момент идёт активное обсуждение TrueAudio. Фактически, учитывая, сколько внимания уделяют данной функции, она станет главным новшеством свежих продуктов AMD.
На презентации демонстрационные аудиоролики выводили через восемь каналов. Но всем известно, что 7.1- и даже 5.1-канальный звук нехарактерен для домашнего использования, помимо, разве что, домашних кинотеатров. Конфигурации 2- и 2.1-канальных аудиосистем, например, те же гарнитуры, встречаются гораздо чаще. К сожалению, те, кто присутствовал на презентации через Livestream, вряд ли могли слышать такой же звук, как те, кто присутствовал лично.
Если среди читателей есть такие, кто в конце 90-х мог оценить технологии Aureal и Sensaura (до того, как обе были куплены Creative), то им известно, что функции переноса звука на гарнитуру с воспроизведением объёмного звука по двум каналам не являются чем-то новым. TrueAudio, на самом деле, служит для воспроизведения сложных звуковых эффектов, не перегружая при этом хост-процессор. Сегодня, по словам AMD, на обработку аудио отводится около 10% ресурсов CPU, выделяемых на игру, что ограничивает возможности разработчиков игр. Но при использовании технологии TrueAudio AMD стремится гарантированно выделить доступные в реальном времени вычислительные ресурсы специально на обработку звука, вне зависимости от хост-процессора.
Это достигается за счёт использования ядер сигнального процессора Tensilica HiFi2 EP. В карте Radeon R7 260X в GPU Bonaire имеется три ядра. Более топовые решения, R9 290 и
Звук в игре обрабатывается в реальном времени – то есть, быстрый доступ к циклам вычислений и памяти просто необходим, даже если ядра сами по себе не отличаются мощностью. Каждое из них характеризуется 32 Кбайт кэша для данных и инструкций, а также 8 Кбайт RAM. Быстрый интерфейс маршрутизации соединяет ядра DSP с 384 Кбайт общей памяти, распределённой на модулях по 8 Кбайт. Локальные ресурсы связаны с мультиканальным движком DMA, чтобы обеспечить активную работу ядер. До 64 Мбайт буферной памяти кадров доступны через низколатентную шину интерфейса, к которой подключён канал дисплея.
Один из первых вопросов, возникших в моей голове после того, как я услышал о поддержке TrueAudio, был следующий: “Смогут ли разработчики игр, которые уже довольно стеснены в бюджетах и времени, посвятить достаточно ресурсов разработке звуковой составляющей, когда так активно происходит развитие графики, физики и искусственного интеллекта”? AMD думает, что на независимых разработчиков появление TrueAudio большого влияния не окажет. Так как большинство производителей используют промежуточное обеспечение для реализации звука в игре, TrueAudio нуждается в поддержке, исходящей именно от таких разработчиков. Получив поддержку от Audiokinetic или Firelight, использовать TrueAudio станет легче. Таким образом, функция будет способна показать своё влияние до обработки на уровне кодека и совместима с любым типом аудивывода.
А что же думать о том, что AMD включит TrueAudio только в трёх моделях видеокарт, две из которых ещё даже не вышли на рынок? Представители компании утверждают, что AMD придётся начать с чего-то, внедряя технологию TrueAudio – соответственно, это просто первая публичная презентация. Стоит добавить, что графические карты класса high-end, предусмотренные для ПК самого высшего класса производительности, не нуждаются в усилении звуковых эффектов, в отличие от менее мощных платформ. Но уже сейчас можно наблюдать, к чему всё идёт: следует ожидать, что та же самая технология появится в APU и мобильных GPU от AMD, которые изначально не обладают достаточной мощностью для обработки звука, то есть, в такие решения могут даже оптимизировать энергопотребление за счёт реализации технологии TrueAudio.
Обзор Radeon R9 290X | PowerTune: балансирование производительности и уровня шума
В прошлый раз мы подробно углублялись в технологию AMD PowerTune в прошлом году, когда компания представила функцию Boost в
С появлением
Итак, теперь, PowerTune берёт входные данные с тепловых датчиков, делает оценку энергопотребления в реальном времени с помощью счётчиков активности, добавляет телеметрические данные с регулятора напряжения и подаёт эти данные на цифровой арбитратор управления питанием. Этот арбитратор запрограммирован на определение мощности GPU, тепловых показателей и текущих ограничений. С учётом пределов, он управляет напряжением, тактовой частотой и скоростью вентилятора, имея в приоритете максимальную производительность. Если один из входных пределов превышен, арбитратор может понизить напряжение и/или частоту.
Благодаря вышеуказанному VR-контроллеру, эти процессы происходят очень быстро. Ранее присутствовала относительно большая задержка между запросом на повышение напряжения и последующим изменением ступени частоты. Последовательный VID второго поколения от AMD примерно на два порядка быстрее (~10 µs вместо 1 мс), он обеспечивает подтверждение переключения с шагом до 6,25 мВ.
Благодаря возможности определять и настраивать мощность, скорость вентилятора, частоту GPU (производительность) и заданную температуру появилась возможность очень чётко диктовать поведение
Конечно, вся эта логика по-прежнему зависит от хорошо спроектированной системы охлаждения, способной поддерживать 1 ГГц частоты и температурный потолок 95 градусов карты
Если карта работает в режиме Quiet mode и достигает 95 градусов и не может удерживать температуру при скорости вентилятора 40%, она начинает понижать тактовую частоту, чтобы избежать достижения температуры в 96 градусов. Производительность снижается, чтобы понизить уровень шума. Переход на режим Uber прибавляет дополнительные 15% к рабочему циклу вентилятора, прежде чем начнёт понижаться тактовая частота.
Мы никак не могли решить, где разместить этот график. С одной стороны, он принадлежит к данным по CrossFire, поскольку показывает, как температура вредит производительности двух
Вы, конечно, можете вручную установить предел скорости вращения вентилятора, но весьма показательным является то, что режим Uber останавливается на 55%. Однако мы имеем дело с эталонным кулером, который сильно шумит при работе. Мы бы оставили карту в тихом режиме.
Обзор Radeon R9 290X | Разгон: PowerTune меняет систему
Поскольку питание, тактовая частота, скорость вращения вентилятора и температура взаимозависимы, разгон теперь не ограничивается установкой частоты. По сути, даже работа на штатных настройках не так проста. Как мы видели на предыдущей странице, сначала мы имеем высокую частоту, но со временем она снижается.
Catalyst Control Center: обновлённый OverDrive
Изменения в Catalyst Control Center повлияли на производительность и энергопотребление
“Превышение” вместо разгона
Разгон, в традиционном понятии этого слова, к данной карте не очень применим. В нормальных условиях при максимальной нагрузке
Так выглядят исходные настройки AMD:
Увеличение предела мощности на 25% поднимает энергопотребление до (и немного выше) 300 Вт доступных с одного шестиконтактного вспомогательного коннектора питания, одного восьмиконтактного коннектора и слота PCI Express. Мы не хотели рисковать, поднимая этот параметр выше, чем нужно для обзора. Показатели пикового энергопотребления говорят о том, что есть небольшой запас, однако это всё теория, поскольку мы не получили прирост производительности при повышении мощности и скорости вентилятора. В этом можно винить слишком высокую температуру.
Но как её понизить?
Скорость вращения вентилятора и целевая температура
Чтобы активировать более агрессивное охлаждение, нужно понизить, а не повысить целевую температуру. Вот исходные настройки:
Как мы знаем, определять скорость вращения вентилятора в об/мин больше нельзя. Вместо этого выбирается максимальный предел в процентах, отражающий пиковый рабочий цикл вентиляторов. Повторимся, режим прошивки Quiet останавливается на 40%, а Uber – на 55%.
Нельзя превысить этот потолок, просто передвинув ползунок ближе к 100%, и наслаждаться более низкими температурами. Поскольку предел, выставленный AMD на 95 градусов, может поддерживаться в диапазоне между 40% и 50%, нужно также изменить целевую температуру.
Если выставить температуру таким образом, высока вероятность, что вы услышите, как вентилятор
Как и при обычном разгоне, повышение предела мощности
Рассмотрев основные новшества и технологии, реализованные в новом флагмане AMD, мы вернёмся к обсуждению новинки в следующей части статьи. В ней мы оценим реальную производительность