Radeon HD 7970: переход на 28-нм техпроцесс
В начале декабря мы не рассчитывали, что видеокарта нового поколения окажется у нас до наступления 2012 года. Даже в середине месяца, после того как мы получили официальное уведомление от AMD, мы планировали выпустить данный обзор в январе. Windows 8 и API DirectX 11.1, идущий в компании с новой ОС, не будут доступны в течении ближайших нескольких месяцев, а нынешние графические карты класса high-end отлично справляются с современными играми. Несмотря на то, что AMD, по слухам, ещё несколько месяцев назад прекратил выпуск флагманской модели
Однако AMD, в конце концов, назначила дату анонса на середину декабря, что нас удивило ещё более. Вот как прозвучала официальная версия AMD: “Собрав отзывы от наших партнёров и оценив нашу общую готовность… мы убеждены, что новая дата анонса позволит нам захватить сезон рождественских праздников и CES”. Попытка захватить рождественский сезон, анонсировав карту за пару суток до католического Рождества – крайне оптимистичная стратегия, особенно если учесть, что первые официальные поставки начнутся после 9 января. Печальным результатом всего этого стало то, что многие сотрудничающие с AMD разработчики не успели подготовить соответствующие обновления ПО, нужные хотя бы для того, чтобы надлежащим образом протестировать HD 7970.
Встречаем Radeon HD 7970
Независимо от того, готова ли Radeon HD 7970 встретить мир и готов ли мир встретить её, она попала в лабораторию
Компания AMD использует новую архитектуру Southern Islands и обеспечила поддержку новых функций и технологий, включая совместимость с DirectX 11.1. Флагманский GPU Tahiti (Таити) состоит из 4,31 миллиардов транзисторов и, таким образом, примерно на 160% по данному параметру превосходит своего предшественника на ядре Cayman.
Одновременно компания AMD осуществила переход на техпроцесс 28 нм, что позволило втиснуть такое количество транзисторов в кремниевую пластинку площадью 365 мм² – чип Cayman занимает даже большую площадь (389 мм2).
Прежде чем углубиться в тонкости Southern Islands, давайте поближе взглянем на основные спецификации Radeon HD 7970 по сравнению с предшественниками и конкурентом.
Radeon HD 7970 | Radeon HD 6970 | Radeon HD 6990 | GeForce GTX 580 | |
Потоковых процессоров | 2048 | 1536 | 3072 | 512 |
Блоков текстур | 128 | 96 | 192 | 64 |
Блоков растеризации Color ROP | 32 | 32 | 64 | 48 |
Частота шейдерных блоков | 925 МГц | 880 МГц | 830 МГц | 772 (1544) МГц |
Скорость фильтрации текстур | 118.4 ГТекс/с | 84.5 ГТекс/с | 159.4 ГТекс/с | 49.4 ГТекс/с |
Частота памяти | 1375 МГц | 1375 МГц | 1250 МГц | 1002 МГц |
Шина памяти | 384-битная | 256-битная | 2×256-битная | 384-битная |
Пропускная способность шины памяти | 264 Гбит/с | 160 Гбит/с | 160 Гбит/с | 192.4 Гбит/с |
Графическая память | 3 Гбайт GDDR5 | 2 Гбайт GDDR5 | 2 Гбайт GDDR5 | 1.5-3 Гбайт GDDR5 |
Площадь чипа | 365 мм² | 389 мм² | 2×389 мм² | 520 мм² |
Число транзисторов (млрд) | 4.31 | 2.64 | 5.28 | 3 |
Техпроцесс | 28 нм | 40 нм | 40 нм | 40 нм |
Разъёмы питания | 1×8-pin, 1×6-pin | 1×8-pin, 1×6-pin | 2×8-pin | 1×8-pin, 1×6-pin |
Максимальная мощность (TDP) | 250 Вт | 250 Вт | 375 Вт | 244 Вт |
Цена | Рекомендованная цена $549 | Цена на сайте Newegg.com $340-$380 | $700-$750 (средняя цена на момент окончания продаж) | $500-$530 (версия 1,5 Гбайт) $590-$730 (версия 3 Гбайт) |
По сравнению с Radeon HD 6970, новинка имеет явные преимущества: на треть увеличилось количество потоковых процессоров и блоков обработки текстур, пропускная способность памяти возросла на 65% благодаря использованию 384-разрядной шины памяти. Лишь два ряда спецификаций моделей Radeon HD 7970 и HD 6970 совпадают: число блоков растеризации Color ROP и TDP 250 Вт.
Основываясь на этих спецификациях (и том факте, что новая карта будет стоить около $550), мы можем предположить, что Radeon HD 7970 превзойдёт 6970, немного опередит
Вначале расскажем о том, что нам известно о серии Radeon HD 7000. Несмотря на слухи об обратном, все 28-нм GPU в линейке Radeon 7000, ранее носившие кодовое название Southern Islands, основаны на архитектуре Graphics Core Next. Она включает серию Radeon HD 7700 (ядро Cape Verde), 7800 (Pitcairn) и 7900 (Tahiti). Кроме того, AMD может включить в новую 7000-ю линейку некоторые продукты на 40-нм чипах, используя ребрендинг старых моделей, в которых используется нынешняя архитектура VLIW4/5.
Реализованные на основе новой архитектуры модели имеют одинаковую функциональность, что является хорошей новостью. На следующем рисунке представлено положение новых карт в линейке относительно серии Radeon HD 6000.
Как вы сможете убедиться по нашим тестам, серия Radeon HD 7900 позиционируется как производительная игровая однопроцессорная карта, приближающаяся по производительности к нынешнему двухпроцессорному флагману – HD 6990. В первом квартале 2012 года должна быть представлена и замена HD 6990 – флагманская модель 7000-й серии, основанная на двух GPU Tahiti, призванная занять верхнее положение в “пищевой цепочке” Radeon.
Теперь мы знаем, какое положение в линейке займут представители серии Radeon HD 7000 в соответствии с планами маркетингового отдела компании AMD. Далее мы подробно остановимся на уникальных особенностях новой линейки, однако начнём с основного вопроса – что представляет собой архитектура Southern Islands?
Graphics Core Next и архитектура Southern Islands
Radeon HD 7970 является первым коммерческим продуктом на архитектуре Graphics Core Next, но дизайн новых GPU сам по себе не является секретом. Чтобы дать разработчикам ПО возможность лучше изучить особенности будущего железа, компания AMD раскрыла особенности архитектуры Graphics Core Next на конференции AMD Fusion’11 Developer Summit, проходившей с 13 по 16 июня в американском городе Белвью.
По словам Эрика Демерса (Eric Demers), технического директора подразделения графических продуктов AMD, ныне существующая архитектура VLIW, берущая начало с линейки Radeon 2000, всё ещё имеет потенциал для построения мощных графических карт. Но она ограничена с точки зрения функциональности. Вместо того, чтобы поддерживать жизнь старой архитектуры, AMD выбрала другой путь – вложиться в разработку полностью новой архитектуры. На первом плане для карт класса hi-end находится поддержка новейших игр и качество изображения. Чтобы соответствовать этой установке, AMD отказалась от дальнейшей работы над архитектурой VLIW (Very Long Instruction Word – “очень длинная машинная команда”) в пользу новой Graphics Core Next.
Преимущество в эффективности архитектуры Graphics Core Next
Архитектура VLIW весьма эффективна при обработке графических инструкций. Её компилятор оптимизирован для разметки скалярных математических преобразований, которые лежат в основе вычислений 3D-графики. Слабость VLIW проявляется тогда, когда GPU должен составлять очередь заданий со скалярными инструкциями в приложениях общего назначения.
Иногда происходит так, что набор инструкций, называющийся пакет инструкций (wavefront – “фронт инструкций”), не может выполняться до тех пор, пока производятся вычисления над другим аналогичным набором. Это называется “зависимостями”. Проблема в том, что компилятор не может изменить порядок исполнения пакета инструкций после того, как определена очередь заданий. Поэтому драгоценный потенциал ALU часто растрачивается впустую, когда инструкции ожидают своей очереди и не выполнены зависимости, которые к ним относятся.
Перед вами – теоретический пример того, как движок SIMD в архитектуре VLIW4 карты Radeon HD 6970 и его 16 банков шейдерных процессоров (каждый такой процессор имеет по четыре ALU, что даёт в сумме 64 ALU на движок SIMD) обрабатывает пакет инструкций, который включает в себя зависимости.
Пока свободными остаются три ALU, следующий пакет простаивает в очереди. Как видим, налицо неэффективное использование вычислительных ресурсов, обусловленное излишне простой логикой обработки инструкций в устаревшей архитектуре.
Как оптимизировать множество скалярных операций, которые выполняются за такт? Нужно ввести блок вычислений – Copmute Unit или CU, который заменит традиционные для AMD движки SIMD.
Каждый CU имеет по четыре блока векторных операций (Vector Units или VU), которые, в свою очередь, включают по 16 ALU, что даёт в сумме 64 ALU на один блок вычислений. Таким образом, число ALU в блоке вычислений (CU) точно такое же, как в движке SIMD. Разница в том, что в отличие от шейдерных процессоров в движке SIMD, каждый из четырёх блоков векторных операций, входящих в Copmute Unit, может иметь независимую очередь задач. CU имеет собственный планировщик очереди, что позволяет свободным VU работать с новыми пакетами инструкций, исключая “бутылочное горлышко” при обработке зависимостей. Это ключевое отличие новой архитектуры, благодаря которому каждый VU может работать с новыми пакетами инструкций, даже если присутствует очередь зависимостей.
В нашем примере одна и та же очередь инструкций может исполняться за шесть тактов на архитектуре VLIW4, но за четыре такта на Graphics Core Next. AMD предполагает, что Radeon HD 7970 может достигнуть 7,5-кратного увеличения пиковой теоретической производительности относительно Radeon HD 6970 благодаря более эффективному использованию вычислительных ресурсов.
Разница в реальных приложениях зависит от эффективности компилятора программного кода. В некоторых вычислительных задачах Radeon HD 7970 будет лучше исключительно за счёт большего числа ALU и более высоких частот ядра и памяти. В ходе тестирования новинки мы видели много вариаций, их увидите и вы. Но, основываясь на результатах синтетических бенчмарков, можно с уверенностью утверждать, что вычислительный потенциал Graphics Core Next превосходит VLIW4.
Устройство Compute Unit
Как мы уже упоминали, движок SIMD, использовавшийся в картах Radeon начиная с 2000-й серии, в архитектуре Graphics Core Next сменяется концепцией вычислительного блока – Compute Unit (CU).
Мы также говорили, что CU состоит из четырёх векторных блоков (VU), которые, в свою очередь, включают по 16 ALU и аппаратный регулировщик очереди. VU работают независимо друг от друга.
Теперь давайте более подробно остановимся на устройстве самих VU. В отличии от упрощённого представления цикла, который мы обсуждали на приведённом выше примере, каждый VU может обрабатывать одну четверть “фронта инструкций” за цикл. Имея четыре VU, каждый вычислительный блок может последовательно работать с четырьмя пакетами инструкций, затрачивая по четыре цикла на каждый, что эквивалентно одному пакету на каждый цикл одного вычислительного блока.
Кроме того, в вычислительном блоке появился отдельный модуль скалярных вычислений (Scalar Unit – SU), который отвечает, прежде всего, за ветвление исполнительных потоков, выгружая скалярные операции для обеспечения работой векторных блоков, чтобы они могли должным образом использовать вычислительные ресурсы.
Каждый CU имеет по четыре текстурных блока, использующих для чтения и записи кэш-память объёмом 16 кбайт, что в два раза больше, чем имеют блоки SIMD в архитектуре VLIW4, которые имеют кэш только для чтения. Ранее кэш L1 использовался только для операций чтения текстур, но теперь они могут выгружаться обратно в тот же самый кэш.
Соединим всё в единое целое: GPU Tahiti и Radeon HD 7970
GPU Tahiti в
Как мы видим на схеме, вычислительные блоки подключены к восьми 32-разрядным блокам Full Color ROP – точно так же, как в случае Radeon HD 6970. Но хотя числа совпадают, эффективность увеличена за счёт шести 64-битных контроллеров памяти, образующих более широкую 384-битную шину памяти. Между более широкой шиной памяти и собственно памятью – быстрой памятью GDDR5 частотой 1375 МГц – Radeon HD 7970 обеспечивает впечатляющую пропускную способность 264 Гбит/с, что примерно на 100 Гбит/с выше, чем Radeon HD 6970.
Обновлённые движки тесселяции
GPU Tahiti имеет два обновлённых движка обработки геометрии, оптимизированные для тесселяции. Хотя они по-прежнему ограничены 2 миллиардами вершин, AMD заявляет, что производительность увеличена от 1,7 до 4 раз, в зависимости от количества операций, которые применяются к исходной вершине. Буферный кэш для вершин большого объёма также был увеличен.
Управление питанием: PowerTune и ZeroCore
Функция PowerTune появилась в некоторых старших моделях предыдущего поколения Radeon. Суть данной технологии том, что GPU может динамически настраивать частоты таким образом, чтобы карта использовала энергию в пределах допустимого TDP, которое определяет пользователь. Иными словами, оверклокер может получить максимальную производительность, опираясь на приемлемое значение TDP. По утверждению AMD, без использования PowerTune в очень тяжёлых сценариях частота ядра
Кроме того, в новых картах реализована технологией ZeroCore, предполагающая существенное снижение потребления энергии в режиме ожидания. ZeroCore включает режим глубокого сна для снижения энергопотребления GPU, режим отключения DRAM для снижения расхода энергии памятью и возможность сжатия содержимого буферной памяти, что даёт самое существенное воздействие на уровень потребления энергии в режиме ожидания, то есть когда на монитор не поступает сигнал с ПК. Согласно утверждениям AMD, карта потребляет всего 15 Вт при обработке статической среды Windows и вообще не расходует энергию, когда монитор отключён. Это также означает, что в таком режиме отключается вентилятор системы охлаждения и карта существенно не нагревается. Наши тесты показали, что с точки зрения энергопотребления
Пользователи компьютеров с несколькими картами AMD, работающими в режиме CrossFire – а именно им приходится более всего заботиться о значительном тепловыделении видеокарт – оценят другой компонент технологии ZeroCore, который позволяет отключать вторую, третью или четвёртую карту, работающие в связке CrossFire, если в их использовании нет необходимости.
PCI Express 3.0
Radeon HD 7970 – первая карта AMD, совместимая с третьим поколением стандарта PCI Express (PCI-E 3.0). Откровенно говоря, ныне использующего стандарта PCI-E 2.0 вполне достаточно для современных карт, и мы сомневаемся, что сможем увидеть какое-либо увеличение производительности при переходе на новый стандарт. Пока же слоты PCI-E 3.0 можно увидеть только в новейших материнских платах для процессоров Core i7 3000-й серии (платформа Sandy Bridge-E).
Тем не менее, AMD утверждает, что увеличение скорости передачи данных до 16 Гбайт/с в обе стороны поможет устранить слабые места при работе с некоторыми приложениями. К сожалению, и на этот раз мы не можем предложить нашим читателям тест, где было бы отражено реальное преимущество PCI-E 3.0, в силу отсутствия соответствующего ПО для такого теста.
AMD Radeon HD 7970
Карта имеет длину 26,25 см и ширину 11,25 мм, что в точности соответствует габаритам HD 6970. Она кажется меньше, но это визуальная уловка, которая часто используются при проектировании автомобилей, а также встречается и в некоторых компьютерных продуктах Apple: радиатор охлаждения становится более тонким ближе к концу платы.
Несмотря на совпадение в габаритах, есть несколько заметных отличий между двумя флагманскими моделями AMD с одним GPU. Нижняя часть новой платы не покрыта металлической пластиной, в отличие от Radeon HD 6970. Кроме того, вентилятор достигает почти трёх дюймов в диаметре, тогда как вентилятор референсной модели Radeon HD 6970 имеет диаметр около 2,5″.
Вентилятор имеет более крупные и широкие лопасти, форма которых обеспечивает более сильный поток воздуха при меньшей скорости вращения. Несмотря на кажущееся улучшение, наш опыт использования карты не был положительным с точки зрения шума. Более подробно мы остановимся на этом моменте в разделе результатов теста на уровень шума. AMD использует новую версию термопасты, которая, по словам AMD, обеспечивает превосходство на несколько градусов относительно обычной пасты.
Над термоинтерфейсом находится испарительная камера (vapor chamber), занимающая пространство между радиатором и GPU. Vapor Сhamber – плоская камера небольшой глубины (около 3 мм), в которой находится жидкость и откачан воздух. Под воздействием высокой температуры жидкость испаряется, а затем остывает, конденсируется и стекает к основанию камеры. Из-за небольшой толщины камеры и низкого давления цикл осуществляется непрерывно, что способствует эффективному отводу и распределению тепла от “горячей” поверхности GPU. В результате мы видим весьма низкий для столь производительной карты уровень шума, а также хорошие температурные характеристики. Вы сможете убедиться в этом в ходе нашего тестирования. Штатный вентилятор легко справляется с отводом тепла через решётку на задней стенке карты, причём AMD убрала дополнительный DVI-разъём для обеспечения лучшего охлаждения.
Второй разъём DVI убран с задней панели, так что же на ней осталось? Референсная карта идёт с двумя выходами mini-DisplayPort, а также портами HDMI и dual-link DVI.
Не спешите разочаровываться: чтобы подключить три монитора с помощью технологии Eyefinity, возможно, не потребуется докупать дорогие адаптеры для порта DVI. На этот счёт есть хорошая новость: по словам AMD, что в комплект поставки будет входить переходник HDMI->DVI и активный переходник mini-DisplayPort->DVI. Таким образом, несмотря на отсутствие на карте одного из разъёмов DVI, с поддержкой работы трёх мониторов дела должны обстоять лучше, чем в случае Radeon HD 6970.
При выборе вариантов данной модели от различных производителей, следует внимательно подойти к вопросу, что включает стандартный комплект поставки, особенно если вы планируете выбрать самую дешёвую модель на данном GPU.
Обратите внимание на наличие двух разъёмов дополнительного питания – 6-pin и 8-pin. Набор аналогичен Radeon HD 6970 и это не вызывает удивления, учитывая одинаковый TDP, хотя AMD утверждает, что наличие двух разъёмов питания обусловлено оверклокерскими возможностями карты. Также стоит отметит наличие на плате переключателя dual BIOS – это ещё одна удачная находка, унаследованная от HD 6970, увеличивающая шансы вернуть карту в рабочее состояние после неудачной попытки разгона.
Новые технологии: PRT, DirectX 11.1, Eyefinity, стерео-3D
Улучшения в графическом процессоре Tahiti затрагивают не только игровую производительность и более мощный вычислительный движок. AMD реализовала в новой архитектуре Southern Islands несколько новых функций, о которых мы поговорим в данном разделе нашего обзора.
DirectX 11.1, OpenCL 1.2 и DirectCompute 11.1
Ожидается, что Windows 8 будет включать DirectX 11.1, и
Технология PRT
PRT (Partially Resident Textures – технология раздельного хранения текстур) представляет собой изящный способ извлечь пользу от графической памяти путём её виртуализации и использования в качестве кэша текстур. PRT обеспечивает, как минимум, два существенных преимущества: снижение эффекта подвисания текстур, плюс управление большими фрагментами текстур на уровне “железа” (нечто подобное используется в некоторых играх, но реализовано на уровне программного кода самой игры).
По мере поступления текстур для рендеринга, в память загружаются только видимые сегменты текстур (блоками по 64 кбайт). Но когда запрашиваемая текстура отсутствует в памяти, происходит нечто чудесное. В этом случае, GPU может дать команду приложению и запросить дальнейших инструкций, что даёт приложению беспрецедентный уровень контроля при выборе текстур и ранжированию порядка их загрузки в оперативную память в соответствии с уровнем приоритета. В свою очередь, GPU может вначале обрабатывать и выводить на монитор текстуры низкого разрешения, а затем обрабатывать их версии с высоким разрешением. Такой подход является очень эффективным средством против подвисания текстур.
Eyefinity 2.0, поддержка нескольких мониторов и управление рабочим столом
Согласно AMD,
Наконец, некоторые замечания по поводу планируемого обновления Catalyst Control Center. AMD говорит, что в феврале 2012 года выйдет версия драйвера 12.2, которая будет иметь возможность установить пользовательское разрешение – о такой возможности пользователи Eyefinity до сих пор могли только мечтать. Другие улучшения включают усовершенствованный менеджер предустановок (профилей) и возможность закрепить Панель задач Windows на одном из дисплеев при использовании нескольких мониторов.
Улучшения стерео-3D
Первое обновление стерео-3D касается непосредственно Eyefinity, но не является специфической особенностью Radeon HD 7900: драйвер Catalyst версии 11.12 включает поддержку HD3D, а уже доступная бета-версия 12.1 включает поддержку режима CrossFire как для HD3D, так и для Eyefinity, устраняя тем самым одно из самых больших упущений 3D-игр при использовании карт AMD. Рендеринг 3D-графики чрезвычайно требователен к производительности графической подсистемы и возможность использовать конфигурацию из нескольких карт, определённо, будет весьма полезна в данном случае. До сих пор, однако, такая возможность отсутствовала.
Наконец, стоит заметить, что Microsoft будет включать API Stereo3D в Windows 8, и
Поддержка UVD и новый декодер Video Codec Engine (VCE)
AMD добавила аппаратное ускорение двойного потока HD+HD для новейшего формата Unified Video Decoder (UVD), но это единственное изменение к набору функций декодирования UVD.
В данной карте действительно появилось что-то новое с точки зрения возможностей воспроизведения и эта технология называется Video Codec Engine (VCE). Данная функция представляет собой реализацию аппаратного декодирования видео – то есть AMD решила пойти по стопам компании Intel и оснастила новое графическое ядро функций, которая берёт часть вычислительной нагрузки в определённых приложениях на себя, тем самым значительно ускоряя процесс выполнения операций. В данном случае, однако, о полноценном сравнении с Quick Sync от Intel речи быть не может, ибо конкретная реализация аппаратного декодера AMD ограничена только форматом H.264.
Когда появились процессоры Intel со встроенным графическим ядром, имеющим поддержку технологии Quick Sync, некоторые эксперты озвучивали появление подобных технологий от ведущих производителей дискретной графики, что мы и наблюдаем в данном случае.
К сожалению, пока AMD не уделила данной функции, за которой многие видят будущее компьютерных систем, должного внимания. С одной стороны, с форматом H.264 данная технология работает очень быстро. AMD утверждает, что пропускная способность декодера позволяет обрабатывать поток в опережающем режиме. Но модуль VCE ограничивается только видео в формате H.264, то есть не является столь же “всеядным”, как Quick Sync.
В данном случае, имеет смысл использовать VCE только на малопроизводительных системах бюджетного уровня или, возможно, на ноутбуках, где использование аппаратного декодера позволило бы существенно увеличить время работы от аккумулятора.
Больший интерес представляет гибридный процесс, когда нагрузка распределяется между VCE и блоками ALU. Но поскольку данный режим предполагает использование вычислительных ресурсов видеокарты, потребление энергии резко возрастает. Возможность использования аппаратных ресурсов видеокарты в исполняемом коде программы позволяет охватить значительное число задач по перекодировке видео, тогда как VCE обеспечивает аппаратное ускорение лишь при работе с форматом H.264.
Мы хотели бы сравнить VCE с технологией Quick Sync от Intel или хотя бы CUDA от nVidia, которые используются для аппаратного ускорения кодирования. Но мы вновь не можем протестировать новую технологию. Фактически, ни одна из функций, о которых мы писали выше, не может быть протестирована. На данный момент попросту отсутствует софт, при помощи которого мы могли бы на практике опробовать, на что способен данный GPU.
Тестовый стенд и бенчмарки
Мы хотели использовать в данном тесте совсем другую платформу, но не успели её получить. Поэтому нам пришлось использовать стандартную платформу с процессором Core i5-2500K (LGA 1155), разогнанном до 4 ГГц. Платформа на Sandy Bridge-E попадёт к нам только в январе, когда AMD успеет представить уже новую партию видеокарт новой линейки.
Конфигурация тестового стенда | |
Процессор | Intel Core i5-2500K (Sandy Bridge) Разогнан до частоты 4 ГГц, кэш L3 6 Мбайт, энергосбережение включено, режим Turbo Boost отключён |
Материнская плата | MSI P67A-GD65 на чипсете Intel P67 |
Память | OCZ DDR3-2000, 2 x 2 Гбайт, 1338 МГц, тайминги CL 9-9-9-20-1T |
Жёсткий диск | Western Digital Caviar Black 750 Гбайт, 7200 об/мин, кэш 32 Мбайт, SATA 3 Гбит/с SSD Samsung 470-й серии 256 Гбайт, SATA 3 Гбит/с |
Видеокарты | Radeon HD 7970 3 Гбайт GDDR5 Radeon HD 6970 2 Гбайт GDDR5 Radeon HD 6990 4 Гбайт GDDR5 GeForce GTX 580 1.5 Гбайт GDDR5 GeForce GTX 590 3 Гбайт GDDR5 |
Блок питания | Seasonic X760 SS-760KM, ATX12V v2.3, EPS12V, 80 PLUS Gold |
Кулер CPU | Cooler Master Hyper TX 2 |
Системное ПО и драйверы | |
Операционная система | Microsoft Windows 7 Ultimate x64 |
Версия DirectX | DirectX 11 |
Драйверы видеокарты | GeForce: 285.88 Beta Radeon: 7900 Launch Beta Driver |
Синтетические бенчмарки | |
3DMark 11 | Версия 1.0.3.0, предустановка Extreme |
Unigine Heaven | Версия 2.1, два режима – со включенной тесселяцией и без |
Игровые бенчмарки | |
Battlefield 3 | Версия 1.0.0.0, миссия Swordbreaker, утилита Fraps запущена |
Batman: Arkham City | Версия 1.0.0.0, встроенный бенчмарк |
Metro 2033 | Версия 1.0.0.1, встроенный бенчмарк |
DiRT 3 | Версия 1.2.0.0, встроенный бенчмарк |
Crysis 2 | Версия 1.9, утилита Fraps запущена |
Elder Scrolls V: Skyrim | Версия 1.2.14.0, утилита Fraps запущена |
World of Warcraft | Версия 4.3.0.150.50, утилита Fraps запущена |
Синтетические тесты производительности и тесселяции
Если бы 3DMark был реальной игрой, то
Продолжим наше тестирование с другим синтетическим бенчмарком – Heaven от компании Unigine. Поскольку мы запускали бенчмарк дважды (первый раз – с выключенной тесселяцией, второй раз – со включённой в режиме Normal), данные результаты дают нам понимание того, какие улучшения тесселяции в GPU Tahiti имели место. Но стоит учесть, что мы отключали оптимизации тесселяции в драйвере CCC для всех тестов, чтобы обеспечить объективный результат.
Мы вновь видим, на что способна видеокарта
Установка тесселяции в Batman: Arkham City предполагает выбор между двумя вариантами: стандартным и высоким, не используя полностью другие возможности DirectX 11. Таким образом, нам пришлось протестировать обе установки отдельно, чтобы определить влияние тесселяции на результат. Результаты FPS в данном случае оказались настолько близкими, что сложно выявить победителя.
H.A.W.X. 2 позволяет включать или отключать режим тесселяции, поэтому в данном случае мы видим идеальное сравнение. Как можно судить по результатам, данная игра явно оптимизирована для архитектуры GeForce, поэтому здесь трудно дать однозначную оценку.
Здесь мы видим, что
Battlefield 3
Как правило, когда речь идёт о предварительных сэмплах новых моделей, синтетические бенчмарки дают нам наилучшее представление о производительности, также как и драйверы, с которыми они работают. Но синтетические бенчмарки – это не реальные игры, поэтому именно игровые тесты более критичны для компьютерных энтузисастов. Начнём с Battlefield 3 – одной из наиболее внушительных с точки зрения качества графики игр 2011 года.
При выборе максимальной установке качества
Теперь сделаем данное сравнение ещё более интересным, включив режим 4x MSAA.
Как видим, при использовании множественной выборки сглаживания в режиме 4х и качестве 1080p
При использовании конфигурации Eyefinity из трёх мониторов и общем разрешении 5760×1080 результат
Crysis 2
Новая карта отлично показала себя при разрешении 1080p, но результаты плавают в случае конфигурации из трёх мониторов, которые многие из наших читателей хотели бы видеть в наших тестах. И вновь двухпроцессорные карты не могут достигнуть минимума в 30 FPS. Судя по всему, при использовании трёх мониторов вам придётся снизить настройки игрового качества для этих карт, чтобы получить более приемлемые для игры результаты.
Разрешение 1080p – не проблема для
Elder Scrolls V: Skyrim
Elder Scrolls V: Skyrim – одна из лучших игр 2011 года. Посмотрим, как наши карты проявили себя в обработке красивых пейзажей.
Близкие результаты указывают на “бутылочное горлышко” в виде процессора системы. Skyrim не выявил существенной разницы между картами, которые мы тестировали, даже на установке 4x MSAA. Не поможет ли использование анизотропной фильтрации выявить победителя?
И вновь мы видим весьма близкие результаты. Судя по всему, не хватает производительности процессору нашего тестового ПК. Единственной картой, которая не смогла достичь планки 30 FPS, оказалась Radeon HD 6970.
DiRT 3
Игровые симуляторы компании Codemasters хорошо зарекомендовали себя в качестве бенчмарка для проверки вычислительных ресурсов как CPU, так и GPU. DiRT 3 – это отличный тест для видеокарты класса high-end, установленной в систему для компьютерных энтузиастов.
Установка детализации в режим Ultra при отключённой анизотропной фильтрации не меняет расстановку сил при разрешении 1080p, но тгра не очень хорошо масштабируется при использовании трёх мониторов. Radeon HD 6970 вновь не может обеспечить минимальный средний уровень в 30 FPS.
Результаты на разрешении 1080p плавно улучшаются от одной карты к другой, и хотя производительность прогнозируемо падает на разрешении 5760×1080, частота смены кадров на
World Of Warcraft
World of Warcraft – не самая требовательная с точки зрения производительности графической подсистемы игра, но в неё играет более 10 миллионов игроков по всему миру, так что её присутствие в нашем обзоре вполне актуально.
К сожалению, в данном случае нельзя говорить о равноценном сравнении между разными картами, как мы бы хотели. Карты AMD не могут работать на разрешении 5760×1080 в режиме DirectX 11. Это странная недоработка со стороны AMD, так как данная игра весьма популярна. Так что нам пришлось использовать рендеринг в DirectX 9.
Стоит добавить, что карты nVidia GeForce не обеспечивают анизотропной фильтрации в режиме DirectX 9, поскольку для реализации данной функции требуется несовместимый с DirectX 9 программный код. И это не единственное ограничение. Учитывая всё вышесказанное, представляем результаты в режиме 8x MSAA:
Частота смены кадров чрезвычайно высока, и производительность никогда не падает ниже 30 FPS. Но как насчёт анизотропной фильтрации в режиме 8х, которую можно включить с помощью драйвера для каждой из этих карт?
Хотя сглаживание приводит к замедлению на разрешении 1080p, все карты сохраняют достаточный уровень производительности. Но этого нельзя сказать, когда речь идёт о разрешении 5760×1080. В данном случае, жизнеспособны только двухпроцессорные решения, причём даже
Batman: Arkham City
Batman: Arkham City известна как игра, которая имеет слишком низкую частоту кадров при использовании установок высокого качества в DirectX 11, но недавно был выпущен патч, который, вероятно, устраняет данные проблемы, с которыми сталкивались пользователи 64-битной версии Windows. Что ж, давайте проверим, так ли это.
Metro 2033
Metro 2033 – не самая свежая в нашем наборе игра, можно сказать, даже старая по большинству геймерских стандартов. Но эта игра является одной из наиболее требовательных к производительности компьютерного “железа”, в особенности при включении API DirectCompute в DirectX 11. Итак, начнём с режима High Details в DirectX 9.
Новинка AMD лидирует на разрешении 1080p, но слегка отстаёт от двухпроцессорных карт на 5760×1080. Теперь запустим тест в режиме DirectX 11 с включёнными “улучшателями” качества изображения.
Результаты несколько разочаровывают, не правда ли? Минимальная и средняя частота кадров снижаются до минимальных значений на 1080p. И хотя относительно конкурентов
Тестирование GPGPU
GPGPU означает General Purpose Graphics Processing Units, то есть “GPU общего назначения”. Данная технология означает использование вычислительных ресурсов видеокарты для помощи центральному процессору при обработке обычных вычислений.
Наша задача заключается в том, чтобы включить в тестирование как можно больше реальных приложений, а не распылять внимание читателей только на синтетические тесты. К сожалению, отсрочив анонс карты к рождественским праздникам, компания AMD просто не успела согласовать нюансы с партнёрами-разработчиками ПО. Геймеры – основная целевая аудитория видеокарт такого уровня, и компании AMD было необходимо сфокусировать своё внимание, прежде всего, на них.
Как следствие, другие области использования ПК обошлись без пристального внимания разработчиков, и у нас отсутствует возможность протестировать новые технологии, о которых говорила AMD. С другой стороны, не стоит винить во всём партнёров AMD, так как они работают в очень сжатых временных сроках. Независимо от того, могут ли некоторые приложения общего назначения использовать ресурсы видеокарты, большинство этого не делают. Те программы, которые имеют оптимизации, демонстрируют значительное преимущество над своими предшественниками, в которых используется неоптимизированный код.
К сожалению, мы не можем подвергнуть тесту одну из самых ярких функций GPU Tahiti – VCE, поскольку ни одна из программ не поддерживает его.
Ускорение видео – одна из жертв заострённого внимания на геймерах. Именно по этой причине мы не можем подвергнуть тесту одну из самых ярких функций GPU Tahiti – VCE. На этот раз нам приходится больше полагаться на синтетические тесты. Мы добавим несколько реальных приложений, когда появятся версии программ, поддерживающие VCE, а также совместимые драйверы.
Напомним, что же представляет собой VCE. Данная технология означает наличие аппаратного декодера видео в формате H.264 и подразумевает наличие в GPU блока логики с фиксированной функциональностью. Последнее отличает VCE от технологии Quick Sync от Intel, имеющей более широкий набор функций.
Bitmining
Bitmining – одно из немногих реальных приложений, которое мы смогли запустить, однако нам пришлось выбрать однопоточный режим, так как сервер не позволил пройти верификацию.
Карты Radeon традиционно сильны в Bitmining. Но эффективность в данном случае даже более важна, чем производительность, и здесь всё не столь очевидно. Несомненно,
LuxMark
LuxMark основан на бесплатном приложении LuxRender, что даёт нам второе реальное приложение в тесте GPGPU. Результаты впечатляют:
Между тем,
GPU Caps Viewer
Тест Post-FX – непосредственное воплощение демо-ролика oclPostprocessGL, входящего в пакет GPU Computing SDK компании nVidia. Эффект “размытия” был добавлен к выходному изображению в ходе постобработки. Интересно, что
В тесте Particle OpenCL явную победу одерживает GeForce GTX 580. Ни одна из карт Radeon не может приблизиться близко к GTX 580, но
NQueen
NQueen puzzle (также известная под названием “Eight queens puzzle” или “Загадка восьми королев”) – комплексная математическая задача из мира шахмат. Цель состоит в том, чтобы расставить восемь королев на шахматной доске таким образом, чтобы два королевы не могли напасть друг на друга согласно шахматным правилам. Цвет фигур в данном случае не имеет значения, так как любая из восьми фигур может напасть на другую. Задача состоит в том, чтобы как можно быстрее найти как можно большее количество решений.
Шахматная задача заложена в основание данного бенчмарка и тест NQueen в очередной раз доказывает, что
DirectComputeBenchmark
Перед нами – один из немногих бенчмарков, позволяющих протестировать производительность DirectCompute, как мы планировали изначально. Но результат, который показала
Интересно, что карты Radeon лидируют в данном бенчмарке, причём HD 5870 занимает первое место, немного опередив HD 6970 и HD 7970. Несмотря на то, что с точки зрения архитектуры,
Первые впечатления
Результаты нашего теста выглядят многообещающими, но для поклонников марки AMD ещё рано радоваться данному факту. Из-за очевидной нехватки пригодных для использования в тесте реальных приложений и бета-версии драйвера, который мы использовали, трудно сделать какой-либо вывод о реальной вычислительной производительности GPU Tahiti. Скорее, можно говорить о тенденции, которая вселяет в наши души надежду, и о том, что у нас есть все основания надеяться, что производительность в реальных приложениях будет соответствовать нашим ожиданиям, когда такие приложения появятся.
Переход с предыдущей архитектуры VLIW не привёл к существенному снижению результатов в тех приложениях, где карты Radeon традиционно были лидерами (или вообще не повлиял негативным образом, что мы видим на примере Bitmining), но смог помочь одержать верх над картами GeForce в тех областях, где в прошлом традиционно лидировали карты Vidia. Таким образом, перед нами – судя по всему, самая мощная на сегодняшний день однопроцессорная видеокарта, которая способна оставить в прошлом все ограничения предыдущего поколения видеокарт. Что же касается драйверов и сторонних приложений, то они вскоре должны появиться, хотя AMD стоило бы ускорить работу в данном направлении.
Тестирование производительности в 2D
2D Performance Via GDI and GDI+
Хотя возможности новой карты в двухмерной графике обычно привлекают меньшее внимание, чем производительность в 3D, они всё-таки имеют весьма важное значение. Явной тенденцией в рендеринге 2D-графики является использование более современного API Microsoft – Direct2D, – однако более 90 процентов современных приложений используют более старые версии GDI (Graphics Device Interface) и GDI+. В большинстве пользовательских интерфейсов основные элементы интерфейса, такие как окна, кнопки и панели инструментов, реализованы именно на основе GDI/GDI+. В то же время, некоторые старые программы, которые предназначены для специфических задач, полностью построены на базе GDI/GDI+ для рендеринга всех двухмерных объектов. По этой причине мы решили протестировать производительность в 2D-графике.
Есть ли аппаратное ускорение?
Для начала рассмотрим операции, которые не имеют аппаратного ускорения. Windows 7 резервирует часть оперативной памяти (как правило, это называется aperture space), к которой имеет прямой доступ видеокарта. Данная область используется в качестве буферной во всех случаях, когда карта не обеспечивает аппаратного ускорения. Если содержимое буферной памяти меняется вследствие того, что окно было перемещено или его содержание изменилось, элементы копируются непосредственно в память видеокарты.
К сожалению, лишь небольшое количество элементов операций GDI и GDI+ реально имеют аппаратное ускорение GPU при работе в Windows 7. Среди них – рендеринг текста, цветовых заливок, перемещения изображений (например, стандартные ресурсы ROP использует функция BitBlt, которая выполняет передачу битовых блоков информации о цвете соответствующих прямоугольнику пикселей, и функция StretchBlt, отвечающая за перемещения объектов и окон). Сюда же относится и обработка прозрачностей (AlphaBlend, TransparentBlt). При прорисовке геометрических форм аппаратное ускорение далее не применяется, копирование и цветовая заливка выводятся напрямую, минуя aperture space. Поскольку графические карты до сегодняшнего дня не включали отдельных блоков рендеринга двухмерных объектов, производительность в 2D целиком определялась качеством видеодрайвера.
Вывод текста
Работа с изображениями
Если взглянуть на производительность операций перемещения объектов, то мы видим схожий результат. Новинка Radeon уступает другим моделям в режиме прямого вывода. Интересно, что производительность в software-режиме при использовании буферной памяти значительно выше в операциях перемещения, чем в случае прямого вывода (с аппаратным ускорением).
Тем временем, простые операции копирования (blitting) не показывают столь значительного расхождения между картами, и из четырёх участников нашего теста лишь
Обработка геометрических форм
Общие впечатления
AMD, несомненно, улучшил свои драйверы с точки зрения работы с 2D-графикой.
Потенциал разгона
Представители AMD весьма уверены в высоком разгонном потенциале
Мы были бы рады представить здесь тесты, которые бы подтвердили слова AMD. К сожалению, стоковый BIOS карты намного скромнее по своим возможностям, чем те, о которых говорит AMD.
Windows-утилита AMD Overdrive не позволяет разогнать GPU до частоты свыше 1125 МГц, а память – свыше 1575 МГц. Если учесть, что стоковая частота составляет, соответственно, 925 МГц и 1375 МГц, то это, в общем-то, достаточно неплохие возможности для потребительской карты. Конечно, вендоры смогут предложить свои собственные технологии разгона, и если потенциал
Учитывая всё вышесказанное, мы установили ползунок PowerTune в утилите Overdrive на максимальное значение (20%) и попали пальцем в небо. Результат, несомненно, зависит от конкретного экземпляра карты – наш сэмпл заработал на максимальной частоте. Будет ли ваша карта работать на такой же частоте? Вполне возможно, что нет. Мы не можем гарантировать, что ваш экземпляр HD 7970 обеспечит столь же высокий уровень разгона.
Как увеличение частоты повлияет на производительность карт? Посмотрим на графики.
Энергопотребление, температура и уровень шума
Итак, мы видим, что у
Удивительно, но
Теперь настало время обратить внимание на температуру GPU. Здесь стоит отметить, что карта GeForce GTX 580, участвовавшая в данном тесте, представляет собой оригинальную модель Gigabyte GV-N580SO-15I. Она запускалась на сниженной частоте, соответствующей референсной модели, однако оснащена оригинальной системой охлаждения.
Новинка греется на уровне Radeon HD 6970, что не удивительно, так как эти карты имеют одинаковый TDP.
Теперь рассмотрим результаты теста на уровень шума. Мы снова должны обратить ваше внимание, что
Как видим, в плане шума дело обстоит не лучшим образом, и это есть первая проблема, которая, судя по всему, досталась
Возможно, проблема заключается в использовании некачественной термопасты или недостаточном контакте с поверхностью радиатора охлаждения? Чтобы исключить подозрения такого рода, мы сняли систему охлаждения и установили её обратно, использовав новую термопасту. Отметим, что сейчас AMD не рекомендует осуществлять манипуляции такого рода, поскольку использует новую термопасту, которая обеспечивает преимущество в несколько градусов по сравнению с обычной. Но, учитывая зафиксированные плохие результаты, мы всё же решили попробовать. В итоге, разницы обнаружено не было: шуметь карта меньше не стала, и при игре в Battlefield 3 мы получили точно такое же звуковое сопровождение. Однако есть основания надеяться, что в коммерческих продуктах проблема шума будет хотя бы отчасти устранена.
Radeon HD 7970: быстрая, перспективная, но немного сырая
Компьютерные энтузиасты, заинтересованные только в игровой производительности, могли бы сказать, что инвестирование огромного количества денег и времени на создание новой, более эффективной архитектуры GPU, является смелой азартной игрой – и мы, конечно, должны с этим согласиться, особенно после того, как стали свидетелями того, как недавно та же AMD представила новую архитектуру CPU. Сегодня основной задачей видеокарты класса hi-end является достижение явного преимущества в играх. И хотя мы видели попытку распределить часть вычислительной нагрузки (наподобие Quick Sync от Intel), в этом направлении мы находимся лишь вначале пути.
Действительно, мы видели отличные результаты при декодировании видео с аппаратным ускорением GPU, но реальные приложения, которые могут использовать аппаратного ускорения GPU, по-прежнему почти не встречаются в природе.
Итак, нам придётся по-прежнему опираться на ресурсы CPU при решении большинства задач. Но мы продолжим рассчитывать на то, что производители графики продолжат работу, чтобы добиться более серьёзных возможностей. Подход, предполагающий использование ресурсов видеокарты для решения вычислительных задач параллельно CPU, представляется очень перспективным направлением развития архитектуры GPU.
К счастью,
Это – шаг вперёд для компании, которая в последнее время в большей степени привлекала покупателей ценой, а не производительностью.
Помимо игровой производительности,
К сожалению, мы не можем делать выводы о ценности некоторых других новых функций или хотя бы проверить, что они вообще работают. AMD представили данную карту намного раньше, чем её возможности смогли реализовать на практике разработчики ПО. В частности, это не позволило нам протестировать технологию Video Codec Engine. А чтобы проверить поддержку DirectX 11.1, придётся ждать выхода Windows 8. С другой стороны, AMD предоставила на тестирование всего один сэмпл HD 7970, и у нас не было возможности протестировать несколько карт в режиме CrossFire.
Итак, наш обзор и тестирование оставил больше вопросов, чем ответов, и в данный момент сложно давать какой-либо совет. Мы не произвели столь обширное тестирование, чтобы давать рекомендации к её покупке, даже если бы карта уже была выставлена на продаже.
А что насчёт покупки hi-end видеокарты предыдущего поколения? В данный момент сложно рассматривать вопрос покупки модели вроде Radeon HD 6970 или
Если ли здесь негативные моменты, которые стоило бы упомянуть?
Во-первых, это цена $550 – сумма, сравнимая со стоимостью
Помимо довольно высокой цены, приходится отмечать высокий уровень шума, который производит при работе кулер референсной модели. Возможно, в дальнейшем, данный недостаток будет устранён, а иначе можно остановить свой выбор на модели с оригинальным кулером (такие карты, несомненно, появятся, как это было в случае HD 6970).
Что касается вычислительных ресурсов GPU для использования в приложениях общего назначения, то не вызывает сомнений, что
Итак, какой же основной вывод можно сделать на основе нашего теста? Вслед за Intel и nVidia, AMD решила использовать возможность разгрузки CPU за счёт ресурсов видеокарты и время покажет, имел ли смысл данный подход. Если же говорить в краткосрочной перспективе, то