РЕКЛАМА
ИНФОРМАЦИЯ
ПОЛЕЗНЫЕ ССЫЛКИ
nVidia GeForce GTX 260 и 280: новое поколение видеокарт

Radeon HD 4870: быстрее GTX 260!

AMD Radeon HD 4770: первый 40-нм GPU для массового рынка

AMD Radeon HD 4770 в конфигурации CrossFire: убедительная пара

ATI Radeon HD 4850: лучшее соотношение цена/ производительность

OpenGL 3 против DirectX 11: война закончена

ATI Stream: тесты приложений на GPU

nVidia CUDA: тесты приложений на GPU для массового рынка

Платформа AMD Maui: HTPC с усилителем под Windows 7. Часть II

Производительность Core i5 и i7 для Socket LGA 1156 (Lynnfield) в играх

Resident Evil 5: анализ качества и производительности

AMD Radeon HD 4890: новый лидер DirectX 10.1 с одним GPU

ATI Radeon HD 5850: великолепная производительность по приемлемой цене

Rambler's Top100 Рейтинг@Mail.ru

ВИДЕОКАРТЫ

ATI Radeon HD 5870: DirectX, Eyefinity и прекрасная скорость
Краткое содержание статьи: AMD представила новую видеокарту ATI Radeon HD 5870, которая позволила этой компании вернуть звание лидера среди моделей с одним GPU. AMD считает, что DirectX 11, потоковые вычисления и Eyefinity являются замечательной комбинацией функций видеокарты следующего поколения. Radeon HD 5870 даёт прекрасную производительность в современных играх, а также обеспечивает и дополнительные функции, которые разработчики наверняка будут использовать в будущих играх. Предлагаем ознакомиться с подробным обзором новинки

ATI Radeon HD 5870: DirectX, Eyefinity и прекрасная скорость


Редакция THG,  25 сентября 2009
Назад
Вы читаете страницу 2 из 8
1 2 3 4 5 6 7 8
Далее


Рассматриваем архитектуру

Достижение упомянутых пяти целей потребовало от AMD серьёзной доработки архитектуры, хотя многие улучшения явно были взяты из линейки Radeon HD 4800 (и серии 3800 до неё).

ATI Radeon HD 5870

Диаграмма Cypress. Нажмите на картинку для увеличения.

Перед тем, как мы перейдём к деталям вычислительных мощностей шейдеров GPU, давайте рассмотрим графический движок, который содержит движок тесселяции ATI шестого поколения. Раньше мы видели, как компания буквально воспевала тесселяцию. Но, как и многие технологии, которые поддерживаются только одним производителем, тесселяция в играх поддерживалась весьма ограниченно. Теперь тесселяция стала частью конвейера DirectX 11, расположившись между оболочечными/hull и доменными/domain шейдерами. Тесселятор - это компонент с фиксированной функциональностью, который можно использовать или нет, в зависимости от применяемой техники тесселяции.

В своём описании архитектуры AMD не очень понятно упомянула о сдвоенных растеризаторах. Как вы, вероятно, знаете, современные GPU способны выполнять растеризацию одного треугольника на такт, и подобный последовательный подход стал основной причиной ограничения производительности, что наблюдается в синтетических тестах геометрии в архитектурах с унифицированными шейдерами.

Поначалу мы полагали, что AMD нашла способ сделать настройку треугольников параллельной, что прекрасно бы подошло для GPU, подчёркивающего важность тесселяции. Есть, конечно, ряд опций для растеризации нескольких треугольников параллельно, но они очень сложные. Поэтому нам было интересно, как AMD сможет решить эту задачу. К сожалению, решение нас разочаровало. На практике у нас имеется по-прежнему одиночный растеризатор, обрабатывающий за такт один треугольник. Но теперь присутствует в два раза больше блоков SCU (scan conversion units), генерирующих 32 пикселя на такт, чтобы соответствовать увеличению числа блоков растеризации (ROP). Поэтому вместо двух растеризаторов лучше называть такую конфигурацию более мощным растеризатором.

И пока мы обсуждаем блоки настройки и растеризации треугольников, нам следует упомянуть ещё одно изменение. Блоки с фиксированной функциональностью, которые отвечали за вычисления интерполяции, исчезли, теперь за эту работу отвечают блоки обработки шейдеров. AMD заявляет, что влияние на производительность это оказало мизерное, но такой шаг вполне соответствует текущей тенденции избавления от максимально возможного числа блоков с фиксированными функциями, полностью полагаясь на огромную вычислительную мощность современных GPU.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/stream_processor.jpg for processing

Как мы уже упоминали раньше, организация потоковых ядер AMD не изменилась. Впрочем, теперь они работают более эффективно. В нашем первом обзоре Radeon HD 4850 мы обнаружили, что архитектура AMD VLIW зависит от эффективности компилятора для максимального увеличения производительности - иначе эти АЛУ будут бездействовать. В случае RV770 каждая из пяти инструкций в порции VLIW должна быть независима от остальных. Теперь Cypress может выполнять умножение и добавление, зависимое от результата другой операции за тот же самый такт. Возьмём следующий пример.

a=b*c;

d=a+x;

В случае RV770 эти инструкции нельзя было бы отправить в одной порции. Но теперь такая возможность появилась, поскольку две данных операции могут быть объединены в одну операцию MAD, где будет просчитываться промежуточный результат. Точно так же RV770 мог работать только с инструкциями DP4 (скалярные с четырьмя компонентами), а инструкции DP2 и DP3 реализовывались через DP4. В результате подобный дизайн приводил к тому, что некоторые слоты в порции терялись из-за избыточных операций. AMD утверждает, что работа со скалярными компонентами теперь стала более гибкой, хотя дальше она не была проработана. Как мы предполагаем, инженеры реализовали поддержку инструкций DP2 и DP3 в "родном" режиме, чтобы параллельно могли выполняться и другие вычисления.

ATI Radeon HD 5870

Диаграмма Cypress. Нажмите на картинку для увеличения.

Поддержка целочисленных операций тоже была изменена. Раньше каждое из четырёх потоковых ядер могло выполнять одну операцию добавления или битового сдвига на 32-битных целых числах за такт, а ядро с увеличенным функционалом могло выполнять умножение или битовый сдвиг (тоже на 32-битных целых числах). Теперь четыре ядра способны выполнять умножение или добавление за такт, но только с 24-битными целыми числами. Данный выбор стал результатом компромисса между увеличением общей производительности и не слишком серьёзной траты на эту задачу дополнительных ресурсов, которые потребовались бы для выполнения полного 32-битного умножения в каждом потоковом ядре. Ограничив себя 24-битными операциями, инженеры смогли повторно использовать ресурсы, которые предназначались для обработки чисел с плавающей запятой одинарной точности, вместе с тем максимизировав использование блоков шейдеров.

Помимо указанных оптимизаций, команда разработчиков AMD представила две новых инструкции: слияния множественных сложений (fused multiply-add, FMAD), которая сохраняет точность вычислений в процессе и выполняет одно финальное округление, в отличие тот стандартного множественного сложения (MAD), где выполняется два округления. Вторая инструкция является суммой абсолютных разностей (sum of absolute differences, SAD) - эта операция часто используется в видео (в частности, для сравнения блоков пикселей). Мы проверили данные улучшения, используя разные шейдеры.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench1.png for processing

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench2.png for processing

Хотя мы смогли сохранить прирост 2,26x между Radeon HD 4870 и HD 5870 на большинстве простых шейдеров DirectX 9, которые мы запустили, отрыв снизился до 1,68x при добавлении попиксельного освещения.

Теперь давайте перейдём к более сложным шейдерам DirectX 10.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench3.png for processing

С процедурными текстурами теоретический прирост в чистой производительности практически подтвердился, поскольку Radeon HD 5870 оказался в 2,24x раза быстрее 4870. Нет никаких сомнений, в том, что в процессоре присутствуют 1600 потоковых ядер.

Если потоковые вычислительные ядра изменились незначительно, то текстурные блоки вообще едва подверглись изменению по сравнению с RV770. На практике, за исключением поддержки текстур 16Kx16K и двух новых форматов сжатия текстур (оба из которых были необходимы для совместимости с DirectX 11), ничего нового не произошло. Тест Steep Parallax Mapping это явно демонстрирует.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench4.png for processing

В драйверах, по всей видимости, добавилась небольшая оптимизация, поскольку прирост в данном случае (а также и в других шейдерах, таких как Fur) составил 2,35x между двумя Radeon.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench5.png for processing

Производительность геометрических шейдеров (геометрическая производительность), с другой стороны, улучшилась всего на 42%.

Couldn't find /usr/www/users/russian/graphic/ati_radeon_hd_5870/images/bench6.png for processing

Последний тест демонстрирует производительность запроса текстур (она важна для карт смещения, например). Здесь мы наблюдаем скромный прирост 34%.

Вам следует помнить, что хотя общая пропускная способность кэша L1 и увеличилась, прирост оказался всего в два раза, что соответствует увеличению числа текстурных блоков. То же самое можно сказать и про объём кэша L2, который удвоился. Но, опять же, это связано с тем, что число блоков тоже удвоилось. Что хуже, пропускная способность L1/L2 увеличилась только пропорционально частоте GPU, хотя теперь нужно обрабатывать в два раза большее число блоков. Собственно, это как раз одна из причин, почему архитектура Cypress не смогла дать в два раза большую производительность относительно предшественника в приведённых текстурных тестах.

В отношении блоков растровых операций (ROP) нет ничего особого нового. AMD просто оптимизировала связь между блоками ROP и текстурными блоками, позволяя текстурным блокам считывать сжатый формат, используемый при прямой реализации сглаживания. Данная функция, которая уже есть в GPU nVidia, должна дать более высокую производительность в операциях пост-обработки в кадровом буфере.

Помимо этого характеристики остались точно такими же, что и в случае RV770; максимальный выход в сглаживании 2x и 4x (32 пикселей/такт), но сниженный в два раза выход (16 пикселей/такт) при использовании сглаживания 8x. У проходов рендеринга только-Z не произошло каких-либо оптимизаций, они выполняются по-прежнему только в четыре раза быстрее (128 пикселей/такт).
Назад
Вы читаете страницу 2 из 8
1 2 3 4 5 6 7 8
Далее


СОДЕРЖАНИЕ

Отзывы о ATI Radeon HD 5870 в Клубе экспертов THG [ 1777 отзывов] Отзывы о ATI Radeon HD 5870 в Клубе экспертов THG [ 1777 отзывов]


РЕКЛАМА
РЕКОМЕНДУЕМ ПРОЧЕСТЬ!

История мейнфреймов: от Harvard Mark I до System z10 EC
Верите вы или нет, но были времена, когда компьютеры занимали целые комнаты. Сегодня вы работаете за небольшим персональным компьютером, но когда-то о таком можно было только мечтать. Предлагаем окунуться в историю и познакомиться с самыми знаковыми мейнфреймами за последние десятилетия.

Пятнадцать процессоров Intel x86, вошедших в историю
Компания Intel выпустила за годы существования немало процессоров x86, начиная с эпохи расцвета ПК, но не все из них оставили незабываемый след в истории. В нашей первой статье цикла мы рассмотрим пятнадцать наиболее любопытных и памятных процессоров Intel, от 8086 до Core 2 Duo.

ССЫЛКИ