РЕКЛАМА
ИНФОРМАЦИЯ
ПОЛЕЗНЫЕ ССЫЛКИ
nVidia GeForce GTX 260 и 280: новое поколение видеокарт

nVidia CUDA: вычисления на видеокарте или смерть CPU?

Rambler's Top100 Рейтинг@Mail.ru

ВИДЕОКАРТЫ

ATI Radeon HD 4850: лучшее соотношение цена/ производительность
Краткое содержание статьи: Совсем недавно nVidia представила новые видеокарты на GPU GT200, и ответ AMD не заставил себя ждать. Но вместо раздувания кристалла до непомерных размеров, инженеры AMD сконцентрировались на качественных изменениях и оптимизации предыдущей архитектуры. В результате мы получили крайне эффективный чип, который обеспечивает великолепное отношение цена/качество.

ATI Radeon HD 4850: лучшее соотношение цена/ производительность


Редакция THG,  25 июня 2008
Назад
Вы читаете страницу 2 из 9
1 2 3 4 5 6 7 8 9
Далее


Архитектура в деталях

Подобно nVidia, AMD решила построить графические процессоры на предыдущей архитектуре, а не изобретать новую "с нуля". Она очень близка к R600, которая уже прошла вторую итерацию в виде RV670.


ATI Raden HD 4850

Ядра SIMD

Архитектура, изначально представленная с Xenos, тем же самым GPU, что используется в Xbox 360, построена на группе SIMD-массивов. У Xenos используется три SIMD-массива, а у R600 и RV670 их четыре. RV770 идёт ещё дальше с десятью массивами.

ATI Raden HD 4850

Как вы наверняка догадались, каждый массив SIMD состоит из 80 АЛУ (потоковых процессоров), поскольку GPU обладает 800 АЛУ. Действительно так, но на самом деле всё несколько сложнее: 80 АЛУ нельзя назвать независимыми друг от друга. Они сгруппированы вместе в пятиканальные блоки VLIW - 16 блоков на SIMD-массив. Подобная организация накладывает некоторые ограничения на выполняемые инструкции; каждая из пяти инструкций блока VLIW должна быть независима от остальных. Поэтому компилятору нужно находить достаточное число независимых инструкций, чтобы нагружать АЛУ - в отличие от G80, где решение более "аппаратное".

Проиллюстрируем примером.

  • I1 FADD R1, R1, 3.14
  • I2 FMUL R2, R1, 1.41
  • I3 FMAD R3, R0, 0.5, 0.5

В данном случае инструкции 1 и 3 могут обрабатываться в одном блоке VLIW, но не инструкция 2, которая зависит от результатов инструкции 1. Если компилятор не найдёт достаточного числа операций в окне инструкций, ему придётся заполнять свободные места инструкциями NOP, которые ничего не делают, только снижают производительность GPU. Это сводится к тому, что в реальности АЛУ nVidia работают на пиковой производительности чаще, поскольку они меньше зависят от кода. С другой стороны, АЛУ nVidia обходятся существенно "дороже" по числу транзисторов. Производительность блоков VLIW у AMD очень сильно зависит от производительности компилятора (компилятор находится на уровень "глубже" драйвера, который реорганизует инструкции ассемблера, генерируемые HLSL), но AMD может включить на кристалл намного большее число АЛУ, сохранив существенно меньшую площадь.

ATI Raden HD 4850

Блоки VLIW сами по себе не были существенно пересмотрены; внутри их четыре АЛУ могут выполнять инструкции FMAD или целочисленного сложения, а специальное АЛУ может выполнять FMAD или целочисленное умножение, либо трансцендентную функцию (синус, косинус, логарифм, экспонента и т.д.). Единственное реальное улучшение заключается в операциях битового сдвига в целых числах, которые теперь могут выполняться всеми из пяти АЛУ, хотя у 2900/3800 для этой цели требовалось работа специального АЛУ. Вместо того, чтобы сделать АЛУ более мощными, AMD сконцентрировалась на их оптимизации, чтобы снизить их размер на кристалле и упаковать на GPU как можно больше.

Локальные и глобальные данные

ATI Radeon 4850

Нажмите на картинку для увеличения.

С выходом RV770 инженеры не только оптимизировали архитектуру, ненамного увеличив "бюджет" транзисторов, но и взяли часть идей у конкурента. В G80 появилась небольшая 16-кбайт область памяти на каждый мультипроцессор, которая была отдана полностью под управление программисту, в отличие от кэша. Эта область памяти, доступная приложениям CUDA, позволяет обмениваться данными между потоками. AMD тоже объявила о своей версии памяти у процессора RV770. Она называется Local Data Share и имеет точно такой же размер, как и Shared Memory у конкурента. И роль у неё такая же: обмен данными в приложениях GPGPU между потоками. Однако RV770 идёт немного дальше, предоставляя ещё одну область памяти (тоже 16 кбайт) под название Global Data Share, которая позволяет обмениваться данными уже между SIMD-массивами.

Текстурные блоки

Хотя АЛУ не претерпели существенных модификаций, текстурные блоки были полностью переработаны. Цель очевидна: как и на остальной части GPU, нужно было существенно поднять производительность, сохранив минимально возможную площадь кристалла. Инженеры поставили перед собой решение весьма амбициозных задач, а именно повысить производительность на 70% при той же площади кристалла. Чтобы это сделать, они сфокусировали внимание на текстурном кэше. Пропускная способность текстурного кэша L1 была увеличена до 480 Гбайт/с.

ATI Raden HD 4850

Но это ещё не всё: кэш L1, который является общим для всех массивов SIMD, был разбит на 10 областей, по одной на каждый SIMD-массив, причём каждая область содержит данные эксклюзивно только для соответствующего SIMD-массива. Общие данные теперь хранятся в кэше L2, который был тоже полностью переработан, он получил пропускную способность до кэша L1 384 Гбайт/с. Чтобы снизить задержки, кэш L2 был расположен рядом с контролерами памяти. Давайте посмотрим, к чему привели эти улучшения на практике.

ATI Raden HD 4850

По сравнению с прямым конкурентом 9800 GTX, видеокарта Radeon HD 4850 показала превосходную производительность с одной и двумя текстурами - что можно было ожидать, учитывая 40 текстурных блоков для 16 ROP (проще говоря, "2,5 текстурных блока на пиксель"). С другой стороны, на трёх и четырёх текстурах RV700, вполне логично, не может конкурировать с 64 текстурными блоками G92 (эквивалент "4 текстурных блока на пиксель"), но во всех случаях RV770 оказывается ближе к теоретической производительности, чем конкурент.
Назад
Вы читаете страницу 2 из 9
1 2 3 4 5 6 7 8 9
Далее


СОДЕРЖАНИЕ

Отзывы о ATI Radeon HD 4850 в Клубе экспертов THG [ 1325 отзывов] Отзывы о ATI Radeon HD 4850 в Клубе экспертов THG [ 1325 отзывов]


РЕКЛАМА
РЕКОМЕНДУЕМ ПРОЧЕСТЬ!

История мейнфреймов: от Harvard Mark I до System z10 EC
Верите вы или нет, но были времена, когда компьютеры занимали целые комнаты. Сегодня вы работаете за небольшим персональным компьютером, но когда-то о таком можно было только мечтать. Предлагаем окунуться в историю и познакомиться с самыми знаковыми мейнфреймами за последние десятилетия.

Пятнадцать процессоров Intel x86, вошедших в историю
Компания Intel выпустила за годы существования немало процессоров x86, начиная с эпохи расцвета ПК, но не все из них оставили незабываемый след в истории. В нашей первой статье цикла мы рассмотрим пятнадцать наиболее любопытных и памятных процессоров Intel, от 8086 до Core 2 Duo.

ССЫЛКИ