РЕКЛАМА
ИНФОРМАЦИЯ
ПОЛЕЗНЫЕ ССЫЛКИ
ARM против x86: секрет эффективности процессоров Atom

Nvidia Tegra 3: Изучаем оптимизацию графики

Intel Clover Trail+: новая платформа для смартфонов на базе Atom Z2580

Nvidia Shield: обзор портативной игровой консоли на базе Tegra 4

Snapdragon S4 Pro: обзор и тест мобильного чипа

Core i7-3720QM: тест и обзор мобильного процессора

AMD A10-4600M: тест и обзор мобильного процессора на базе архитектуры Trinity

Мобильные процессоры: Intel против Qualcomm

GPU NVIDIA Tegra 4: удвоение эффективности

Rambler's Top100 Рейтинг@Mail.ru

ВИДЕОКАРТЫ

GPU NVIDIA Tegra 4: удвоение эффективности
Краткое содержание статьи: Энергоэффективность и архитектура графического ядра NVIDIA Tegra 4.

GPU NVIDIA Tegra 4: удвоение эффективности


Редакция THG,  19 марта 2013
Страница: Назад  1 2 Далее


Обзор GPU NVIDIA Tegra 4 | Вид изнутри

С момента премьеры первого SoC Tegra в 2008 году главным преимуществом NVIDIA в мобильном сегменте был опыт проектирования GPU и создания платформ. К тому же, компании помогли близкие отношения с игровыми производителями, поскольку большая часть мобильных игр можно отнести к сегменту мейнстрим. Тем не менее, игроделы постоянно проявляют интерес к мощным архитектурам, позволяющим использовать мощные графические движки на полную катушку, чтобы конкурировать с игровыми консолями текущего поколения.

Мы видели, как компании типа Intel выбирали NVIDIA Tegra 3 на базе Cortex-A9 за ориентир в энергопотреблении, и сейчас NVIDIA представляет Tegra 4 как лучшее решение в рамках производительности на квадратный миллиметр и, соответственно, производительности на ватт. По сути, у NVIDIA уже есть референсный дизайн смартфона на базе SoC Tegra 4i под названием Phoenix. Две платы на фото ниже предназначены для установки в 5-дюймовые устройства и содержат различные версии Tegra 4.

GPU NVIDIA Tegra 4: тест и обзор

Мы уже знаем, что GPU Tegra 4 не использует унифицированный шейдерный дизайн. Как утверждает NVIDIA, сейчас для перехода - не самое подходящее время. В итоге перед нами снова программируемые разделённые пиксельные и вершинные шейдеры. Представители компании также не заявляли о совместимости с OpenGL ES 3.0, хотя всем понятно, что негативного влияния на возможности разработчиков для Tegra 4 технология не окажет.

Итак, GPU в новом SoC является логическим продолжением Tegra 3 с дополнительными усовершенствованиями.

Tegra 4 Tegra 4i Tegra 3
Вершинные вычислительные модули 6 3 1
Пиксельные шейдеры 4 2 2
MAD 72 60 12
Тактовая частота, МГц 672 660 416 /520
Скорость заполнения текстур, Гпикс/с 2,68 1,32 1,04
Интерфейс 2 x 32-bit 1 x 32-bit 1 x 32-bit
Поддерживаемая память DDR3L-1866, LPDDR3-1866 DDR3L-1866, LPDDR3-2133 DDR3-1600, LPDDR2-1066
Техпроцесс, нм 28 28 40

Tegra 3 использует один модуль вершинных шейдеров с четырьмя ядрами, совместимыми с FP32. Также SoC включает два конвейера с четырьмя ядрами FP20 на каждом. Четыре вершинных и восемь пиксельных шейдеров составляют, так называемый, 12-ядерный дизайн GPU Tegra 3.

GPU NVIDIA Tegra 4: тест и обзор

У Tegra 4 уже шесть вершинных вычислительных модулей, и в каждом - по четыре "ядра". Если учесть разницу в тактовой частоте (672 МГц у Tegra 4 и 520 МГц у Tegra 3) то производительность вершинных шейдеров новом поколении повысилась в 7,75 раз.

Каждый из четырёх пиксельных конвейеров содержит по 12 шейдеров (где по три ALU на модуль и четыре блока умножения на каждый ALU), всего их 48. Опять же, если учесть частоту, вы получите прирост производительности в 7,75.

Обзор GPU NVIDIA Tegra 4 | Принцип работы

По существу архитектура вершинной обработки Tegra 4 не отличается от архитектуры GPU NV40, на котором в 2004 году работали видеокарты серии GeForce 6800.

После блока обработки вершин данные подаются в блок триангуляции, который может формировать видимый треугольник за пять тактов.

Дальше треугольники превращаются в пиксели. Tegra 4 выполняет комбинацию растеризации и раннего Z-обнаружения на скорости восемь пикселей за такт, отбрасывая данные, которые не будут видимыми, на ранних этапах обработки, тем самым избавляя ядро от лишней работы. Вряд ли кого-то это удивит, но этот подход позаимствован у настольных графических процессоров.

Чем режим непосредственного рендеринга NVIDIA отличается от метода "отложенной мозаичной отрисовки" (Tile Based Deferred Rendering, TBDR) ядра PowerVR IP от Imagination Technologies и, следовательно, от чипов SoC Apple Ax и Intel Atom? В архитектуре TBDR перед стадией растеризации кадры делятся на мозаику, в результате данные геометрии помещаются в буферную память, где разбираются оставшиеся пиксели. С ростом сложности геометрии сцены процесс удаления скрытых поверхностей происходит не так хорошо.

GPU NVIDIA Tegra 4: тест и обзор

Блочная диаграмма Tegra 4

Вернёмся к Tegra 4. Значение цвета пикселя и данные Z-буфера сжимаются специальным алгоритмом без потерь. Сжатие особенно актуально при включении сглаживания, потому как уменьшает поток данным и потери пропускной способности памяти (об этом далее). Данные хорошо сжимаются, с высоким коэффициентом. Итак, такой подход означает, что данные сжимаются только тогда, когда это возможно, поэтому в памяти выделяется ровно столько же места, как если бы сжатие не применялось, по этой части экономии нет. Однако получается хороший выигрыш в пропускной способности шины памяти.

После растеризации данные поступают на конвейер фрагментной обработки, который может обрабатывать четыре пикселя за такт. Как мы уже говорили, каждый пиксельный конвейер имеет три ALU с четырьмя модулями умножения, плюс один многофункциональный блок, обеспечивающий работу нескольких комбинированных инструкций VLIW для различных задач (нормализация и комбинирование, смешивание, вычисления для стандартного освещения и т.д.). Tegra 4 имеет 24 регистра FP20 на пиксель по сравнению с 16-ю у Tegra 3, что позволяет обрабатывать больше потоков "на лету".

У каждого из четырёх каналов есть собственный кэш L1 для чтения и записи, а также новая особенность Tegra 4 – общий кэш L2 для текстур. Естественно, фильтрация текстур будет происходить в большей степени локально, снова экономя пропускную способность памяти.

Несмотря на то, что инженеры NVIDIA сделали так много изменений по всему GPU для экономии пропускной способности памяти, требования к самой памяти остались по-прежнему высоки. Tegra 3 оснащалась одноканальной памятью с 32-битным интерфейсом. Tegra 4 использует два канала по 32 бит наряду с модулями LPDDR3 1866. Такое решение обеспечивает трёхкратный прирост пропускной способности по сравнению с LPDDR2-1066.
Страница: Назад  1 2 Далее


СОДЕРЖАНИЕ

GPU NVIDIA Tegra 4. Отзывы в Клубе экспертов THG [ 4 отзывов] GPU NVIDIA Tegra 4. Отзывы в Клубе экспертов THG [ 4 отзывов]


РЕКЛАМА
РЕКОМЕНДУЕМ ПРОЧЕСТЬ!

История мейнфреймов: от Harvard Mark I до System z10 EC
Верите вы или нет, но были времена, когда компьютеры занимали целые комнаты. Сегодня вы работаете за небольшим персональным компьютером, но когда-то о таком можно было только мечтать. Предлагаем окунуться в историю и познакомиться с самыми знаковыми мейнфреймами за последние десятилетия.

Пятнадцать процессоров Intel x86, вошедших в историю
Компания Intel выпустила за годы существования немало процессоров x86, начиная с эпохи расцвета ПК, но не все из них оставили незабываемый след в истории. В нашей первой статье цикла мы рассмотрим пятнадцать наиболее любопытных и памятных процессоров Intel, от 8086 до Core 2 Duo.

ССЫЛКИ