Обзор GPU NVIDIA Tegra 4 | Вид изнутри
С момента премьеры первого SoC Tegra в 2008 году главным преимуществом NVIDIA в мобильном сегменте был опыт проектирования GPU и создания платформ. К тому же, компании помогли близкие отношения с игровыми производителями, поскольку большая часть мобильных игр можно отнести к сегменту мейнстрим. Тем не менее, игроделы постоянно проявляют интерес к мощным архитектурам, позволяющим использовать мощные графические движки на полную катушку, чтобы конкурировать с игровыми консолями текущего поколения.
Мы видели, как компании типа Intel выбирали NVIDIA
Мы уже знаем, что GPU Tegra 4 не использует унифицированный шейдерный дизайн. Как утверждает NVIDIA, сейчас для перехода – не самое подходящее время. В итоге перед нами снова программируемые разделённые пиксельные и вершинные шейдеры. Представители компании также не заявляли о совместимости с OpenGL ES 3.0, хотя всем понятно, что негативного влияния на возможности разработчиков для Tegra 4 технология не окажет.
Итак, GPU в новом SoC является логическим продолжением
Tegra 4 | Tegra 4i | Tegra 3 | |
Вершинные вычислительные модули | 6 | 3 | 1 |
Пиксельные шейдеры | 4 | 2 | 2 |
MAD | 72 | 60 | 12 |
Тактовая частота, МГц | 672 | 660 | 416 /520 |
Скорость заполнения текстур, Гпикс/с | 2,68 | 1,32 | 1,04 |
Интерфейс | 2 x 32-bit | 1 x 32-bit | 1 x 32-bit |
Поддерживаемая память | DDR3L-1866, LPDDR3-1866 | DDR3L-1866, LPDDR3-2133 | DDR3-1600, LPDDR2-1066 |
Техпроцесс, нм | 28 | 28 | 40 |
У Tegra 4 уже шесть вершинных вычислительных модулей, и в каждом – по четыре “ядра”. Если учесть разницу в тактовой частоте (672 МГц у Tegra 4 и 520 МГц у
Каждый из четырёх пиксельных конвейеров содержит по 12 шейдеров (где по три ALU на модуль и четыре блока умножения на каждый ALU), всего их 48. Опять же, если учесть частоту, вы получите прирост производительности в 7,75.
Обзор GPU NVIDIA Tegra 4 | Принцип работы
По существу архитектура вершинной обработки Tegra 4 не отличается от архитектуры GPU NV40, на котором в 2004 году работали видеокарты серии GeForce 6800.
После блока обработки вершин данные подаются в блок триангуляции, который может формировать видимый треугольник за пять тактов.
Дальше треугольники превращаются в пиксели. Tegra 4 выполняет комбинацию растеризации и раннего Z-обнаружения на скорости восемь пикселей за такт, отбрасывая данные, которые не будут видимыми, на ранних этапах обработки, тем самым избавляя ядро от лишней работы. Вряд ли кого-то это удивит, но этот подход позаимствован у настольных графических процессоров.
Чем режим непосредственного рендеринга NVIDIA отличается от метода “отложенной мозаичной отрисовки” (Tile Based Deferred Rendering, TBDR) ядра PowerVR IP от Imagination Technologies и, следовательно, от чипов SoC Apple Ax и Intel Atom? В архитектуре TBDR перед стадией растеризации кадры делятся на мозаику, в результате данные геометрии помещаются в буферную память, где разбираются оставшиеся пиксели. С ростом сложности геометрии сцены процесс удаления скрытых поверхностей происходит не так хорошо.
Блочная диаграмма Tegra 4
Вернёмся к Tegra 4. Значение цвета пикселя и данные Z-буфера сжимаются специальным алгоритмом без потерь. Сжатие особенно актуально при включении сглаживания, потому как уменьшает поток данным и потери пропускной способности памяти (об этом далее). Данные хорошо сжимаются, с высоким коэффициентом. Итак, такой подход означает, что данные сжимаются только тогда, когда это возможно, поэтому в памяти выделяется ровно столько же места, как если бы сжатие не применялось, по этой части экономии нет. Однако получается хороший выигрыш в пропускной способности шины памяти.
После растеризации данные поступают на конвейер фрагментной обработки, который может обрабатывать четыре пикселя за такт. Как мы уже говорили, каждый пиксельный конвейер имеет три ALU с четырьмя модулями умножения, плюс один многофункциональный блок, обеспечивающий работу нескольких комбинированных инструкций VLIW для различных задач (нормализация и комбинирование, смешивание, вычисления для стандартного освещения и т.д.). Tegra 4 имеет 24 регистра FP20 на пиксель по сравнению с 16-ю у
У каждого из четырёх каналов есть собственный кэш L1 для чтения и записи, а также новая особенность Tegra 4 – общий кэш L2 для текстур. Естественно, фильтрация текстур будет происходить в большей степени локально, снова экономя пропускную способность памяти.
Несмотря на то, что инженеры NVIDIA сделали так много изменений по всему GPU для экономии пропускной способности памяти, требования к самой памяти остались по-прежнему высоки.
Обзор GPU NVIDIA Tegra 4 | Функции и функциональность
Судя по характеристикам,
Активация HDR
По части DirectX, GPU
Тем не менее,
Тени
Включение глубоких текстур и процент фильтрации текстур для карт теней позволяет реализовать тени более высокого качества с фильтрацией по краям. Конечно, с DirectX 11 и GPU класса TFLOP добиться реализма легче, однако такая обработка теней в DirectX 9 всё ещё распространена на некоторых консолях. В
NVIDIA повысила максимальное разрешение текстур в
NVIDIA говорит, что кроме текстур высокого разрешения в разработке находятся игры с настоящим HDR.
Обзор GPU NVIDIA Tegra 4 | Tegra 4i: весь в отца
Хотя CPU в Tegra 4i сильно отличается, его GPU имеет одинаковую с
Блочная диаграмма Tegra 4i
Тем не менее, Tegra 4i предназначена для смартфонов, поэтому, прежде всего, должна ставить в приоритет эффективность, для этого NVIDIA решила опереться на одноканальную память с 32-битным интерфейсом. Но почему именно одноканальную, а не двухканальную? Во-первых, двухканальный дизайн тяжело вместить в Tegra 4i размером 12×12 мм. К тому же, два канала негативно повлияют на базовое энергопотребление. Итак, реализация одного канала с памятью DDR3-2133 удваивает пропускную способность
Это также помогает понять, для каких устройств предназначен новый SoC. Планшеты типа Nexus 10 работают с разрешениями 2560×1600 пикселей, а последние суперфоны поддерживают до 1080p на 5-дюймовых дисплеях. С двумя пикселями за такт, Tegra 4i с частотой 660 МГц обрабатывает более 1,3 Гпикс/с. Телефону с дисплеем 1080p с двумя миллионами пикселей, частотой обновления 60 Гц нужно менее 125 миллионов пикселей в секунду. Tegra 4i может заполнить каждый пиксель сразу на десяти таких телефонах. Следовательно, NVIDIA считает, что эффективное балансирование ресурсов – это ключ к успеху в целевой платформе для Tegra 4i.
Обзор GPU NVIDIA Tegra 4 | Максимизация производительности на квадратный миллиметр
Очевидно, что NVIDIA пришлось постараться, чтобы разместить GPU
Но, в конечном счёте, сегодня мы не можем получить на мобильной платформе качество и функционал, характерный для PC. Лидерство NVIDIA в этом сегменте говорит о том, что
Tegra 3 | Tegra 4 | Tegra 4/Tegra 3 | |
GLBenchmark 2.5, Frame Rate 720p, On-Screen | 57 FPS | 60 FPS | |
Потребляемая мощность (мВт) | 2294 | 1521 | |
Производительность на ватт | 24,9 | 39,4 | 1,6x |
GLBenchmark 2.5 Frame Rate 1080p, Off-Screen | 12 FPS | 54 FPS | |
Потребляемая мощность (мВт) | 1629 | 3674 | |
Производительность на ватт | 7,4 | 14,7 | 2x |
Источник: NVIDIA
Вот один пример: в экранном тесте GLBenchmark 2.5 720p
Понятно, что это собственные показатели NVIDIA и они охватывают только одну из подсистем SoC. Тем не менее, из обзора