Обзор Nvidia GeForce GTX 1080 Pascal | Знакомимся с графическим процессором GP104
В преддверии выставки Computex Nvidia решила представить свою долгожданную новинку – адаптированную для геймеров архитектуру Pascal. В новых видеокартах GeForce GTX 1080 и 1070 производитель устанавливает графический процессор GP104. Сегодня, мы рассмотрим старшую модель, а младшая должна оказаться в наших руках в начале июня.
Архитектура Pascal обещает более быструю и более эффективную работу, больше вычислительных модулей, уменьшенную площадь кристалла и более быструю память с модернизированным контроллером. Она лучше подходит для виртуальной реальности, игр в 4K и других задач, требующих высокой производительности.
Как всегда, мы постараемся разобраться в обещаниях производителя и проверить их на практике. Начнем.
Изменит ли GeForce GTX 1080 расстановку сил в сегменте High-End?
Nvidia GeForce GTX 1080 – наиболее быстрая из двух игровых видеокарт, анонсированных в начале месяца. Обе используют графический процессор GP104, который, кстати, является уже вторым GPU с микроархитектурой Pascal (первым был GP100, появившийся на GTC в апреле). CEO Nvidia Жэнь-Сунь Хуань подразнивал энтузиастов, когда представлял новинку широкой общественности, утверждая, что GeForce GTX 1080 обгонит две 980 в SLI.
Также он отметил, что GTX 1080 при большей производительности имеет меньшее энергопотребление, чем 900-я серия. Она вдвое производительнее и втрое эффективнее бывшего флагмана GeForce Titan X, но если всмотреться в сопутствующие графики и диаграммы, то выясняется, что такая внушительная разница проявляется в определенных задачах, связанных с виртуальной реальностью. Но даже если эти обещания подтвердятся лишь частично, нас все равно ждут весьма интересные времена в плане развития high-end игр на ПК.
Виртуальная реальность начинает понемногу набирать обороты, но высокие аппаратные требования для графической подсистемы создают существенный барьер для доступа к этим технологиям. Кроме того, большинство доступных сегодня игр не умеют использовать преимущества многопроцессорного рендеринга. То есть, вы, как правило, ограничены возможностями одного быстрого видеоадаптера с одним GPU. GTX 1080 способна превзойти по скорости работы две 980-х и не должна испытывать затруднений в современных VR-играх, нивелируя потребность в многопроцессорных конфигурациях в будущем.
Не меньшими темпами прогрессирует экосистема 4K. Интерфейсы с повышенной пропускной способностью, такие как HDMI 2.0b и DisplayPort 1.3/1.4 должны открыть дверь для 4K мониторов со 120 Гц панелями и поддержкой динамической частоты обновления экрана уже к концу этого года. Хотя предыдущие поколения топовых графических процессоров AMD и Nvidia позиционировались как решения для игр в 4K, пользователям приходилось идти на компромиссы по качеству, чтобы поддерживать приемлемую частоту кадров. GeForce Nvidia GTX 1080 может стать первым графическим адаптером, скорости которого будет достаточно для поддержания высокой частоты кадров в разрешении 3840×2160 точек с максимальными настройками детализации графики.
Какова ситуация с конфигурациями из нескольких мониторов? Многие геймеры готовы устанавливать по три монитора с разрешением 1920×1080, но при условии, что графическая система справится с нагрузкой, ведь в этом случае карте приходится отрисовывать полмиллиона пикселей, поскольку разрешение составляет 7680×1440. Есть даже энтузиасты, готовые взять три 4K-дисплея с совокупным разрешением 11520×2160 точек.
Последний вариант слишком экзотичный даже для новой геймерской флагманской видеокарты. Тем не менее, процессор Nvidia GP104 оснащен технологией, которая обещает улучшить впечатления от типичных для новой модели задач, то есть 4K и Surround. Но прежде, чем мы перейдем к новым технологиям, давайте поближе познакомимся с процессором GP104 и лежащей в его основе архитектурой Pascal.
Из чего состоит GP104?
С начала 2012 года AMD и Nvidia используют 28-нанометровый техпроцесс. Перейдя на него, обе компании сделали существенный рывок вперед, представив нам видеокарты Radeon HD 7970 и GeForce GTX 680. Тем не менее, за последующие четыре года им пришлось сильно изворачиваться, чтобы вытянуть больше производительности из существующей технологии. Достижения видеокарты Radeon R9 Fury X и GeForce GTX 980 Ti – это настоящее чудо, учитывая их сложность. Первым чипом, созданным Nvidia по техпроцессу 28 нм, был GK104, состоявший из 3,5 миллиардов транзисторов. GM200, который устанавливается в GeForce GTX 980 Ti и Titan X, имеет уже восемь миллиардов транзисторов.
Переход на 16 нм технологию TSMC FinFET Plus позволил инженерам Nvidia реализовать новые идеи. Согласно техническим данным чипы 16FF+ на 65% быстрее, могут иметь вдвое большую плотность, чем 28HPM, либо потреблять на 70 меньше энергии. При создании своих GPU Nvidia использует оптимальную комбинацию этих достоинств. TSMC утверждает, что в основу были положены инженерные наработки существующего процесса 20 нм, но вместо плоских транзисторов использовала транзисторы FinFET. В компании говорят, что такой подход снижает количество брака, и повышает выход рабочих пластин. Также утверждается, что 20-нанометрвого техпроцесса с быстрыми транзисторами у компании не было. Повторимся, мир компьютерной графики более четырех лет “сидит” на техпроцессе 28 нм.
Блок-схема процессора GP104
Преемник GM204 состоит из 7,2 миллиардов транзисторов, размещенных на площади 314 мм2. Для сравнения площадь кристалла GM204 составляет 398 мм2 при 5,2 миллиардах транзисторов. В полной версии один GPU GP104 имеет четыре кластера обработки графики (Graphics Processing Clusters – GPC). Каждый GPC включает пять кластеров обработки потоков/текстур (Thread/Texture Processing Clusters – TPC) и блок растеризации. TPC сочетает в себе один потоковый мультипроцессор (Streaming Multiprocessor SM) и движок PolyMorph. SM объединяет 128 ядер CUDA одинарной точности, 256 Кбайт регистровой памяти, 96 Кбайт общей памяти, 48 Кбайт кэша L1/текстур и восемь текстурных блоков. Четвертое поколение движка PolyMorph включает новый блок логики, который находится в конце конвейера геометрии перед блоком растеризации, он управляет функцией мультипроекции Simultaneous Multi-Projection (об этом чуть ниже). В общем итоге мы получаем 20 SM, 2560 ядер CUDA и 160 блоков обработки текстур.
Один потоковый мультипроцессор (SM) в GP104
Бек-энд графического процессора включает восемь 32-битных контроллеров памяти (суммарная ширина канала 256-бит), восемь блоков растеризации и 256 Кбайт кэша L2 для каждого блока. В итоге мы имеем 64 ROP и 2 Мбайт разделенной кэш-памяти L2. Хотя на блок-схеме процессора Nvidia GM204 было показано четыре 64-битных контроллера и 16 ROP, они были сгруппированы и с функциональной точки зрения эквивалентны.
Некоторые структурные элементы GP104 похожи на GM204, ведь новый GPU был создан из “строительных блоков” своего предшественника. В этом нет ничего плохого. Если вы помните, в архитектуре Maxwell компания сделала ставку на энергоэффективность и не стала перетряхивать блоки, которые являлись сильной стороной Kepler. Аналогичную картину мы видим и здесь.
Добавление четырех SM не может заметно повлиять на производительность. Однако у GP104 есть несколько козырей в рукаве. Первый козырь – существенно более высокие тактовые частоты. Базовая тактовая частота GPU составляет 1607 МГц. В спецификациях GM204, для сравнения, указано 1126 МГц. Максимальная частота GPU Boost достигает 1733 МГц, но мы довели наш образец до 2100 МГц, используя бета-версию утилиты EVGA PrecisionX. Откуда такой запас для разгона? По словам Джона Албина, старшего вице-президента отдела разработки GPU, его команда знала, что техпроцесс TSMC 16FF+ повлияет на работу архитектуры чипа, поэтому они сосредоточили силы на оптимизации таймингов в микросхеме, чтобы убрать узкие места, препятствующие достижению более высоких тактовых частот. В результате скорость вычислений одинарной точности GP104 достигла 8228 GFLOPs (на базовой частоте) по сравнению с потолком в 4612 GFLOPs у GeForce GTX 980. Скорость закраски текселей подскочила с 155,6 Гтекс/с у 980-й (с GPU Boost) до 277,3 Гтекс /с.
GPU | GeForce GTX 1080 (GP104) | GeForce GTX 980 (GM204) |
SM | 20 | 16 |
Количество ядер CUDA | 2560 | 2048 |
Базовая частота GPU, МГц | 1607 | 1126 |
Частота GPU в режиме Boost, МГц | 1733 | 1216 |
Скорость вычислений, GFLOPs (при базовой частоте) | 8228 | 4612 |
Количество блоков текстурирования | 160 | 128 |
Скороть заполнения текселей, Гтекс/с | 277,3 | 155,6 |
Скорость передачи данных памяти, Гбит/с | 10 | 7 |
Пропускная способность памяти, Гбайт/с | 320 | 224 |
Количество блоков растеризации | 64 | 64 |
Объем кэша L2, Мбайт | 2 | 2 |
Тепловой пакет, Вт | 180 | 165 |
Количество транзисторов | 7,2 млрд. | 5,2 млрд. |
Площадь кристалла, мм2 | 314 | 398 мм |
Техпроцесс, нм | 16 | 28 |
Бэк-энд по-прежнему включает 64 блоков ROP и 256-разрядную шину памяти, но чтобы увеличить доступную пропускную способность Nvidia внедрила память GDDR5X. Компания приложила много усилий для раскрутки нового типа памяти, особенно на фоне памяти HBM, которая используется в разных видеокартах AMD и HBM2, которую Nvidia устанавливает в Tesla P100. Складывается ощущение, что на рынке сейчас имеется нехватка памяти HBM2, при этом компания не готова принять ограничения HBM (четыре стека по 1 Гбайт, либо трудности, связанные с реализацией восьми стеков по 1 Гбайт). Таким образом, мы получили видеопамять GDDR5X, поставки которой, судя по всему, тоже ограничены, поскольку GeForce GTX 1070 уже использует обычную GDDR5. Но это не перекрывает достоинств нового решения. Память GDDR5 в GeForce GTX 980 имела скорость передачи данных 7 Гбит/с. Это обеспечивало 224 Гбайт/с пропускной способности через 256-разрядную шину. GDDR5X стартует с 10 Гбит/с, повышая пропускную способность до 320 Гбайт/с (увеличение на ~43%). По словам Nvidia прирост достигается благодаря модернизированной схеме ввода-вывода, причем без повышения энергопотребления.
Архитектура Maxwell стала более эффективно использовать пропускную способность путем оптимизации кэша и алгоритмов сжатия, тем же путем идет и Pascal с новыми методами сжатия без потерь, чтобы более экономно использовать доступную ширину канала подсистемы памяти. Алгоритм дельта-компрессии цветов пытается достигнуть выигрыша 2:1, причем этот режим был улучшен с целью более частого применения. Также есть новый режим 4:1, который применяется в тех случаях, когда различия на пиксель очень небольшие. Наконец, в Pascal представлен еще один новый алгоритм 8:1, который применяет сжатие 4:1 к блокам 2х2, разница между которыми обрабатывается по алгоритму 2:1.
Разницу не трудно проиллюстрировать. На первом изображении показан несжатый снимок экрана из игры Project CARS. На следующем снимке показаны элементы, которые может сжать карта на архитектуре Maxwell, они закрашены фиолетовым. На третьем снимке видно, что Pascal сжимает сцену еще больше. Согласно данным Nvidia, эта разница преобразуется примерно в 20%-ое сокращение информации в байтах, которую необходимо выбрать из памяти для каждого кадра.
Обзор Nvidia GeForce GTX 1080 Pascal | Конструкция референсной карты
Nvidia изменила свой подход к дизайну карт. Вместо “референсной” она называет собственную версию карты Founders Edition (версия создателей). Нельзя не заметить, что внешний вид GeForce GTX 1080 стал более угловатый, однако в системе охлаждения используется все тот же старый проверенный механизм выброса горячего воздуха наружу через боковую планку.
Карта весит 1020 г и имеет длину 27 см. Наощупь она достаточно приятная, поскольку кожух кулера не только выглядит как металлический, он действительной сделан из металла, точнее говоря, алюминия. Матовые серебристые части лакированы, и если обращаться с картой не очень аккуратно, они быстро поцарапаются.
Задняя пластина поделена на две части. Она служит лишь украшением и не несет охлаждающей функции. Позже мы узнаем, насколько это верное решение. Nvidia рекомендует снимать элементы этой пластины при использовании SLI, чтобы добиться лучшего прохода воздуха между картами, установленными вплотную друг к другу.
В нижней части нет ничего интересного, хотя мы заметили, что части черной крышки могут контактировать с элементами системной платы, расположенными под ней, например с кулером чипсета и портами SATA.
Вверху карты мы видим один вспомогательный восьмиконтактный разъем питания. Учитывая официальные спецификации видеокарты, а также 60 Вт мощности, получаемые от слота материнской платы, одного такого разъема должно быть достаточно для номинального теплового пакета 180 Вт. Естественно, мы проверим, сколько на самом деле мощности потребляет эта карта, и не перегружает ли она линии питания.
Также тут имеется два разъема SLI. Наряду с новыми видеокартами Pascal Nvidia представила новые мосты с высокой пропускной способностью. Позже мы рассмотрим их более подробно. Если коротко, пока официально поддерживаются конфигурации SLI только из двух видеокарт, и для работы двухканального интерфейса между GPU используются оба разъема.
На панели ввода/вывода доступно три полноценных разъема DisplayPort. В характеристиках указан стандарт DisplayPort 1.2, но, предполагается, что они будут совместимы с DisplayPort 1.3/1.4 (по крайней мере, контроллер дисплея может работать с новыми стандартами). Также есть выход HDMI 2.0 и двухканальный DVI-D. Аналоговые разъемы можете не искать.
На другом торце карты есть большая прорезь для захвата воздуха и три винтовых отверстия для дополнительной фиксации карты в корпусе.
Конструкция кулера и питание
После тщательного изучения внешнего вида пора посмотреть на начинку, спрятанную под алюминиевым кожухом. Сделать это оказалось сложнее, чем может показаться на первый взгляд. После разборки мы насчитали на столе 51 деталь, включая винты. Если снять вентиляторы, добавиться еще 12.
Nvidia, наконец, вернулась к использованию настоящей испарительной камеры. Она крепится к плате четырьмя винтами поверх графического процессора.
Центробежный вентилятор должен быть вам знаком. Прямой вывод тепла подразумевает забор воздуха в одном месте, его проход через ребра радиатора и вывод из корпуса. Кожух кулера, который также служит в качестве рамы, не только стабилизирует карту, но и помогает охладить преобразователи напряжения и модули памяти.
Сняв все внешние компоненты, мы добрались до печатной платы. В отличие от предыдущих решений Nvidia использует шестифазную схему питания. Пять фаз обслуживают графический процессор, а оставшаяся фаза обеспечивает работу памяти GDDR5X.
На плате можно заметить место для еще одной фазы, которое пустует.
Графический процессор GP104 занимает площадь 314 мм2, что намного меньше чем у его предшественника. Вокруг процессора просматриваются линии других слоев платы. Для достижения высоких тактовых частот проводники должны быть максимально короткими. В связи с жесткими требованиями партнерам Nvidia, вероятно, потребуется больше времени для налаживания производства.
Память GDDR5X представлена чипами 6HA77 производства Micron. Они совсем недавно пошли в массовое производство, поскольку на просочившихся ранее в прессу снимках новой видеокарты Nvidia мы видели чипы 6GA77.
В общей сложности восемь модулей памяти соединены с 256-разрядной шиной памяти через 32-разрядные контроллеры. При частоте 1251 МГц пропускная способность достигает 320 Гбайт/с.
Модули GDDR5X Micron используют 170-контактную упаковку вместо 190-контактной GDDR5. Кроме того они немного меньше: 14×10 мм вместо 14×12 мм. То есть у них плотность выше и им требуется улучшенное охлаждение.
Перевернув карту, мы обнаружили свободное место под второй разъем питания. Таким образом, партнеры Nvidia смогут установить второй вспомогательный разъем, чтобы добавить мощности, либо переместить имеющийся в другую позицию.
Также в плате есть прорезь, позволяющая развернуть разъем питания на 180 градусов.
Конденсаторы расположены непосредственно под GPU, чтобы сгладить возможные скачки. Также на этой стороне платы находится ШИМ (раньше он располагался с лицевой стороны). Такое решение дает партнерам Nvidia возможность устанавливать другие ШИМ-контроллеры.
Но вернемся к ШИМ-контроллеру стабилизатора напряжения. Технология Nvidia GPU Boost 3.0 получила новый набор требований к стабилизации напряжения, что привело к существенным изменениям. Мы ожидали увидеть контроллер типа IR3536A от International Rectifier в сочетании со схемой 5+1 фаза, но Nvidia использовала µP9511P. Это не лучшие новости для любителей разгона, поскольку карта не поддерживает интерфейс и протокол таких инструментов как MSI Afterburner и Gigabyte OC Guru. Переход на новый контроллер, который пока не очень хорошо описан, скорее всего, связан с техническими особенностями.
Поскольку контроллер ШИМ не может непосредственно управлять отдельными фазами преобразователя напряжения, Nvidia использует мощные MOSFET-драйверы с чипами 53603A для управления затвором МОП-транзисторов. Но по сравнению с некоторыми другими вариантами компоновка схемы выглядит аккуратно и опрятно.
Здесь есть различные типы МОП-транзисторов. 4C85N – это довольно эластичный двухканальный МОП-транзистор для преобразования напряжения. Он обслуживает все шесть фаз электропитания и имеет достаточно большие электрические и тепловые резервы, чтобы выдержать нагрузки эталонного дизайна.
Интересно, как технология Nvidia GPU Boost 3.0 и модифицированная схема стабилизатора напряжения повлияют на энергопотребление. Мы обязательно это проверим.
Обзор Nvidia GeForce GTX 1080 Pascal | Технология Simultaneous Multi-Projection и Async Compute
Движок Simultaneous Multi-Projection
Увеличенное число ядер, их тактовая частота и работа с памятью GDDR5X 10 Гбит/с ускоряют работу каждой протестированной игры. Однако архитектура Pascal включает несколько особенностей, которые мы сможем оценить лишь в грядущих играх.
Одну из новых функцией Nvidia называет Simultaneous Multi-Projection Engine или движок мультипроекции, представленный аппаратным блоком, добавленным в состав движков PolyMorph. Новый движок может создавать до 16 проекций геометрических данных из одной точки обзора. Либо он может сместить точку обзора для создания стереоскопического изображения, дублируя геометрию 32 раза силами аппаратных средств, то есть без ущерба производительности, с которым вы бы столкнулись, пытаясь добиться такого эффекта без SMP.
Одноплановая проекция
Попробуем разобраться в преимуществах данной технологии. К примеру, у нас есть три монитора в конфигурации Surround. Они немного повернуты внутрь, чтобы “обернуть” пользователя, так удобнее играть и работать. Но игры об этом не знают и визуализируют изображение в одной плоскости, поэтому оно кажется изогнутым на месте стыковки рамок мониторов, и в целом картинка выглядит искаженной. Для такой конфигурации было бы правильнее визуализировать одну проекцию прямо, вторую проекцию левее, как будто из панорамной кабины пилота самолета, и третью проекцию правее. Таким образом, ранее изогнутая панорама будет выглядеть разглаженной, и пользователь получит намного более широкий угол обзора. Всю сцену по-прежнему нужно растеризовать и закрасить, но зато GPU не придется визуализировать сцену три раза, благодаря чему устраняется лишняя нагрузка.
Некорректная перспектива на повернутых под углом дисплеях
Исправленная с помощью SMP перспектива
Однако приложение должно поддерживать настройки широких углов обзора и использовать вызовы API SMP. Это означает, что прежде чем вы сможете воспользоваться этой функцией, разработчики игр должны ее освоить. Мы не уверенны на счет того, как много усилий они готовы приложить ради горстки пользователей многомониторных конфигураций Surround. Но есть другие приложения, для которых имеет смысл реализовать эту функцию как можно скорее.
использование однопроходного стереорендеринга, SMP создает одну проекцию для каждого глаза
Возьмем в качестве примера виртуальную реальность. Для нее уже нужна индивидуальная проекция для каждого глаза. Сегодня игры просто визуализируют изображения на два экрана отдельно со всеми сопутствующими недостатками и потерями эффективности. Но поскольку SMP поддерживает два центра проекции, сцена может быть визуализирована в один проход с использованием функции Nvidia Single Pass Stereo (однопроходный стереорендеринг). Геометрия обрабатывается один раз, а SMP создает ее проекцию для левого и правого глаза. Далее SMP может применить дополнительные проекции для работы функции под названием Lens Matched Shading.
Изображения после первого прохода с функций Lens Matched Shading
Окончательная сцена, которая посылается в гарнитуру
Если коротко, Lens Matched Shading пытается сделать VR-рендеринг более эффективным, избегая большого объема работы, который обычно выполняется при рендеринге традиционной планарной проекции, для искажения геометрии в соответствии с искажением линз гарнитуры (таким образом, в местах самого большого изгиба пиксели отрисовываются впустую). К этому эффекту можно приблизиться, используя SMP для разделения области на квадранты. Так вместо рендеринга квадратной проекции и работы с ней, GPU создает изображения, соответствующие фильтру искажения линзы. Такой способ препятствует генерации лишних пикселей. Вы не заметите разницы в качестве, при условии, если разработчики будут соблюдать частоту выборки для глаза на HMD или превысят ее.
По заявлению Nvidia сочетание техник Single Pass Stereo и Lens Matched Shading способно обеспечить двукратный прирост производительности в VR по сравнению с GPU без поддержки SMP. Частично он связан с отрисовкой пикселей. Используя технологию Lens Matched Shading для избегания обработки пикселей, которые не должны быть визуализированы, интенсивность рендеринга в сцене со сбалансированными предустановками Nvidia упала с 4,2 Мп/с (Oculus Rift) до 2,8 Мп/с, таким образом, шейдерная нагрузка на GPU снизилась в полтора раза. Технология Single Pass Stereo, обрабатывающая геометрию лишь один раз (вместо повторного рендеринга для второго глаза) эффективно устраняет половину геометрической обработки, которая должна выполняться сегодня. Теперь понятно, что имел ввиду Жэнь-Сунь, когда заявлял о “двукратном приросте производительности и трехкратном приросте эффективности по сравнению с Titan X”.
Асинхронные вычисления
Архитектура Pascal также включает некоторые изменения, касающиеся асинхронных вычислений, которые по ряду причин связаны с DirectX 12, VR и архитектурным преимуществом AMD.
Nvidia поддерживает статическое разделение ресурсов GPU для графических и вычислительных задач, начиная с архитектуры Maxwell. В теории такой подход хорош, когда оба блока активны одновременно. Но предположим, что 75% ресурсов процессора отдано графике, и он завершил свою часть задачи быстрее. Тогда этот блок будет простаивать, ожидая пока вычислительный блок завершит свою часть работы. Таким образом теряются все возможные преимущества одновременного выполнения этих задач. Pascal устраняет этот недостаток путем динамического балансирования нагрузки. Если драйвер решит, что один из разделов используется недостаточно активно, он может переключить его ресурсы в помощь другому, предотвращая простаивание, отрицательно влияющее на производительность.
Также Nvidia улучшила в Pascal возможности прерывания, то есть, возможность остановить текущую задачу, чтобы решить более “срочную” с очень коротким временем выполнения. Как известно графические процессоры – это сильно распараллеленные машины с большими буферами, предназначенными для того, чтобы похожие ресурсы, находящиеся рядом друг с другом, были заняты. Простаивающий шейдер бесполезен, так что его нужно всеми способами вовлечь в рабочий процесс.
Для VR лучше чтобы запросы на прерывание отправлялись как можно позже, чтобы захватить самые свежие данные отслеживания
Отличным примером является функция асинхронного прерывания времени (Asynchronous Time Warp – ATW), которую Oculus представила вместе с Rift. В случае, когда видеокарта не может выдать новый кадр каждые 11 мс на 90 Гц дисплей, ATW генерирует промежуточный кадр, используя последний кадр с корректировкой положения головы. Но для создания такого кадра должно быть достаточно времени, и, к сожалению, графическое прерывание не обладает высокой точностью. Фактически архитектуры Fermi, Kepler и Maxwell поддерживают прерывание на уровне отрисовки, то есть кадры могут переключаться в рамках вызова отрисовки, потенциально сдерживая технику ATW.
Pascal реализует для графики прерывание на уровне пикселей, поэтому GP104 может остановить текущую операцию на пиксельном уровне, сохранить ее состояние и переключиться на другой контекст. Вместо прерывания за миллисекунды, о котором писали в Oculus, Nvidia заявляет менее 100 микросекунд.
В архитектуре Maxwell эквивалент прерывания на пиксельном уровне в вычислительном блоке был реализовать посредством прерывания на уровне потока. В Pascal эта методика также сохранилась, но добавилась поддержка прерывания на уровне инструкций в вычислительных задачах CUDA. На данный момент драйверы Nvidia эту функцию не включают, но скоро она станет доступна вместе с прерыванием на уровне пикселей.
Обзор Nvidia GeForce GTX 1080 Pascal | Конвейер вывода, SLI и GPU Boost 3.0
Канал дисплея Pascal: HDR-Ready
В прошлом году мы встречались с представителями AMD в городе Сонома, что в Калифорнии, тогда они поделились некоторыми деталями своей новой архитектуры Polaris, в частности, рассказали о конвейере вывода изображения с поддержкой контента с расширенным динамическим диапазоном и соответствующих дисплеев.
Не удивительно, что архитектура Nvidia Pascal оснащается подобными функциями, некоторые из которых даже были доступны в Maxwell. Например, контроллер дисплея в процессоре GP104 получил поддержку 12-битного цвета, широкой цветовой палитры BT.2020, функцию электрооптической передачи SMPTE 2084 и стандарт HDMI 2.0b с HDCP 2.2.
К этому списку Pascal добавляет ускоренное декодирование HEVC в режиме 4K60p с цветом 10/12-бит через специализированный аппаратный блок, для которого заявлена поддержка стандарта HEVC Version 2. Раньше Nvidia использовал гибридный подход с использованием программных ресурсов. Кроме того кодирование ограничивалось восемью битами цветовой информации на каждый пиксель. Но мы полагаем, что для поддержки спорной спецификации Microsoft PlayReady 3.0 потребовала более быстрого и более эффективного решения.
Архитектура также поддерживает кодирование HEVC в 10-битном цвете в режиме 4K60p для записи или потоковой передачи в HDR, у Nvidia даже есть для этого специальное приложение. Используя кодирующие средства процессора GP104 и программу GameStream HDR, которая должна появиться в ближайшее время, вы сможете транслировать игры с высоким динамическим диапазоном на устройства Shield, подключенные к HDR-совместимому телевизору. Shield оснащается собственным декодером HEVC с поддержкой 10-битного цвета на пиксель, которой еще больше разгружает конвейер вывода изображения.
GeForce GTX 1080 | GeForce GTX 980 | |
Кодирование H.264 | Да (2x 4K60p) | Да |
Кодирование HEVC | Да (2x 4K60p) | Да |
Кодирование HEVC 10-бит | Да | Нет |
Декодирование H.264 | Да (4K120p до 240 Мбит/с) | Да |
Декодирование HEVC | Да (4K120p/8K30p до 320 Мбит/с) | Нет |
Декодирование VP9 | Да (4K120p до 320 Мбит/с) | Нет |
Декодирование HEVC 10/12-бит | Да | Нет |
В дополнение к поддержке стандарта HDMI 2.0b видеокарта GeForce GTX 1080 имеет сертифицированную поддержку стандарта DisplayPort 1.2 и совместима с DP 1.3/1.4. В этом плане она уже превосходит еще не вышедшую Polaris, у которой контроллер дисплея пока поддерживает только DP 1.3. К счастью для AMD, спецификации версии 1.4 не предполагают наличие более быстрого режима передачи, и потолком по-прежнему является значение 32,4 Гбит/с, установленное режимом HBR3.
Как уже упоминалось ранее, карта GeForce GTX 1080 Founders Edition оснащается тремя выходами Display Port, одним разъемом HDMI 2.0b и одним цифровым двухканальным выходом DVI. Как и GTX 980 новинка способна выводить изображение на четыре независимых монитора одновременно. Но в сравнении с разрешением 5120×3200 через два кабеля DP 1.2, максимальное разрешение GTX 1080 составляет 7680×4320 точек при частоте обновления 60 Гц.
SLI теперь официально поддерживает только два GPU
Традиционно видеокарты Nvidia высшего уровня оснащаются двумя коннекторами для подключения двух, трех или даже четырех ускорителей в связке SLI. Как правило, лучшее масштабирование достигается в конфигурациях из двух GPU. Далее затраты себя часто не оправдывают, поскольку появляется много подводных камней. Тем не менее, некоторые энтузиасты все же используют по три и четыре графических адаптера в погоне за каждым дополнительным кадром и возможностью похвастаться перед друзьями.
Но ситуация изменилась. По словам Nvidia, из-за проблем, связанных с масштабированием производительности в новых играх, без сомнения связанных с DirectX 12, GeForce GTX 1080 официально поддерживает только конфигурации SLI из двух видеокарт. Так зачем же карте два разъема? Благодаря новым мостикам SLI оба разъема могут использоваться одновременно для передачи данных в двухканальном режиме. Кроме двухканального режима интерфейс также имеет повышенную с 400 МГц до 650 МГц частоту ввода-вывода. В результате пропускная способность между процессорами возрастает более чем в два раза.
Время рендеринга кадров в Middle earth: Shadow of Mordor с новым (голубая линия на графике) и старым (черный) мостом SLI
Впрочем, многие геймеры не ощутят преимуществ более быстрого канала. Он будет актуален, прежде всего, при высоких разрешениях и частоте обновления. Nvidia показала снимок, сделанный в FCAT с показателями двух GeForce 1080 GTX в игре Middle earth: Shadow of Mordor на трех дисплеях с разрешением 4K. Соединение двух карт старым мостиком привело к постоянным скачкам частоты времени кадра, которые приводят к предсказуемым проблемам с синхронизацией, проявляющимся в виде притормаживаний. С новым мостиком количество скачков сократилось, и они стали не так сильно выраженными.
По словам Nvidia двухканальный режим поддерживают не только мостики SLI HB. Уже знакомые нам мостики со светодиодной подсветкой тоже могут передавать данные на частоте 650 МГц при подключении к картам Pascal. От гибких или обычных мостиков лучше отказаться, если вы хотите работать в 4K или выше. Подробную информацию касательно совместимости можно найти в таблице, приведенной Nvidia:
1920×1080 @ 60 Гц | 2560×1440 @ 120 Гц+ | 2560×1440 | 4K | 5K | Surround | |
стандартный мост | x | x | ||||
LED мост | x | x | x | x | ||
Мост с высокой скоростью передачи данных (HB) | x | x | x | x | x | x |
Чем вызван отказ от трех- и четырехчиповых конфигураций? Ведь компания всегда стремится продать больше и добиться более высокой производительности. Можно цинично сказать, что Nvidia не хочет брать ответственность за потерю преимуществ при связке двух или четырех карт в SLI, когда рынок современных видеоигр использует все более тонкие и сложные подходы к рендерингу. Но компания настаивает, что действует в интересах покупателей, поскольку Microsoft отдает все больше возможностей управления многопроцессорными конфигурациями разработчикам игр, которые, в свою очередь, исследуют новые технологии, такие как совместный рендеринг одного кадра вместо нынешнего покадрового рендеринга (AFR).
Энтузиасты, которых заботят лишь рекорды скорости и не интересуют описанные выше факторы, по-прежнему могут связывать три или четыре GTX 1080 в SLI, используя старый софт. Им нужно сгенерировать уникальную “аппаратную” подпись, используя программу от Nvidia, с помощью которой можно запросить ключ “разблокировки”. Естественно новые мостики HB SLI не будут работать более чем с двумя GPU, поэтому придется ограничиться старыми LED-мостиками, чтобы объединить работу трех/четырех GP104 на частоте 650 МГц.
Коротко о GPU Boost 3.0
С целью извлечь еще больше производительности из своих GPU, Nvidia снова усовершенствовала технологию GPU Boost.
В предыдущем поколении (GPU Boost 2.0) установка тактовой частоты осуществлялась путем перемещения на определенное значение наклонной линии зависимости напряжения/частоты. Потенциальный запас мощности выше этой линий обычно оставался незадействованным.
GPU Boost 3.0 – установка прироста частоты на один шаг увеличения напряжения
Теперь GPU Boost 3.0 позволяет устанавливать прирост частоты для отдельных значений напряжения, которые ограничиваются лишь температурой. Вдобавок вам не придется экспериментировать и проверять стабильность работы карты по всему диапазону значений на кривой. Nvidia имеет встроенный алгоритм для автоматизации этого процесса, создавая уникальную для вашего GPU кривую напряжения/частоты.