Архитектура Nvidia Turing: трассировка лучей и многое другое - THG.RU

Архитектура Nvidia Turing | Введение
Мощная видеокарта GIGABYTE nVidia GeForce RTX 2080 с грандиозной скидкой

В Nvidia называют Turing самым крупным прорывом в области архитектуры графических процессоров за последнее десятилетие. В доказательство приводится внушительный список возможностей, повышающих производительность в играх, упоминаются элементы искусственного интеллекта, ускорение видеостриминга, поддержка следующего поколения оборудования для виртуальной реальности, и конечно же трассировка лучей в реальном времени. Так что возлагаемые на Turing ожидания очень высоки. Давайте разберёмся, в чём же заключаются особенности новой видеоархитектуры, рассмотрим новые технические решения и убедимся в том, что это действительно прорывная архитектура, принципиально отличающаяся от всего, что мы видели до этого.

Нажмите для увеличения

Архитектура Nvidia Turing | Графический процессор TU102

Прежде всего, познакомимся с физической реализацией новой микроархитектуры. Графический процессор TU102 на базе архитектуры Turing, которым оснащается топовая видеокарта GeForce RTX 2080 Ti, это микросхема площадью 754 кв. мм, изготовленная по 12-нм техпроцессу FinFET на мощностях TSMC и состоящая из 18,6 миллиарда транзисторов.

По сравнению с самым большим десктопным видеопроцессором GP102 на архитектуре Pascal, TU102 на 60% больше по площади и содержит на 55% больше транзисторов, тем не менее, это не самый масштабный процессор от Nvidia. Флагманский чип GV100 (микроархитектура Volta) состоит из 21,1 миллиарда транзисторов, а его площадь — внушительные 815 кв. мм, но этот процессор рассчитан на профессиональное использование, в то время как TU102 оптимизирован для игр как функционально, так и по доступным ресурсам.

Нажмите для увеличения

Приведём пример. Каждый потоковый мультипроцессор (SM, Streaming Multiprocessor) Volta состоит из 32 ядер FP64, обеспечивающие вычисления с двойной точностью, и в целом в GV100 мы получаем 2688 ядер FP64. Однако они приносят мало пользы в играх, но занимают много места на кристалле, поэтому конструкторы Nvidia оставили только два таких в каждом SM архитектуры Turing. В результате производительность вычислений с двойной точностью в TU102 составляет 1/32 от производительности ядер FP32, но оставшихся ресурсов FP64 разумно достаточно для обеспечения совместимости с использующим их программным обеспечением.

Точно так же, восемь 512-битных контроллеров памяти в GV100, подключенных к четырём блокам чрезвычайно дорогостоящей HBM2, привели бы к космическим ценам по меркам геймерского рынка, поэтому в TU102 их заменили более доступным решением GDDR6 от Micron, которое, тем не менее, обеспечивает существенное повышение пропускной способности по сравнению с Pascal с GDDR5X.

Полноценный процессор TU102 состоит из шести графических вычислительных кластеров (Graphics Processing Cluster, GPC), в каждый из которых входит модуль растеризации (Raster Engine) и шесть блоков обработки текстур (Texture Processing Cluster, TPC). Каждый TPC состоит из одного модуля обработки полиморфов (PolyMorph Engine), представляющего собой конвейер обработки геометрии с фиксированной функциональностью, и двух потоковых мультипроцессоров SM. В свою очередь, в каждом SM находятся 64 ядер CUDA, восемь тензорных ядер, одно ядро трассировки лучей (Ray Tracing, RT), четыре текстурных блока, 16 блоков загрузки и хранения, 256 Кбайт регистрового файлового пространства, четыре кэша L0 для инструкций и 96 Кбайт конфигурируемого кэша уровня L1.

Нажмите для увеличения

В сумме получаем: 72 мультипроцессора SM, 4608 ядер CUDA, 576 тензорных ядер, 72 ядра RT, 288 текстурных блоков и 36 модулей обработки полиморфов. Все эти ресурсы работают с 12 32-разрядными контроллерами памяти GDDR6, каждый из которых подключён к кластеру из восьми ROP и 512 Кбайтам кэша L2, что в совокупности даёт 384-разрядную шину памяти, 96 ROP и кэш уровня L2 ёмкостью 6 Мбайт.

Между тем, чип TU102, устанавливаемый на GeForce RTX 2080 Ti, не является полноценным TU102. Чтобы сохранить рыночную нишу для хай-энда класса Titan, в Nvidia отключили два TPC, в результате чего карта располагает 4352 ядрами CUDA, 544 тензорными ядрами, 68 ядрами RT, 544 текстурными блоками и 34 модулями обработки полиморфов. Кроме того, был дополнительно деактивирован один из 32-битных контроллеров памяти, что дало 352-битную шину с 88 ROP и 5,5 Мбайтами кэша L2. Тем самым на видеокарту устанавливается 11 модулей памяти (Micron MT61K256M32JE-14:A) и одно место остаётся свободным. Но даже при этом мы получаем радикальную прибавку пропускной способности по сравнению с GeForce GTX 1080 Ti: 616 против 484 Гбайт в секунду. В наличии также два интерфейса NVLink для многопроцессорных конфигураций: каждый линк x8 обеспечивает двустороннюю пропускную способность в 50 Гбайт/c для вывода более высоких разрешений и более высокой частоты обновления. 100 Гбайт/с
у двух NVLink достаточно для подключения 8K-мониторов в окружающем режиме.

Нажмите для увеличения

Для справки приводим заявленные характеристики видеокарт GeForce RTX 2080 Ti и GeForce GTX 1080 Ti в исполнении Founders Edition, т.е. с небольшим заводским разгоном.

	GeForce RTX 2080 Ti FE	GeForce GTX 1080 Ti FE
Архитектура (GPU)	Turing (TU102)	Pascal (GP102)
Ядер CUDA	4352	3584
Пиковая производительность FP32	14,2 Тфлопс	11,3 Тфлопс
Тензорных ядер	544	–
Ядер RT	68	–
Текстурных блоков	272	224
Базовая частота	1350 МГц	1480 МГц
Частота Boost	1635 МГц	1582 МГц
Объём памяти	11 Гбайт GDDR6	11 Гбайт GDDR5X
Шина памяти	352-бит	352-бит
Пропускная способность памяти	616 Гбайт/c	484 Гбайт/с
ROP	88	88
Кэш L2	5,5 Мбайт	2,75 Мбайт
TDP	260 Вт	250 Вт
Число транзисторов	18,6 миллиарда	12 миллиардов
Размеры кристалла	754 кв. мм	471 кв. мм
Поддержка SLI	Да (x8 NVLink, x2)	Да (MIO)

Архитектура Nvidia Turing | Графический процессор TU104

Как бы нам ни нравилась GeForce RTX 2080 Ti, но её цены начинаются примерно со 110 000 рублей, а это сумма абсолютно неподъёмная для большинства геймеров. Поэтому на гораздо больший успех обречена чуть упрощённая версия GeForce RTX 2080 на процессоре TU104, которую в российской рознице можно купить по цене начиная с 65 000 рублей.

Нажмите для увеличения

TU104 располагает 13,6 миллиардами транзисторов и площадь его кристалла чуть меньше: 545 кв. мм. При этом по физическим размерам он больше флагмана предыдущего поколения GP102 (471 мм). Техпроцесс — тот же 12-нм FinFET.

Процессор TU104 построен из тех же “кирпичиков”, что и TU102, просто здесь их чуть меньше: шесть GPC, каждый из которых состоит из четырёх TPC. Тем самым, в полноценном TU104 имеется 48 мультипроцессоров SM, 3072 ядер CUDA, 384 тензорных ядер, 48 ядер RT, 192 текстурных блоков и 24 модулей обработки полиморфов. Восемь 32-битных контроллеров памяти GDDR6 образуют 256-разрядную шину с 64 ROP и 4 Мбайтами кэша L2. Чип получил только одно соединение NVLink с восемью линиями и пропускной способностью 50 Гбайт/c.

Нажмите для увеличения

Однако вновь у GeForce RTX 2080 мы наблюдаем не полноценный, а урезанный TU104, у которого отключён один TPC, в результате чего мы имеем 46 SM, 2944 ядер CUDA, 368 тензорных ядер, 46 ядер RT, 184 текстурных блока, 64 ROP и 4 Мбайт кэш-памяти L2. Шина памяти остаётся 256-битной. Для сравнения, приводим характеристики аналога этой видеокарты предыдущего поколения, обе карты в исполнении Founders Edition с небольшим заводским разгоном.

	GeForce RTX 2080 FE	GeForce GTX 1080 FE
Архитектура (GPU)	Turing (TU104)	Pascal (GP104)
Ядер CUDA	2944	2560
Пиковая производительность FP32	10,6 Тфлопс	8,9 Тфлопс
Тензорных ядер	368	–
Ядер RT	46	–
Текстурных блоков	184	160
Базовая частота	1515 МГц	1607 МГц
Частота Boost	1800 МГц	1733 МГц
Объём памяти	8 Гбайт GDDR6	8 Гбайт GDDR5X
Шина памяти	256-бит	256-бит
Пропускная способность памяти	448 Гбайт/c	320 Гбайт/с
ROP	64	64
Кэш L2	4 Мбайт	2 Мбайт
TDP	225 Вт	180 Вт
Число транзисторов	13,6 миллиарда	7,2 миллиарда
Размеры кристалла	545 кв. мм	314 кв.мм
Поддержка SLI	Да (x8 NVLink)	Да (MIO)

Архитектура Nvidia Turing | Графический процессор TU106

Наконец, младшая видеокарта из нового поколения Turing, которая была анонсирована одновременно с другими, это GeForce RTX 2070, построенная на процессора TU106. Как это обычно бывает, более доступные версии появляются в продаже значительно позже флагманов, и RTX 2070 должна поступить в магазины в течение октября. Ожидаемый ценник — от 50 000 рублей.

Нажмите для увеличения

Процессор TU106 состоит из 10,8 миллиарда транзисторов, площадь кристалла — 445 кв. мм. Полноценный TU106 состоит из трёх GPC, в каждом из которых по шесть TPC. Внутренная конструкция TPC точно такая же, как и во всех остальных чипах на базе Turing. В результате получаем 2304 ядер CUDA, 288 тензорных ядер, 36 ядер RT и 144 текстурных блоков. У TU106 такая же 256-разрядная шина памяти, что и у TU104, 64 ROP и 4 Мбайта кэша L2. Соединение NVLink не поддерживается.

Нажмите для увеличения

Вновь сравним GeForce RTX 2070 с её аналогом из предыдущего поколения, в версиях Founders Edition.

	GeForce RTX 2070 FE	GeForce GTX 1070 FE
Архитектура (GPU)	Turing (TU106)	Pascal (GP104)
Ядер CUDA	2304	1920
Пиковая производительность FP32	7,9 Тфлопс	6,5 Тфлопс
Тензорных ядер	288	–
Ядер RT	36	–
Текстурных блоков	144	120
Базовая частота	1410 МГц	1506 МГц
Частота Boost	1710 МГц	1683 МГц
Объём памяти	8 Гбайт GDDR6	8 Гбайт GDDR5
Шина памяти	256-бит	256-бит
Пропускная способность памяти	448 Гбайт/с	256 Гбайт/с
ROP	64	64
Кэш L2	4 Мбайта	2 Мбайта
TDP	185 Вт	150 Вт
Число транзисторов	10,8 миллиарда	7,2 миллиарда
Размеры кристалла	445 кв. мм	314 кв. мм
Поддержка SLI	Нет	Да (MIO)

Архитектура Nvidia Turing | Производительность в существующих играх

Nvidia заявляет о существенном повышении производительности карт на базе Turing уже в современных играх благодаря кардинальной модернизации, сделавшей эту архитектуру значительно ближе к Volta, чем к Pascal.

Нажмите для увеличения

Начнём с того, что Turing позаимствовала у Volta поддержку одновременного выполнения арифметических инструкций FP32, которые составляют основную нагрузку при обработке шейдеров, и операций INT32 — адресацию и выборку данных, вычисления с плавающей запятой, сравнения и т.п. Именно благодаря этому ядра Turing обеспечивают большую производительность, чем Pascal на одной и той же тактовой частоте.

В предыдущих поколениях было невозможно одновременно исполнять разнородные инструкции в одном потоке данных, из-за чего конвейер вычислений с плавающей запятой останавливался до тех пор, пока не выполнялись операции с шейдерами, не требующие таких вычислений. В Volta проблема была решена путём создания отдельных конвейеров. И хотя планировщик потоков (Warp Scheduler) оснащается лишь одним портом диспетчера команд (Dispatch Unit), общая пропускная способность возрастает.

Нажмите для увеличения

Обратимся к диаграммам. В архитектуре Pascal на каждый потоковый мультипроцессор SM, состоящий из четырёх секций, которые включают по 32 ядра CUDA, приходится по одному планировщику потоков на каждую секцию и по два порта диспетчера. Через два порта планировщик может отправлять одну пару инструкций за такт при условии, что обе инструкции исходят из одной и той же группы из 32 потоков (Warp), и лишь одна из них может быть ключевой математической инструкцией. Тем самым мы видим один диспетчер команд на 16 ядер CUDA.

В архитектуре Turing SM состоит из меньшего числа ядер CUDA, но самом процессоре больше мультипроцессоров SM. Теперь у нас есть один планировщик на каждые 16 ядер CUDA (вдвое больше, чем у Pascal) и один порт диспетчера на каждые 16 ядер (столько же, как и у Pascal). При такой конструкции устраняется проблема объединения инструкций в пары, а поскольку в Turing вдвое больше планировщиков, для занятости ядер CUDA им просто нужно отправлять по одной инструкции за такт: при наличии группы из 32 потоков (warp) 16 ядрам CUDA требуется всего два такта для их полного исполнения. В промежутках возможна отправка других инструкций на любой другой блок, включая новый конвейер INT32, и она может поступать из любой 32-поточной группы (warp).

Как видим, ускорение происходит не за счёт усложнения конструкции, а за счёт её оптимизации: в Turing более сбалансированно используются фактически те же самые ресурсы. На бумаге SM чипa предыдущего поколения GP102 выглядит более сложным и насыщенным, но не забывайте, что в TU102 72 мультипроцессоров SM, а в GP102 их не более 30. В результате флагманский чип с архитектурой Turing имеет на 21% больше ядер CUDA и текстурных блоков, чем GeForce GTX 1080 Ti, а также намного больше SRAM для регистров, общей памяти и кэша L1, не говоря уже о 6 Мбайтах кэша уровня L2, что вдвое больше, чем у GP102.

Нажмите для увеличения

Увеличение объёма памяти на кристалле, а также её иерархическая организация играют критическую роль в повышении производительности. Рассмотрим три разных уровня памяти: текстурный кэш для хранения текстур, кэш уровня L1 для загрузки и хранения данных, и общая разделяемая память для вычислительных нагрузок. В архитектуре Kepler у каждого SM было по 48 Кбайт текстурного кэша только для чтения и разделяемый кэш/L1 объёмом 64 Кбайта. В архитектурах Maxwell и Pascal L1 и текстурный кэш были объединены, оставляя отдельно 96 Кбайт разделяемой памяти. В Turing все три уровня памяти были объединены в общий разделяемый и конфигурируемый пул объёмом 96 Кбайт.

Преимущество такого объединения заключается в том, что вне зависимости от того, оптимизирована ли нагрузка под L1 или разделяемую память, встроенная в кристалл память используется, а не простаивает, как это бывало раньше. Кроме того, благодаря перемещение на уровень ниже функций L1 он получает доступ к более широкой шины с удвоенной пропускной способностью: на уровне TPC Pacal поддерживает максимальную пропускную способность кэша 64 байт за такт, а Turing — 128 байт за такт. А поскольку эти 96 Кбайт могут быть сконфигурированы как 64 Кбайт L1 и 32 Кбайта разделяемой памяти (или наоборот), ёмкость L1 для каждого SM может быть на 50% выше.

Нажмите для увеличения

В Nvidia утверждают, что в результате изменения математического конвейера и архитектуры памяти производительность работы каждого ядра CUDA выросла на 50%. Для более эффективной загрузки этих ядер была применена память GDDR6, а также целый ряд технологий снижения трафика. По сравнению с GeForce GTX 1080 Ti, пропускная способность памяти у RTX 2080 Ti выросла на 27%, но в случаях, когда особенности конкретной игры позволяют не отправлять данные на внешнюю память, прирост пропускной способности будет даже выше.

Архитектура Nvidia Turing | Трассировка лучей в реальном времени

Технологию трассировки лучей в реальном времени сама Nvidia называет одним из главных преимуществ новой архитектуры Turing, которое ранее не применялось в графических ускорителях потребительского класса. Что же это за технология и как конкретно она реализована в графических процессорах на базе Turing?

Прежде всего, напомним, что технология трассировки лучей вовсе не горячая новинка, а давно известный метод рендеринга, и проблема его массового внедрения заключалась почти исключительно в отсутствии необходимых вычислительных ресурсов. О трассировке лучей мы подробно писали более девяти лет назад, и многое из опубликованного в том материале вполне актуально и сегодня, за исключением одного: в 2018 году Nvidia удалось выпустить серийный процессор, использующий гибридный движок, сочетающий методы растеризации и трассировки лучей.

В настоящее время в 3D-графике преобладает метод растеризации, при котором происходит постоянный перерасчёт трёхмерного изображения, представленного простейшими геометрическими фигурами (полигонами) в двухмерные пиксели, при этом визуальные эффекты накладываются на них при помощи шейдеров. На сегодняшний день технологии растеризации достигли довольно высокого уровня реалистичности, но стоит учитывать, что все эффекты, отражения и тени моделируются при этом искусственным образом, в то время как при трассировке лучей картинка формируется автоматически путём расчёта траекторий луча, отражённых от поверхностей полигонов. При доступном сегодня уровне вычислительных мощностей трассировка лучей в реальном времени способна сделать настоящий прорыв по реалистичности картинки в компьютерных играх.

Как технология трассировки лучей реализовано в архитектуре Turing? Для расчёта пересечений лучей здесь выделены специальные RT-ядра, по одному из которых содержится в каждом SM. Они представляют собой ускорители с фиксированной функциональностью для прослеживания иерархии ограничивающих объёмов (Bounding Volume Hierarchy, BVH) и наложения треуголльников. Обе операции принципиально важны для алгоритма трассировки лучей. С работой BVH можно с некоторой долей упрощения ознакомиться по этим иллюстрациям.

Архитектура Nvidia Turing

Алгоритм BHV геометрически создаёт “коробочки” в заданной сцене, они помогают сузить местоположение, треугольников, пересекающих лучи, по древовидной структуре. Всякий раз при обнаружении треугольника внутри “коробочки”, она делится на “коробочки” ещё меньшего размера до тех пор, пока “коробочка” может быть поделена только на треугольники. Без алгоритма BHV пришлось бы осуществлять поиск по всей сцене и проводить массу ненужных вычислений для поиска пересечений.

Нажмите для увеличения

Изучить работу этого алгоритма можно благодаря программному интерфейсу Microsoft D3D12 Raytracing Fallback Layer, который позволяет эмулировать трассировку лучей в DirectX на устройствах без встроенной поддержки этой технологии с помощью вычислительных шейдеров и перенаправлять её на DXR при обнаружении поддержки на уровне драйверов. К примеру, на процессорах с архитектурой Pascal, сканирование по алгоритму BVH осуществляется с помощью программируемых ядер, которые вызывают каждую “коробочку”, декодируют её, тестируют на предмет пересечений и определяют, есть ли в ней другие “коробочки” или треугольники. Процесс продолжается до момента обнаружения треугольников, после чего они проверяются на пересечение с лучами. Несложно догадаться, что программное осуществление этого процесса стоит слишком дорого и при этом невозможно добиться плавной картинки в реальном времени на любом современном графическом процессоре.

Нажмите для увеличения

В архитектуре Turing задача расчёта иерархии ограниченных объёмов и поиска пересечений лучей с треугольниками возложена на аппаратные выделенные ядра, благодаря чему другие ресурсы освобождаются для отрисовки как и в случае с обычной растеризацией.

Нажмите для увеличения

По собственным данным Nvidia, видеокарта GeForce GTX 1080 Ti способна формировать около 1,1 миллиарда лучей в секунду программным способом с помощью ядер CUDA с производительностью FP32 в 11,3 Тфлопс. В свою очередь, GeForce RTX 2080 Ti формирует около 10 миллиардов лучей в секунду с помощью 68 ядер RT. Оговоримся, что эти числа основаны на среднегеометрическом результате нескольких тестовых нагрузок.

Архитектура Nvidia Turing | Тензорные ядра и DLSS

Вторым по важности нововведением для игровых видеокарт стало внедрение в архитектуру Turing тензорных ядер, которые позаимствованы в архитектуре Volta. В своё время появление их в Volta вполне однозначно характеризовала ключевое назначение чипа GV100: ускорять операции с матрицами 4х4 с половинной точностью FP16, которые составляют основу для настройки и работы нейронных сетей.

Как и в SM архитектуры Volta, в потоковом мультипроцессоре Tensor два тензорных ядра приходятся на четыре секции, или восемь на весь SM. У TU102 меньше SM, чем у GV100 (72 против 84), а у GeForce RTX 2080 Ti меньше активированных SM, чем у Titan V (68 против 80), поэтому у RTX 2080 Ti только 544 тензорных ядер, в то время как у Titan V их 640. Однако в TU102 тензорные ядра также способны поддерживать операции INT8 и INT4, что вполне объяснимо, поскольку GV100 предназначен для тренировки нейронных сетей, а TU102 это игровой процессор, способный использовать для вычислений тренированные сети. Как заявляют в Nvidia, производительность тензорных ядер в TU102 достигает 114 Тфлопс в операциях FP16, 228 Топс в INT8 и 455 Топс в INT4.

Планы Nvidia на тензорные ядра в большинстве своём включают нейронную графику, однако в компании также ведутся разработки других приложений глубокого обучения на десктопных видеокартах. “Умные враги”, к примеру, полностью изменят представление геймеров о схватках с “боссами”. Синтез и распознавание речи, совершенствование в материальной сфере и области искусства, распознавание лжи и анимация персонажей — здесь уже используется искусственный интеллект, и Nvidia видим в этом потенциал развития.

Но, разумеется, главная цель GeForce RTX — это супербыстрый алгоритм полноэкранного сглаживания Deep Learning Super Sampling (DLSS). Процесс внедрения DLSS требует поддержки разработчика в программном интерфейсе Nvidia NGX, однако в компании заявляют, что интеграция происходит довольно просто, а список игр, в которых запланирована поддержка DLSS, свидетельствует об оптимизме игровой индустрии относительно этого алгоритма. Nvidia намерена на собственных мощностях нейросетей с использованием 660-нодового сервера Saturn V на базе DGX-1 генерировать модели — профили для конкретных игр с высочайшим качеством и с максимально возможной вариативностью. Эти профили можно будет загружать через драйвер видеокарты и использовать с помощью тензорных ядер на любой карте семейства GeForce RTX. В Nvidia утверждают, что объёмы таких AI-моделей измеряются мегабайтами, так что они будут довольно компактными.

Алгоритм TAA, обратите внимание на смазанный текст

Алгоритм DLSS, все дефекты пропали

Архитектура Turing позволяет создавать более высококачественное изображение из того же набора сэмплов по сравнению с алгоритмом постобработки Temporal Anti-Aliasing (TAA). В режиме DLSS достигается существенное преимущество в производительности благодаря уменьшению числа входных сэмплов в сети при таком же качестве и разрешении, как и при TAA. В режиме 2x DLSS, как утверждают разработчики, можно добиться качества, эквивалентного 64xSS, при обработке с разрешением экрана, на который выводится картинка.

Архитектура Nvidia Turing | Заключение

Как видим, с выпуском видеокарт семейства GeForce RTX на базе новой микроархитектуры Turing компания Nvidia постаралась, с одной стороны, повысить производительность и эффектность подачи в существующих играх, а с другой, заложить солидный фундамент для инноваций в играх не столько ближайшего, сколько отдалённого будущего — с поддержкой трассировки лучей и, самое главное, технологий искусственного интеллекта.

Нажмите для увеличения

Да, сегодня вряд ли имеет смысл выделение миллионов транзисторов под специализированные тензорные и RT-ядра, и в обозримом будущем их роль тоже существенно не возрастёт. Однако эти вложения сторицей окупятся тогда, когда спустя много месяцев или даже лет разработчики воспользуются всеми преимуществами гибридных видеопроцессоров, способных с одинаковой лёгкостью работать как с растеризацией, так и с трассировкой лучей. Со временем станет понятнее и место нейронной графики и DLSS.

Нажмите для увеличения

Между тем, геймерам не нужны туманные обещания, о том, как здорово будет выглядеть картинка через несколько лет. Им нужно высококачественное изображение и высокая частота кадров — сегодня и сейчас, особенно за такие немаленькие деньги. К счастью, архитектура Turing способна предложить не только радужные перспективы, а существенные преимущества над видеокартами предыдущих поколений уже сегодня, и нам представляется, что семейство GeForce RTX может действительно стать прорывом в области игровой графики более чем за десятилетие.