РЕКЛАМА
ИНФОРМАЦИЯ
ПОЛЕЗНЫЕ ССЫЛКИ
Как себя ведёт Radeon R9 290X в закрытом корпусе?

Обзор партнёрских видеокарт: одна Radeon R9 290 и три 290X

Обзор Radeon R7 240 и 250: игровые видеокарты до $100

Обзор видеокарт Nvidia GeForce GTX 1050 и 1050 Ti. Часть 1

Обзор видеокарт Nvidia GeForce GTX 1050 и 1050 Ti. Часть 2

Сделай сам: оптимизируем систему охлаждения видеокарты

Сравнительное тестирование четырёх видеокарт на базе GeForce GTX 1070

Как мы тестируем видеокарты

Обзор профессионального графического ускорителя AMD Radeon Pro WX 7100

Обзор и тестирование графического ускорителя AMD Radeon RX 580 8 Гбайт. Часть 1

Обзор и тестирование графического ускорителя AMD Radeon RX 580 8 Гбайт. Часть 2

Обзор и тестирование графического ускорителя AMD Radeon RX 550 2 Гбайт

Обзор и тестирование видеокарты Nvidia Titan Xp 12 Гбайт

Обзор и тестирование графического ускорителя AMD Radeon Vega RX 64 8 GB. Часть 1

Обзор и тестирование графического ускорителя AMD Radeon Vega RX 64 8 GB. Часть 2

Обзор и тест графического ускорителя AMD Radeon RX Vega 56 8 Гб. Часть 2

Видеокарта Nvidia GTX 1180: чего нам ждать от флагмана нового поколения?

Настраиваем видеокарту для игр: повышаем скорость без апгрейда

Выбираем GeForce GTX 1060: 5 лучших моделей

Выбираем GeForce GTX 1050 Ti: 5 лучших моделей

Выбираем GeForce GTX 1070 Ti: 5 лучших моделей

Выбираем GeForce GTX 1080 Ti: 5 лучших моделей

Новое поколение видеокарт Nvidia: предварительный обзор

Архитектура Nvidia Turing: трассировка лучей и многое другое

Rambler's Top100 Рейтинг@Mail.ru

ВИДЕОКАРТЫ

Архитектура Nvidia Turing: трассировка лучей и многое другое
Краткое содержание статьи: В Nvidia называют Turing самым крупным прорывом в области архитектуры графических процессоров за последнее десятилетие. В доказательство приводится внушительный список возможностей, повышающих производительность в играх, упоминаются элементы искусственного интеллекта, ускорение видеостриминга, поддержка следующего поколения оборудования для виртуальной реальности, и конечно же трассировка лучей в реальном времени.

Архитектура Nvidia Turing: трассировка лучей и многое другое


Редакция THG,  2 октября 2018
Страница: Назад  1 2 3 Далее


Архитектура Nvidia Turing | Введение

Мощная видеокарта GIGABYTE nVidia GeForce RTX 2080 с грандиозной скидкой

В Nvidia называют Turing самым крупным прорывом в области архитектуры графических процессоров за последнее десятилетие. В доказательство приводится внушительный список возможностей, повышающих производительность в играх, упоминаются элементы искусственного интеллекта, ускорение видеостриминга, поддержка следующего поколения оборудования для виртуальной реальности, и конечно же трассировка лучей в реальном времени. Так что возлагаемые на Turing ожидания очень высоки. Давайте разберёмся, в чём же заключаются особенности новой видеоархитектуры, рассмотрим новые технические решения и убедимся в том, что это действительно прорывная архитектура, принципиально отличающаяся от всего, что мы видели до этого.

Архитектура Nvidia Turing

Нажмите для увеличения

Архитектура Nvidia Turing | Графический процессор TU102

Прежде всего, познакомимся с физической реализацией новой микроархитектуры. Графический процессор TU102 на базе архитектуры Turing, которым оснащается топовая видеокарта GeForce RTX 2080 Ti, это микросхема площадью 754 кв. мм, изготовленная по 12-нм техпроцессу FinFET на мощностях TSMC и состоящая из 18,6 миллиарда транзисторов.

По сравнению с самым большим десктопным видеопроцессором GP102 на архитектуре Pascal, TU102 на 60% больше по площади и содержит на 55% больше транзисторов, тем не менее, это не самый масштабный процессор от Nvidia. Флагманский чип GV100 (микроархитектура Volta) состоит из 21,1 миллиарда транзисторов, а его площадь — внушительные 815 кв. мм, но этот процессор рассчитан на профессиональное использование, в то время как TU102 оптимизирован для игр как функционально, так и по доступным ресурсам.

Архитектура Nvidia Turing

Нажмите для увеличения

Приведём пример. Каждый потоковый мультипроцессор (SM, Streaming Multiprocessor) Volta состоит из 32 ядер FP64, обеспечивающие вычисления с двойной точностью, и в целом в GV100 мы получаем 2688 ядер FP64. Однако они приносят мало пользы в играх, но занимают много места на кристалле, поэтому конструкторы Nvidia оставили только два таких в каждом SM архитектуры Turing. В результате производительность вычислений с двойной точностью в TU102 составляет 1/32 от производительности ядер FP32, но оставшихся ресурсов FP64 разумно достаточно для обеспечения совместимости с использующим их программным обеспечением.

Точно так же, восемь 512-битных контроллеров памяти в GV100, подключенных к четырём блокам чрезвычайно дорогостоящей HBM2, привели бы к космическим ценам по меркам геймерского рынка, поэтому в TU102 их заменили более доступным решением GDDR6 от Micron, которое, тем не менее, обеспечивает существенное повышение пропускной способности по сравнению с Pascal с GDDR5X.

Полноценный процессор TU102 состоит из шести графических вычислительных кластеров (Graphics Processing Cluster, GPC), в каждый из которых входит модуль растеризации (Raster Engine) и шесть блоков обработки текстур (Texture Processing Cluster, TPC). Каждый TPC состоит из одного модуля обработки полиморфов (PolyMorph Engine), представляющего собой конвейер обработки геометрии с фиксированной функциональностью, и двух потоковых мультипроцессоров SM. В свою очередь, в каждом SM находятся 64 ядер CUDA, восемь тензорных ядер, одно ядро трассировки лучей (Ray Tracing, RT), четыре текстурных блока, 16 блоков загрузки и хранения, 256 Кбайт регистрового файлового пространства, четыре кэша L0 для инструкций и 96 Кбайт конфигурируемого кэша уровня L1.

Архитектура Nvidia Turing

Нажмите для увеличения

В сумме получаем: 72 мультипроцессора SM, 4608 ядер CUDA, 576 тензорных ядер, 72 ядра RT, 288 текстурных блоков и 36 модулей обработки полиморфов. Все эти ресурсы работают с 12 32-разрядными контроллерами памяти GDDR6, каждый из которых подключён к кластеру из восьми ROP и 512 Кбайтам кэша L2, что в совокупности даёт 384-разрядную шину памяти, 96 ROP и кэш уровня L2 ёмкостью 6 Мбайт.

Между тем, чип TU102, устанавливаемый на GeForce RTX 2080 Ti, не является полноценным TU102. Чтобы сохранить рыночную нишу для хай-энда класса Titan, в Nvidia отключили два TPC, в результате чего карта располагает 4352 ядрами CUDA, 544 тензорными ядрами, 68 ядрами RT, 544 текстурными блоками и 34 модулями обработки полиморфов. Кроме того, был дополнительно деактивирован один из 32-битных контроллеров памяти, что дало 352-битную шину с 88 ROP и 5,5 Мбайтами кэша L2. Тем самым на видеокарту устанавливается 11 модулей памяти (Micron MT61K256M32JE-14:A) и одно место остаётся свободным. Но даже при этом мы получаем радикальную прибавку пропускной способности по сравнению с GeForce GTX 1080 Ti: 616 против 484 Гбайт в секунду. В наличии также два интерфейса NVLink для многопроцессорных конфигураций: каждый линк x8 обеспечивает двустороннюю пропускную способность в 50 Гбайт/c для вывода более высоких разрешений и более высокой частоты обновления. 100 Гбайт/с у двух NVLink достаточно для подключения 8K-мониторов в окружающем режиме.

Архитектура Nvidia Turing

Нажмите для увеличения

Для справки приводим заявленные характеристики видеокарт GeForce RTX 2080 Ti и GeForce GTX 1080 Ti в исполнении Founders Edition, т.е. с небольшим заводским разгоном.

GeForce RTX 2080 Ti FE GeForce GTX 1080 Ti FE
Архитектура (GPU) Turing (TU102) Pascal (GP102)
Ядер CUDA 4352 3584
Пиковая производительность FP32 14,2 Тфлопс 11,3 Тфлопс
Тензорных ядер 544 -
Ядер RT 68 -
Текстурных блоков 272 224
Базовая частота 1350 МГц 1480 МГц
Частота Boost 1635 МГц 1582 МГц
Объём памяти 11 Гбайт GDDR6 11 Гбайт GDDR5X
Шина памяти 352-бит 352-бит
Пропускная способность памяти 616 Гбайт/c 484 Гбайт/с
ROP 88 88
Кэш L2 5,5 Мбайт 2,75 Мбайт
TDP 260 Вт 250 Вт
Число транзисторов 18,6 миллиарда 12 миллиардов
Размеры кристалла 754 кв. мм 471 кв. мм
Поддержка SLI Да (x8 NVLink, x2) Да (MIO)

Архитектура Nvidia Turing | Графический процессор TU104

Как бы нам ни нравилась GeForce RTX 2080 Ti, но её цены начинаются примерно со 110 000 рублей, а это сумма абсолютно неподъёмная для большинства геймеров. Поэтому на гораздо больший успех обречена чуть упрощённая версия GeForce RTX 2080 на процессоре TU104, которую в российской рознице можно купить по цене начиная с 65 000 рублей.

Архитектура Nvidia Turing

Нажмите для увеличения

TU104 располагает 13,6 миллиардами транзисторов и площадь его кристалла чуть меньше: 545 кв. мм. При этом по физическим размерам он больше флагмана предыдущего поколения GP102 (471 мм). Техпроцесс — тот же 12-нм FinFET.

Процессор TU104 построен из тех же "кирпичиков", что и TU102, просто здесь их чуть меньше: шесть GPC, каждый из которых состоит из четырёх TPC. Тем самым, в полноценном TU104 имеется 48 мультипроцессоров SM, 3072 ядер CUDA, 384 тензорных ядер, 48 ядер RT, 192 текстурных блоков и 24 модулей обработки полиморфов. Восемь 32-битных контроллеров памяти GDDR6 образуют 256-разрядную шину с 64 ROP и 4 Мбайтами кэша L2. Чип получил только одно соединение NVLink с восемью линиями и пропускной способностью 50 Гбайт/c.

Архитектура Nvidia Turing

Нажмите для увеличения

Однако вновь у GeForce RTX 2080 мы наблюдаем не полноценный, а урезанный TU104, у которого отключён один TPC, в результате чего мы имеем 46 SM, 2944 ядер CUDA, 368 тензорных ядер, 46 ядер RT, 184 текстурных блока, 64 ROP и 4 Мбайт кэш-памяти L2. Шина памяти остаётся 256-битной. Для сравнения, приводим характеристики аналога этой видеокарты предыдущего поколения, обе карты в исполнении Founders Edition с небольшим заводским разгоном.

GeForce RTX 2080 FE GeForce GTX 1080 FE
Архитектура (GPU) Turing (TU104) Pascal (GP104)
Ядер CUDA 2944 2560
Пиковая производительность FP32 10,6 Тфлопс 8,9 Тфлопс
Тензорных ядер 368 -
Ядер RT 46 -
Текстурных блоков 184 160
Базовая частота 1515 МГц 1607 МГц
Частота Boost 1800 МГц 1733 МГц
Объём памяти 8 Гбайт GDDR6 8 Гбайт GDDR5X
Шина памяти 256-бит 256-бит
Пропускная способность памяти 448 Гбайт/c 320 Гбайт/с
ROP 64 64
Кэш L2 4 Мбайт 2 Мбайт
TDP 225 Вт 180 Вт
Число транзисторов 13,6 миллиарда 7,2 миллиарда
Размеры кристалла 545 кв. мм 314 кв.мм
Поддержка SLI Да (x8 NVLink) Да (MIO)

Архитектура Nvidia Turing | Графический процессор TU106

Наконец, младшая видеокарта из нового поколения Turing, которая была анонсирована одновременно с другими, это GeForce RTX 2070, построенная на процессора TU106. Как это обычно бывает, более доступные версии появляются в продаже значительно позже флагманов, и RTX 2070 должна поступить в магазины в течение октября. Ожидаемый ценник — от 50 000 рублей.

Архитектура Nvidia Turing

Нажмите для увеличения

Процессор TU106 состоит из 10,8 миллиарда транзисторов, площадь кристалла — 445 кв. мм. Полноценный TU106 состоит из трёх GPC, в каждом из которых по шесть TPC. Внутренная конструкция TPC точно такая же, как и во всех остальных чипах на базе Turing. В результате получаем 2304 ядер CUDA, 288 тензорных ядер, 36 ядер RT и 144 текстурных блоков. У TU106 такая же 256-разрядная шина памяти, что и у TU104, 64 ROP и 4 Мбайта кэша L2. Соединение NVLink не поддерживается.

Архитектура Nvidia Turing

Нажмите для увеличения

Вновь сравним GeForce RTX 2070 с её аналогом из предыдущего поколения, в версиях Founders Edition.

GeForce RTX 2070 FE GeForce GTX 1070 FE
Архитектура (GPU) Turing (TU106) Pascal (GP104)
Ядер CUDA 2304 1920
Пиковая производительность FP32 7,9 Тфлопс 6,5 Тфлопс
Тензорных ядер 288 -
Ядер RT 36 -
Текстурных блоков 144 120
Базовая частота 1410 МГц 1506 МГц
Частота Boost 1710 МГц 1683 МГц
Объём памяти 8 Гбайт GDDR6 8 Гбайт GDDR5
Шина памяти 256-бит 256-бит
Пропускная способность памяти 448 Гбайт/с 256 Гбайт/с
ROP 64 64
Кэш L2 4 Мбайта 2 Мбайта
TDP 185 Вт 150 Вт
Число транзисторов 10,8 миллиарда 7,2 миллиарда
Размеры кристалла 445 кв. мм 314 кв. мм
Поддержка SLI Нет Да (MIO)
Страница: Назад  1 2 3 Далее


СОДЕРЖАНИЕ

Выбираем GeForce GTX 1060: 5 лучших моделей. Отзывы в Клубе экспертов THG [ 9 отзывов] Выбираем GeForce GTX 1060: 5 лучших моделей. Отзывы в Клубе экспертов THG [ 9 отзывов]


РЕКЛАМА
РЕКОМЕНДУЕМ ПРОЧЕСТЬ!

История мейнфреймов: от Harvard Mark I до System z10 EC
Верите вы или нет, но были времена, когда компьютеры занимали целые комнаты. Сегодня вы работаете за небольшим персональным компьютером, но когда-то о таком можно было только мечтать. Предлагаем окунуться в историю и познакомиться с самыми знаковыми мейнфреймами за последние десятилетия.

Пятнадцать процессоров Intel x86, вошедших в историю
Компания Intel выпустила за годы существования немало процессоров x86, начиная с эпохи расцвета ПК, но не все из них оставили незабываемый след в истории. В нашей первой статье цикла мы рассмотрим пятнадцать наиболее любопытных и памятных процессоров Intel, от 8086 до Core 2 Duo.

ССЫЛКИ