nVidia вновь прорвалась вперед
Давление является отношением силы к площади. ATi сегодня почувствовала давление – по крайней мере, в области OpenGL. Если карта потребительского сегмента рынка GeForceFX запоминается, прежде всего, шумом на уровне пылесоса и огромным размером (вместо хорошей производительности), аналог NV30 для рабочих станций оформлен более скромно. Карта работает на меньших скоростях и использует упрощенную систему охлаждения. Как показывает сравнение с семью другими картами для рабочих станций, даже при меньших частотах QuadroFX 2000 демонстрирует превосходную производительность.
3D архитектура
QuadroFX основывается на том же дизайне, что GeForceFX (NV30). Мы уже подробно рассматривали возможности этого 8X чипа в нашей предыдущей статье nVidia GeForce FX: атака на Короля. 3D процессор, который также называют VPU (Visual Processing Unit), обладает 125 миллионами транзисторов, в два раза больше Pentium 4 процессора. Как и ATi, nVidia использует дополнительное питание.
Субпиксельная точность
Субпиксельная точность QuadroFX составляет 12 бит, в отличие от восьми бит Quadro4. Что касается других карт, то у 3DLabs Wildcat VP 3 и ATi FireGL она и того меньше – четыре бита. Только лишь у Wildcat 6210 и 7210 точность достигает десяти бит.
Конвейеры и фильтрация
На рынке проектирования производительность геометрического движка играет большую роль, чем скорость рендеринга. С производительностью 90 миллионов треугольников в секунду у QuadroFX большой запас прочности. Однако FX прекрасно себя показывает и в “тяжелом” рендеринге. Число пиксельных конвейеров по сравнению с Quadro4 было увеличено с четырех до восьми. В результате чего FX смогла просчитывать восемь пикселей с одной текстурой за такт. С другой стороны, видеопроцессор Quadro позволяет одновременно обрабатывать две текстуры на конвейер, в то время как у FX – только одну. В мультитекстурировании преимущество снова уменьшается. nVidia также поработала над улучшением фильтрации. Производительность FX в трилинейной и анизотропной фильтрации значительно увеличилась.
Детали 3D архитектуры
- Улучшенный 0,13 мкм техпроцесс
- Упаковка Flip-chip
- 256-битный GPU
- 125 миллионов транзисторов
- 8 блоков пиксельных программ
- Массив вершинных программ
- AGP 8X
- Макс. энергопотребление 75 Вт, дополнительное питание
- Геометрия: более 90 миллионов треугольников в секунду
- 16x полноэкранное сглаживание
- Genlock / framelock
- 6 полностью задаваемых аппаратных плоскости отсечения
- IEEE 128 битный кадровый буфер с плавающей запятой (FP)
- 32 бита на компонент
- Опциональные скоростные режимы с 16-битной FP точностью
- 16 текстур на пиксель
- Однопроходная объемная визуализация
Архитектура памяти
nVidia устанавливает новый стандарт с применением DDR2 памяти в графических картах. DDR (удвоенная скорость передачи) уже передает данные по обоим фронтам тактового импульса. Однако DDR2 отнюдь не подразумевает четыре передачи за такт. Увеличение пропускной способности по сравнению с обычной памятью достигается путем все той же передачи по обоим фронтам тактового импульса (подъему и спаду), а также удвоению пакетных сигналов (bursts). Пакетные сигналы обрабатываются внутри чипа, а не во время передачи.
Пропускная способность 19,8 Гбайт/с у Radeon 9700 Pro намного выше, чем у QuadroFX 2000 – 12,8 Гбайт/с. Поэтому на DDR2 памяти свет клином не сошелся. Намного более важна ширина шины памяти. У ATi (с обычной DDR памятью) она составляет 256 бит. nVidia, с другой стороны, использует шину памяти только 128 бит для DDR2.
Чтобы компенсировать очевидный недостаток пропускной способности памяти, nVidia помимо уже привычного Z-сжатия добавила и компрессию цветовой информации. Чип сжимает цветовую информацию без потерь в отношении 4:1 в реальном времени. Как заявляет nVidia, подобная технология существенно улучшает эффективность, поскольку цветовая информация очень хорошо сжимается вплоть до границ полигона.
Итог по архитектуре памяти
- Цветовое сжатие 4:1 без потерь
- Z-сжатие без потерь
- 128-битная шина памяти с DDR2 памятью
Чем хорош инструментарий nVidia Cg?
По сравнению с предшествующими чипами (NV25 и NV28), сложность пиксельных и вершинных программ существенно возросла. Теперь в них можно использовать циклы. Для упрощения программирования nVidia выпустила среду разработки Cg. Компилятор основан на мощном языке программирования C++, к тому же он хорошо совместим с языком программирования шейдеров высокого уровня Microsoft (HLSL).
И хотя C++ является универсальным языком программирования, он обладает существенным недостатком – программы для 3D оборудования необходимо писать напрямую и подробно. Cg, с другой стороны, использует готовые модели и библиотеки, которые доступны на нескольких платформах. В результате программисту вовсе не нужно досконально разбираться в 3D оборудовании, что позволяет быстрее решать поставленную задачу. В итоге время разработки визуальных эффектов и шейдеров для OpenGL приложений существенно сокращается.
Примеры Cg плагинов
Cg плагин для Maya 4.5 (нажмите для увеличения)
Cg плагин для Material Editor из 3D Studio Max 5 (нажмите для увеличения)
Интеграция в SOFTIMAGE|XSI Workflow (нажмите для увеличения)
Современные карты для рабочих станций
В следующей таблице приведен обзор современных OpenGL видеокарт для рабочих станций.
Производитель и модель | Чип (кодовое имя) | Число транзисторов | Цена | Частота чипа | Частота памяти * | Память | Шина памяти | Интерфейс (макс.) |
3Dlabs Wildcat VP970 | VP900 | 76 млн. | $899 | ? | ? | 128 Мб DDR | 256 бит | AGP4X |
ATi FireGL 8700 | FGL8700 (R200W) | 60 млн. | $149 | 250 МГц | 270 МГц | 64 Мб DDR | 128 бит | AGP4X |
ATi FireGL 8800 | FGL8800 (R200W) | 60 млн. | $349 | 250 МГц | 290 МГц | 128 Мб DDR | 128 бит | AGP4X |
ATi FireGL X1 128MB | FGL9700 (R300W) | 100 млн. | $749 | 325 МГц | 310 МГц | 128 Мб DDR | 256 бит | AGP8X |
ATi FireGL X1 256MB | FGL9700 (R300W) | 100 млн. | $949 | 325 МГц | 310 МГц | 256 Мб DDR | 256 бит | AGP8X |
ATi FireGL Z1 | FGL9500 (R300W) | 100 млн. | $549 | 325 МГц | 310 МГц | 128 Мб DDR | 256 бит | AGP8X |
nVidia Quadro4 750XGL | Quadro4 (NV25) | 63 млн. | $399 | 275 МГц | 275 МГц | 128 Мб DDR | 128 бит | AGP4X |
nVidia Quadro4 900XGL | Quadro4 (NV25) | 63 млн. | $499 | 300 МГц | 325 МГц | 128 Мб DDR | 128 бит | AGP4X |
nVidia Quadro4 980XGL | Quadro4-AGP8X (NV28) | 63 млн. | $549 | 300 МГц | 325 МГц | 128 Мб DDR | 128 бит | AGP8X |
nVidia QuadroFX 1000 | QuadroFX (NV30) | 125 млн. | $1049 | 300 МГц | 300 МГц | 128 Мб DDR2 | 128 бит | AGP8X |
nVidia QuadroFX 2000 | QuadroFX (NV30) | 125 млн. | $1399 | 400 МГц | 400 МГц | 128 Мб DDR2 | 128 бит | AGP8X |
* Физическая частота. Примечание: память работает на двойной скорости (DDR). Маркетинговые отделы обычно неправильно удваивают физическую скорость при использовании DDR памяти.
nVidia/PNY QuadroFX 2000
Флагманом новой линейки QuadroFX является модель 2000. nVidia прогнозирует продавать карту за $1400/€1650. Чип QuadroFX работает на частоте 400 МГц. Частота памяти такая же, даже если товарищи их маркетинговых отделов пытаются навязать 800 МГц. Однако физическая частота – 400 МГц. Давайте подсчитаем пропускную способность памяти.
128 бит / 8 бит/байт * 400 МГц * 2 передачи/такт = 12,8 гигабайт/секунду
Карта занимает два слота в компьютере. Но мы не считаем это недостатком, поскольку на обычной материнской плате вы вряд ли будете использовать PCI слот рядом с AGP. Карта оборудована двумя разъемами DVI-I для поддержки двух мониторов. Вы можете выбирать между аналоговым и цифровым подключением. В комплект поставки входит VGA адаптер для аналоговых мониторов. Между DVI разъемами находится гнездо для подключения 3D очков.
Карта занимает два слота по причине массивного радиатора. В отличие от карты GeForceFX, система охлаждения не использует блок “FX Flow”.
nVidia требует подключения дополнительного питания с помощью того же разъема, что используется для приводов (на иллюстрации в качестве примера показан жесткий диск).
nVidia/PNY QuadroFX 1000
Вид карты QuadroFX 1000
nVidia пока что не смогла выслать нам FX 1000, поэтому вы не увидите результатов карты в нашем тестировании. Судя по фотографиям, различие между 2000 будет заключаться в использовании одного слота вместо двух. Упрощенная система охлаждения накладывает ограничения: частоты чипа и памяти уменьшены с 400 МГц до 300 МГц. В результате мы получаем пропускную способность памяти:
128 бит / 8 бит/байт * 300 МГц * 2 передачи/такт = 9,6 гигабайт/секунду
Практически же пониженная частота означает уменьшение производительности. По результатам тестов nVidia падение производительности составляет от 15 до 25 процентов по сравнению с FX 2000.
Видеокарта будет продаваться за $900/€1050 в магазинах. Разъемы у карты те же, что и у старшей модели. Два DVI-I выхода для цифрового и аналогового подключения и гнездо для стерео очков.
FX1000 с двумя портами DVI-I и разъёмом для 3D-очков.
Дополнительный разъём питания для FX1000.
Драйвер nVidia
Параллельно с анонсом карты nVidia выпустила драйвер версии 42.82. Поскольку мы выполняли тестирование на платформе i850, скорость AGP составляла 4X. Если бы вы установили карту на материнскую плату с чипсетом E7205/Granite Bay, то смогли бы использовать AGP 8X.
Настройка производительности исчезла из FX 2000. Сглаживание и анизотропная фильтрация остались теми же, что и на GeForceFX.
Для большинства программ, типа Solidworks, 3D Studio Max и Maya, уже присутствуют настройки OpenGL по умолчанию. Для тестовых целей мы всегда выключали вертикальную синхронизацию.
Кстати, Direct3D настройки играют незначительную роль в сегменте рабочих станций.
Драйвер nVidia Driver, продолжение
В свойствах монитора можно изменить яркость, контрастность, цветовую палитру и насыщенность.
Настройка тактовых частот доступна только лишь через редактирование реестра. Что интересно – теперь вы можете указывать частоты в 2D и 3D режимах. Стандартная тактовая частота FX 2000 составляет 400 МГц, а “800 МГц” для памяти – типичный маркетинговый ход. Физическая скорость памяти 400 МГц, что дает пропускную способность 12,8 Гбайт/с.
Владельцы ЖК экранов с функцией поворота могут переключаться между альбомным и портретным режимами.
Драйвер nVidia, продолжение
Температурный контроль: когда-то он использовался только для центрального процессора, но сегодня он присутствует и на графических чипах. При достижении указанного температурного порога видеопроцессор будет замедлен. Конечно, это приведет к снижению производительности, зато улучшит стабильность.
Медиа центр nVidia размещается в виде небольшого значка в правом нижнем углу панели задач Windows. Там содержатся те же функции, что и в настройках драйвера. Единственная цель Медиа центра заключается в улучшении удобства.
nVidia поставляет специальный плагин для 3D Studio Max, названный MAXTREME. Версия 4.0.28 (и выше) уже поддерживает линейку QuadroFX.
Тестовая конфигурация
Все спецификации относятся только к тестированию производительности.
Платформа | |
Процессор | Intel Pentium 3,06 ГГц (HT выключен) |
Частота FSB | 133 МГц с учетверенной скоростью |
Материнская плата | Asus P4T533C |
Чипсет | Intel 850E / Tehama (двухканальный) |
Память | 1024 Мб PC1066 RDRAM 40 нс Samsung |
Жесткий диск | IBM Ultrastar 36LZX 36,7 Гбайт |
SCSI контроллер | Adaptec SCSI Card 29160N |
Драйверы и ПО | |
Карты 3Dlabs Wildcat VP | v0181 |
Линейка ATI FireGL 8×00 | v3051 |
ATI FireGL X1 | v1021 |
Линейка PNY nVidia Quadro4 | v41.04, Maxtreme v4.00.25 (3ds max) |
PNY nVidia QuadroFX 2000 | v42.82, Maxtreme v4.00.28 (3ds max) |
Разрешение | 1280x1024x32, Vsync=off для всех OpenGL тестов |
ОС | Windows 2000 Professional SP3 |
Тесты | |
Viewperf (синтетический) | SPECopc Viewperf 7.0 |
Solidworks (приложение) | SPECapc Solidworks 2001Plus benchmark |
3D Studio Max (приложение) | SPECapc 3DSMAX 4.2 benchmark |
Тесты: восемь кандидаток
Предварительный анализ производительности разных платформ в статье Старые имена на новый лад: ATi FireGL X1 и nVidia Quadro4 980XGL привел к следующему результату:
- Платформа: Intel 850/Tehama с RDRAM лучше, чем E7205/Granite Bay с DDR266 памятью
- AGP8X не имеет никакого практического преимущества над AGP4X
- Windows 2000 работает лучше Windows XP
- Hyperthreading должен быть включен под Windows XP, но выключен под Windows 2000
Четыре указанных утверждения относятся только к современным OpenGL приложениям для рабочих станций, и их не следует распространять на другие области типа офисных приложений или игр. Ситуация может измениться по мере выпуска новых чипсетов, обновления BIOS, выхода улучшенных драйверов или пакетов обновления для операционных систем. Если это случится, мы непременно вам сообщим. В то же время при принятии решения о покупке лучше ориентироваться на текущие условия, а не на слухи о грядущих продуктах.
Мы использовали пакет синтетических тестов SPEViewperf 7.0. Он позволяет осуществить довольно грубую прикидку производительности. Реальная же производительность определяется с помощью тестирования настоящих приложений – Solidworks 2001 Plus and 3D Studio Max R4.2. Оба теста приложений были выпущены уважаемой организацией SPEC. Кстати, последний тест наиболее интересен с точки зрения оценки производительности.
Viewperf 7.0 (синтетический)
Пакет Viewperf 7.0 основывается на шести отдельных тестах 3dsmax-01, light-05, drv-08, proe-01, dx-07 и ugs-01 и вы можете скачать его с сайта SPEC. Пакет измеряет следующие критерии:
- 3D примитивы, включая точки, линии, line_strip, line_loop, треугольники, triangle_strip, triangle_fan, четырехугольники и полигоны
- Атрибуты на вершину, на примитив и на кадр
- Освещение
- Наложение текстур
- Альфа-смешение
- Туман
- Сглаживание
- Буфер глубины
В пакете используются так называемые viewsets от различных приложений. Следует отметить, что само приложение не вызывается. Ниже следует описание отдельных тестов.
- 3dsmax-01: на основе 3D Studio Max 3.1, использует три модели с 1,5 миллионами вершин в среднем, на сценах присутствуют различные источники освещения.
- dx-07: на основе IBM Data Explorer, использует 10 различных тестов.
- drv-08: на основе DesignReview от Intergraph, использует 5 различных тестов.
- light-05: на основе приложения Discreet Lightscape Radiosity, использует 4.
- proe-01: на основе Pro/ENGINEER 2000i2, измеряет две модели в трех режимах – каркас, с затенением и в режиме отсечения невидимых линий (HLR).
- ugs-01: на основе Unigraphics V17, тестирует модель машины, состояющую из 2,1 миллионов вершин.
Результаты Viewperf 7.0
Тест Viewperf целиком синтетический. Имейте в виду, что результаты синтетического теста имеют меньшую ценность, чем результаты теста приложений.
Quadro FX 2000 на 67 процентов быстрее Quadro4 980XGL в тесте drv-08.
Результаты Viewperf 7.0, продолжение
Pro/Engineer viewset (proe-01): улучшение производительности на 75 процентов по сравнению с картами типа 980XGL удивило даже бывалых инженеров нашей тестовой лаборатории. Но какие результаты будут достигнуты в реальных приложениях? Ведь Viewperf – всего лишь синтетический тест. Сможет ли FX2000 сохранить значительный отрыв по производительности?
3D Studio Max 4.2 (приложение)
Все следующие тесты основаны на реальных приложениях, использующихся в сегменте рабочих станций. Для запуска этих тестов вам понадобятся полные рабочие версии приложений. При тестировании использовались специально созданная модель и скрипт.
Нажмите на картинку для ее увеличения.
Наши поздравления! Карта оказалась на 40 процентов быстрее 980XGL в графическом тесте от SPECapc 3D Studio Max. Но более интересен общий результат. Благодаря меньшей нагрузке на процессор, ATi смогла минимизировать лидерство nVidia.
Solidworks 2001 Plus (приложение)
Нажмите на картинку для увеличения.
Тест SPEC для Solidworks 2001 Plus использует сложную модель механизма и машины, среди всего прочего. В случае механизма максимальное число вершин составляет 2,25 миллиона.
Ага! Разработчики драйверов не успели уделить достаточно внимания их оптимизации. Интересно отметить, что Quadro4 900XGL оказывается чуть быстрее в графическом тесте SolidWorks. nVidia следует над этим поработать.
Заключение: приятный сюрприз
Еще только месяц назад мы рассуждали о том, что ATi FireGL X1 с чипом R9700 должна бы победить своего конкурента Quadro4 980XGL (NV28GL). Технические характеристики чипа превосходны, что подтверждается его высокой производительностью в игровых тестах. ATi согласилась с нами и обещала вскоре выпустить улучшенный OpenGL драйвер. Однако пока что этого не случилось.
Конкуренция на этом сегменте очень тяжела. Вместо того чтобы почивать на лаврах, nVidia решила еще больше поднять ставки. И для nVidia, и для ATi повсеместной практикой стал выпуск профессиональной OpenGL версии видеокарт через три месяца после анонса продукта для потребительского рынка. В результате разработчики обладают достаточным запасом по времени, чтобы снабдить карту стабильными драйверами, прошедшими через все стадии сертификации. Однако nVidia решила изменить тенденцию и сократила цикл всего до трех недель.
В нашем тестировании QuadroFX 2000 показал превосходную производительность и стабильность, несмотря на довольно свежий драйвер. ATi сейчас придется нелегко. Чтобы иметь достаточные шансы на рынке, ATi следует выпустить драйвер, который смог бы обеспечить ATi FireGL X1 производительность хотя бы выше “старой” Quadro4 980XGL. ATi не следует расслабляться. По нашему мнению, существует несколько областей, где ATi может не только сравняться, но и превзойти QuadroFX 2000. Если все пойдет по плану, возможно, нам следует дождаться R350. По слухам ATi должна представить его на CeBIT.
Довольно необычно было увидеть, что чип NV30 смог лучше реализовать свой потенциал производительности в OpenGL сегменте, чем в играх. Мы привыкли к обратной ситуации. Наверное, в этот раз разработчики nVidia уделили больше внимания оптимизации графического движка под аппаратное ускорение OpenGL. Это может объяснить небольшое время разработки драйвера – чем выше совместимость чипа с последними OpenGL спецификациями, тем “тоньше” слой драйверов. К тому же работать с NV30 оказывается намного легче в силу его очень гибкой программируемости. Начальная розничная цена QuadroFX 2000 составляет $1400/€1650. Карты на QuadroFX 2000 должны представить ARM Systems, BOXX Technologies, Colfax International, Core Microsystems, Elsa Asia, Leadtek, MaxVision, NTSI, PNY и Quantum3D.
Обновление 5 марта, 2003: Как раз перед публикацией статьи ATi выслала нам новые драйверы. Первые тесты показали, что производительность карт ATi существенно возросла. Мы постараемся как можно быстрее провести полное тестирование и познакомить вас с его результатми.