|
GF100: чип на основе Fermi
Противоположный подход к дизайну графических процессоров AMD и nVidia сохранится и в 2010 году.
У первой компании используется стратегия "золотой середины", когда GPU с разумным размером (если вы можете назвать чип с 2,15 млрд. транзисторов "разумным") нацеливается на сегмент, который мы называем high-end рынком, а производные от него закрывают сегменты ниже. Чтобы удовлетворить более требовательных энтузиастов, компания выпускает видеокарты с двумя GPU - примером в данном поколении можно считать
Между тем nVidia приготовила нам нового "бегемота". Конечно, две компании оценивают число транзисторов по-разному, но GF100 будет состоять из более чем трёх миллиардов транзисторов - по сравнению с 1,4 миллиардами у GT200. Пока нет достоверной информации по поводу того, как nVidia планирует реализовать менее дорогие версии чипов на архитектуре Fermi - компания поделилась с нами деталями только о конкретном high-end чипе - но, как вы увидите, дизайн явно нацелен на модульность. Поэтому если вся линейка GeForce GTX 200 использует один и тот же (дорогой) GPU, в данном случае есть все шансы, что Nvidia будет вносить некоторые урезания для получения low-end версий.
Как и в случае видеокарт линейки ATI Radeon HD 5000, Nvidia использует 40-нм техпроцесс TSMC, который на данный момент достиг достаточного уровня выхода годных кристаллов, чтобы AMD удовлетворила спрос на свои видеокарты. Интересно будет увидеть, столкнётся ли nVidia с аналогичными неприятностями?
Учитывая то, что nVidia упомянула высокое энергопотребление, вполне вероятно, что видеокарты с двумя GPU, подобные
Строительные блоки
Почему же мы ожидаем, что GF100 обойдёт предшествующую модель со столь существенным отрывом? Всё дело в сравнении архитектур. К счастью, дизайн GF100 унаследован от GT200, который можно считать наследником небезызвестного графического процессора G80/G92. Если вы уже знакомы с дизайнами nVidia предыдущих поколений, то с пониманием GF100 проблем не возникнет.
Фундаментальным строительным блоком остаётся потоковый процессор, который теперь называется ядром CUDA. У GF100 используется 512 ядер CUDA против 240 у GT200. Поэтому при равных тактовых частотах мы потенциально можем получить 2,13x прирост по сравнению GeForce GTX 285, если нет других оптимизаций. Впрочем, nVidia учитывала слабости GT200 при разработке GT100, и компания утверждает, что смогла решить многие проблемы доработкой архитектуры. В реальности nVidia утверждает, что мы увидим производительность в современных играх в два раза выше, чем на GT200 с активным сглаживанием 8xAA.
![]() |
GPC
GT200 поддерживает 10 так называемых кластеров обработки текстур (Texture Processing Cluster, TPC), каждый из которых оснащён тремя потоковыми мультипроцессорами (Streaming Multiprocessor), состоящими из восьми потоковых процессоров и восьми блоков адресации/фильтрации текстур. В данном случае ресурсы были организованы более элегантно, начиная от движка растеризации с фиксированными функциями до четырёх потоковых мультипроцессоров.
Логика графического процессора разделена на кластеры графической обработки (Graphics Processing Cluster, GPC), которые заменяют принцип TPC, интегрируя в себя функции, которые раньше находились снаружи TPC. Сейчас GPC оснащён собственным движком растеризации, к которому подключены до четырёх потоковых мультипроцессоров (SM), причём каждый SM поддерживает 32 ядра CUDA и четыре отдельных текстурных блока (помимо логики, которую nVidia называет двумя блоками планирования/диспетчеризации и 64 кбайт настраиваемой кэш-/общей памяти). GF100 в полной конфигурации состоит из четырёх кластеров GPC.
![]() |
Если посчитать, то GT200 имеет больше текстурных блоков, чем GF100 (восемь на TPC, до 10 TPC на GPU против четырёх блоков на SM, до 16 SM на GPU). Впрочем, здесь акцент был сделан на повышение эффективности: каждый текстурный блок вычисляет один адрес и запрашивает четыре сэмпла за такт. В результате GF100 достигает более высокой производительности в реальных условиях, если верить Nvidia.
Диспетчеризация против GigaThread
Кластеры GPC заполняются данными с помощью Nvidia GigaThread Engine. Под этим громким названием скрывается планировщик GF100, отвечающий за рабочую нагрузку 16 мультипроцессоров SM в чипе. Конечно, планировщик сам по себе является важной инновацией архитектуры Fermi, поскольку он способен создавать и планировать потоки параллельно, в отличие от подхода "одно ядро в один момент времени", который использовался раньше.
Конечно, движок GigaThread запрашивает данные из кадрового буфера. На первый взгляд, шесть 64-битных контроллеров памяти (в итоге 384 бита) дают более узкую шину памяти, чем восемь 64-битных контроллеров GT200 (в итоге 512 битов). Впрочем, на этот раз nVidia использует память GDDR5, которая приводит к серьёзному увеличению пропускной способности, несмотря на менее сложный интерфейс. Если предположить, что здесь будет использоваться память на 1200 МГц, как в случае Radeon HD 5870, то видеокарта на основе GF100 сможет дать пропускную способность 230,4 Гбайт/с против 153,6 Гбайт/с у Radeon.
Производительность ROP
"Задняя часть" конвейера GF100 организована из шести блоков ROP, которые способны выводить восемь 32-битных целочисленных пикселей одновременно. Это выглядит весьма неплохо по сравнению с восемью блоками GT200, которые были способны выводить четыре пикселя за такт. nVidia поддерживает по одному 64-битному контроллеру памяти на блок, но общее увеличение производительности составило с 32 пикселей за такт до 48 пикселей. Возможно, вы заметили в нашем
![]() |
Это ещё одна область, в которой nVidia должна улучшить показатели GF100. Если вы уже купили видеокарту, подобную ATI Radeon HD 5870, или вы планируете взять модель на GF100, и при этом у вас один дисплей, то лучше всего включить максимальные настройки детализации, чтобы в полной мере задействовать мощные ресурсы GPU. В этом отношении GF100 поддерживает новый режим сглаживания 32x CSAA (coverage sampling anti-aliasing), который на демонстрации nVidia устранял проблемы с полосами на листве в Age of Conan. В результате этих оптимизаций nVidia заявляет о падении производительности меньше 10% при переходе со сглаживания 8x (мультисэмплинг) на 32x CSAA.