AMD Bulldozer и Bobcat: архитектуры нового поколения
Редакция THG,  27 августа 2010


Готовы к Bulldozer и Bobcat?

После выхода микроархитектуры AMD "Hammer" прошло уже семь лет, а три года назад архитектура получила обновление в виде K10. В момент же своего появления новые процессоры Athlon 64 на основе архитектуры K8 прославились тем, что смогли обойти процессоры Intel Pentium 4 и стали фаворитом среди энтузиастов.

Но ситуация на рынке производительности меняется довольно быстро, а Intel известна своими стремительными возвращениями, стоит компании оказаться на втором месте Микроархитектура Core изменила расстановку сил в пользу Intel в 2006 году, компания удерживала лидирующую позицию все последующие четыре года.

Конечно, AMD продаёт привлекательные процессоры. Линейка Athlon II постоянно присутствует в наших ежемесячных рекомендациях по выбору лучшего CPU для геймера за свои деньги благодаря приличной производительности и невысоким ценам. Двуядерный Phenom II X2 555 Black Edition просто непобедим по цене дешевле $100. Да и процессоры на основе дизайна AMD Thuban предлагают шесть ядер по цене ниже $200.

AMD

Bulldozer. Нажмите на картинку для увеличения.

Но если оценивать производительность в расчёте на такт, то вряд ли кто-то будет спорить, что процессоры AMD отстают от Intel. У Intel, как обычно, в преимуществах лидерство по техпроцессу, поскольку новые процессоры производятся по технологии 32 нм. Между тем AMD пришлось умещать шестиядерный процессор в 130-Вт тепловом пакете, используя 45-нм техпроцесс.

AMD надеется, что дизайну K10 не придётся сдерживать микроархитектуру Intel Westmere долгое время. В прошлом году во время Financial Analyst Days AMD впервые приоткрыла завесу тайны над "модулями", которые определяют дизайн процессоров следующего поколения. Конечно, информация была очень скудной, но представители компании дали чётко понять, что перед нами самое существенное изменение дизайна после K8.

AMD

Bobcat. Нажмите на картинку для увеличения.

Насколько мы знаем, на новой архитектуре выйдут два ядра x86, каждое из которых будет предоставлять конкурентоспособный набор функций для нескольких разных рынков. Bulldozer предназначен для использования в разных ПК, от массовых клиентских (настольные системы и ноутбуки) до серверов. Bobcat позиционируется как более гибкий дизайн, то есть на его основе будут производиться ядра с более экономичным и компактным дизайном для нетбуков и облачных клиентов.

Следует помнить, что, как и в случае других смен поколений, нам следует разобраться в нескольких внутренних названиях. AMD обсуждала чипы Bulldozer и Bobcat только на недавно прошедшей конференции Hot Chips 22 (спонсируемое IEEE мероприятие, посвящённое производительным процессорам). Впрочем, вероятно следует чуть более глубоко окунуться в тему сферы применения упомянутых дизайнов CPU, хотя бы чтобы предотвратить путаницу с кодовыми названиями. Если вы запутаетесь в номенклатуре, то на последней странице статьи приведены планы AMD на 2011 год.

Подробности о Bulldozer

На самом деле большая часть информации, которую выдала AMD на Hot Chips, уже известна, то есть нас не покидало ощущение того, что мы уже где-то видели детали об архитектурах Bulldozer и Bobcat.

Компания явно поставила наиболее сильный акцент на Bulldozer и на его подход к многопоточности. AMD провела чёткую границу между обычной параллельной многопоточностью SMT (simultaneous multi-threading, также продвигается как Intel как Hyper-Threading) и мульти-обработкой на уровне чипа (CMP), которую, например, реализует шестиядерный дизайн Thuban, когда одно ядро работает над одним потоком.

Подход CMP прямолинеен. Вы дублируете физические ядра, чтобы увеличить производительность в многопоточном программном обеспечении. Такой прямой подход даёт наилучшую производительность, но при этом становится весьма накладным для производителей CPU, когда они упираются в пределы техпроцесса, особенно если исполнительные ресурсы будут оставаться незагруженными. Именно поэтому мы часто рекомендуем быстрые четырёхъядерные процессоры по сравнению с медленными шестиядерными для игр. Если ваша нагрузка не оптимизирована должным образом для параллельного выполнения, то CMP приведёт к избыточным вычислительным ресурсам, и более высокая тактовая частота менее сложных двуядерных и четырёхъядерных дизайнов даст более высокую производительность.

Intel пытается обойти эту проблему с технологией Hyper-Threading, которая позволяет каждому физическому ядру выполнять два потока. При этом как раз предполагается избыточность вычислительных ресурсов, то есть дополнительная производительность от каждого ядра как раз достигается за счёт нагрузки потока ниже номинальной. Эту технологию реализовать относительно дёшево. Но она, в свою очередь, даёт весьма ограниченные преимущества. Некоторые нагрузки вообще не получают прироста производительности от Hyper-Threading. Другие едва достигают двузначного прироста производительности в процентах.

AMD

Нажмите на картинку для увеличения.

AMD пытается реализовать третий подход к многопоточности под названием Two Strong Threads ("два сильных потока"). Если Hyper-Threading только дублирует архитектурные состояния, то дизайн Bulldozer использует общие переднюю (fetch/запрос и decode/декодирование) и заднюю (через общий кэш L2) часть ядра, но дублирует целочисленные планировщики и исполнительные конвейеры, то есть каждый из двух потоков получит выделенные для него блоки.

Пара потоков использует общий планировщик для работы с плавающей запятой, с двумя 128-битными исполнительными блоками, поддерживающими умножение и накопление (FMAC, fused multiply-accumulate-capable). Следовательно, здесь явно прослеживается акцент AMD на целочисленную производительность, что имеет смысл с учётом инициативы Fusion компании, когда за обработку чисел с плавающей запятой будет отвечать GPU. Но следует помнить, что первые процессоры на дизайне Bulldozer будут работать самостоятельно. И, несмотря на то, что в данном случае мы получили общие исполнительные ресурсы по работе с числами с плавающей запятой, AMD остаётся уверенной в поддержании должного баланса между выделенными и общими компонентами.

Впрочем, ничего нового в этом нет. AMD говорила об этом ещё в ноябре 2009 года.

До презентации Hot Chips у нас была возможность обновить знания об архитектуре Bulldozer с Диной МакКинни (Dina McKinney), вице-президентом по инженерному проектированию AMD. По словам Дины, подход Two Strong Thread компании позволяет получить около 80% производительности от простого дублирования ядер. В то же время, использование некоторых общих ресурсов позволяет снизить энергопотребление и площадь кристалла.

Подобное совершенствование дизайна вместе с переходом на 32-нм техпроцесс SOI (кремний на диэлектрике) привели к тому, что AMD предполагает 33% увеличение количества ядер и 50% увеличение пропускной способности (что даст намного большее число исполняемых инструкций за такт, IPC) в том же тепловом пакете, что и у процессоров Opteron на дизайне Magny-Cours. Данное предположение базируется на симуляции производительности современной 12-ядерной линейки Opteron 6100 и грядущей 16-ядерной линейки Bulldozer с кодовым названием Interlagos.

AMD

Дублирование вычислительных ресурсов позволило AMD называть этот дизайн двуядерным. Нажмите на картинку для увеличения.

Теперь настало время перейти к одному опасению, которое появилось у меня по поводу систематики AMD: модуль Bulldozer кажется мне одним ядром с поддержкой SMT. Но вместо дублирования регистров для сохранения архитектурного состояния AMD даёт каждому потоку своё окно инструкций и выделенные конвейеры. В нашей беседе с Джоном Фруэх (John Fruehe) из AMD стало понятно, что компания оценивает дублирование целочисленных планировщиков и соответствующих конвейеров (несмотря на другие общие компоненты) в каждом модуле Bulldozer как двуядерный дизайн, то есть отличает его от SMT, который ассоциируется с Hyper-Threading. Это кажется мне маркетинговым ходом, но всё же следует по достоинству оценить, что данная архитектура даст намного большую производительность, чем Hyper-Threading при параллельных нагрузках.

Пока ещё неизвестно, насколько хорошо модули Bulldozer будут взаимодействовать с Windows 7. Intel и Microsoft приложили немало усилий для оптимизации под Hyper-Threading. Планировщик операционной системы понимает разницу между физическим ядром и виртуальным ядром Hyper-Threading. Если нужно распределить два потока, то Windows 7 и Server 2008 R2 используют два физических ядра. Альтернатива - распределение двух потоков на одном и том же физическом ядре с поддержкой Hyper-Threading - явно бы привела к падению производительности. Поскольку модули Bulldozer всё равно используют общие ресурсы, вполне понятно, что процессоры Zambezi с четырьмя модулями лучше всего будут работать, когда два потока будут распределяться по разным модулям. Хотя AMD пока не объяснила, каким образом будет поддерживаться взаимодействие с ОС, представители компании заверили нас, что работают с производителями ОС насчёт оптимизаций, которые будут готовы к выходу Bulldozer.

AMD

Процессор Zambezi, основанный на Bulldozer, может выглядеть так. Нажмите на картинку для увеличения.

Мы также поинтересовались у Джона насчёт возможностей передней части конвейера по работе с инструкциями в расчёте на такт, а также конфигурации общего кэша L2, но все эти детали пока закрыты. Однако с нами поделились информацией о том, что 128-битные блоки работы с плавающей запятой являются симметричными, и на любом такте любое интегрированное ядро может запустить на выполнение 256-битную инструкцию AVX (если программа скомпилирована с учётом поддержки AVX). Либо оба целочисленных ядра могут запустить на выполнение по одной 128-битной инструкции одновременно.

Кроме того, Джон прояснил, как ориентированы конвейеры каждого целочисленного блока. Если у K10 присутствовали три ALU/AGU, то теперь используется два набора по два ALU/AGU. Конфигурация кэша L1 тоже стала немного другой. Если у K10 на ядро мы получали 64 кбайт кэша L1 для инструкций и 64 кбайт L1 для данных, то у Bulldozer используется 16 кбайт кэша L1 для данных на ядро, а также 64 кбайт кэша L1 2-way для инструкций на модуль. Будет интересно посмотреть, как скажется на производительности меньший объём кэша L1.

Подробности о Bobcat

Дизайн AMD Bobcat явно был создан с прицелом на Fusion. Поэтому Bobcat следует рассматривать больше как технологию, которую AMD планирует использовать для выпуска "систем на чипе" SoC для специфических рынков - и первой реализацией станет APU Ontario, где будет использоваться интегрированное графическое ядро, система ускорения воспроизведения видео с фиксированным функционалом, контроллер памяти DDR3 и выделенная шина, которая связывает всё это вместе.

AMD

Нажмите на картинку для увеличения.

AMD предполагает сохранение производительности на уровне 90% от современных CPU для массового рынка (скорее всего, это будет что-то типа Athlon II) при использовании менее половины от нынешней площади кристалла. Именно такие цифры приводила AMD раньше при обсуждении Bobcat. Но, возможно, не так широко известен путь, которым пойдёт компания ради достижения заявленного.

Детали, которая AMD предоставила на конференции, включают декодер x86 с двойной выдачей и внеочередное выполнение, что может дать преимущество по производительности по сравнению с процессорами Intel Atom. Bobcat будет поддерживать SSE, SSE2 и SSE3, а также ускорение виртуализации.

AMD

Нажмите на картинку для увеличения.

AMD не устаёт повторять, что перед нами ядро с энергопотреблением ниже 1 Вт. Скорее всего, это относится к режиму ожидания, но следует помнить, что Ontario будет использовать пару таких ядер. Кроме того, Bobcat - это "система на чипе" SoC. Поэтому более реалистичным будет уровень энергопотребления от 10 до 20 Вт.

Кодовые названия в 2011 году

AMD ловко использует специальные кодовые названия как для различных инициатив, так и для дизайнов. Следующий список немного проясняет деятельность компании. Мы начнём с самых широкий концепций, а закончим аппаратной реализацией в конкретных продуктах.

Инициативы

Fusion. AMD использует термин Fusion для описания подхода к дизайну процессора и разработке ПО следующими словами: "...обеспечивает мощные возможности CPU и GPU для нагрузок HD, 3D и интенсивной обработки данных на одноядерном процессоре, который называется APU (accelerated processing unit). APU комбинирует высокопроизводительные последовательные и параллельные вычислительные ядра с другими аппаратными ускорителями специального назначения, обеспечивая прорыв по вычислениям с использованием графики, безопасности, производительности на ватт и форм-фактору устройств".

В общем, APU, разработанный в соответствии с инициативой AMD Fusion, будет использовать CPU и GPU на одном кристалле кремния. Улучшения, которые должен дать APU, среди всего прочего включают улучшенную производительность систем для массового рынка в играх, а также ускорение перекодирования видео.

Микроархитектуры

Bulldozer. Одна из двух новых архитектур x86 под названием Bulldozer будет использоваться в высокопроизводительных настольных ПК и серверах. Модули на основе Bulldozer будут использоваться в процессорах AMD следующего поколения. Компания уже подтвердила, что она сохранит совместимость по сокетам с существующими процессорами Opteron на основе Magny-Cours. Поэтому можно ожидать, что процессоры на основе Bulldozer можно будет устанавливать в существующие серверные материнские платы, а также, скорее всего, в настольные платформы Socket AM3. AMD нацеливается на тепловой пакет у чипов Bulldozer между 10 и 100 Вт.

AMD

Нажмите на картинку для увеличения.

Bobcat. Вторая из двух новых архитектур x86 под названием Bobcat нацелена на экономичные ультратонкие ноутбуки и нетбуки. Процессоры на основе Bobcat будут конкурировать с Intel Atom и Via Nano. AMD вдохновлена тем, что смогла ограничить энергопотребление уровнем менее 1 Вт, но наверняка будут модели, которые превысят этот уровень. Архитектура Bobcat нацелена на синтез, так что AMD может встраивать её в соответствующие дополнительные логические блоки быстрее, чем обычный процессор "вручную". Другими словами, можно ожидать, что процессоры Bobcat будут участвовать в инициативе AMD Fusion.

Платформы

Sabine. Мобильная платформа для массового рынка на основе APU Llano, в котором мы увидим четырёхъядерный процессор на архитектуре Stars и графическое ядро класса DirectX 11 на одном кристалле кремния, который будет производиться по 32-нм техпроцессу. Платформа Sabine должна появиться в 2011 году.

Brazos. Мобильная платформа с ультра-низким энергопотреблением на основе APU Ontario, в котором будет использоваться двуядерный CPU на архитектуре Bobcat с графическим процессором класса DirectX 11 на одном кристалле кремния. Brazos должна выйти в 2011 году, в результате чего AMD сможет выпускать на ней нетбуки, а также компьютеры форм-факторов, которые мы ещё не видели от AMD (вероятно, "таблетки").

Scorpius. Настольная платформа для энтузиастов на основе процессора AMD Zambezi и дискретной видеокарты (AMD, конечно, указала GPU ATI). Платформа требует четырёхъядерного процессора или выше, памяти DDR3 и обновлённого интерфейса Socket AM3. Должна появиться в 2011 году.

Lynx. Настольная платформа для массового рынка на основе APU AMD Llano. Она будет использовать CPU с четырьмя ядрами, одно графическое ядро (интегрированное в APU, как и можно было ожидать), а также память DDR3. Должна появиться в 2011 году.

Компоненты

Llano. Это будет первый APU AMD, он будет сочетать четырёхъядерный процессор на архитектуре Stars и GPU класса DirectX 11 на одном кристалле кремния. Он будет производиться по 32-нм техпроцессу SOI, поддерживать память DDR3 и отключение питания на уровне ядер. Поскольку здесь добавляются совершенно новые функции, то вас вряд ли удивит, что Llano будет устанавливаться в новый сокет. Доступность ожидается в 2011 году.

Ontario. Если APU Llano несколько снижает риски AMD при переходе на 32-нм техпроцесс (поскольку он использует проработанную микроархитектуру CPU), то Ontario станет первым APU, использующим микроархитектуру CPU AMD Bobcat. Ontario будет производиться по 40-нм техпроцессу, оснащаться графическим ядром класса DirectX 11, при этом выход ожидается в 2011 году.

Zambezi. Для AMD Zambezi станет первым настольным процессором на основе архитектуры Bulldozer. Он содержит целых восемь ядер, то есть в Zambezi используется четыре модуля AMD. Процессоры планируется производить по 32-нм техпроцессу, при этом велика вероятность совместимости с платформами Socket AM3 (вместе с поддержкой памяти DDR3). Zambezi - это не APU, то есть это процессор, который планируется использовать вместе с дискретной видеокартой.

Interlagos/Valencia. Кодовые названия для грядущих 16-ядерных и 8-ядерных процессоров Opteron, соответственно. Они базируются на микроархитектуре Bulldozer. Interlagos можно использовать в существующем сокете G34, а Valencia совместим с C32. Обе линейки будут производиться по 32-нм техпроцессу SOI, поддерживать память DDR3 (включая модули DIMM на 1,25 В), выход ожидается в 2011 году.

КОНЕЦ СТАТЬИ


Координаты для связи с редакцией:

Общий адрес редакции: thg@thg.ru;
Размещение рекламы: Roman@thg.ru;
Другие координаты, в т.ч. адреса для отправки информации и пресс-релизов, приглашений на мероприятия и т.д. указаны на этой странице.


Копирование и распространение информации, упомянутой на страницах THG.ru возможно только при наличии у вас письменного разрешения руководства издания. По вопросам использования наших статей обращайтесь по электронной почте.

THG.ru ("Русский Tom's Hardware Guide") входит в международную сеть изданий Best of Media


Все статьи: THG.ru

 

Rambler's Top100 Рейтинг@Mail.ru