РЕКЛАМА
ИНФОРМАЦИЯ
ПОЛЕЗНЫЕ ССЫЛКИ
Сбалансированная система для игр: поиск узких мест по производительности GPU и CPU

Чипсет 990FX: AMD и SLI снова возвращаются

Sandy Bridge: Intel Core второго поколения

AMD Phenom II X6 1090T и платформа 890FX: встречаем Leo

Rambler's Top100 Рейтинг@Mail.ru

ПРОЦЕССОРЫ

Обзор AMD FX-8150: от Bulldozer к Zambezi и FX
Краткое содержание статьи: Это, вероятно, самый ожидаемый запуск 2011 года. Линейка процессоров AMD FX, наконец, готова к выходу. Сможет ли новая архитектура Bulldozer противостоять Intel Sandy Bridge и начать новую эпоху конкуренции?

Обзор AMD FX-8150: от Bulldozer к Zambezi и FX


Редакция THG,  14 ноября 2011
Назад
Вы читаете страницу 4 из 10
1 2 3 4 5 6 7 8 9 10
Далее


Производительность на ядро

Есть действительно хорошая причина того, почему мы тестируем процессор в реальных приложениях. И при этом результаты разных тестов часто отличаются. Эти отличия позволяют нам понятно объяснять причины разной производительности. Потенциал каждого ядра процессора определяется количеством инструкций, которые он может выполнять в расчёте на такт, и его тактовой частотой.

Мы можем в какой-то степени изолировать IPC (количество инструкций, выполняемых за такт), сравнивая разные архитектуры на одинаковой тактовой частоте и используя приложения, разработанные для одного потока. Именно это мы и сделали в статье "Sandy Bridge: Intel Core второго поколения", чтобы определить, насколько эффективно Intel удалось улучшить рейтинг IPC архитектуры Sandy Bridge.

Инженеры AMD утверждают, что в архитектуре Bulldozer их целью было "удержать планку" по IPC и создать процессор, который хорошо масштабировался бы по тактовым частотам. Учитывая всё то, что мы уже знаем о спецификациях FX-8150, существенно более высокие частоты реализованы не будут, поэтому перед тем, как мы перейдём к каким-либо тестам, сделаем предположение о примерно равном рейтинге IPC и сравнимых тактовых частотах. И будем надеяться, что мы получим лучшую масштабируемость на множестве ядер, если Bulldozer надеется обойти Phenom II X4 980 на 3,7 ГГц или Phenom II X6 1100T с поддержкой TurboCore.


Мы запустили однопоточную версию теста iTunes на процессорах Core i7-2600K (функции Hyper-Threading, SpeedStep и TurboBoost отключены), Phenom II X6 (Cool’n’Quiet и TurboCore отключены) и FX-8150 (Cool’n’Quiet и TurboCore отключены) на частоте 3,3 ГГц. Видно, что Intel в расчёте на ядро выполняет существенно больше работы на такт по сравнению с Phenom II X6 1100T, который, в свою очередь, обгоняет FX. Мы наблюдаем ту же самую картину и в Lame, другом однопоточном тесте.

Джон Фруе (John Fruehe), маркетинговый директор продукции AMD для серверов, утверждает, что ему не нравятся сравнения производительности в расчёте на ядро для серверов, поскольку они намеренно показывают превосходство Intel. Мы полностью согласны с точкой зрения Джона для серверного мира. В этой сфере более важную роль играют производительность на ватт и производительность на доллар. Что же касается настольных ПК, то здесь по-прежнему достаточно много однопоточных нагрузок и приложений, слабо использующих многопоточность, для которых производительность в расчёте на ядро по-прежнему очень важна (тем более, что результаты показывают, что был сделан шаг назад).

Уже на раннем этапе, у нас есть предположение, для какой цели лучше всего подойдёт архитектура Bulldozer…

Управление энергопотреблением

Каждый модуль Bulldozer работает в собственном домене частот, то есть разные модули могут работать на разных частотах одновременно. Данная функция является новой по сравнению с Phenom II, у которого все ядра работали на одинаковой частоте (хотя и имели несколько промежуточных p-состояний, которые они могли произвольно выбирать). Однако AMD уже пыталась реализовать подобный подход с оригинальным процессором Phenom.

Если вы помните, относительно давно разные домены частот вызывали проблемы с процессорами Phenom под Windows Vista при включении функции Cool’n’Quiet. Из-за процесса под названием миграция, диспетчер переносил потоки между ядрами, пытаясь обеспечить симметричное распределение под нагрузкой. Зачем? Ответ в статье, посвящённой выходу Intel Lynnfield:

"Необходимо поддержать симметричность системы под полной нагрузкой, чтобы производительность ввода/вывода не зависела только от одного ядра. Если выполнять ротацию потоков между ядрами, работающими с полной производительностью (принцип уже не срабатывает с ядрами в режиме бездействия), то вы получите лучшую отзывчивость.

Эта реализация была выбрана ещё во время разработки ядра Microsoft Windows NT, и если опираться на опыт работы с продукцией обоих поставщиков процессоров, то она не считалась "особенностью" ни у одной из компаний. Конечно, на Intel это повлияло совсем по-другому, чем на AMD. В случае Intel под Vista возникали проблемы с энергопотреблением. Для каждой миграции нужно синхронизировать кэш L3 архитектуры Nehalem, что требовало энергии.

Ситуация изменилась на Windows 7 и функцию назвали "идеальное ядро". Если нужды задачи удовлетворяются одним ядром, то операционная система оставит выполнение за ним. Для Intel это означает две вещи:во-первых, не нужно тратить энергию на миграцию, а во-вторых ядра в режиме бездействия будут оставаться в состоянии C6. Предположительно, подобное исправление миграции позволит выжать ещё 10-15 минут автономной работы на ноутбуках на основе Nehalem, хотя проблема не такая существенная до появления двуядерных Arrandale в конце этого года. Возможно, более интересным является тот факт, что процессоры без C6 не смогут выиграть от этой функции (включая процессоры AMD)."

Так что если дизайн Phenom немного обогнал своё время, учитывая недостатки планировщика Vista, Windows 7 должна справиться с дизайном AMD более элегантным образом. Но даже учитывая это, Ларри Хьит (Larry Hewitt), главный инженер SoC Zambezi, Interlagos и Valencia, утверждает, что время разгона Bulldozer с минимального p-состояния меньше, чем на Phenom.

Естественно, нам захотелось проверить утверждение Ларри в тестах. На графике выше вряд ли заметно, но как мы и ожидали, у Phenom II, у которого была решена проблема миграции переводом всех ядер на одинаковую частоту, мы не наблюдаем разницы по производительности в PCMark 7 не зависимо от того активна технология Cool’n’Quiet или выключена. То же самое касается и процессора FX-8150, подтверждая, что Zambezi и Windows 7 ведут себя хорошо. Однако действительно интересно здесь то, насколько эффективны оказались оптимизации энергопотребления архитектуры Bulldozer. Синяя и зелёная линии на графике соответствуют процессорам FX и Phenom II X6 с включённой технологией CnQ. Чёрная и красная линии – этим же чипам, но уже с выключенной CnQ (опять же соответственно).

Мы обнаружили, что процессор Phenom II X6 потребляет, в среднем, 204 Вт энергии системы при выключенной функции CnQ и 191 Вт с включённой функцией – разница 13 Вт. С активной функцией CnQ процессор FX-8150 показал такой же средний уровень энергопотребления в 191 Вт, но значение подскочило до 240 Вт при отключении этой функции. В среднем, технология CnQ позволила снизить энергопотребление на впечатляющие 49 Вт во время нашего тестового прогона, без негативного влияния на производительность!

Встроенный комплекс северного моста и кэша L3 работает в собственном домене частот. К тому же, у него свой домен энергопотребления. Управление энергопотреблением, которое было представлено Intel в дизайне Nehalem, но реализовано AMD только в дизайнах APU на основе Llano, предположительно очень активно используется в данном чипе, чтобы минимизировать утечки в тех частях, которые не используются.

Как и в случае Llano, чипы на базе Zambezi/Valencia/Interlagos поддерживают состояние Core C6, в котором кэш модуля Bulldozer "слит", его содержимое сбрасывается обратно в оперативную память, а напряжение с кэша снимается. В итоге для каждого модуля, который уходит в сон, значительно снижаются энергопотребление и тепловыделение. Всё это вдвойне выгодно в контексте функции миграции Windows 7, о которой мы недавно упоминали, благодаря которой бездействующие модули Bulldozer смогут оставаться в таком состоянии дольше (это происходит на уровне модуля, а не ядра).

Поддержка C1E для AMD не является новшеством, но она тоже улучшена в том, что теперь все модули Bulldozer могут отключаться от питания, когда северный мост, каналы HyperTransport и DRAM уходят в состояние с очень низким энергопотреблением.

Включение TurboCore

Когда AMD запустила свой процессор Phenom II X6 1090T, то представила функцию под названием TurboCore. Которая предполагалась как ответ технологии Intel TurboBoost, способную получать выгоду из доступного TDP в задачах, не оптимизированных под многопоточность (в которых другие ядра просто бездействовали), для увеличения тактовой частоты.

Как вы знаете, функция TurboBoost (от Intel) использует контроллер, встроенный в кристалл, который оценивал температуру, ток, энергопотребление и состояния операционной системы. С учётом всей этой информации, контроллер мог отключать ядра в режиме бездействия, освобождая температурный потенциал для ускорения активных ядер. Степень ускорения зависела от того, сколько ядер использовалось. Очевидно, что в однопоточных приложениях доступный бюджет для увеличения тактовой частоты оказывался наиболее широким. В результате мы получали своеобразную карту увеличения частот, которая масштабировала вверх и вниз в зависимости от степени параллельной нагрузки любого приложения.

Turbo Boost: доступный прирост (в пределах TDP/A/Temp)
Процессор Частота 4 активных ядра 3 активных ядра 2 активных ядра 1 активное ядро
Core i7-870 2,93 ГГц 2 2 4 5
Core i7-860 2,8 ГГц 1 1 4 5
Core i5-750 2,66 ГГц 1 1 4 4
Core i7-975 3,33 ГГц 1 1 1 2
Core i7-950 3,06 ГГц 1 1 1 2
Core i7-920 2,66 ГГц 1 1 1 2

Для сравнения, TurboCore (функция AMD), была представлена как детерминистическая функция, которая включалась в нагрузках со слабым использованием многопоточности, когда активны были три или меньше ядер, или вообще не включалась, если нагружалось больше трёх ядер. На практике всё оказалось не так просто, как описывала AMD. В обзоре "AMD Phenom II X6 1090T и платформа 890FX: встречаем Leo" мы наблюдали, как ядра "перепрыгивали" на разные тактовые частоты, в действительности так и не достигнув заявленного топового уровня TurboCore. В результате прирост производительности, связанный с TurboCore, оказался более скромным, чем мы ожидали.

К счастью, AMD утверждает, что компании удалось внести некоторые изменения в технологию Bulldozer, которые должны повысить эффективность по сравнению с Thuban.

FX реализует TurboCore немного по-другому

Application Power Management (APM) описывает возможность Zambezi/Valencia/Interlagos отслеживать (в реальном времени) количество энергии, потребляемой каждым ядром. Но вместо измерений температуры или тока учитывается активность каждого модуля Bulldozer. AMD знает, сколько энергии требует каждая операция и может оценивать уровень энергопотребления для каждого модуля в любой момент времени. Быстрое сравнение реального энергопотребления и максимального TDP позволяет оценить, есть или нет доступный потенциал для увеличения производительности. Если взять пример с приложением, которое не нагружает все ресурсы процессора, то TurboCore может перескакивать между базовой частотой процессора и более высокой тактовой частотой, чтобы обеспечить более высокую производительность в целом при заданном уровне TDP.

Функция TurboCore не ограничена просто базовой и произвольными более высокими тактовыми частотами. Фактически, она реализуется через три p-состояния: базовое (описывается как P2), промежуточное (P1) и более высокое (P0). Перед нами заметное улучшение перед версией TurboCore первого поколения, которая, как утверждает AMD, могла переключаться только между двумя p-состояниями. И это тоже важно, потому что вы можете переходить в состояние P1 со всеми восемью активными ядрами, насколько позволяет запас. Для перехода в P0 требуется, как минимум, бездействие двух модулей из четырёх. AMD позволяет чипу незамедлительно превысить максимальный тепловой пакет, но, конечно, уже не сможет удерживать данный термальный режим продолжительное время.

По существу, когда вы смотрите на спецификации процессора FX и видите базовую частоту CPU Base, частоту CPU TurboCore и частоту CPU Max. Turbo, вы гарантированно получите по крайней мере базовую частоту. Частоту TurboCore вы увидите в тех случаях, когда позволяет TDP (то есть при интенсивной многопоточной нагрузке? не превышающей тепловой порог процессора). А если половина ядер чипа простаивают, то возможно получить максимальную частоту TurboCore.


На верхней диаграмме мы наблюдает эффект TurboCore в однопоточном приложении iTunes. Поскольку семь ядер из восьми в тесте бездействуют, то FX-8150 может увеличивать свою тактовую частоту до 4,2 ГГц (однако эта частота не удерживается постоянно, процессор, скорее, "скачет" между состояниями P1 и P0, или 3,9 и 4,2 ГГц). В итоге мы получили на 10 секунд меньшее время кодирования, чем при выполнении того же самого теста на штатной тактовой частоте 3,6 ГГц.

На следующей диаграмме приведены результаты 7-Zip, более оптимизированного под многопоточность приложения, которое способно задействовать все ресурсы FX-8150. Но и здесь вы не получите постоянного уровня 3,9 ГГц. С включением TurboCore, FX-8150 начинает колебаться между 3,9 и 3,6 ГГц (против штатной тактовой частоты 3,6 ГГц при отключённой функции). В результате мы получаем довольно скромное двухсекундное ускорение. Но всё же следует ценить данный "бесплатный" прирост производительности, который вы не получили бы с технологией TurboCore первого поколения, ограниченной двумя p-состояниями.
Назад
Вы читаете страницу 4 из 10
1 2 3 4 5 6 7 8 9 10
Далее


СОДЕРЖАНИЕ

Отзывы об AMD FX-8150 в Клубе экспертов THG [ 109 отзывов] Отзывы об AMD FX-8150 в Клубе экспертов THG [ 109 отзывов]


РЕКЛАМА
РЕКОМЕНДУЕМ ПРОЧЕСТЬ!

История мейнфреймов: от Harvard Mark I до System z10 EC
Верите вы или нет, но были времена, когда компьютеры занимали целые комнаты. Сегодня вы работаете за небольшим персональным компьютером, но когда-то о таком можно было только мечтать. Предлагаем окунуться в историю и познакомиться с самыми знаковыми мейнфреймами за последние десятилетия.

Пятнадцать процессоров Intel x86, вошедших в историю
Компания Intel выпустила за годы существования немало процессоров x86, начиная с эпохи расцвета ПК, но не все из них оставили незабываемый след в истории. В нашей первой статье цикла мы рассмотрим пятнадцать наиболее любопытных и памятных процессоров Intel, от 8086 до Core 2 Duo.

ССЫЛКИ
Реклама от YouDo
Услуги курьера: http://courier.youdo.com/courier-services/geo/uslugi-kurerav-mitishchah/: варианты по ссылке.