Уменьшение числа ядра Thuban
Не все процессоры автоматически можно назвать самыми лучшими только из-за того, что они оснащены максимально возможным количеством вычислительных блоков. Мы решили оценить производительность, энергопотребление и эффективность нового процессора Phenom II X6, протестировав его во всех возможных режимах ядер: с 6, 5, 4, 3, 2 и всего с одним вычислительным ядром CPU.
Результаты наших тестов будут менее интересны тем пользователям, кто уже купил новые шестиядерные процессоры AMD, поскольку вряд ли они пойдут на отключение ядер процессора – всё же мы полагаем, что шесть ядер приобретаются по какой-то весомой причине. Однако результаты тестов довольно хорошо показывают, насколько хорошо производительность и эффективность Thuban масштабируется в зависимости от количества ядер – от нескольких ядер до полных шести вычислительных блоков. В конце концов, шесть ядер явно работают быстрее в многопоточных окружениях, но дают ли они при этом наилучшую эффективность энергопотребления? Да и переход с четырёх на шесть ядер может оказаться не таким ощутимым, как с двух на четыре.
Оценка различий между четырьмя и шестью ядрами имеет смысл и с другой перспективы. Как вы уже могли видеть в нашей статье “Разблокирование AMD Phenom II X4 960T: превращаем четыре ядра в шесть“, существует возможность разблокировать процессоры AMD, чтобы получить дополнительные вычислительные ядра. Конечно, будут разблокированные процессоры стабильно работать или нет – уже другой вопрос, поскольку шестиядерный CPU часто превращают в четырёхъядерный из-за дефектов в отключённых ядрах. Поэтому не забывайте провести расширенное тестирование стабильной работы, прежде чем использовать такую систему в играх и приложениях.
Реализация Turbo Core и материнские платы
Нажмите на картинку для увеличения.
В нашем обзоре процессора AMD Phenom II X6 и платформы 890FX приведены все детали о последнем флагмане AMD, так что мы рекомендуем ознакомиться со статьёй, если вы ещё этого не сделали. Кроме того, чуть выше мы уже упоминали статью, посвящённую разблокированию ядер четырёхъядерного Zosma, чтобы превратить его в шестиядерный Thuban.
Наш процессор должен быть хорошо вам знаком: AMD предлагает две версии, а именно Phenom II X6 1090T на 3,2 ГГц и 1055T на 2,8ГГц. Оба базируются на шестиядерном дизайне Thuban, который оснащён 512 кбайт кэша L2 на каждое ядро и общим кэшем L3 объёмом 6 Мбайт. Кросс-коммутатор обеспечивает доступ к двухканальному контроллеру памяти DDR3 и каналу HyperTransport, соединяющему CPU и чипсет.
Все новые четырёхъ- и шестиядерные процессоры (Zosma и Thuban) поддерживают функцию AMD Turbo Core, которая динамически разгоняет процессор выше уровня номинальной тактовой частоты. Уровень разгона зависит от нагрузки на CPU, при этом неиспользуемые ядра автоматически не замедляются. Но данная функция всё равно весьма полезна, поскольку она даёт прирост на несколько сотен мегагерц в ситуациях с пиковой нагрузкой на несколько ядер, при условии, что не превышается тепловой пакет.
Реализация Turbo Core
Выключение отдельных ядер означает, что у нас появляется больший резерв по тепловому пакету, чтобы функция Turbo Core срабатывала чаще. И в приложениях, которые не оптимизированы под многопоточность, мы потенциально должны заметить какие-либо преимущества. В таких случаях функция Turbo Core будет включаться и ускорять одно или два ядра до максимальной частоты. К сожалению, мы не получили подтверждения такового прироста в тестах.
Материнские платы
Хотя технически все материнские платы Socket AM3 способны запускать процессоры с меньшим числом ядер, мы хотели использовать решение на новейшем чипсете 890FX. На наших страницах уже был опубликован обзор нескольких материнских плат на чипсете 890GX с интегрированной графикой, а совсем недавно вышел сравнительный обзор разных моделей на 890FX. Мы решили использовать материнскую плату Asus Crosshair IV Formula, которая входит в тестовый набор, разосланный AMD по редакциям для тестов процессора Phenom II X6. Но нам ещё предстоит увидеть, какое количество материнских плат Socket AM3 оснащены необходимыми функциями BIOS для отключения отдельных вычислительных ядер. Если судить по материнским платам Intel Socket LGA 1366, то там существует крайне мало комбинаций плата/BIOS, которые позволяют выставлять произвольное количество активных ядер CPU.
Нажмите на картинку для увеличения.
Мы использовали материнскую плату Asus 890FX Crosshair IV Formula, которая позволяет произвольно выставлять количество активных ядер CPU.
Тестовая конфигурация
Аппаратное обеспечение | |
Материнская плата (Socket AMD3) | Asus Crosshair IV Formula (Rev. 1.0), чипсет: AMD 890FX, BIOS: 0701 (04/02/2010) |
CPU AMD I | AMD Phenom II X6 1090T (45 нм, 3,2 ГГц, 6x 512 кбайт кэша L2 и 6 Мбайт кэша L3, TDP 125 Вт, Rev. C3) |
Память DDR3 | 2x 2 Гбайт DDR3-1333 (OCZ3G2000LV4GK 8-8-8-24) |
Видеокарта | Sapphire Radeon HD 5850, GPU: Cypress (725 МГц), видеопамять: 1024 Мбайт GDDR5 (2000 МГц), потоковые процессоры: 1440 |
Жёсткий диск | Western Digital VelociRaptor, 600 Гбайт, 10 000 об/мин |
Блок питания | PC Power & Cooling, Silencer 750EPS12V 750 Вт |
Системное ПО и драйверы | |
Операционная система | Windows Ultimate x64, обновлена 2010-03-03 |
Тесты и настройки
Кодирование аудио | |
iTunes | Version: 9.0.3.15 Audio CD (“Terminator II” SE), 53 min. Convert to AAC audio format |
Lame MP3 | Version 3.98.3 Audio CD “Terminator II SE”, 53 min convert wav to mp3 audio format Command: -b 160 –nores (160 kbps) |
Кодирование видео | |
Handbrake CLI | Version: 0.94 Video: Big Buck Bunny (720×480, 23.972 frames) 5 Minutes Audio: Dolby Digital, 48000 Hz, 6-Kanal, English to Video: AVC1 Audio1: AC3 Audio2: AAC (High Profile) |
Mainconcept Reference v2 | Version: 2.0.0.1555 MPEG2 to H.264 MainConcept H.264/AVC Codec 28 sec HDTV 1920×1080 (MPEG2) Audio: MPEG2 (44.1 kHz, 2 Channel, 16 Bit, 224 kbps) Codec: H.264 Pro Mode: PAL 50i (25 FPS) Profile: H.264 BD HDMV |
Приложения | |
7-Zip | Version 9.1 beta LZMA2 Syntax “a -t7z -r -m0=LZMA2 -mx=5” Benchmark: 2010-THG-Workload |
Winrar | Version 3.92 RAR Syntax “winrar a -r -m3” Benchmark: 2010-THG-Workload |
Winzip 14 | Version 14.0 Pro (8652) WinZIP Commandline Version 3 ZIPX Syntax “-a -ez -p -r” Benchmark: 2010-THG-Workload |
Autodesk 3d Studio Max 2010 | Version: 10 x64 Rendering Space Flyby Mentalray (SPECapc_3dsmax9) Frame: 248 Resolution: 1440 x 1080 |
Cinebench 11.5 | Version 11.5 Build CB25720DEMO CPU Test single and multi threaded |
Adobe Photoshop CS 4 (64-Bit) | Version: 11 Filtering a 16 MB TIF (15000×7266) Filters: Radial Blur (Amount: 10; Method: zoom; Quality: good) Shape Blur (Radius: 46 px; custom shape: Trademark sysmbol) Median (Radius: 1px) Polar Coordinates (Rectangular to Polar) |
Adobe Acrobat 9 Professional | Version: 9.0.0 (Extended) == Printing Preferenced Menu == Default Settings: Standard == Adobe PDF Security – Edit Menu == Encrypt all documents (128 bit RC4) Open Password: 123 Permissions Password: 321 |
Microsoft Powerpoint 2007 | Version: 2007 SP2 PPT to PDF Powerpoint Document (115 Pages) Adobe PDF-Printer |
Fritz | Fritz Chess Benchmark Version 4.3.2 |
Синтетические тесты | |
3DMark Vantage | Version: 1.02 Patch 1901 Options: Performance Graphics Test 1 Graphics Test 2 CPU Test 1 CPU Test 2 |
PCMark Vantage | Version: 1.0.2.0 Patch 1901 PCMark Benchmark Memories Benchmark |
SiSoftware Sandra 2010 | Version: 2010.1.16.10 Processor Arithmetic, Cryptography, Memory Bandwith |
Синтетические тесты
Все тесты АЛУ Sandra 2010 Pro показывают, что добавление каждого ядра увеличивает общую производительность пропорционально производительности одного ядра за некоторым исключениями. Два ядра дают более чем 2X прирост производительности.
Тест шифрования SHA256 вновь демонстрирует, что два ядра работают исключительно хорошо. Возможно, это связано с реализацией Turbo Core.
Тест пропускной способности памяти показывает, что четырёх ядер достаточно, чтобы максимально нагрузить контроллер памяти DDR3.
3DMark и PCMark Vantage
Тест 3DMark CPU хорошо масштабируется с каждым добавленным ядром.
Тест GPU упирается в производительность видеокарты Radeon HD5850, которую мы использовали.
Общий результат отражает оба теста – графическая производительность заметно увеличивается, когда используется два или большее количество ядер.
Тест PCMark Vantage не выполнился полностью, когда мы ограничили Phenom II X6 одним ядром. По общему результату видно, что чем больше ядер, тем выше производительность, но прирост не всегда большой. Помните, что PCMark – это синтетический тест, который может и не соответствовать работе повседневных приложений, но он позволяет оценить производительность системы в целом.
Приложения
7-Zip не очень хорошо работает на нечётном количестве ядер. Три или пять активных ядер не дают ощутимого прироста по сравнению с двумя или четырьмя ядрами, соответственно. Впрочем, данный архиватор выигрывает от увеличения количества активных ядер.
Многопоточный тест Cinebench масштабируется очень хорошо, в отличие от однопоточного.
Adobe Acrobat мог бы работать намного быстрее, если бы программа была оптимизирована под несколько вычислительных ядер. Более значительный прирост можно получить, если запустить два ядра на высоких тактовых частотах.
Ситуация в Photoshop иная, программа приятно выигрывает от каждого ядра, хотя важно подчеркнуть, что преимущества по производительности зависят от накладываемых фильтров. Некоторые фильтры оптимизированы под многопоточность, другие – нет.
Архиватор WinRAR оптимизирован под многопоточность, но производительность ограничивается на уровне четырёх ядер. Переход на шесть ядер даёт незначительный прирост производительности.
Утилита WinZip, которая многими воспринимается как наиболее популярный архиватор, даёт весьма досадные результаты. Мы не видим ощутимой разницы от перехода с одного ядра на шесть. Вполне понятно, что данная утилита является однопоточной.
Кодирование аудио/видео
Как видим, даже одна из новых версий iTunes не даёт серьёзного преимущества от увеличения числа ядер. Впрочем, на кодирование аудио уходит совсем немного времени, так что особых проблем это не вызывает.
То же самое касается и Lame: утилита не очень хорошо масштабируется в зависимости от числа вычислительных ядер.
Mainconcept выигрывает от всех доступных вычислительных ядер, хотя чем больше используется ядер, тем меньше становится прирост производительности.
В Handbrake мы тоже можем наблюдать хорошую масштабируемость.
Энергопотребление
Энергопотребление системы в режиме бездействия изменяется довольно слабо при отключении отдельных ядер. Примерно 15-20 Вт требуются видеокарте, да и энергопотребление у CPU при переходе в режим бездействия не так и велико.
При пиковой нагрузке ситуация меняется. Каждое дополнительное ядро увеличивает суммарное энергопотребление. Впрочем, можно видеть, что чем больше ядер, тем меньше энергопотребления добавляет каждое новое ядро. Таким образом, увеличение числа ядер положительно сказывается с точки зрения пикового энергопотребления, что должно соответствующим образом повлиять на эффективность, которая выражается в производительности на ватт.
Эффективность
Шесть ядер оказываются самым производительным решением при выполнении нашего тестового прогона.
Ситуация начинает становиться интереснее: среднее энергопотребление у пяти ядер оказалось ниже, чем у четырёх ядер при выполнении нашей тестовой нагрузки.
Суммарная затраченная энергия тоже хорошо масштабируется, при этом вполне очевидно, что конфигурации с большим количеством ядер требуют меньше энергии для выполнения нашей тестовой нагрузки.
В итоге мы видим, что чем больше активных ядер, тем лучше производительность в расчёте на ватт (эффективность).
Нормализованные результаты энергопотребления и эффективности
Заключение
Наше тестирование показало, что до сих пор многие рабочие нагрузки не могут использовать больше двух ядер. Программы, такие как WinZip, так и не были оптимизированы под многопоточность, что весьма досадно. Даже самый дешёвый двуядерный процессор мог бы дать значительно более высокую производительность, если бы программа была должным образом оптимизирована. То же самое касается кодировщика Lame MP3, а также Apple iTunes и Adobe Acrobat 9 – последний необходим для создания документов PDF. Поскольку компании Apple и Adobe довольно крупные и работают на рынке очень давно, то разочарование оказывается ещё более досадным.
Но давайте вернёмся к нашему анализу масштабируемости. Выключение вычислительных ядер не снизит энергопотребление в режиме бездействия. AMD прекрасно поработала над оптимизацией энергопотребления 45-нм процессора Thuban, поскольку система потребляла те же 81-83 Вт при использовании одного или шести ядер. Но результаты при пиковой нагрузке оказались более интересными – энергопотребление, добавляемое каждым новым ядром, оказывалась меньше при увеличении их количества. В итоге пиковое энергопотребление у четырёх, пяти и шести ядер оказалось очень близко. А производительность в многопоточных приложениях заметно увеличивалась.
По этой причине процессор AMD Phenom II X6 не только даёт прекрасную производительность благодаря шести вычислительным ядрам, но и обеспечивает увеличение эффективности энергопотребления при переходе с одного ядра на большее количество ядер, вплоть до шести. Вполне очевидно, что включение максимально возможного числа ядер максимизирует производительность на ватт или эффективность. Другими словами, если вас интересует вопрос экономии энергии, то вывод будет следующим: энергопотребление в режиме бездействия не меняется, а при увеличении числа ядер эффективность энергопотребления и производительность растут, так что никакого смысла в принудительном отключении ядер нет.