Обзор AMD Kabini | Temash и Kabini: будущее мобильных платформ от AMD
Чуть более года назад мы беседовали с президентом AMD Рори Ридом (Rory Read) и представителями его компании о том, как AMD планирует оставаться на плаву, учитывая ослабление позиций компании в клиентском и серверном сегментах рынка. Рид даже не пытался говорить о намерениях пошатнуть лидирующие позиции Intel в классе высокопроизводительных процессоров на архитектуре x86. Надежды AMD были возложены на гибридные процессоры: компания планировала обеспечить высокое качество работы процессоров в различных классах устройств за счет, прорывной, по мнению многих, технологии APU, и позиционировать эти продукты как продукты с ультранизким энергопотреблением.
Потенциальный успех продукта основывался, по словам представителей, на трех стратегических элементах: использование концепции однокристальной системы, усовершенствованный подход к разработке архитектуры, своевременный вывод продуктов на рынок. Если судить по представленной AMD в ходе нашей встречи "дорожной карте", компания пока не нашла свою нишу. В частности, видеокарты поколения Sea Islands не основаны на новой "гетерогенной системной архитектуре" (HSA, Heterogeneous System Architecture), как мы ожидали, и до конца 2013 года, судя по всему, мы будем тестировать карты с архитектурой GCN.
В ближайших планах AMD фигурирует выход процессоров Temash и Kabini. Первый представляет собой APU с низким энергопотреблением и предназначен для ноутбуков, второй – APU со сверхнизким потреблением энергии и ориентирован на планшеты. Оба гибридных процессора основаны на ядре x86 Jaguar и знакомой нам графической архитектуре Graphics Core Next.
Но это не единственные SoC на базе Jaguar, о которых говорят в последнее время. Консоли нового поколения PlayStation 4 и Xbox One также основаны на восьмиядерных APU Jaguar. Таким образом, вполне успешно показавшая себя архитектура GCN выходит на новые рынки. И хотя команда разработчиков в AMD несколько изменилась по сравнению с прошлым годом, компания, судя по всему, стремится воплотить в жизнь некоторые важные идеи, которые были разработаны раньше.
Тот факт, что Microsoft и Sony отдали предпочтение архитектуре Jaguar от AMD, достаточно показателен. Хотя пока мы не смогли добраться до PlayStation или Xbox нового поколения, в нашем распоряжении есть ноутбук на базе процессора AMD Kabini. Также мы можем подробно рассказать о характеристиках однокристальной системы Temash.
Чтобы дать нашим читателям представление об энергопотреблении новых продуктов, приведём следующие цифры: самый "прожорливый" APU AMD Kabini потребляет 25 Вт, тогда как самый экономичный чип Temash расходует не более 3,9 Вт.
Эти процессоры создавались для планшетов, устройств-трансформеров и ультратонких ноутбуков. AMD нацелена на диапазон устройств между планшетами на экономичных процессорах ARM и высокопроизводительными ноутбуками, используя для этого процессоры, по характеристикам располагающиеся между
Если вам когда-либо приходила мысль о покупке Windows-планшета, но вы рассчитываете заплатить менее $1000, которые Microsoft просит за Surface Pro, процессор Temash можно считать перспективным продуктом. Как насчёт бюджетного ноутбука, характеризующегося долгим временем автономной работы и высокопроизводительной графикой, которая не по зубам системам на Intel Atom? Если верить обещаниям AMD, AMD Kabini является оптимальным выбором для таких систем.
Рассмотрим подробнее оба новых APU, чтобы узнать, соответствуют ли спецификации образу, который рисует AMD.
Обзор AMD Kabini | Jaguar: энергоэффективное ядро x86
Мы уже рассматривали подробно устройство нескольких APU, в которых основной и графический процессоры реализованы на одном чипе. Первым из них был мобильный процессор Llano (см. статью
Мы оценили прежние попытки AMD создать энергоэффективный процессор в обзоре, опубликованном в январе 2011 года –
По словам представителей AMD, в ходе разработки Jaguar компания поставили перед собой три основные задачи. Во-первых, усовершенствовать вычислительный конвейер: Bobcat демонстрировал весьма посредственную производительность, едва опережая Atom 330 поколения 2008 года. Во-вторых, обновить структуру систем команд в соответствии с современными требованиями, включив поддержку набора команд вроде SSE4.1/4.2 и AVX. В-третьих, обеспечить портабельность архитектуры, чтобы она развивалась в будущем в соответствии с новым технологиями процессоров и привлекала новых производителей.
Последнее вряд ли заинтересует конечного потребителя. Современный функционал платформы неплох, но узнав подробнее, на что способен Jaguar, можно ожидать увеличения производительности при специфических оптимизированных нагрузках. Хотя попытки AMD усовершенствовать вычислительный конвейер вызывают, намного больший интерес.
Начнём с самых основ. Архитектура Jaguar (в двух конкретных SoC, о которых идёт речь в данной статье) представлена в двух- и четырёхъядерных конфигурациях. В Bobcat была возможна только двухъядерная конфигурация. Версии процессора с четырьмя ядрами на архитектуре Jaguar требуют активного охлаждения, а двухъядерные чипы позволяют ограничиться пассивной системой охлаждения.
Ядро CPU производится в соответствии с 28-нм техпроцессом. Джо Макри (Joe Macri) – директор AMD по технологиям – указывает на тот факт, что группа разработчиков ядра x86 воспользовалась некоторыми программными инструментами, применяемыми при разработке графических процессоров, чтобы разместить больше ресурсов на меньшей площади, чем это было возможно место в ядрах предыдущего поколения. В результате каждое ядро Jaguar разместилось на кристалле площадь 3,1 мм2 – что заметно меньше, чем 4,9 мм2, которые занимает ядро Bobcat.
Теперь ответим на вопрос, в чём само ядро Jaguar превосходит Bobcat. На первый взгляд, кэш инструкций обеспечивает сходное быстродействие, но для её достижения требуются меньшие затраты энергии – благодаря селективному процессу чтения, который затрагивает только один из четырёх банков памяти. Также появился кэш-буфер 4x32B, который обеспечивает двойную выгоду: когда вычислительный конвейер может использовать данные из буфера, кэш инструкций не требует питания, а латентность снижается. Кроме того, буфер инструкций примерно на 30% больше по сравнению с Bobcat, что позволяет избежать некоторых ошибок, которые могут происходить при нехватке кэша.
Длина конвейера FPU увеличилась на одну стадию. На примере Pentium 4 мы видели, что увеличение длины конвейера, на самом деле, вредит производительности. Тем не менее, данный шаг повысил тактовую частоту процессора, что в данном случае с запасом компенсирует снижение производительности, связанное с увеличением длины конвейера.
Цельночисленный конвейер расширен за счёт аппаратного целочисленного делителя, позаимствованного от архитектуры Stars в процессорах Llano и модифицированного для Jaguar. Поддержка ряда известных сложных макроопераций (complex ops, cops), наряду с аппаратной системой коррекции ошибок (CRC), позволили повысить эффективность исполнения кода x86. Процессор с архитектурой Jaguar, как и его предшественник, поддерживает внеочередное исполнение команд (out-of-order). По сравнению с Bobcat, на 30-70% увеличен размер буфера планировщика (scheduler) и переназначения команд (re-order buffer), что позволило увеличить степень параллелизма при внеочередном исполнении команд.
Полностью переработан кэш L2 и интерфейс, с помощью которого он взаимодействует с вычислительными ядрами. В архитектуре Bobcat кэш L2 был распределен между ядрами, и для каждого ядра его объём составлял 512 Кбайт. В Jaguar он является общим (динамически разделяется между ядрами), имеет объём 2 Мбайт (разделён на четыре банка памяти по 512 Кбайт) и имеет 16-кратную ассоциативность. По словам AMD, всё это нацелено на повышение эффективности вычислений, так как приложение в той или иной степени может извлечь пользу из новой архитектуры, получая больший объём ресурсов в зависимости от интенсивности нагрузки на ядро.
Кэш L2 в Bobcat работал на половине тактовой частоты CPU, а в Jaguar работает на полной частоте процессора. AMD усовершенствовала алгоритм предварительной выборки (pre-fetching), уделив больше внимания шаблонам данных, чтобы предсказатель переходов делал более точный выбор. На 16 записей увеличен буфер снуп-запросов, который служит для проверки состояния строки с требуемым адресом в кэше другого ядра (это, опять же, способствует экономии энергии и сокращению задержек). По словам AMD, общий кэш L2 – одно из самых значительных новшеств, которое способствовало увеличению количества инструкций, выполняемых в секунду (Instruction Per Second, IPS) процессором Jaguar по сравнению с Bobcat.
Усовершенствованию подверглись блоки загрузки/хранения между вычислительным конвейером и кэшем L2, а также кэш данных, что позволило сделать оптимизации кэша L2 более ощутимыми. Jaguar комбинирует загрузки, используя буфер намного большего размера, что позволяет избегать перетасовки хранящихся в кэше данных и их выгрузки – это, в свою очередь, снижает задержки при работе с кэшем.
По словам AMD, совокупность изменений в Jaguar позволила повысить однопоточную производительность IPC на 22% относительно Bobcat. Это цифра актуальна для равных тактовых частот, то есть повышение тактовой частоты в новом процессоре позволит также пропорционально повысить производительность IPS. Естественно, мы проверим эти утверждения в ходе тестирования в соответствующей части данного обзора.