Платформа AMD Kaveri

Теоретическое знакомство с новым семейством APU


Содержание

Введение

В наступившем 2014 году первым анонсом для компании AMD стало представление очередного семейства APU, известного под кодовым именем Kaveri. Именно в этом поколении APU наконец-то стало видно, для чего компания несколько лет назад купила ATI, известную своими графическими решениями — для полноценного слияния вычислительных CPU- и GPU-ядер. В Kaveri объединилось множество технологий, предназначенных именно для универсальных вычислений: унифицированная графическая архитектура, общий доступ к памяти и прочие возможности архитектуры HSA. И глобальная цель Kaveri — не просто выпуск очередных решений с встроенной графикой для наиболее массового ценового сегмента, но значительно более важная задача, к которой AMD идет, и о которой мы поговорим далее.

CPU-часть Kaveri основана на третьем поколении вычислительной архитектуры AMD Bulldozer — ядрах Steamroller. В то время, как ядро Piledriver, которое известно нам по поколениям Trinity и Richland, принесло улучшенную энергоэффективность, Steamroller должен увеличить количество исполняемых микропроцессором инструкций за такт (по оценкам AMD, показатель IPC вырос на 20%), по сравнению с ними, что важно для повышения производительности без необходимости в росте тактовой частоты. А GPU часть нового семейства APU наконец-то перешла от VLIW-архитектур, известных по настольным графическим решениям прошлого, к новейшей архитектуре GCN, которая была впервые представлена в графическом процессоре Hawaii. И самое главное — CPU и GPU части чипа Kaveri получили возможность взаимодействия друг с другом с невиданным ранее возможностями.

Основное нововведение с точки зрения производственного процесса заключается в том, что с анонсом Kaveri произошел переход от техпроцесса 32 нм High-K Metal Gate SOI к 28 нм SHP («Super High Performance»), но на все тех же фабриках компании Global Foundries. Разница между различными вариантами есть, если техпроцесс 32 нм SOI Global Foundries оптимизирован скорее для CPU с высокой частотой, то техпроцесс 28 нм TSMC лучше подходит для GPU, позволяя добиться большей плотности. Главная же цель техпроцесса 28 нм SHP — достижение достаточно высокой плотности транзисторов, но с некоторой потерей в максимальной рабочей частоте, относительно 32 нм SOI. Поэтому нет ничего удивительного в том, что в Kaveri не были достигнуты более высокие частоты, по сравнению с Trinity и Richland. Но в целом для APU этот техпроцесс отлично подходит, так как он обеспечивает оптимальный баланс для CPU и GPU частей чипа.

По размеру кристалл Kaveri схож с тем, что мы видели в Richland (245 мм² против 246 мм²), при этом новинка имеет значительно большую сложность (2,4 млрд. транзисторов против 1,3 млрд.), что означает огромный прирост в плотности размещения транзисторов и приличное повышение эффективности техпроцесса. Чисто теоретически, переход от 32 нм к 28 нм должен был дать рост плотности чуть больше, чем на четверть, но никак не на 85%, как получилось в случае перехода от Richland к Kaveri.

Новые APU, пожалуй, впервые стали упоминаться компанией AMD как вполне подходящие и для игрового применения. Ведь Llano и Trinity трудно было представить в виде игровых решений, они отличались довольно слабой CPU- и GPU-производительностью, которой явно не хватало для игр. Хотя и гетерогенные вычисления на Kaveri стали еще более серьезной заявкой, но новые APU отличаются тем, что вполне способны дать приемлемую игровую производительность в современных играх. Конечно, всегда можно сказать, что почти в любой игре на любом «железе» снижением настроек можно добиться 30 кадров в секунду. Но AMD поставила себе цель добиться приемлемой производительности без снижения разрешения — выбрав в качестве ориентира Full HD. Понятно, что игры вроде Battlefield 4 и Crysis 3 потребуют еще и снижения настроек с максимальных, но ведь есть множество игр, которые будут работать на новых APU достаточно быстро и при высоких настройках.

Изменения в Kaveri по дополнительным возможностям также произошли достаточно существенные. Не говоря уже об улучшениях в блоках обработки видеоданных Unified Video Decoder и Video Coding Engine, отдельно можно выделить интегрированную аудиочасть TrueAudio, предназначенную для снижения загрузки CPU сложными аудиорасчетами. По мнению компании AMD, технология TrueAudio позволит игровым разработчикам увеличить количество звуковых эффектов и улучшить их качество, и это все — с одновременным снижением нагрузки на CPU.

И все же самой важной характеристикой Kaveri нужно считать гетерогенную системную архитектуру HSA, которая объединяет мощности вычислительных блоков CPU и GPU, расширяя возможности программной модели для разработчиков программного обеспечения. Если во всех предыдущих решениях CPU и GPU ядра считались исключительно отдельными исполнительными устройствами и требовали копирования данных из памяти одного в память другого при совместной работе, то в Kaveri CPU и GPU части могут одновременно работать с одними и теми же данными в унифицированной памяти. Конечно, до применения этих возможностей в реальном ПО пройдет еще какое-то время, но сама по себе возможность уже значит для индустрии очень многое.

Все проблемы внедрения гетерогенных вычислений и обновленной программной модели компания AMD собирается решить при помощи HSA и соответствующих утилит для программистов. AMD пытается обеспечить разработчиков средствами для того, чтобы все возможности гетерогенных архитектур стоили им написания как можно меньшего объема сложного специализированного кода при распараллеливании подобных задач. Компания уже предоставила множество утилит и библиотек для разработчиков, использующих OpenCL (кстати, Kaveri имеет все необходимое для поддержки OpenCL 2.0 и станет первым процессором с поддержкой этой версии API), Java, C++ и другие языки программирования.

Что касается позиционирования на рынке, то APU семейства Kaveri предназначены сразу для нескольких рыночных сегментов, так как чип отлично масштабируется, обеспечивая высокую производительность при ограниченном энергопотреблении разного уровня. Высокая энергоэффективность была главной задачей для Kaveri, и новые APU отлично подойдут как для ноутбуков, так и для других применений. Так, уже известны чипы Kaveri, которые предназначены для сегментов рынка, ограничивающих уровень потребления в 15 Вт, 45 Вт, 65 Вт и 95 Вт.

Совместная работа вычислительных ядер

В случае многих современных чипов и систем-на-чипах с многочисленными исполнительными блоками, каждый производитель считает вычислительные ядра по-своему. Раньше в характеристиках SoC общепринятым считался подход с указанием количества ядер CPU — этого придерживаются такие компании, как Intel и Qualcomm, например. Другие компании недавно начали причислять к «ядрам» и другие. К примеру, NVIDIA недавно назвала свою новейшую систему-на-чипе Tegra K1 аж 192-ядерной, подсчитав все потоковые CUDA ядра графического процессора. Так что вопрос уж точно непростой.

Kaveri заметно отличается от первых поколений APU по возможностям совместной работы CPU- и GPU-ядер. Если в первом поколении Llano были нужны специальные интерфейсы для перемещения данных между вычислительными ядрами и памятью, то в Trinity и Richland не просто увеличили пропускную способность, но унифицировали доступ к памяти от CPU и GPU, улучшили синхронизацию и сделали другие усовершенствования. В Kaveri к этому добавилась возможность виртуальной памяти с когерентным доступом от двух ядер, а также атомарные операции для синхронизации нагрузки между разными ядрами.

В случае GPU вообще очень сложно понять, что считать за отдельное «ядро», поэтому мы и видим большую разницу в этих числах у разных производителей. Похоже, что настало время определить, какую часть чипов с высокой степенью интеграции можно вообще называть отдельным ядром. Понятно, что нужно учитывать только CPU- и GPU-ядра, а не вспомогательные DSP, ISP и другие. В случае AMD Kaveri архитектура APU полностью унифицированная и CPU с GPU могут выполнять работу над одними и теми же данными одновременно, а на графические ядра в Kaveri отдана почти половина кристалла, поэтому и цифра количества вычислительных ядер в этом случае должна содержать и CPU- и GPU-ядра, считают специалисты из AMD.

Поэтому в компании AMD решили ввести новый термин: «вычислительное ядро» («compute core»), под которым может скрываться как привычное универсальное CPU-ядро архитектуры x86 или ARM, так и вычислительный блок архитектуры GCN. То есть каждый исполняемый поток данных на CPU будет означать отдельное «вычислительное ядро» и каждый вычислительный блок архитектуры GCN графического процессора также будет называться «compute core». Главное, чтобы каждый «вычислительный блок» поддерживал HSA, мог запускать выделенный процесс с собственным контекстом и виртуальной памятью, полностью независимо от всех других ядер.

Общее количество вычислительных ядер в новых APU сочетает как первый, так и второй тип вычислительных блоков: CPU и GPU. Иными словами, топовое решение Kaveri, которое выпущено на рынок под именем A10-7850K, по такой системе подсчета имеет в целом 12 «вычислительных ядер»: четыре от CPU (два модуля Steamroller выполняют четыре потока одновременно) и восемь от GPU (графическое ядро Kaveri содержит восемь блоков архитектуры GCN).

Вроде бы, AMD имеет право считать ядра таким образом, ведь каждое «вычислительное ядро» CPU или GPU может выполнять отдельный поток кода. Архитектура GCN достаточно универсальна и гибка для того, чтобы запускать на исполнение несколько независимых программ по количеству блоков GCN, а предыдущие поколения графики AMD в APU были ограничены одной задачей на GPU.

С другой стороны, общее количество столь разных по сути блоков мало о чем говорит, кроме маркетинга, ведь 12 «вычислительных ядер» в Kaveri не одинаковы! Как с точки зрения программиста, которому нужно писать один код для CPU-ядер и совершенно другой для GPU-ядер, так и для пользователя, который не сможет запустить Интернет-браузер на GPU-ядрах, пока CPU-ядра заняты другими задачами.

Поэтому лучшим выходом кажется указание двух цифр среди характеристик новых APU: общее и раздельное количество ядер CPU и GPU. Например, для топового решения A10-7850K лучше упоминать не только «12 вычислительных ядер», а «4 CPU и 8 GPU ядер». Такой подход позволяет как указать технически корректные данные, так и не слишком расстроить маркетинговый отдел AMD, которым хочется видеть большие цифры. Лишь бы теперь не появились такие пользователи, которые посчитают, что у них «12-ядерный процессор», который втрое быстрее «4-ядерного» топового у конкурента.

На момент анонса линейки, компания AMD предложила такие конфигурации для своих новых APU:
A10-7850K: 12 вычислительных ядер (4 CPU и 8 GPU)
A10-7700K: 10 вычислительных ядер (4 CPU и 6 GPU)
A8-7600: 10 вычислительных ядер (4 CPU и 6 GPU)

Гетерогенная архитектура HSA

Гетерогенные вычисления и аппаратное обеспечение, имеющее соответствующие возможности, получают все более широкое распространение в разных областях. Так, практически все смартфоны и планшеты, выпущенные за последние пару лет, основаны на чипах, которые можно назвать гетерогенными процессорами. Да и в других сегментах дело идет в том же направлении. По данным AMD, в прошлом году около 99 процентов настольных процессоров компании Intel и более двух третей процессоров AMD содержали встроенное графическое ядро. То же самое касается и современных игровых консолей. Приставки последнего поколения компаний Sony и Microsoft основаны на гетерогенных процессорах компании AMD.

Пожалуй, остаются разве что серверные процессоры, где гетерогенные вычисления еще не получили столь широкого распространения. Впрочем, среди 500 самых производительных суперкомпьютерных систем мира несколько десятков уже имеют гетерогенную архитектуру, и есть явный тренд на расширение этого количества. К тому же, AMD уже представила и планирует начать поставки гетерогенных серверных процессоров в 2014 году.

Так что можно с уверенностью утверждать, что большинство современных процессоров являются гетерогенными системами, и достаточно большая часть из них — APU. Это подтверждается статистическими данными Jon Peddie Research и IDC, собранными в третьем квартале прошедшего 2013 года. Собственно, этот же тренд подтверждается и статистикой, указывающей на рост использования гетерогенных вычислений в программном обеспечении — соответствующих приложений все больше и больше:

Открытый API для универсальных вычислений OpenCL является стандартом для таких задач, его поддерживает большинство разработчиков ПО. Но, к сожалению, еще далеко не все ПО, которое может получить преимущества от гетерогенных вычислений (в частности — от переноса некоторых задач на GPU-вычисления), использует эти возможности, так как программирование таких систем — дело довольно трудоемкое.

Чтобы помочь в деле распространения гетерогенных вычислений, в свое время была создан некоммерческий консорциум HSA, в котором участвуют уже очень много компаний, в их числе: AMD, Qualcomm, ARM, Oracle и др. Список партнеров компании AMD по продвижению HSA уже достаточно большой и он постоянно растет. Консорциум разрабатывает отраслевые стандарты, облегчающие использование преимуществ гетерогенных вычислительных устройств, вроде GPU и других для получения большей производительности. Для этого выпускается специальный набор средств для программистов и разработчиков, позволяющий эффективнее использовать возможности CPU, GPU, APU, FPGA и DSP.

Компания AMD делает шаги в верном направлении, расширяя программную поддержку разработчиков, внедряя возможность использования HSA во все больший круг программных сред, операционных систем и языков программирования. С возможностями HSA, новые гибридные чипы Kaveri становятся одними из самых подходящих для гетерогенных вычислений. Такие возможности HSA, как hUMA, Platform Atomics и hQ полностью соответствуют требованиям OpenCL 2.0 Fine Grained SVM, C11 Atomics, Dynamic Parallelism и Pipes, поэтому APU семейства Kaveri являются первыми чипами с полной поддержкой OpenCL 2.0.

На этом слайде указаны лишь некоторые из техник, которые могут дать Kaveri преимущества по достижению более высокой производительности при помощи гетерогенных вычислений. А на следующем показано уже возможное преимущество в одной из таких задач — двоичном дереве поиска, которое неплохо распараллеливается, что дает большое преимущество для гетерогенных APU.

Среди конкретных применений, в которых будут оправданы возможности HSA, можно назвать следующие задачи, весьма требовательные к вычислительным мощностям: распознавание жестов, образов, голоса, биометрических параметров, системы дополненной реальности (графические и аудиоданные, дополняющие реальный мир), потоковая передача данных, новые видео- и аудиокодеки, редактирование и перекодирование данных, поиск и индексирование мультимедийных данных.

Именно возможности гетерогенной архитектуры HSA помогают Kaveri APU раскрыть все возможности его «вычислительных ядер», включая графические. Впервые внедренная технология hUMA дает GPU и CPU возможность равного доступа к общему адресному пространству в памяти (до 32 ГБ), технология hQ (heterogeneous queuing) определяет взаимодействие между различными ядрами и обеспечивает GPU- и CPU-ядрам равную гибкость в работе.

Дизайн чипа Kaveri, выполненный с учетом HSA, должен облегчить разработку гетерогенного ПО, привести к повышению эффективности использования всех 12 вычислительных ядер APU и раскрыть потенциал параллельной обработки данных на CPU- и GPU-ядрах. Но для этого требуется не только аппаратная, но и соответствующая программная поддержка: библиотеки, API и утилиты, облегчающие создание сложных программ.

И в последнее время компания AMD делает многое для облегчения использования гетерогенных систем программистами, использующими разнообразные языки и библиотеки. Так, уже довольно давно можно стало использовать возможности вычислений на GPU в Java-программах. В Java 7 появился Aparapi — API для выполнения хорошо распараллеленных алгоритмов на многоядерных и многопроцессорных системах при помощи OpenCL, в Java 8 Aparapi уже использует возможности HSA, а в версии Java 9 (Sumatra), выход которой ожидается в в 2015 году, будет уже полная поддержка спецификаций HSA.

Естественно, дело не ограничивается одной только Java. AMD выпустила общий SDK, который дает доступ к компонентам для облегчения разработки ПО для решений AMD, в состав которого включены APP SDK v2.9 и Media SDK 1.0. APP SDK 2.9 поддерживает OpenCL и C++ AMP, содержит содержит HTML-просмотрщик примеров из SDK, сами примеры кода для аппаратно-ускоренных библиотек OpenCV, OpenNI, Bolt, Aparapi, плагин для редактирования OpenCL исходного кода для Visual Studio и поддерживает Cmake — кроссплатформенную систему ля автоматизации сборки ПО. В Media SDK 1.0 входят: GPU-ускоренная библиотека для предварительной и постобработки видеоданных, библиотека для кодирования видео с малыми задержками. Эта часть SDK открывает доступ к возможностям аппаратных блоков по кодированию и декодированию медиаданных в решениях AMD.

Есть и более общий набор ПО для разработчиков — AMD CodeXL 1.3, вышедший в ноябре 2013 года. В состав пакета для разработчиков гетерогенного ПО входят утилиты для профилирования и отладки кода для CPU и GPU (OpenGL, OpenCL и DirectCompute), отлова ошибок и анализа OpenCL-кода, исполняемого на GPU. Конкретно в версии 1.3 появилась поддержка популярного языка Java, внедрены возможности по удаленному профилированию и отлову ошибок, а также была обновлена поддержка всех современных решений AMD. Все это помогает разработчикам оптимизировать их программы для исполнения на CPU, GPU и APU производства компании AMD.

Кроме уже упомянутых утилит и SDK для разработчиков, компания помогает с внедрением аппаратного ускорения на GPU во многие библиотеки с открытым исходным кодом: OpenCV — библиотеку компьютерного зрения, Bolt — библиотеку C++ шаблонов, clMath (бывшую APPML) — библиотеку с GPU-ускоренными функциями FFT и BLAS, написанными на OpenCL, Aparapi — уже упомянутую выше OpenCL-библиотеку для Java.

В общем, дело за малым, ведь аппаратно Kaveri является самой удобной гетерогенной системой и обеспечивает очень гибкий подход разработчикам. Вопрос в программной поддержке, насколько быстро и активно разработчики будут переносить свое ПО на такие системы. Главное, что AMD со своей стороны сделала все, чтобы разработчики программ начали использовать возможности их новых APU. И результат уже есть, партнеры AMD из Collabora и Adobe тепло отзываются о возможностях, которые дает им применение HSA в новых чипах AMD. К примеру, Collabora использует гетерогенные вычисления в пакете LibreOffice (LibreOffice Calc, LibreOffice Writer, LibreOffice Impress), а Adobe — в Photoshop Creative Cloud. То ли еще будет!

Универсальные вычислительные ядра CPU

В качестве универсальных CPU-ядер в Kaveri используются вычислительные ядра нового поколения компании AMD, известные под кодовым именем Steamroller — таких модулей в новых APU две штуки, но выполнять они умеют четыре потока одновременно. Главными задачами при создании Steamroller были: достижение высокой энергоэффективности, улучшение однопоточной производительности и ускорение внутренних линий передачи данных.

Ядра Steamroller основаны на слегка доработанной архитектуре Bulldozer, оставшейся без значительных изменений. Это все те же двухъядерные модули с двумя независимыми блоками целочисленных вычислений и одним разделяемым блоком вычислений с плавающей запятой, которое способно выполнять два потока команд с вычислениями с плавающей запятой параллельно. Операционная система видит один модуль Steamroller с двумя целочисленными блоками и одним вещественным как два вычислительных CPU-ядра (потока).

Но есть и некоторые изменения, направленные на увеличение производительности. Так, в ядрах Bulldozer и Piledriver, каждое целочисленное ядро имеет собственный независимый планировщик целочисленных вычислений, но оба они делят между собой лишь один блок выборки (fetch) и декодирования (decode) команд. И поступающие на исполнение инструкции декодируются и отдаются на исполнение в целочисленные блоки по очереди. А в ядре Steamroller свой блок декодирования есть у каждого вычислительного ядра, и теперь каждое целочисленное ядро в Kaveri работает с выделенным блоком декодирования. Эти же два блока декодирования на модуль используются при работе FP-ядра в Steamroller.

Вторым изменением нового процессорного ядра стало увеличение кэш-памяти инструкций первого уровня. Объем этой кэш-памяти вырос с 64 КБ до 96 КБ на каждый модуль чипа, и AMD заявляет о снижении количества промахов при доступе к L1-кэшу инструкций на 30%. Также был обновлен и улучшен блок предсказания ветвлений, что привело к снижению количества ошибочно предсказанных переходов на 20%. AMD называет расплывчатую цифру улучшения общей эффективности планирования в 5-10%.

Также улучшились возможности и вырос размер регистровых файлов для целочисленных и вещественных операций, эффективность которых повысилась на 25%. Произошли и довольно большие изменения в подсистеме хранения данных. Ядро Steamroller теперь может опрашивать одновременно сразу два уровня хранения данных, а не одно, как было в Bulldozer и Piledriver, а длина очереди загрузки и сохранения данных увеличена на 20%.

Хотя изменения в CPU-архитектуре ядра Steamroller произошли и не радикальные, но некоторые слабые места Bulldozer все же были устранены, что должно улучшить производительность новых CPU-ядер, на основе которых создан Kaveri. Хватит ли этого для ресурсоемких приложений? Вряд ли APU смогут бороться с топовыми процессорами конкурента, но для большинства типичных домашних, офисных и мобильных применений мощности улучшенных CPU-ядер должно хватить.

Графические и универсальные возможности GPU-ядер

Пожалуй, главная гордость AMD в Kaveri — применение самой совершенной графической архитектуры Graphics Core Next (GCN) в гибридных чипах. Интегрированная графика предыдущих чипов Trinity и Richland была основана на графической архитектуре VLIW4, которая известна нам по графическому процессору с кодовым именем Cayman. Эта архитектура вышла уже довольно давно и порядком устарела, все настольные решения уже перешли с архитектур VLIW5 и VLIW4 на GCN. С точки зрения близости архитектур в решениях для разных рынков нужно было сблизить недорогие интегрированные APU с настольными выделенными GPU, да и разработчикам игр зоопарк из разных графических архитектур явно не на руку.

Кроме этого, AMD всегда говорила, что архитектура GCN была разработана с оглядкой на ее использование в будущих APU, что там внедрены многие решения, которые раскроются именно в гетерогенных APU. И вот теперь наконец-то в Kaveri применяется графическое ядро, использующее архитектуру GCN 1.1, известную нам по всей новой линейке настольной графики AMD и в том числе в топовой модели Radeon R9 290X, основанной на видеочипе Hawaii. Немудрено, что аж 47% площади кристалла Kaveri занимает столь продвинутое графическое ядро.

Вполне логично, что все особенности и возможности архитектуры GCN 1.1 из топового Hawaii перетекли и в бюджетные решения на базе гибридных APU. Причем, без малейших потерь, тут есть поддержка возможностей DirectX 11.2, встроены ядра TrueAudio DSP, в состав APU включены и улучшенные движки обработки видео Video Coding Engine, Unified Video Decoder и AMD Eyefinity. Не говоря уже о собственном графическом API под названием Mantle, который теоретически способен серьезно помочь именно сравнительно слабым APU.

Переход графической архитектуры в Kaveri APU от VLIW4 к новейшей GCN очень важен для AMD. Если раньше интегрированная графика в APU компании всегда отставала от настольной по возможностям, то Kaveri делит одну и ту же графическую архитектуру, что и быстрейшее настольное решение компании — Radeon R9 290X. Причем, возможности APU в выгодную сторону отличаются от многих недорогих выделенных решений AMD, ведь графика Kaveri основана на версии GCN 1.1, которая используется только в Radeon R9 290(X) и R7 260X, и у обновленной архитектуры есть свои преимущества: TrueAudio и DirectX 11.2, например.

Подробные материалы об архитектуре GCN 1.1 можно прочитать в разделе 3D-видео нашего сайта, в частности — в обзоре видеокарты Radeon R9 290X. В состав Kaveri APU входит до восьми (не во всех моделях APU активны все блоки) вычислительных блоков GCN, содержащих в целом 512 потоковых ядер, способных проводить вычисления по стандарту IEEE 2008. Вычислительные возможности дополняются плоской адресацией всей доступной памяти, «маскируемой» инструкцией MQSAD (счетверенный SAD), объединяющей вычисление суммы абсолютных разностей с операторами сдвига для увеличения производительности и энергоэффективности в некоторых мультимедийных задачах, а также улучшенной точностью для операций вычисления логарифма и возведения в степень.

Как и в настольных решениях текущей архитектуры компании AMD, благодаря наличию в APU восьми асинхронных вычислительных движков Asynchronous Compute Engines (ACE), каждый из вычислительных блоков GCN 1.1 работает отдельно друг от друга и может выполнять абсолютно независимую от других блоков работу. По сути, для вычислительных задач это означает, что восемь вычислительных блоков способны работать как отдельные вычислители для графических задач или универсальных — так как блоки ACE работают параллельно с графическим командным процессором. При этом, для смешанных вычислений важно быстрое переключение контекста и собственный доступ к кэш-памяти второго уровня у каждого блока.

В движках обработки геометрических данных и растеризации также нет никаких упрощений, по сравнению с настольными решениями компании. Графическое ядро Kaveri обрабатывает и растеризует до одного геометрического примитива за каждый такт, имеет увеличенную кэш-память для хранения параметров примитивов и улучшенную производительность геометрических шейдеров и аппаратной тесселяции, для чего в GCN были сделаны улучшения в буферизации данных. Новый чип APU содержит два укрупненных блока растеризации Render Back Ends (RBE), которые позволяют обработать до восьми пикселей за такт (8 блоков ROP) или 32 — в режиме без цвета (Z only).

Как мы видим, никаких упрощений видеоядра в Kaveri нет, все возможности настольной линейки остались на месте. Даже более того, если в настольных графических чипах нет поддержки общего доступа к памяти между CPU и GPU, то в Kaveri она есть: оба ядра расположены в одном и том же кристалле и используют общую для всех задач оперативную память. Как вы помните, примерно тем же самым могут похвастать и чипы AMD, применяемые в игровых консолях Sony и Microsoft — они вообще очень похожи на то, что мы получили в настольных чипах Kaveri. За парой важных исключений, к сожалению.

Самыми важными отличиями Kaveri от консольных чипов является более низкая производительность графического ядра и меньшая пропускная способность памяти. По каким-то причинам AMD не стала выпускать APU, имеющие больше чем восемь вычислительных блоков архитектуры GCN. Непонятно, то ли в компании считают, что мощная графика не нужна на ПК, то ли не хотят конкурировать своими APU с игровыми консолями, то ли просто считают, что более мощным решениям не хватит ПСП. Кстати, о пропускной способности — по сравнению с консольными чипами, в ПК-шных APU она действительно очень мала и это самая печальная отличительная особенность Kaveri от процессоров Microsoft Xbox One и Sony PS4.

Соответственно, производительность нового APU будет сильно ограничена именно медленным доступом к ОЗУ — ведь у CPU- и GPU-ядер на пару есть лишь двухканальный доступ к DDR3-памяти! Похоже, что 3D-производительность Kaveri будет серьезно зависеть от частоты работы применяемых модулей DDR3-памяти, и повысить ее в будущем можно будет или увеличением количества каналов памяти или внедрением объемной кэш-памяти или встроенной памяти на тот же кристалл.

Вероятно, AMD считает, что такой 3D-производительности для недорогих APU для ПК вполне достаточно. Более того, компания в своих материалах приводит такую статистику: согласно технической информации, собранной с систем пользователей Steam в прошедшем ноябре, более трети игроков имеют системы с менее производительным графическим ядром, чем топовая модель Kaveri — A10-7850K, имеющая 512 потоковых ядер в графическом процессоре.

Такая ситуация сложилась потому, что большая часть пользователей имеет интегрированную графику Intel — это самые популярные GPU у пользователей Steam, да и вообще на рынке. В игровых системах также весьма широко распространены и устаревшие мобильные решения AMD, вроде видеокарт Radeon серии HD 4000. И очень хорошо, что AMD в своем новом APU предлагает всем этим пользователям получить как неплохой уровень 3D-производительности, так и отличные возможности их самой совершенной графической архитектуры.

Новые возможности Kaveri

Не только CPU- и GPU-ядра интересны в высокоинтегрированных чипах, ведь в их состав входят и другие блоки — в том числе с фиксированной функциональностью. К примеру, в состав Kaveri APU входят «ускорители» некоторых операций, снимающих часть нагрузки с универсальных вычислителей, такие как цифровые сигнальные процессоры (DSP) для обработки звука под маркетинговым названием TrueAudio, которые появились в графических ядрах GCN 1.1, а также движок кодирования видеоданных Video Codec Engine (VCE) и унифицированный блок декодирования видео Unified Video Decoder (UVD), возможности которых были улучшены в Kaveri.

Все производители SoC и GPU тем или иным образом продвигают использование подобных акселераторов. Блоки для обработки видеоданных есть и в чипах Intel и NVIDIA, и эти возможности помогают улучшить потребительские свойства продукта, снижая энергопотребление в таких задачах и повышая производительность фиксированных функций. Если требуется выполнять схожую работу без изменений раз за разом, то специализированный аппаратный блок пусть и потребует потратить на него часть транзисторного бюджета, но незначительную, а потребление энергии этой частью при ее работе совершенно точно будет ниже, чем при выполнении этой же задачи на универсальных вычислительных блоках. То же самое касается производительности, на выделенных аппаратных блоках легко добиться стабильной скорости вычислений. В свою очередь, исполнение на универсальных CPU- или GPU-ядрах имеет преимущество по гибкости — когда в код нужно вносить какие-то изменения.

Главная по значимости для AMD новая функциональность в Kaveri — технология TrueAudio. Это полностью программируемые выделенные аппаратные блоки, которые могут обрабатывать звуковые данные, разгружая CPU-ядра в таких задачах. Хотя современные центральные процессоры достаточно производительны для большинства задач по обработке звука, и алгоритмы программной обработки оптимизированы для них, их возможности серьезно ограничены, особенно с учетом того, что ресурсы CPU нужно делить с множеством других потребителей в многозадачной среде.

И если разработчик игры хочет усложнить обработку звука, добавив продвинутые аудиофильтры, накладываемые в реальном времени, обработка звука на CPU может оказаться слишком ресурсоемкой, превышающей выделенный на аудиозадачи бюджет. Компания AMD не перестает давать в своих материалах пример добавления convolution reverb — сложного эффекта реверберации, применяемого к образцу звука. Это реверберация, основанная на цифровой свертке обрабатываемого звукового сигнала с импульсной характеристикой (IR), которая использует «звуковой образ» реальных помещений, выраженный в математической форме. И чем больше длительность эффекта, тем больше он требует ресурсов от CPU:

На диаграмме отображено использование мощностей CPU от выполнения указанного аудиоэффекта в единственном числе на одном образце звука, а если в игре их будет несколько, то исполнение нескольких эффектов на всех звуках и последующее позиционирование потребует кучи вычислительных ресурсов и может поглотить все возможности не слишком мощных CPU-ядер в APU. В данном случае технология TrueAudio может быть весьма полезной, разгрузив CPU от этих задач, которые вполне могут быть переложены на аппаратные блоки, как это было ранее, во времена расцвета аппаратной обработки звука в ПК-играх.

В AMD решили встроить в собственные GPU и APU программируемый аудиодвижок, который дает разработчикам необходимую гибкость и высокую производительность при обработке звука различными алгоритмами, большее количество смешиваемых звуков, выравнивание уровня звука, сложную реверберацию и другие ресурсоемкие эффекты, шумопонижение при распознавании речи и т.п.

TrueAudio обеспечивает гарантированную обработку звуковых задач в реальном времени даже с не самыми мощными CPU-ядрами Kaveri, для этого в новый APU были интегрированы несколько DSP-ядер Tensilica HiFi EP Audio DSP. DSP-ядрами аппаратная часть TrueAudio не ограничивается, в состав Kaveri входят еще и обработчики данных в формате с плавающей запятой Tensilica Xtensa, 384 КБ разделяемой памяти, а также кэши и встроенная память (по 32 КБ кэша для данных и инструкций и 8 КБ локальной «scratch»-памяти на каждый DSP), DMA-движок, интерфейс доступа к системной памяти и т.д.

Доступ к возможностям TrueAudio осуществляется при помощи популярных библиотек по обработке звука, используемых разработчиками игр. Разработчики звуковых движков и эффектов могут использовать ресурсы встроенного аудиодвижка при помощи специального AMD TrueAudio API. Вполне естественно, что в случае новой технологии очень важно партнерство с разработчиками аудиодвижков и библиотек по работе со звуком. Компания AMD плотно сотрудничает со многими компаниями, известными по своим разработкам в этой сфере: с игровыми разработчиками (Eidos Interactive, Creative Assembly, Xaviant, Airtight Games), разработчиками аудио-middleware (wwise, Bink, FMOD, Audiokinetic), разработчики аудиоалгоритмов (GenAudio, McDSP) и другими.

AMD показывала работу TrueAudio в специальных демонстрационных программах. К примеру, в демо-программе Oculus VR, создателей шлема виртуальной реальности Oculus Rift, на обработку 10 звуков тратится до 20% ресурсов центрального процессора системы, а выполнение кода при помощи технологии TrueAudio на выделенных DSP полностью разгружает CPU! Или демо шумопонижения при распознавании голоса компании Nuance, которое работало ранее в реальном времени только на специализированном «железе», теперь вполне может работать и на Kaveri APU. Использование выделенных аудио-DSP может принести в игры и другое ПО большее количество обрабатываемых одновременно звуков и позволит накладывать более сложные аудиоэффекты.

Главный вопрос с TrueAudio в том, много ли игровых разработчиков начнут встраивать технологию в свои проекты, так как с учетом этого нужно разрабатывать игры, а технология на данный момент доступна лишь на нескольких моделях видеокарт и APU. Впрочем, в консоли Sony PS4 также применяется такое же решение TrueAudio, но из-за закрытости разработки консольных игр не очень понятно, можно ли использовать одинаковые API или нет. Будем надеяться, что из-за того, что программная и аппаратная поддержка TrueAudio расширяется, технология станет востребованной в ближайшем будущем. Первые игровые проекты, которые анонсировали использование этой технологии: Murdered: Soul Suspect, Thief и Lichdom — подождем их выхода, прежде чем делать какие-то выводы.

По части обработки звука понятно, а что с видеоданными? Блоки по кодированию (Video Codec Engine) и декодированию (Unified Video Decoder) видеопотока в Kaveri APU получили некоторые модификации. Более того, она поменяли цифру поколения: UVD 4 и VCE 2, соответственно. Улучшения, которые получил блок кодирования видеоданных VCE, более обширны:

По сравнению с предыдущим поколением в Trinity и Richland, новый блок получил поддержку B-кадров при декодировании видео формата H.264 и цветовом пространстве YUV420, что должно улучшить итоговое качество изображения при сохранении битрейта или снизить битрейт при схожем качестве сжатия. Кроме этого, была добавлена поддержка цветового пространства более высокого качества YUV444 в том же H.264-формате. Этот режим будет полезен для сжатия изображений пользовательских интерфейсов, вроде задачи передачи видеоданных по беспроводному каналу.

В случае блока декодирования UVD изменений меньше — была улучшена только работа в режиме устойчивости к ошибкам (error resilience), полезном при передаче видеоданных по сети. А среди других возможностей Kaveri по кодированию и декодированию видеоданных можно отметить возможность сжатия и распаковки видео в самом современном формате сжатия HEVC (высокоэффективный видеокодек, также известный как H.265), аппаратно-ускоренном в исполнении x265 при помощи HSA на чипах семейства Kaveri. Этот формат сжатия обеспечивает заметно лучшее качество при схожем битрейте и поможет сэкономить полосы пропускания данных. Кстати, все это при подключении по Display Port 1.2 можно вывести на устройства отображения данных с UltraHD-разрешением с частотой до 60 Гц — Kaveri полностью готов к такому применению.

Далее мы поговорим о других возможностях нового поколения APU, которые обеспечиваются не выделенными аппаратными блоками, но не менее важными для пользователей. К примеру, выпущенный недавно APU нового семейства Kaveri обладает поддержкой нового графического API Mantle, который поможет использовать все имеющиеся аппаратные возможности APU, так как он ограничен недостатками имеющихся графических API (OpenGL и DirectX) и предлагает более «тонкую» программную оболочку между игровым движком и аппаратными ресурсами GPU подобно тому, как это давно делается на игровых консолях. Об этом API мы неоднократно писали в базовых обзорах видеокарт AMD Radeon.

Естественно, что компании AMD сильно помогло то, что новые консоли Sony и Microsoft основаны на чипах их же производства, схожих с представленным Kaveri APU и имеющих графические ядрам с архитектурой GCN 1.1. Mantle был разработан в AMD при участии ведущих игровых разработчиков из компании DICE, и игра Battlefield 4 является первым проектом, который должен был использовать Mantle еще в декабре прошлого года. Но «что-то пошло не так», и появление поддержки этого API в игре появилось лишь совсем недавно — 30 января, когда вышло специальное обновление, оптимизированное для графических ядер AMD с поддержкой Mantle. А бета-версия соответствующих драйверов Catalyst 14.1 Beta и вовсе вышла только 2 февраля.

Теоретически, использование Mantle может обеспечить преимущество по времени исполнения вызовов функций отрисовки по сравнению с другими графическими API вплоть до девятикратного, но такое преимущество возможно лишь в искусственных условиях, а в реальных играх максимум будет несколько десятков процентов, да и то не во всех условиях и сценах, а там, где производительность упирается в возможности CPU-ядер.

На системах с Kaveri игровые движки с поддержкой Mantle (вроде Frostbite 3) будут использовать этот API, позволяющий снизить нагрузку на CPU, распараллелив работу на все его ядра, и также привнесет специальные низкоуровневые оптимизации производительности для чипов компании AMD. Не только GPU, но по большей части и APU, ведь для сравнительно маломощных чипов прибавка в скорости даже важнее. Кроме этого, внедрение Mantle важно для Kaveri еще и для того, чтобы выжимать все соки из имеющихся CPU-ядер, а также более эффективно использовать рендеринг на асимметричных системах, когда над рендерингом работают одновременно и APU и дискретный GPU — в таких сценариях возможны самые значительные приросты.

Уже одним своим анонсом Mantle привлек значительный интерес со стороны разработчиков графических приложений. Некоторые из игровых разработчиков давно просили у Microsoft, Khronos, AMD, NVIDIA и других компаний дать им графический API, лишенный существующих ограничений, и AMD в Mantle предложили им искомое. Пока что Mantle успех не гарантирован, многие люди скептически относятся к новому API, что немудрено после того, как появление его поддержки даже в Battlefield 4 неоднократно откладывалось. Но если этот API будет успешно поддержан даже в нескольких важных для индустрии играх, то те же Microsoft и NVIDIA будут вынуждены как-то ответить на это. Впрочем, судя по словам главного разработчика нового API, перед компанией AMD не стоит цель конкурировать с Microsoft, главной задачей является дополнение имеющихся в арсенале игровых разработчиков инструментов новым API, который лучше подходит для современных графических процессоров.

Среди получивших доступ к Mantle можно выделить несколько компаний, которые были впечатлены открывшимися возможностями: DICE, Oxide, Nixxes Software и Cloud Imperium Games. Узкий круг компаний, допущенных к Mantle, объясняется тем, что это «тонкий» инструмент, требующий правильного подхода, и AMD пока что хочет добиться успеха с теми партнерами, в ком они полностью уверены. В будущем количество игр с поддержкой Mantle увеличится, а пока что среди объявленных проектов к Battlefield 4 можно присоединить Thief и Star Citizen.

Несмотря на то, что выпуск Mantle-патча для игры Battlefield 4 порядком задержался, AMD говорит о двукратном приросте производительности в сценах, ограниченных мощностью CPU, вроде мультиплеерных битв и многочипового рендеринга, и до 45% преимущества в частоте кадров по предварительной оценке, в предварительных версиях кода Battlefield 4. Кроме этой игры, есть еще и демонстрационная программа Star Swarm компании Oxide Games, которая также использует в разработке новый API. В их случае преимущество от Mantle получается иногда и вовсе более чем трехкратное. Впрочем, пока что все это мало что значит, сравнивать надо по реальным играм с поддержкой Mantle, как Battlefield 4.

Еще одной интересной особенностью APU производства AMD можно назвать гибридный режим работы Dual Graphics, когда для 3D-рендеринга используется как графическое ядро, встроенное в чип Kaveri, так и дополнительный 3D-ускоритель невысокой мощности, установленный в PCI-E слот. Конечно, идея объединения мощностей двух сравнительно слабых GPU в AFR-рендеринге со всеми его проблемами явно не самая лучшая, но с учетом специальной оптимизации по повышению плавности рендеринга вполне жизнеспособная. И уж тем более будет хорошо, если с применением Mantle смогут добиться того, что GPU-ядра будут работать над рендерингом по новому алгоритму, а не AFR.

Вероятно, в паре с APU теоретически сможет работать любая современная видеокарта AMD, но такие Dual Graphics конфигурации нужно тестировать с самыми последними доступными драйверами, так как компания еще дорабатывает их, сглаживая шероховатости. В своем внутреннем тестировании компания AMD использовала такую связку в Dual Graphics как: Kaveri APU модели A10-7850K со встроенной графикой Radeon R7 максимально для линейки мощности, в паре со слабой дискретной видеокартой модели Radeon R7 240, имеющей 2 ГБ GDDR3-памяти.

В итоге, в игре BioShock Infinite при высоких настройках в разрешении Full HD получился прирост от 21 FPS до 40 кадров в секунду, а в Tomb Raider скорость рендеринга выросла от 19 до 38 FPS. Ну что же, двукратный прирост от добавления недорогой видеокарты и при достижении играбельного порога частоты кадров стоит того, чтобы его упомянуть. Правда, остаются вопросы к плавности видеоряда при достижении такой частоты, ведь в предыдущих решениях она была явно недостаточной. Но компания AMD значительно улучшила технологию сглаживания частоты кадров (frame pacing) в последних версиях драйверов, поэтому у нас есть надежда на лучшее.

Линейка APU нового поколения

Чтобы изменения в характеристиках нового APU семейства Kaveri были понятнее, мы сравнили топовые решения на базе чипов Llano, Trinity и Kaveri. При выпуске Trinity после Llano, APU компании AMD получили максимальное изменение в возможностях CPU-части, так как вместо четырехъядерного CPU вышел APU с двумя универсальными вычислительными модулями, которые остались в гибридных чипах компании до сих пор, хотя и с изменениями. Впрочем, все они выполняют до четырех потоков кода, а разница между Richland и Kaveri явно больше, чем между Richland и Trinity. Итак, рассмотрим основные характеристики всех APU компании в таблице:

Семейство APU Llano Trinity Richland Kaveri
Техпроцесс 32 нм SOI 32 нм SOI 32 нм SOI 28 нм SHP
Транзисторов, млрд 1,2 1,3 1,3 2,4
Площадь, мм² 228 246 246 245
Питание, Вт 100 100 100 95
Архитектура CPU K10 Piledriver Piledriver Steamroller
Потоков 4 4 4 4
L1 кэш, КБ 256+256 128+64 128+64 192+64
L2 кэш, МБ 4x1 2x2 2x2 2x2
Частота CPU, ГГц 2,9 3,8 (4,2) 4,1 (4,4) 3,7 (4,0)
Архитектура GPU VLIW5 VLIW4 VLIW4 GCN
Ядер GPU 400 384 384 512
Модель GPU HD 6550 HD 7660D HD 8670D Radeon R7
Поддержка памяти DDR3-1866 DDR3-1866 DDR3-2133 DDR3-2133

Судя по сравнению цифр площади и количества транзисторов у всех предыдущих поколений (Llano, Trinity и Richland) с тем, что имеет Kaveri, нетрудно увидеть, что техпроцесс 32 нм SOI на фабриках Global Foundries явно не обеспечивает высокой плотности размещения транзисторов для всех предыдущих поколений APU (впрочем, есть вопрос методики подсчета количества транзисторов). В любом случае, Kaveri с его 2,4 млрд. транзисторов смотрится на фоне предшественников впечатляюще. По остальным характеристикам становится понятно, куда ушла дополнительная логика — на улучшение функциональности и увеличение эффективности (количество исполняемых микропроцессором инструкций за такт), что мы уже рассмотрели выше.

Линейка APU компании в наступившем году включает различные чипы, нацеленные на разные ценовые сегменты, но больше всего надежд у AMD связано с Kaveri и самым лакомым сегментом с потреблением энергии около 45 Вт. В последние несколько лет так делают многие производители, выпуская в первую очередь экономичные решения, можно вспомнить те же Intel и NVIDIA. К примеру, целевое потребление Intel Haswell было снижено с 35-45 Вт до меньших значений, что было важно для распространения тонких и легких ультрабуков, которые оказали огромное влияние на дизайн будущих CPU. А сейчас Intel старается сделать еще более экономичные решения, выпуская чипы Atom и даже Quark.

AMD же с Kaveri целится чуть выше 35 Вт, чтобы занять место над решениями вроде Intel Haswell, но в будущем в этой линейке выйдут и менее потребляющие APU — вплоть до 15 Вт (без урезания одного CPU-модуля, нескольких GPU-ядер и их частоты тут дело уже не обойдется), но это произойдет лишь в середине года. А сейчас выбор в качестве главного сегмента уровня потребления выше 35 Вт вполне оправдан, а вышедшие чипы AMD нацелены именно туда.

Пока что компания выпустила на рынок модели с потреблением от 45 до 95 Вт — самые мощные. Кроме разного потребления энергии, они отличаются количеством вычислительных ядер (количество CPU-ядер остается одинаковым, а GPU-ядра в младших моделях активны не все), базовой тактовой частотой и частотой в турбо-режиме:

Рассмотрим уже анонсированные APU из новой линейки компании AMD, предназначенные для разных сегментов с типичным энергопотреблением 45 Вт, 65 Вт и 95 Вт:

Модель A8-7600 A8-7600 A10-7700K A10-7850K
Питание, Вт 45 65 95 95
Потоков 4 4 4 4
L1 кэш, КБ 192+64 192+64 192+64 192+64
L2 кэш, МБ 2x2 2x2 2x2 2x2
Частота CPU, ГГц 3,1 3,3 3,5 3,7
Турбо частота, ГГц 3,3 3,8 3,8 4,0
Модель GPU Radeon R7 Radeon R7 Radeon R7 Radeon R7
Ядер GPU 384 384 384 512
Частота GPU, МГц 720 720 720 720
Память, МГц 2133 2133 2133 2133

Безусловно, одним из самых интересных является решение с потреблением в 45 Вт. Компания AMD не выпускала 45 Вт настольную версию Trinity, и хотя у них была пара APU Richland с таким потреблением, но широкого распространения эта модель не получила. Так что, модель A8-7600 (45 Вт) может стать весьма привлекательной для применения в системах, требующих невысокого потребления энергии и тепловыделения при достаточно высокой производительности. Эта модель Kaveri выйдет в продажу чуть позже — она должна появиться в продаже в первом квартале текущего года.

В случае с 65-ваттными APU все несколько иначе — у AMD и раньше были такие чипы. Однако, в случае линейки Kaveri в 65 Вт и 45 Вт сегментах выступает одна и та же модель APU — A8-7600. В новой линейке чипов AMD появились одинаковые модели с настраиваемым уровнем потребления энергии (TDP), и A8-7600 — первая из них. При снижении уровня TDP почти на треть, пользователь получает сниженные частоты (базовую и турбо) для CPU-ядер и тот же уровень частоты для GPU. Естественно, в реальных условиях возможна некоторая потеря и в 3D-производительности при достижении предела потребления.

Переходим к самым мощным модификациям Kaveri. Интересно, что несмотря на то, что чип предыдущего поколения A10-6800K произведен по техпроцессу 32 нм, он работает на более высокой частоте (базовой и турбо), по сравнению с A10-7850K, в производстве которого применяется техпроцесс 28 нм SHP — 4,1 (4,4) ГГц у чипа предыдущей линейки явно выше, чем 3,7 (4,0) ГГц у нового. Хотя уровень энергопотребления топового APU слегка снизился, но для достижения высокой CPU-производительности это явно не поможет.

В остальном, сравнительные характеристики уже анонсированных моделей вполне логичны. Что касается позиционирования представленных AMD продуктов на рынке, то понятно, что при главной цели при разработке в виде энергоэффективности, компания AMD позиционирует чипы семейства Kaveri как дающие большую производительность при том же потреблении энергии, по сравнению с конкурирующими.

Сравнение компанией AMD своих новинок с APU предыдущей линейки и недорогими процессорами Intel по цене и производительности показывает, что Kaveri APU отличаются не только низким потреблением, но и обеспечивают схожую с ними CPU-производительность и гораздо более высокую графическую производительность при меньшей цене. Впрочем, это дело отдельного разговора, к которому мы еще вернемся.

Еще одним интересным вопросом остается совместимость настольных чипов семейства Kaveri с системными платами и процессорными разъемами. Новые модели APU будут работать на системных платах с Socket FM2+, как и Richland с Trinity, но не на старых системных платах с разъемами Socket FM2 (они отличаются на пару контактов). Kaveri-совместимые системные платы способны работать как с FM2+, так и с FM2-чипами и уже продаются на рынке несколько месяцев, так что с их доступностью проблем не будет. Единственное, что ранее выпущенные Socket FM2+ платы могут потребовать прошивки обновленной версии BIOS, как это всегда бывает в таких случаях.

С поддержкой чипсетами дело обстоит немного сложнее. Для Kaveri подойдут следующие чипсеты: A55, A78 и A88X, но не A75, который использовался в платах с Socket FM1 для Llano. Если сказать проще, то любая системная плата на базе чипсета A88X подойдет для Kaveri APU, как и A78. А вот чипсет A55 применялся в платах с процессорными разъемами FM1 и FM2, которые, естественно, не подходят для Kaveri.

Оценка производительности и энергопотребления

В этом разделе мы наконец-то узнаем кое-что о производительности нового APU. Впрочем, пока что оценка производительности будет лишь примерная — основанная на данных производителя. Независимые и более полные исследования мы уже проводим и полноценные данные о производительности Kaveri будут предоставлены нашим читателям очень скоро. А пока что мы рассмотрим производительность топового чипа линейки по данным AMD, и в соперники A10-7850K были взяты Intel Core i5-4670K и APU прошлого поколения:

Новый гибридный чип компании оказался почти на четверть быстрее конкурента в серьезно обновленном тесте общесистемной производительности PCMark 8 v2. Бенчмарк использовался второй версии, которая включает больше работы для GPU, включая OpenCL — неудивительно, что Kaveri показал себя в нем лучше чипа Intel. По графической производительности (скорость рендеринга в пакете 3DMark) новинка AMD аж на 87% быстрее, а по скорости вычислений в пакете Basemark — на 63%.

Это достаточно высокие результаты, гораздо лучше предшественника и конкурента из стана Intel. Кстати, если продолжать разговор о сравнении с APU предыдущего поколения, то можно посмотреть на тест сравнительной производительности ядер Steamroller и Piledriver на одинаковых частотах в составе чипов Kaveri и Richland, соответственно:

Результат по CPU-производительности для нового чипа не слишком впечатляющий, надо сказать, ведь в большинстве тестов преимущество Steamroller не превышает и 10%. Зато в двух других (вероятно, использующих новые оптимизированные наборы инструкций), новое CPU-ядро быстрее старого Piledriver уже более чем на 20% — ну хоть так увеличили производительность своих CPU, и то хлеб.

Зато с графической производительностью у Kaveri все должно быть прекрасно, ведь AMD всегда наращивает мощности потоковых процессоров в GPU больше, чем CPU. Мы уже упоминали о том, что 35% игроков, зарегистрированных в сервисе Steam, имеют системы с графикой медленнее, чем топовый чип семейства Kaveri — AMD A10-7850K. Так вот, новый APU позволяет играть с высокими настройками в разрешении 1920x1080 во многие, хотя и не самые требовательные к 3D-производительности игры:

Что же, судя по данным AMD, со скоростью рендеринга в сравнительно простых играх у Kaveri все довольно неплохо, в них новинка от показывает больше чем 30 FPS и оказывается заметно быстрее пары Core i5-4670K со слабой дискретной графикой NVIDIA GeForce GT 630. Но что будет в «тяжелых» играх? AMD уверяет, что играбельность (то есть, не менее 30 кадров в секунду в среднем) в разрешении Full HD в лучших из 10 современных игр достигается со следующими настройками:

  • Battlefield 3 и Battlefield 4 — средние настройки (Medium)
  • Civilization 5 — высокие настройки (Low Tessellation, без сглаживания)
  • DiRT Showdown — высокие настройки (High)
  • FIFA 14 — высокие настройки (без сглаживания)
  • GRID 2 — высокие настройки
  • Just Cause 2 — высокие настройки
  • Left 4 Dead 2 — высокие настройки
  • Skyrim — высокие настройки (без сглаживания)
  • Sleeping Dogs — нормальные настройки (Hi Res Textures off)
  • StarCraft II — средние настройки

В целом, этот уровень настроек можно назвать очень неплохим для встроенной графики — похоже, что Kaveri действительно является первым процессором с интегрированным графическим ядром достаточной мощности, позволяющим играть даже в современные игры, пусть и с небольшими отхождениями от высоких настроек. Для большинства пользователей качество графики останется вполне приемлемым, и это — действительно большое достижение.

Раз уж у Kaveri есть поддержка Mantle, и обновление для Battlefield 4 вышло 30 января, то приведем и некоторые цифры, также предоставленные AMD. Обновление игры добавляет возможность использования Mantle-рендерера, и чтобы его использовать, нужно иметь видеочип архитектуры GCN, новейшие драйверы Catalyst 14.1 Beta и 64-битную версию Windows 7 или 8. В одном из тестов компании использовался однопользовательский уровень «Beach» (Сингапур) из игры Battlefield 4 — на этом уровне нагрузка на не самый мощный CPU в Kaveri достаточно высока, но игра в целом скорее остается ограничена возможностями GPU, прежде всего. В качестве центрального процессора использовался AMD A10-7850K, тестирование проводилось при средних настройках в разрешении 1280x720 и, благодаря специальным оптимизациям, Mantle-версия оказалась на 14% быстрее обычной Direct3D11-версии: 42,9 FPS вместо 37,6 кадров в секунду. Преимущество Mantle хоть и не самое впечатляющее, но для APU и такой прирост пойдет на пользу.

Ну хорошо, игры играми, но есть и 3D-бенчмарки, особенно любимые производителями чипов. Такие как 3DMark, в которых можно очень выгодно показать преимущество сильного графического ядра Kaveri. Рассмотрим уже расширенный набор участников сравнения, к которым добавился вариант A8-7600, потребляющий 45 Вт. Посмотрим, что он покажет на фоне 84-ваттного процессора Intel:

Очень неплохо! В этом 3D-пакете тестов, APU марки A8-7600 (45 Вт) оказался более чем на 50% быстрее процессора Intel, потребляющего до 84 Вт. Более того, он производительнее 100-ваттного варианта APU из предыдущей линейки Richland! А вот A10-7850K с его 95 Вт потребления ушел еще дальше, он почти вдвое быстрее конкурента Core i5 и на 37% быстрее 100-ваттного Richland.

Посмотрим и на самый требовательный подтест из пакета 3D-тестов компании Futuremark отдельно:

В подтесте Fire Strike позиции единственного процессора Intel ожидаемо пошатнулись еще сильнее, уж больно слабый GPU он имеет для этого теста. В данном случае интересно сравнение 45- и 65-ваттных вариантов A8-7600K. Более требовательная к питанию конфигурация оказалась лишь немногим быстрее, и обе они намного превзошли по скорости все остальные APU и CPU, кроме топового A10-6800K, который и стал победителем сравнения.

Но не только в 3D-тестах и играх мощный GPU помогает Kaveri стать одним из наиболее эффективных настольных решений. Мы уже упоминали о поддержке GPU-ускорения в известнейшей программе обработки растровых изображений — Adobe Photoshop Creative Cloud. В этой программе ускоряется на видеочипе практически весь конвейер. В основном, для этого используется графический API, но и универсальные вычисления уже применяются. Так, на GPU ускорена популярная функция повышения резкости изображения — Smart Sharpen, есть и аппаратно-ускоренный фильтр шумопонижения (denoise), рассмотрим первый фильтр:

Сравниваются все те же процессоры Intel и AMD, и новый APU последней в разы быстрее в тесте с применением фильтра повышения резкости изображения — отставание процессора Intel огромно. Похоже, что использование гетерогенных вычислений не зря все чаще и чаще попадает в реальные приложения, ведь эффект от них в некоторых задачах весьма значителен.

Вот еще один пример — Corel Aftershot Pro. Это новая утилита для обработки фотографий компании Corel, в которой ускорение на GPU получили несколько фильтров, в числе которых — локальное повышение контрастности. Этот фильтр использует гетерогенные вычисления и общую виртуальную память на Kaveri, что значительно снижает время обработки.

К сожалению, в этот раз AMD не сравнивает свой A10-7850K с решением конкурента (неужели нечем хвастать даже с учетом GPU-ускорения?), но сам по себе APU при включении OpenCL-оптимизаций ускоряется на 57% и 71%, соответственно. Тоже неплохо! А что с LibreOffice, который так рекламирует AMD? По данным компании-производителя, этот пакет используют около 80 млн. человек в мире, а для нас он интересен тем, что использует некоторые возможности HSA — более 100 функций электронных таблиц ускоряются на Kaveri APU при помощи гетерогенных вычислений.

К слову, вычислительная нагрузка из этого пакета используется в PCMark 8 v2, о котором мы писали выше. Это общепринятый индустриальный пакет для тестирования общей производительности, основанный на коде из реально существующих приложений, и теперь в нем есть новый тест электронных таблиц, использующий код LibreOffice Calc. В котором, как известно, применяются гетерогенные вычисления.

И в том числе поэтому в PCMark 8 v2 новый процессор Kaveri показывает очень впечатляющие результаты, значительно опережая и Core i5-4670K и A10-6800K во всех подтестах — сравнение с Piledriver особенно впечатляет в серии тестов Creative, где новинка разгромила и своего конкурента и предшественника.

Продолжаем напирать на вычислительную производительность в гетерогенных вычислениях — понятно же, что AMD выбрала наиболее привлекательные для них тесты. К примеру, в Rightware BasemarkCL измеряется производительность именно гетерогенных вычислений в разных задачах: физические симуляции (имитация поведения жидкостей и волн), рендеринг при помощи трассировки лучей (raytracing), а также тесты компилятора.

В BasemarkCL новинка в лице AMD A10-7850K также оказалась заметно впереди и A10-6800K, и Intel Core i5-4670K, который уж было подобрался по вычислительной производительности к APU предыдущего поколения. Но не тут-то было, Kaveri снова уверенно занял лидирующие позиции среди гибридных чипов в этом тесте.

Также AMD приводит показатели сравнительной производительности разогнанного чипа A10-7850K, GPU-ядро в котором работает на частоте более 1 ГГц, а оперативная память — на 2,5 ГГц и более. Скорость CPU в данном случае на итоговую производительность в играх влияет не так сильно, как частота памяти:

Судя по всему, частота памяти является одной из самых важных характеристик для Kaveri, и в систему на основе APU надо ставить наиболее скоростные DDR3-модули, какие только есть в наличии. Впрочем, повышение частоты для видеоядра сказывается в отдельных играх не меньше.

Возможно, все эти впечатляющие показатели скорости достигнуты благодаря высокой частоте чипа и повышенному потреблению энергии? AMD уверяет, что главной целью при проектировании Kaveri была энергоэффективность, то есть чип оптимизирован по питанию. Собственно, это видно по вилке типичных потреблений для всех планируемых вариантов нового APU, которые начинаются от 15 Вт и заканчиваются на значении в 95 Вт.

Высокая энергоэффективность Kaveri должна положительно сказаться как на времени продолжительности работы от батарей для мобильных решений, так и на возможности встраивания новых APU в очень маленькие корпуса, в том числе и новых форм-факторов, тихих и холодных, потребляющих минимум электроэнергии. А это важно и в серверах и в домашнем применении, и тем более — в мобильных решениях. AMD приводит такие данные для мобильного процессора нового поколения:

В типичных режимах низкой активности, вроде чтения, веб-серфинга и редактирования текстов, ноутбук на основе Kaveri APU, по данным AMD, должен проработать в среднем 9-11 часов, в более сложных тестах — более 6 часов. Все эти цифры весьма неплохи и говорят о том, что в AMD действительно поработали над энергоэффективностью. Еще одна цифра AMD, связанная с питанием APU — потребление Kaveri в операционной системе Windows 8.1 в «спящем» режиме S3 составляет всего лишь около 25 мВт.

Выводы

Новые чипы Kaveri продолжили стратегию постепенного перехода к гетерогенным вычислениям, начатую еще в Llano. Кроме этого, CPU- и GPU-ядра нового семейства APU получили приличный прирост производительности и энергоэффективности, по сравнению с предыдущими поколениями. Сравнение Kaveri и Richland по скорости типичных CPU-задач показывает преимущество новинки в 8-15%, а по скорости 3D-рендеринга вплоть до 33-75% (в таких бенчмарках как 3DMark Fire Strike). Скорость графического ядра в Kaveri вновь выросла значительно сильнее и в очередной раз новый процессор компании AMD стал решением, которое имеет наиболее производительное интегрированное видеоядро в индустрии.

В новой серии APU компания продолжила развивать возможности и производительность GPU-ядра, прежде всего. AMD явно использует отличающийся баланс по скорости CPU и GPU, по сравнению с той же Intel. И хотя их конкурент в последнее время также усиливает свои видеоядра, но графические процессоры архитектуры GCN имеют как заметно более привлекательную функциональность, так и впечатляющую энергоэффективность, которая весьма важна для процессоров с невысоким потреблением энергии. Гибридные чипы AMD продолжают лидировать в графических задачах и по возможностям, и по производительности.

И пусть по производительности CPU-части разница с Richland получилась не слишком впечатляющей, да и от мощных решений конкурента по этому показателю есть отставание, главное достижение APU компании AMD в том, что они поколение за поколением наращивают возможности по гетерогенным вычислениям. А количество реальных приложений, использующих эти возможности чипов APU, продолжает увеличиваться (LibreOffice, Adobe Photoshop и др.). Если в момент выхода Llano мы писали, что таковых приложений совсем нет, то сейчас их список достаточно велик и он постоянно растет. И речь уже не только о приложениях по обработке видеоданных, но и офисных приложениях, графических пакетах и т.п. Конечно, до идеального положения вещей в сфере программной поддержки еще очень далеко, но AMD делает очень многое для развития гетерогенных вычислений и будет весьма интересно, как ситуация будет развиваться в дальнейшем.

Поддержка и продвижение гетерогенной архитектуры HSA очень важна для всей индустрии, ведь большинство современных процессоров имеют гибридную архитектуру. Компания AMD работает над тем, чтобы изменить привычный подход к разработке ПО, поменяв его на «гетерогенный» — и это должно стать одной из причин успеха их гибридных чипов. У решений AMD есть явное преимущество перед конкурентом по поддержке GPGPU-вычислений, достаточно вспомнить то, что Kaveri стал первым в мире процессором, который полностью поддерживает все возможности OpenCL 2.0 — популярного «вычислительного» стандарта, который продолжает активно развиваться.

Что касается конкретных архитектурных изменений в составе Kaveri, то мы можем отметить переход на новые CPU- и GPU-ядра — это большое архитектурное изменение по сравнению с предыдущим поколением APU. В новом семействе APU появилась поддержка новых возможностей гетерогенной архитектуры HSA (одна только общая память для CPU и GPU чего стоит!), в состав чипов были внедрены новые блоки, помогающие оптимизировать исполнение фиксированного кода (TrueAudio, VCE, UVD), было значительно улучшено управление питанием. Кроме уже указанных улучшений в Kaveri, нужно отметить применение самой современной графической архитектуры компании — GCN, которая не только позволила заметно повысить скорость в 3D-задачах, но и впервые в истории APU компании имеет поддержку всех возможностей настольных видеокарт.

И все эти новые и улучшенные блоки в составе чипов Kaveri производятся по новому технологическому процессу, APU перешли с техпроцесса 32 нм SOI на совершенно новый процесс 28 нм SHP. Разница между ними значительна, первый оптимизирован для CPU с высокой частотой, а техпроцесс 28 нм SHP имеет главную задачу в достижении высокой плотности транзисторов, что идеально подходит для APU, так как обеспечивает оптимальный баланс для CPU и GPU-ядер. В итоге, новинка имеет значительно больше транзисторов по сравнению с Richland при схожем размере кристалла, что означает огромный прирост в эффективности. Перевод на более подходящий техпроцесс позволил получить впечатляющий прирост в производительности и энергоэфективности. Пусть Kaveri не является рекордсменом по скорости вычислений на CPU-ядре, но ее вполне достаточно для большинства применений, типичных для данного сегмента. Гораздо важнее энергоэффективность, которая является самой сильной стороной вышедших гибридных чипов компании AMD, что должно выразиться в большей производительности в пересчете на затрачиваемую энергию, а также в большей продолжительности работы в автономном режиме для мобильных решений.

Остается рассмотреть лишь вопрос цены. Хотя стоимость конечного продукта зависит от цены множества комплектующих, вклад процессора в них достаточно ощутим. И Kaveri явно имеет некоторое преимущество по цене перед аналогичными по позиционированию решениями компании Intel. Цена уже представленных моделей Kaveri APU ниже, чем у конкурирующих, поэтому и цена готовых решений должна быть ниже. Компания AMD и ее партнеры по выпуску конечных решений всегда предлагают выгодные цены на настольные и мобильные ПК на базе APU, и нет причин сомневаться, что с Kaveri будет иначе. В общем, на момент своего выхода, новые APU обеспечивают отличное сочетание возможностей, производительности и цены.

Но даже этого оказалось мало для AMD. В рамках продолжающегося партнерства с издателем Electronic Arts и игровым разработчиком DICE, компания решила выпустить специальные издания Kaveri APU для моделей A10-7850K и A10-7700K — в комплекте с ними идет ключ к полноценной игре Battlefield 4. Иными словами, и так отличное предложение становится еще более выгодным, ведь вместе с удачным процессором покупателю достанется еще и недешевая игра.




Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.