Графика: быстрая, медленная и интегрированная

Часть 23: APU Kaveri в виде старшего представителя линейки A10-7850K


Компания AMD успела уже перевести на архитектуру GCN не только дискретные GPU, но и графические ядра экономичных SoC Kabini и Temash, а вот в десктопных и ноутбучных процессорах вплоть до последнего времени применялась более старая разработка компании — VLIW4, дебютировавшая на рынке аж три года назад (и родственная еще более старой VLIW5). Изначально ожидалось, что внедрение GCN и в этот сегмент, вместе с новыми процессорными ядрами и техпроцессом 28 нм произойдет летом 2013 года, однако на практике APU линейки Richland оказались лишь косметической доработкой Trinity, а все нововведения отложились до семейства Kaveri. Которое, наконец-то, вышло в свет.

Новые APU — действительно новые. Шаг вперед оказался большим, нежели все предыдущие, несмотря на лишь незначительные изменения в процессорной части: все-таки смена Llano на Trinity была количественным, а не качественным обновлением. Просто потому, что концепция APU всех ранних поколений, несмотря на весь пафос названия, по сути предполагала под собой не более чем механическое объединение «дискретных» CPU и GPU под одной крышкой. Да, последний мог использоваться не только обычными потребителями, но и ускорять приложения общего назначения, однако, опять же, никакой заслуги интеграции в этом не было — GPGPU изначально развивалось благодаря дискретным решениям. Kaveri же — первое устройство с поддержкой HSA, что (хотя бы теоретически) позволяет перейти к «настоящим» гетерогенным вычислениям. В частности, теперь обе составляющих части APU работают с полным объемом оперативной памяти без необходимости копирования объектов из одной области в другую, да и некоторых других «рудиментов дискретности» можно будет избежать, что облегчает разработку программного обеспечения и увеличивает его производительность.

Но что из этого получится — покажет время: несложно догадаться, что полная утилизация возможностей новых APU требует соответствующей программной поддержки. Собственно, это до сих пор и тормозит внедрение гетерогенных вычислений в приложения массового назначения: во-первых, не все программы вообще можно ускорить переносом вычислений на GPU, а во-вторых, для этого переноса в любом случае приходится «перелопачивать» исходный код программ (а то и вовсе — менять алгоритмы). Впрочем, лиха беда начало — главное, что процесс использования OpenCL вообще хоть как-то «пошел». Если же приложение уже оптимизировано под такие возможности, дальнейшая его доработка является более простым мероприятием. Тем более что она может и не понадобиться — улучшенное графическое ядро в любом случае позволит получить более высокую производительность. Причем это касается не только вычислений — уж игры-то всегда реагируют на прогресс в области интегрированной графики положительно.

Насколько положительно? Вопрос сложный, так что вокруг него до появления новых процессоров было сломано немало копий. С одной стороны, количественно и качественно новое видеоядро в старших моделях Kaveri идентично Radeon HD 7750: те же 512 ГП архитектуры GCN; лишь тактовая частота на 10% ниже. А это очень даже серьезно — видеокарты на базе данного GPU позволяют поиграть даже в современные игры. Но, как уже было давно установлено, HD 7750 бывают разными: использование памяти типа DDR3 снижает производительность более чем в полтора раза, превращая быстрый чип в обычную посредственность. Более того: платам с медленной памятью такое количество графических процессоров просто не нужно: итоговая производительность определяется во многом ей, так что результаты HD 7750 и более простого HD 7730 практически равны. И вот тут-то сразу обнаруживается слабое место интегрированных решений — процессоры-то используют как раз двухканальную (т. е. те же 128 бит) DDR3, как и «упрощенные» дискретные видеокарты. Таким образом, рассчитывать на паритет с «полноценными» Radeon HD 7750 и даже HD 7730 (в новой линейке компании возродившейся в виде R7 250) не приходится даже в теории. Которую мы сегодня решили подвергнуть практической экспресс-проверке.

Конфигурация тестовых стендов

  Radeon HD 8670D Radeon HD 7750 DDR3 Radeon HD 7750 GDDR5 Radeon R7
Количество графических процессоров 384 512 512 512
Тактовая частота, МГц 844 800 800 720
Количество текстурных процессоров 24 32 32 32
Шина памяти, бит 128 128 128 128
Максимальная частота памяти 2133 1600 4500 2133
Технология пр-ва 32 нм 28 нм 28 нм 28 нм

За базу было взято наше недавнее тестирование интегрированной и дискретной графики на платформе FM2. Собственно, сегодня нам из него потребуются три конфигурации: А10-6800К с интегрированным Radeon HD 8670D (предыдущий топ компании) и он же в паре с двумя версиями Radeon HD 7750, различающихся типами памяти. А сравнивать с ними мы будем, как несложно догадаться, A10-7850K. Для экономии времени мы не стали повторять тестирование дискретных видеокарт именно с этим процессором в системе, да и версии драйверов использовались разные (Catalyst 13.8b2 для референсных конфигураций и 14.1b3 для A10-7850K) — очевидно, что по степени влияния на итоговый результат оба названных фактора не идут ни в какое сравнение с собственно производительностью графической части, так что для получения качественной оценки ими можно и пренебречь.

Aliens vs. Predator

Как видим, прогресс сравнительно с предыдущим поколением есть, но крайне небольшой — сбылись худшие ожидания в плане зависимости результатов от скорости памяти. HD 7750 с DDR3 здесь был даже медленнее, чем Radeon HD 8670D по той же причине: частота видеопамяти немного ниже, нежели доступна интегрированным решениям.

Влияние видео продолжает ощущаться даже в режиме минимальных настроек, хотя он уже относительно «легок» для всех интегрированных графических ядер. Что любопытно, новый флагман отстал даже от старого — очень может быть, что сказалась разница в тактовой частоте интегрированных GPU, благо отставание практически пропорционально ей.

Batman: Arkham Asylum GOTY Edition

В отличие от предыдущей игры, здесь «хватает» и более слабых решений, нежели представители линейки А10, зато и разница между новым и старым флагманами оказалась еще меньшей.

...и это, заметим, было «виной» в первую очередь именно видеочасти (несмотря на все ее перспективные ГП), поскольку облегченный режим показывает примерное равенство трех конфигураций из четырех, т. е. производительность собственно CPU A10-6800K и A10-7850K равная. А вот видеоядро в первом процессоре не позволяло ему «выложиться по максимуму». Однако, очевидно, поводов для радости исправление этой ситуации не дает — графический движок UE3 с точки зрения современности очень легкий, так что играть в игры на нем даже на интегрированной графике можно уже в «нормальном» качестве. А в нем, как мы уже видели выше, разницы между медленными решениями (страшими интегрированными или дискретными GPU с DDR3) нет, но вот покупка «приличной» видеокарты продолжает оставаться оправданной.

Crysis: Warhead x64

В Batman играть можно было и раньше, и сейчас можно, а вот в Crysis — как нельзя было, так и осталось. Что сделать, чтоб стало можно? Купить Radeon HD 7750 с DDR5 или что-нибудь более быстрое :)

Ну а в легком режиме, как и ожидалось, все равны. Дискретные решения чуть быстрее за счет дискретности — графические ядра не мешают «процессорным», но не более того.

F1 2010

Превосходство над предыдущим флагманом выросло до 20%, и... ничего не изменилось: интегрированных решений по-прежнему чуть-чуть не хватает. Вот, хотя бы, Radeon HD 7730 с DDR5 позволяет перевалить за 30 FPS, а HD 7750 с тем же типом памяти безоговорочно обеспечит комфортный игровой процесс. В отличие от  интегрированной графики — как видим, ее все еще маловато. Хотя игре скоро исполнится четыре года, да и разрешение мы используем не максимальное — в FHD все будет еще хуже.

Ну а в легком режиме поиграть можно и на современном Pentium, так что любого А10 тем более достаточно. Искать разницу между разными конфигурациями в таких условиях становится делом неблагодарным.

Far Cry 2

Производительность процессорной части в этой игре начинает иметь значение уже даже при использовании медленных графических решений, так что тут А10-7850К вообще умудрился проиграть всем остальным участникам. Самую малость, так что всех их можно считать примерно равными — за исключением HD 7750 DDR5, в очередной раз подтвердившего свой статус минимального универсального графического решения.

В легком режиме тенденция только усугубилась — кроме процессора ничто не важно, а производительность CPU-части в новом поколении APU не выросла (удельная — поднялась, но это было скомпенсировано снижением рабочих тактовых частот). Заметим, кстати, что абсолютные результаты в качественном и облегченном режимах уже отличаются очень слабо. И это будет справедливо и для других «старых» игр.

Metro 2033

Как мы уже установили самому современному из используемых нами игровому движку недостаточно той скорости текстурирования, которую способны обеспечить любые видеокарты со 128-разрядной шиной и DDR5 — чего уж говорить о более медленных решениях? Да — почти 30% прибавки в производительности это очень неплохо с одной стороны. С другой — оно ничего не решает. Задумываться о «качественных» режимах таких игр пользователям интегрированных и бюджетных дискретных решений придется еще очень нескоро.

Ну а если сбросить настройки качества на минимум, преимущества быстро испаряются — старый флагман для такого применения подходил не хуже. А какой-нибудь Athlon Х4 с младшей дискреткой — и подходил, и подходит лучше любого APU.

Сводные результаты

Попробуем оценить ситуацию в общем и целом, а также посмотреть не только на игры, для чего воспользуемся диаграммами со средними результатами по группе тестов/приложений (детально с полной методикой тестирования вы можете ознакомиться в отдельной статье). Результаты на диаграммах приведены в баллах, за 100 баллов (как и в большинстве статей) принята производительность Celeron G540 и Radeon HD 6450 512 МБ GDDR3. Тем, кто интересуется более подробной информацией, а также сравнением с другими системами, не вошедшими в данное тестирование, традиционно предлагается скачать таблицу в формате Microsoft Excel, в которой все результаты приведены как в преобразованном в баллы, так и в «натуральном» виде.

Итак, в среднем получилось «выжать» примерно 10%: с учетом сохранения платформы неплохо, а для практического использования — ничего. Что работало раньше — продолжает работать и сейчас. Что было недоступно — таковым и осталось. Увы, но основным сдерживающим фактором продолжает оставаться низкая скорость памяти. В результате нет ничего удивительного в том, что новый интегрированный Radeon R7 обгоняет новых и старых родственников работающих в паре с DDR3, но вот даже Radeon HD 7730 с DDR5 ему уже не по зубам. А имеющий такое же количество графических процессоров Radeon HD 7750 DDR5 в полтора раза быстрее. Что иногда приводит и к переходу количества в качество.

В «легком» режиме, как и ожидалось, никакого прорыва не произошло — он уже все-таки слишком «легкий» для старших интегрированных решений. Однако отметим, что даже в таких условиях «приличная» дискретная видеокарта все равно «прилично» быстрее. То есть если ориентироваться в первую очередь под игровое применение, то приобретение таковой остается практически безальтернативным, даже если не ориентироваться на наиболее «тяжелые» современные проекты (которые, в общем-то, в приемлемом качестве «не тянет» и недорогая дискретка, не говоря уже о любом интегрированном видео).

Что же касается не игровых, а «серьезных» приложений, то здесь, как и предполагалось, все вообще без изменений: мы уже не раз убеждались в том, что разные решения AMD обеспечивают примерно равный уровень производительности, так что и новое видеоядро исключением не стало. Что-либо отличное от привычного уровня могут продемонстрировать, разве что, профессиональные карты семейства FirePro, благодаря своим оптимизациям и другим драйверам.

OpenCL

Как уже было написано в начале статьи, максимальную выгоду использование Kaveri может принести в специально оптимизированных под преимущества HSA приложениях. С другой стороны, таковых придется еще подождать — разработчикам нужно освоить все эти потенциальные бенефиции, да и определенную инерцию рынка никто не отменял (большинство продуктов даже самой AMD эти технологии не поддерживают). А что в «обычных» программах с использованием GPGPU? Попробуем оценить при помощи одного из синтетических бенчмарков, которым пользуемся с середины прошлого года.

Что ж — а вот это уже очень серьезно! Причем хорошо видно, что сказалось не только увеличение количества исполнительных устройств, но и их качество. Действительно — на примере процессоров линейки Richland хорошо видно, что даже удвоение количества ГП (переход от А6 к А10) увеличивает производительность лишь в полтора раза, а ведь в А10-7850К их больше, чем в A10-5800K/6800K лишь на треть, но производительность при этом выросла в те же полтора раза. Так что можно предположить, что и младшие представители Kaveri, где GPU слабее, все равно превзойдут топовые Trinity/Richland, а не только «одноклассников». Да и в сравнении с продукцией основного и единственного конкурента новые APU выглядят выигрышно — к примеру, лучший процессор предыдущего поколения с HD Graphics 4000 отстает от A10-7850K вдвое, а новейшие настольные модели — в полтора раза, благо они-то уже почти догнали Richland. В мобильном сегменте, впрочем, положение дел может отличаться, благо там у Intel HDG 4600 является лишь средней, а не старшей модификацией GPU, однако можно быть уверенным в том, что, по крайней мере, новые продукты AMD не проиграют конкурентам.

А если сравнить с настольными видеокартами? Вспоминаем нашу статью, посвященную разными OpenCL-бенчмаркам, где участвовал и Basemark CL: Radeon HD 7970 набрал 344 балла, а более старый HD 6950 — 197 баллов. Как видим, сравнительно с топовыми решениями все равно порядок величин остается разным, но... Это дискретка за несколько сотен долларов. Тот же HD 6950 на момент анонса имел рекомендованную цену в $299 долларов и рассматривался три года назад как серьезный GPGPU-ускоритель. И ничего удивительного — в июле 2010 года, например, седьмое место в TOP500 суперкомпьютеров занял кластер с узлами, использующими пару старых Radeon HD 4870, по суммарной вычислительной мощности сравнимыми с одним HD 6950. Но ведь половина от HD 6950, согласно полученным нами результатам, это и Radeon R7 в A10-7850K. Да, конечно, сейчас уже на GPU такой производительности суперкомпьютеры не строят, однако использовать их не прекращают. Не говоря уже о персональных компьютерах, укомплектованных не старшими, а, скажем так, более «народными» моделями видеокарт, в т. ч. и мобильных. Таким образом, аппаратная «база», на которой можно получить прирост производительности от использования вычислений на GPU, расширяется уже и в сторону компьютеров, снабженных только интегрированной графикой, что должно заставить программистов перестать (наконец-то!) игнорировать этот способ оптимизации.

Итого

По результатам тестирования наши впечатления оказались двойственными. Если говорить о «привычном» использовании GPU, т. е. играх, с которыми пользователи сталкиваются уже давно, то здесь никакого качественного скачка не произошло. Собственно, как и предполагалось — «узким местом» является уже система памяти. Да, разумеется, остается такой вариант, как некоторый разгон ОЗУ, поскольку более производительные, нежели «официальные» модули DDR3-2133 в природе существуют, однако это проблемы не решает. Не только из-за высокой цены (с этим нередко можно справиться и  разгоном), а просто потому, что такой экстенсивный способ может повысить производительность лишь на 10% или чуть больше, а таким GPU нужно уже не 2400 и даже не 2600 МГц, а минимум 4000. Чего не сможет обеспечить не только DDR3, но и перспективная DDR4 в ближайшую пару лет (с этим, как нам кажется, и связан отказ от поддержки DDR4, которой ранние слухи наделяли Kaveri). При этом старшие модели нового семейства к бюджетным продуктам не относятся, так что за аналогичную стоимости A10-7850K сумму можно приобрести какой-нибудь Athlon X4 750K и Radeon HD 7750 с DDR5, а то и HD 7770, что в играх обеспечит намного более высокую производительность при сравнимом уровне быстродействия и в «обычных» программах. Возникает, даже, крамольная мысль — а не с этим ли связано отсутствие в обновленной линейке компании аналога HD 7750? ;) Но он уже и не нужен: чуть позже анонса большинства моделей было заявлено о выходе Radeon R7 260 с рекомендованной ценой $109 и более высокими ТТХ, нежели у HD 7770, а чуть позднее и сам HD 7770 реинкарнировался (пока неофициально) с номером 250Х и ценой $99. В общем, во всех случаях, когда можно использовать дискретное видео, как видим, его и нужно использовать: будет не дороже, но быстрее. Таким образом, наилучшей сферой применения APU остаются системы, где дискретное видео использовать нельзя: ноутбуки, моноблоки, мини-ПК и т. п. Но оценивать перспективы в этом сегменте мы пока воздержимся — в него уже «не лезет» конкретно A10-7850K, а производительность более экономичных моделей (в первую очередь — A8-7600 с регулируемым теплопакетом 45/65 Вт или вообще ноутбучной линейки) нужно еще проверить на практике.

Что же касается применения интегрированного GPU Kaveri в неграфических вычислениях, то здесь, напротив, немало поводов для оптимизма. В основном благодаря росту производительности, причем даже без специальной оптимизации, что позволяет «убить» сразу двух зайцев. Во-первых, у разработчиков программного обеспечения остается все меньше поводов игнорировать тот же OpenCL там, где его можно использовать: ведь выигрыш даже в системах без дискретной графики может быть большим, чем ранее. Во-вторых, само по себе увеличение производительности полезно — ведь Intel тихой сапой подобрался уже к тому же уровню, на котором остановилось предыдущее поколение APU. Ну а новое позволяет достичь большего, т. е. при активном применении GPGPU APU AMD способны выйти на тот же или более высокий уровень быстродействия, что и лучшие из массовых процессоры Intel. Заметим, что на х86-коде, несмотря на все старания инженеров AMD паритета давно уже достичь не удается. Собственно, вполне возможно, что именно это побудило компанию отказаться пока от обновления «многомодульных» процессоров семейства FX — асимметричный ответ может оказаться более эффективным. Естественно, делая ставку на такой способ решения проблем с производительностью компания сильно рискует — слишком многое зависит от разработчиков программного обеспечения и их дальнейших действий. Однако и выигрыш (в случае успеха) может быть куда большим, чем любые достижения на поле совершенствования «классической» процессорной архитектуры. Тем более, если новые версии ПО будут не только использовать OpenCL, но и обзаведутся специальной оптимизацией под HSA.

И, в заключение, еще пара слов о значимости выхода в свет Kaveri. Как уже было написано в начале статьи, это знаковое событие, поскольку новая архитектура — это действительно APU на практике, а не только в виде заявлений. Ведь, повторимся, ранее речь шла в основном о механическом объединении «обычного» процессора с «обычным» видеочипом в одном кристалле. И даже контроллер памяти являлся общим лишь в плане конкурентного использования, но и CPU, и GPU работали со своими областями ОЗУ, так что для обмена данными между ними их приходилось копировать из одного места в другое. Более того — фактически степень интеграции компонентов в APU была более низкой, чем у процессоров Intel, где GPU быстро стал равноправной частью кристалла и получил доступ к общей кэш-памяти, например (а выход в свет Ivy Bridge почти два года назад быстро выбил из рук AMD и такой формальный козырь APU, как использование графических ядер в приложениях общего назначения). Теперь же — все не так. И придуманный три года назад AMD термин «APU» обретает физический смысл. Что можно считать шагом вперед с точки зрения технологии, независимо от практической применимости на сегодняшний день :)



Благодарим компании Corsair, «Ф-Центр» и Palit
за помощь в комплектации тестовых стендов



Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.