Графика: быстрая, медленная и интегрированная

Часть 14: AMD Trinity и разные конфигурации оперативной памяти

В предыдущей статье цикла мы протестировали новые APU AMD и остались очень довольны их результатами. Но для полного раскрытия темы интересно отследить и влияние системы памяти на быстродействие графического ядра. Дело в том, что тестировали-то мы их всех с памятью DDR3-1866 (кроме А4-5300, официально ограниченного DDR3-1600), да еще и не самой дешевой (т. е. с низкими таймингами). А что будет, если поставить бюджетную DDR3-1333? Покупать ее сейчас, конечно, большого смысла нет (цены на DDR3-1333 и DDR3-1600 практически совпадают), но она могла остаться от старого компьютера. A8-3850 (или, точнее, Radeon HD 6550D), помнится, от замены DDR3-1866 на DDR3-1333 терял треть производительности — а ведь это более слабое решение, нежели новые А8 и, тем более, А10. С другой стороны, производительность младших Llano с медленной памятью мы вообще не тестировали, а это еще более насущный вопрос: покупая старшую модель APU, можно и на DDR3-1866 раскошелиться, и даже на что-нибудь более быстрое (вплоть до DDR3-2133 или DDR3-2400), но младшие процессоры сами по себе дешевле, так что тут экономия на памяти интересна. Тем более что для младших интегрированных GPU она может оказаться оправданной: они сами по себе медленнее. В общем, с Trinity мы решили закрыть пробелы в знаниях, сразу изучив все насущные аспекты их жизнедеятельности :)

Тестирование: цели и задачи, конфигурации, методика

Этот раздел сравнительно большого объема будет общим и одинаковым для всех статей: к сожалению, далеко не всем людям достаточно что-либо объяснить один раз :) Тем более, далеко не все читатели будут внимательно изучать все статьи цикла — вероятность «начать с середины» или просто ограничиться одним-двумя материалами крайне велика, в чем мы отдаем себе полный отчет. Поэтому сразу приносим извинения тем, кто против постоянного повторения одних и тех же истин. Которое, впрочем, как известно мать учения :)

Итак, во-первых и в главных следует учитывать, что в рамках данного тестирования мы не занимаемся исключительно компонентами — мы тестируем системы, из них состоящие. Отдельно процессоры тестируются в рамках статей «основной линейки». Всегда в фиксированной конфигурации — с мощной видеокартой, большим объемом ОЗУ и т. п. Есть у нас на сайте и тестирования непосредственно видеокарт в игровых приложениях, обновляемые ежемесячно. В рамках i3D-Speed все видеокарты (от простенькой бюджетки до multi-GPU) тестируются на мощной конфигурации, выбранной из расчета достаточности для графической составляющей любой мощности. Т. е. мы считаем, что с точки зрения традиционного «компонентного» тестирования этих двух линеек статей вполне достаточно.

Но вот для практического использования полученных в их рамках результатов нужно определенное связующее звено. Дело в том, что приложений, производительность которых не зависит от центрального процессора, в природе не существует. Бывают, конечно, случаи, когда она ограничивается другими компонентами, но и это очень часто для разных процессоров происходит на разном уровне. Игровые же и подобные приложения существенным образом зависят от производительности GPU, но и нагрузку на CPU дают немалую. Если задача оказывается слишком «легкой» для графики, все начинает определять только процессор. Если «тяжелой», то влияние процессора, наоборот, становится минимальным, и его даже можно иногда не учитывать. В промежутке между этими предельными случаями важны оба компонента, причем степень их важности может меняться местами. Априори неизвестным образом. Т. е. из того, что один процессор быстрее другого с использованием мощной видеокарты не следует, что соотношение сохранится, если ее заменить на бюджетную. Точнее, в каких-то режимах сохранится, в каких-то — изменится, в каких-то все просто окажутся одинаковыми. Аналогичная проблема свойственна и видеокартам — уровень «достаточности» CPU меняется в зависимости от GPU и режима его работы.

Казалось бы, достаточно просто тестировать все связки «процессор+видео». Решение очевидное и правильное в теории, но практически неосуществимое на практике, поскольку объем работы растет в геометрической прогрессии. Иными словами, 40 видеокарт на одной системе — 40 тестовых конфигураций. 40 процессоров с одной видеокартой — тоже 40 конфигураций. А если это объединить, получится 1600 тестовых конфигураций. Хотя, конечно, если всю эту работу удастся проделать, будут получены поистине бесценные результаты. Но к моменту их получения они станут уже никому не нужными, поскольку устареют (забегая вперед — даже выбранная нами «упрощенная» методика позволяет за рабочую неделю протестировать не более десятка конфигураций, так что 1600 — задача на три года при использовании одного стенда).

Но можно подойти и с другой стороны: не пытаться найти точные ответы на все вопросы, а ограничиться качественными оценками. Хотя бы для части процессоров можно попробовать «нащупать» нижний уровень производительности. Которым является интегрированная графика, благо в последнее время она превращается в неотъемлемую составляющую большинства современных процессоров. И есть младшие модели дискретных адаптеров, которые как минимум не хуже. Но в разы проще и медленнее, нежели топовые решения — на графическом рынке пока еще разброс характеристик больше, чем на процессорном. При таком выборе оборудования мы можем и существенно сократить список тестовых конфигураций и режимов. Действительно — наиболее актуальными результаты будут для покупателей бюджетных компьютеров, поскольку при цене системного блока долларов так в 1000, можно отдать 10% этой суммы за чуть более мощную видеокарту, нежели нижний уровень, а не связываться с тем же интегрированным видео. Просто — чтобы было. Так что процессоры среднего класса и выше часто тестировать со слабым видео не потребуется. Иногда, конечно, мы этим заниматься тоже будем — для того, чтобы иметь необходимые ориентиры, но лишь иногда. Кроме того, для систем такого класса не требуются тесты в каких-то выдающихся режимах, типа 2560×1600 со старшими вариациями на тему полноэкранного сглаживания :) Словом, работу можно существенным образом упростить.

Еще больше объем работы сокращает то, что 90% приложений стандартной процессорной методики от производительности видео вообще не зависит. В предыдущей серии мы использовали все программы, так что четыре ее части являются вполне достаточным доказательством данного факта. Кому все еще недостаточно — тут уж мы ничего поделать не можем :) Как бы то ни было, но GPGPU до сих пор является не более чем любопытным экспериментом, да и все работы в данном направлении показывают, что для систем со слабыми GPU он вообще особой актуальностью не отличается: мощные видеокарты на «хороших» задачах действительно способны что-то ускорить, а вот при попытке выжать что-то путное из дискретки начального уровня очень часто весь пар уходит в свисток — усложнение алгоритмов и лишние пересылки данных «съедают» весь потенциальный прирост. Из чего, впрочем, не следует делать вывод, что мы пройдем мимо какого-либо любопытного и популярного приложения, способного активно использовать ресурсы GPU. Разумеется, не пройдем и в данную экспериментальную же методику его добавим. Только вот пока основная проблема в том, что ничего подобного не попадается. Точнее, «любопытные» программы уже есть, а вот популярными они все никак по тем или иным причинам никак не становятся. То же транскодирование видео, вокруг которого было сломано немало копий, на деле мало кому требуется регулярно, да и качество работы разработанными энтузиастами программ оставляет желать много лучшего (это еще очень мягко говоря). Причем (вот она гримаса судьбы) быстрее всего выполняется при помощи специализированных аппаратных блоков, имеющихся в интегрированных GPU Intel, а вовсе не на конвеерах универсального назначения.

Таким образом, у нас остается не так уж и много программ, которые имеет смысл «гонять» на системах со слабой графикой. Фактически «стандартная» методика упрощается буквально до пяти групп, три из которых в ней являются экспериментальными. Это:

Интерактивная работа в трёхмерных пакетах: Без изменений
Математические и инженерные расчёты: Выброшены MAPLE и MATLAB, поскольку ничего на экран не выводят, а вот оставшиеся три приложения читателям интересны, судя по отзывам (понятно, что так уж сильно экономить на рабочем месте вряд ли целесообразно, но вдруг придется поработать за слабым компьютером). Фактически получается так, что по составу эти две группы в результате совпадают, но в предыдущем случае учитывается «графический» балл соответствующего теста, а в этом — «процессорный»: как показала практика тестирования, на деле оба они зависят и от процессора, и от видеокарты, что нам и требуется
Игры: Без изменений
Игры с низким разрешением и настройками качества: В рамках «основной» методики эта группа практически никак не используется и на общий балл не влияет, но сделана она как раз для систем со слабой графикой. В первую очередь, мобильных, однако не так уж они отличаются от того, что мы тестируем в этой серии
Проигрывание видео высокой чёткости: В особых комментариях не нуждается

Поскольку групп у нас не так уж много, причем все они являются достаточно специфическими, общую оценку мы ставить не будем. В первую очередь нас интересуют результаты. Которые, как водится, будут полностью совместимы с полученными на конфигурациях основной линейки тестирования, благо мы уже точно знаем, что видеокарты на прочих приложениях никак не сказываются. Так что при желании можно просто заменить соответствующий кусок в «большой» таблице, благо мы их ни в коей мере не скрываем. Однако стоит учитывать, что баллы этого тестирования с основной линейкой никак не совместимы: здесь за масштабную единицу мы берем систему с Celeron G540 и Radeon HD 6450 512 МБ GDDR3, так что для самостоятельных махинаций следует скачать таблицу в формате Microsoft Excel, в которой все результаты приведены как в преобразованном в баллы, так и в «натуральном» виде.

Конфигурация тестовых стендов

Процессор	A4-5300	A6-5400K	A8-5600K	A10-5800K
Название ядра	Trinity	Trinity	Trinity	Trinity
Технология пр-ва	32 нм	32 нм	32 нм	32 нм
Частота ядра (std/max), ГГц	3,4/3,6	3,6/3,8	3,6/3,9	3,8/4,2
Оперативная память	2×DDR3-1600	2×DDR3-1866	2×DDR3-1866	2×DDR3-1866
Видеоядро	Radeon HD 7480D	Radeon HD 7540D	Radeon HD 7560D	Radeon HD 7660D
Кол-во графических процессоров	128	192	256	384
Частота видео (std/max), МГц	723	760	760	800

Мы взяли четыре APU, являющиеся на данный момент старшими в своих линейках (а два младших — и вовсе единственными): A4-5300, A6-5400K, A8-5600K и A10-5800К. К штатному режиму, протестированному в прошлый раз и обозначаемому в дальнейшем на диаграммах как HS (High Speed, 2×DDR3-1600 или 2×DDR3-1866 — сколько позволяет процессор), добавились еще два, различающихся конфигурацией памяти. LS (Low Speed) — одноканальная DDR3-1600. При установке более чем одного модуля на канал такая частота является максимальной для всех APU (не только А4), а нам как раз (для сохранения общего объема) два модуля в канал ставить и приходится. Режим имеет не только теоретическое, но и определенное практическое значение: например, при сборке бюджетной системы решено сначала приобрести один модуль памяти, но относительно высокочастотной, а потом уже добавить к нему второй. В абсолютном исчислении экономия не так уж и велика, а вот в относительном — достаточно интересна: модуль на 4 ГБ приличной PC12800 (CL9, а не CL11, которую можно получить и из «регулярной» PC10600) на момент написания статьи стоил от 600 рублей и выше, а это как раз разница между A4-5300 и A6-5400K или A8-5600K и A10-5800K. И не стоит смеяться над экономией на спичках: стартовый бюджет бывает очень ограниченным (даже меньшие суммы зачастую важны), а на некоторых компонентах сэкономить не получится вообще или это потом исправить будет крайне сложно (например, покупка винчестера на 500 ГБ вместо 1 ТБ даст те же 500-600 рублей экономии, но потом придется еще один покупать). С памятью же все просто: берем один модуль, потом добавляем второй. Опять же — 1×4 дешевле, чем 2×2. Вот только вопрос, с какой скоростью это все будет работать до апгрейда, крайне важен — вдруг все совсем плохо…

Третья конфигурация памяти — режим Normal Speed (NS): двухканальная DDR3-1333. Для нового компьютера уже лучше ориентироваться на DDR3-1600 (даже при ограниченных финансах), но ведь такие модули могут легко остаться и от старого. Стоит ли их пускать в дело или лучше не экономить — тоже достаточно важный практический вопрос. Поэтому и на него мы тоже поищем ответ.

Интерактивная работа в трёхмерных пакетах

Как и следовало ожидать, повышение производительности системы памяти здесь почти бесполезно — нагрузка на видео минимальна, а процессору хватает любой памяти. В итоге имеем максимальный разброс результатов в районе 10%, хотя ПСП конфигураций отличается более чем в два раза. Развернутые комментарии излишни.

Математические и инженерные расчёты

Равно как и по поводу процессорного балла в этих же тестах: он зависит от видеосистемы в еще меньшей степени, так что имеем почти полное равенство всех трех режимов.

Aliens vs. Predator

Но стоит перейти к играм, как все сразу встает на свои места! Во-первых, сразу видно, что одноканальный режим допустим лишь как временное решение. Даже А4-5300 ускоряется за счет двухканальности на 20%, а у прочих прирост доходит и до двукратного. Во-вторых, есть зависимость производительности от частоты памяти, которая, естественно, в значительной степени определяется мощностью самого видеоядра. Т. е. для А6 в принципе можно обойтись и DDR3-1333 (не говоря о DDR3-1600), к А8 уже крайне желательна DDR3-1866, а для А10 она просто необходима. Да и более быстрая память при наличии возможности старшим APU не повредит. Но, кстати (и это — в-третьих), переоценивать роль ПСП не стоит: как видите, даже при использовании DDR3-1333 более старшее семейство обгоняет предыдущее «в максимальной конфигурации». То есть если на чем и экономить — то на памяти, а вовсе не на «классе» APU: А10 — это всегда А10, а А8 также всегда быстрее А6. Разумеется, за исключением одноканальных конфигураций — они вне конкурса. И подобную картину (пусть и с вариациями) мы увидим еще не раз.

Снижение качества картинки уменьшает требования к вычислительной производительности GPU, что приводит к повышению важности прочих блоков — в т. ч. текстурирования и т. п. Поэтому здесь уже А10 с медленной памятью не может обогнать не только А8, но и А6 с быстрой. Впрочем, происходит это при таком количестве кадров в секунду, что данным эффектом можно и пренебречь.

Batman: Arkham Asylum GOTY Edition

Движок легче, чем в предыдущем случае, так что зависимость от производительности системы памяти проявляется и в «качественном» режиме. Однозначным аутсайдером является одноканальный режим, который плох уже даже для А4. А вот DDR3-1333 или DDR3-1600 — это для таких APU по-прежнему без особой разницы. Да и А6 могут обойтись дешевой памятью, хотя дорогая позволяет им улучшить результаты на 15%. Вот для А8/А10 имеем уже +20%, т. е. тот случай, когда экономить не стоит.

«Запредельные» значения FPS даже с одноканальной памятью — тут лимитирующим фактором уже начинает становиться процессор (как видите, двух потоков вычисления явно мало), а не видео. Аналогичной картина будет и в других «легких» приложениях, т. е. в старых играх при настройках качества, далеких от максимальных. Что, безусловно, радует. Однако и при таком раскладе производительностью системы памяти пренебрегать не стоит.

Crysis: Warhead x64

Возвращаемся почти к первому случаю, но с нюансами: тут для А10, очевидно, DDR3-1333 уже не хватает совсем — его отличия в такой конфигурации от А8 минимальны. Вот с более быстрой памятью дела обстоят лучше.

В низкокачественном режиме тоже все привычно: высокие значения FPS получаются при любом сочетании параметров. Разница между А6 и А4 всегда невелика, между А8 и А10 — еще меньше, а между собой эти две группы почти не пересекаются. За исключением, в очередной раз, случая одноканальной памяти — для старших семейств это форменное безобразие, а не рабочая конфигурация.

F1 2010

Провал и здесь — один канал памяти не позволяет никакому интегрированному видеоядру «выбраться» за способности искусственного интеллекта движка игры. Впрочем, А4 «взлететь» не способен в любом случае, да и А6 не слишком от него отличается — игра крайне требовательна к числу потоков вычисления, так что тут и процессорная часть в любом режиме важна. А вот выше — все гораздо интереснее и показательнее. В частности, то, что А10 с медленной памятью все же быстрее, чем А8 с быстрой. Однако не менее очевидно и то, что в системе все должно быть прекрасно…

…В том числе и в режиме низкого качества, где даже двухканальная DDR3-1333 заметно сдерживает потенциал А10, не говоря уже об одноканальной конфигурации. Впрочем, процессорное быстродействие здесь еще более важно, так что для таких игр выбор очевиден: нужен как минимум А8, хотя в старых линейках, по понятным причинам, хватало и А6.

Far Cry 2

Ничего принципиально нового: чем мощнее графика в APU, тем выше ее требования к пропускной способности памяти. Вплоть до того, что формально менее мощное решение с быстрой памятью может обойти более мощное с медленной. Пусть и не намного обойти, но все же.

А в легком режиме большой разницы нет, причины чего проще всего понять, глядя на две четкие группы ;) Зависимость от графической системы здесь минимальна вообще, так что на первое место выходит процессорная составляющая. Хотя, впрочем, владельцу А10 даже при таком раскладе скоростью памяти пренебрегать не следует.

Metro 2033

А когда на первом месте графика, ПСП по значимости мгновенно способна обойти даже мощность собственно шейдерных блоков: A6-5400K с DDR3-1866 быстрее, чем А10-5800К с DDR3-1333.

Снижаем качество — и в очередной раз видим, что двухпоточного процессора практически с любой графической системой этой игре уже недостаточно. Это основной фактор, а все остальные на его фоне являются лишь сопутствующими и малозначимыми.

Сводные результаты

Общая картина весьма показательна: как видите, одноканальная конфигурация памяти является узким местом даже для А4. В то же время, APU этой линейки в высокой частоте ОЗУ не нуждаются: двухканальной DDR3-1333 или даже DDR3-1066 им будет вполне достаточно. Вот для А6 уже есть смысл «раскошелиться» на DDR3-1866, а А8 и А10 эксплуатировать со старыми модулями вообще не стоит. Впрочем, даже в таком варианте они быстрее, чем А6 с быстрой памятью, так что если уж стоит вопрос, на чем именно сэкономить (особенно на первое время), то ответ на него очевиден. Даже в А10 встроен не настолько мощный GPU, чтобы еще больше себя ограничивать. Да и процессорная часть старших APU чуть мощнее, что тоже скажется, но уже во всех без исключения приложениях.

И особенно сильно это проявляется в режимах со сниженным качеством, для интегрированной графики более близким к реальности (поскольку абсолютные значения FPS при «тяжелых» настройках говорят сами за себя). Особенно заметна польза от поддержки четырех потоков вычисления: А8/А10 даже с одним модулем памяти практически не уступают А6 с двумя высокоскоростными модулями. Но, естественно, такая конфигурация допустима лишь в качестве временного решения — двухканалка способна повысить производительность в полтора раза.

И еще один интересный с практической точки зрения результат: если ориентироваться на низкоскоростные модули (например, оставшиеся от старого компьютера), то можно не гоняться за А10 — эти APU быстрее, но не настолько, как в «каноническом виде». Впрочем, разница в цене между семействами А8/А10 невелика, а при увеличении нагрузки на GPU разрыв в производительности из номинального превращается во вполне весомый, так что тут уже возможны варианты.

Проигрывание видео высокой чёткости

Мы, по очевидным причинам, решили ограничиться относительными результатами в баллах — достаточно просто взглянуть на них, чтобы убедиться в слабом влиянии системы памяти на производительность при нагрузках такого рода :)

Итого

Как и следовало ожидать, производительность интегрированной графики от ПСП зависит очень сильно, но для разных семейств APU по-разному. Вот что оказалось неожиданным — так это то, что для Trinity эта зависимость выражена не сильнее, чем для Llano. Вспомним результаты A8-3850: 189/130 баллов в качественном и 153/108 баллов в легком режимах при использовании DDR3-1866/DDR3-1066 соответственно. Сравним это с A8-5600K: 207/176 и 164/147 баллов. Правда, в его случае меньшее значение достигнуто с DDR3-1333, а не с DDR3-1066, однако соотношения все равно чуть лучше. Для A8-3850 ускорение памяти в 1,75 раза давало приросты в 1,45 и 1,42 раза при высоком/низком качестве графики в играх. Для A8-5600К получился прирост в 1,4 раза по памяти и 1,18/1,12 в FPS, т. е. то же самое, если пересчитать все соотношения. Можно даже сказать, что требования к системе памяти несколько снизились благодаря увеличению производительности GPU — теперь старший А8 с DDR3-1333 по абсолютным результатам практически не отстает от своего предка с DDR3-1866. А если еще учесть, что за прошедшие полтора года доступность высокоскоростной памяти значительно увеличилась (в 2011 году все-таки DDR3-1866 в прайс-листах региональных магазинов проходила в основном как экзотика, да и DDR3-1600 в них присутствовала в меньшем ассортименте, нежели DDR3-1333, а сейчас — зачастую наоборот), то покупателям жить стало лучше, жить стало веселей :)

Звание же «самых жадных» до памяти APU, как и следовало ожидать, перешло к семейству А10. Вот здесь уже «просто» двухканальной памяти не будет хватать, да и официально поддерживаемый максимум в виде DDR3-1866 несколько сдерживает потенциал видеоядра. Впрочем, сама по себе такая память, как уже было сказано выше, на данный момент заметно подешевела, так что ее покупка в пару к А10 особых проблем не вызовет. Но вот использовать совместно с APU этого семейства «наследие прошлого» при апгрейде не стоит — разумнее в этом случае либо остановиться на А8, либо все же сменить модули. Стоит ли гоняться за «оверклокерской» памятью? Можно попробовать, благо большинство материнских плат (как минимум, на А85Х) позволяют для памяти выбирать разогнанные режимы DDR3-2133 или даже DDR3-2600, однако насколько стабильно это будет работать — гарантий никто, естественно, дать не может. Вполне вероятно, что проще (и дешевле) будет попробовать разогнать что-нибудь недорогое до тех же частот. Пусть даже с ухудшением таймингов — для GPU важнее пропускная способность. В любом случае, выбор будет определяться ценой.

Что касается А4 и А6, то с ними все гораздо проще. Впрочем, и сфера применения этих APU куда более ограничена — мало того, что графическая часть имеет меньшую мощность, так еще и на слабость процессорной риск «нарваться» выше, чем на ограничения от памяти. Хотя и в их случае двухканальный режим работы предпочтителен всегда, когда планируется хоть какое-то игровое применение, но гоняться даже за официальным максимумом частоты не стоит. Если же речь идет о чистом мультимедиа-центре (для чего А4 подходит как нельзя лучше), то и одним модулем памяти тоже вполне можно обойтись. Или любыми двумя, что лучше и универсальнее.

На этом изучение интегрированной графики новых APU самих по себе мы заканчиваем. Следующая статья цикла, впрочем, тоже будет посвящена этой платформе, однако в ней мы займемся другими вопросами, а именно перекидыванием мостиков между интегрированной графикой и младшими дискретными решениями.

Благодарим компании Corsair, Palit, «Ф-Центр» и «Юлмарт»
за помощь в комплектации тестовых стендов