Видеоускоритель AMD Radeon R9 Fury X

Часть 2: особенности карты


Содержание

Данная часть знакомит читателей с особенностями видеокарты, а также с результатами синтетических тестов.

Устройство(а)


Asus Radeon R9 Fury Strix 4096 МБ 4096-битной HBM PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPURadeon R9 Fury (Fiji)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц10001050
Частота работы памяти (физическая (эффективная)), МГц500 (1000)500 (1000)
Ширина шины обмена с памятью, бит4096
Число вычислительных блоков в GPU56
Число операций (ALU) в блоке64
Суммарное количество блоков ALU3584
Число блоков текстурирования (BLF/TLF/ANIS)224
Число блоков растеризации (ROP)64
Размеры, мм305×140×39190×100×35
Количество слотов в системном блоке, занимаемые видеокартой32
Цвет текстолитачерныйчерный
ЭнергопотреблениеПиковое в 3D, Вт272272
В режиме 2D, Вт8585
В режиме «сна», Вт33
Уровень шумаВ режиме 2D, дБА20,520
В режиме 2D (просмотр видео), дБА20,520
В режиме максимального 3D, дБА3536
Выходные гнезда1×DVI (Dual-Link/HDMI), 1×HDMI 1.4a, 3×DisplayPort 1.21×HDMI 1.4a, 3×DisplayPort 1.2
Поддержка многопроцессорной работыCrossFire
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов22
Дополнительное питание: количество 6-контактных разъемовНетНет
Максимальное разрешение 2DDisplay Port4096×2160
HDMI4096×2160
Dual-Link DVI2560×1600
Максимальное разрешение 3DDisplay Port4096×2160
HDMI4096×2160
Dual-Link DVI2560×1600

Комплектация локальной памятью
Картa имеeт 4096 МБ памяти HBM DRAM, размещенной в 4 микросхемах по 8 Гбит в единой упаковке с GPU.

Микросхемы памяти SK Hynix. Микросхемы рассчитаны на максимальную частоту работы в 500 (1000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Asus Radeon R9 Fury Strix 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 Fury X
Вид сзади
Asus Radeon R9 Fury Strix 4096 МБ 4096-битной HBM PCI-E Reference card AMD Radeon R9 Fury X

В материале по AMD Radeon R9 Fury X мы писали, что новая архитектура Fiji с интегрированной в одну упаковку с GPU памятью HBM привела к сильному изменению привычного для нас дизайна PCB и позволила резко сократить размеры печатной платы, поскольку на ней, по сути, остались только блок питания и видеовыходы. Однако инженеры Asus рассудили иначе: если уж выпускать продукт серии Strix — то снабжать его фирменной системой охлаждения, которая имеет немалые размеры. Поэтому незачем делать PCB малого размера — все равно же к ней надо крепить кулер. Плюс улучшенный блок питания. Все это стало причиной того, что у нового ускорителя Asus осталась печатная плата привычных размеров.

Схема питания здесь — серии Super Alloy Power II, она предоставляет 10 фаз на ядро и 2 на память, использует современные твердотельные конденсаторы, управляется цифровым контроллером Digi+ VRM ASP1300 производства компании International Rectifier.

Система охлаждения
Перед нами модифицированная система охлаждения серии Strix, которая имеет в своей основе массивный радиатор из медного сплава со множеством никелированных пластин. Пять тепловых трубок, впаянных в основание, помогают равномерно распределить тепло от GPU по пластинам радиатора.

Учитывая, что микросхемы памяти расположены в одной упаковке с ядром, они охлаждаются этим же радиатором. У радиатора имеется дополнительная пластина-подошва, которая охлаждает силовые транзисторы системы питания.

Кулер серии Strix имеет свойство останавливать вентиляторы при температуре ядра ниже заданной.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 62 градусов, что является великолепным результатом для такого рода ускорителей.
Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

  • Помещение шумоизолировано и заглушено, снижены реверберации.
  • Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
  • Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
  • Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
  • Режимы измерения:
    1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
    2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
    3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентиляторы не работали, при этом температура графического ядра не поднималась выше 35 градусов, а шум был равен фоновому.

При просмотре фильма с аппаратным декодированием температура графического ядра медленно вырастала до 46 градусов, обороты вентиляторов поднимались до уровня 730 оборотов в минуту, шум оставался близким к фоновому.

В режиме максимальной нагрузки в 3D температура достигала уровня 62 °C, частота вращения вентиляторов составляла 1520 оборотов в минуту, шум вырастал до 35 дБА. В целом СО безусловно относится к категории тихих.

Термоснимок



Хорошо видно, что наиболее нагретая область — в районе GPU, в задней пластине в этом месте есть вырез. Размытость снимка объясняется тем, что невозможно было нормально сфокусироваться на задней поверхности карты.


Комплектация
Базовый комплект поставки должен включать в себя руководство пользователя, диск с драйверами и утилитами. Мы видим базовый комплект плюс разветвители питания и фирменная наклейка.

Упаковка

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon R9 Fury со стандартными параметрами (сокращенно R9 Fury)
  • Radeon R9 Fury X со стандартными параметрами (сокращенно R9 Fury X)
  • Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)
  • Geforce GTX 980 Ti со стандартными параметрами (сокращенно GTX 980 Ti)
  • Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)

Для анализа производительности новой видеокарты AMD Radeon R9 Fury нами были выбраны именно эти решения по следующим причинам. Видеокарта модели Radeon R9 Fury X взята в сравнение для ориентира — интересно, насколько сильно «воздушная» новинка отстанет от точно такого же GPU в полноценной конфигурации в составе топовой модели с водяным охлаждением. А Radeon R9 290X является близким по позиционированию одночиповым решением компании из верхнего ценового диапазона, но из предыдущей линейки.

От конкурирующей компании Nvidia для нашего сравнения мы взяли пару видеокарт Geforce, выпущенных в разное время и основанных на двух графических процессорах архитектуры Maxwell разной сложности и мощности: GM204 и GM200. Более слабая Geforce GTX 980 является ближайшим конкурентом по цене для AMD Radeon R9 Fury, хотя и стоит несколько дешевле рассматриваемой новинки. Ну а Geforce GTX 980 Ti интересна потому, что эта более мощная видеокарта стоит на ступень выше по цене, и в некоторых из тестов Radeon R9 Fury вполне может быть близка к ней по производительности.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Какое-то время назад мы отказались от устаревших DirectX 9 тестов, так как мощнейшие решения вроде AMD Radeon R9 Fury показывают в них не слишком показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Кроме того, под такие задачи давно не оптимизируют видеодрайверы. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность видеокарт в этом тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low», в зависимости от модели видеокарты.

В задачах процедурной визуализации меха с большим количеством текстурных выборок, компания AMD перехватила лидерство еще с выпуском первых видеочипов на базе архитектуры GCN. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ.

Интересно, что в первом Direct3D 10 тесте новая видеоплата оказалась примерно на четверть медленнее старшей модели Fury X, что не объяснить теоретическими показателями, которые снизились максимум на 17%. Необъяснимое большое снижение скорости привело к тому, что Fury в этом тесте выступила на уровне Geforce GTX 980 Ti, и лишь чуть лучше GTX 980. Да и от Radeon R9 290X она заметно отстала. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то может измениться:

В усложненных условиях новая видеокарта рассматриваемой модели Radeon R9 Fury отстает от R9 Fury X на все те же 24%, что также больше теоретической разнице по математической и текстурной мощности. Рассматриваемая нами сегодня модель в этот раз опережает обоих конкурентов в виде Geforce GTX 980 и GTX 980 Ti, и даже мощнейший чип GM200 не позволяет топовому решению Nvidia в сложных условиях приблизиться к новой одночиповой плате Radeon — графические процессоры компании AMD в подобных вычислениях весьма сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, но в этот раз новая Radeon R9 Fury оказалась медленнее R9 Fury X аж на 27%, то есть, отстала от старшей модели еще заметнее, чего быть не должно, исходя из теории. Похоже на недостаточную оптимизацию видеодрайвера, потому что новинка снова уступила еще и плате на чипе Hawaii. Если рассматривать сравнение Radeon R9 Fury с видеокартами Geforce, то новинка в этом тесте выступает лишь на уровне младшей одночиповой модели текущего поколения компании Nvidia, которая и является ее прямым конкурентом. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности — особенно на видеокартах Nvidia Geforce. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают эффективнее конкурирующих плат Geforce. Новая модель Radeon R9 Fury примерно на 20% медленнее топовой видеокарты на основе чипа Fiji, что уже ближе к теоретической разнице между ними. Да и Radeon R9 290X в таких условиях остался позади. В этот раз младшая плата на Fiji заметно опережает младшую Geforce GTX 980 в обоих режимах, а разница между Radeon R9 Fury и самым мощным решением Nvidia, основанном на старшей модели GPU, совсем невелика.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае теста Mineral, новая модель видеокарты Radeon R9 Fury снова отстала от старшей модели больше, чем должно быть по теории — на 24%, а это явно не соответствует разнице в пиковых показателях.

Сравнение Radeon R9 Fury с платами Geforce интересно тем, что оба GPU производства компании Nvidia показали большую скорость, и GTX 980 не просто не уступил новинке AMD, а опередил ее. Обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы компании в таких тестах приблизились к конкурирующим решениям AMD, а то и обогнали их. Похоже, что мощнейшая видеокарта компании AMD, основанная на чипе Fiji уперлась во что-то, что не дает возможности показать ей более высокий результат. Наверное, тест слишком прост в точки зрения математических вычислений, так как даже Radeon R9 290X оказалась заметно сильнее новинки.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из нашего RigthMark мы видим несколько иные результаты видеокарт относительно друг друга. Новая модель Radeon R9 Fury в этот раз уже на 28% медленнее Radeon R9 Fury X, основанной на точно таком же графическом чипе Fiji — и все так же непонятно, что мешает новинке раскрыть свои возможности даже на фоне аналогичного решения и видеокарты из прошлого поколения на чипе Hawaii.

В этот раз видеоплата Radeon R9 Fury снова оказалась медленнее даже конкурирующей видеокарты Geforce GTX 980 с меньшей рекомендованной ценой, не говоря уже про более мощную GTX 980 Ti. Вероятно, дело в менее эффективном исполнении этой конкретной задачи и в недостаточной оптимизации в конкретной версии драйвера компании AMD. В любом случае, можно лишь повторить, что с выпуском графических процессоров GM204 и GM200 компания Nvidia сделала довольно большой скачок по математической производительности, как минимум, отыграв отставание от конкурента.

Direct3D 10: тесты геометрических шейдеров

В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах AMD и Nvidia явно в пользу решений калифорнийской компании, и, скорее всего, она обусловлена отличиями в геометрических конвейерах чипов этих компаний. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon, и в данном случае хорошо заметно, что топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрывают с заметным преимуществом.

Надо отметить, что новая модель Radeon R9 Fury, основанная на графическом процессоре Fiji, в первом геометрическом тесте показала себя неплохо, оказавшись чуть медленнее Radeon R9 Fury X, основанной на том же чипе. Зато Radeon R9 290X остался позади. Правда, сравнение с конкурентом не очень радостное — новинка сильно отстает и от Geforce GTX 980 Ti и от GTX 980. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно и для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются неизменными.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что видно по результатам плат Nvidia в простых режимах — они показывают скорость явно ниже, чем должны бы — обе платы Geforce оказываются примерно на одном уровне, что явно не соответствует теории. Похоже, что все они во всех режимах упираются во что-то — возможно, нагрузка на GPU в этом тесте слишком слаба.

Новая одночиповая плата компании AMD в этот раз оказалась медленнее своей одночиповой предшественницы в виде Radeon R9 290X и аналогичной платы на базе чипа Fiji (на четверть). Все это явно нельзя объяснить какими-то теоретическими показателями, потому что новинка по всем параметрам сильнее предшествующей модели на Hawaii, да и от Fury X отстает не на 25%. Мы можем пенять разве что на недостаток оптимизации в драйверах, который не позволяет новинке показать свои возможности.

Немудрено, что Radeon R9 Fury отстала и от обеих видеокарт Nvidia во всех режимах: Geforce GTX 980 Ti и GTX 980 заметно быстрее новинки в этом конкретном тесте. Посмотрим на производительность представленных в сравнении видеокарт в этом же тесте, но с увеличенным количеством текстурных выборок:

Ситуация на диаграмме изрядно изменилась, устаревшее одночиповое решение компании AMD предыдущего поколения потеряло значительно больше всех остальных, но это не позволило новой модели Radeon R9 Fury даже нагнать ее — снова мы наблюдаем все тот же упор во что-то непонятное. Fury показала скорость на 20-28% медленнее, чем Radeon R9 Fury X, чего также не должно быть, исходя из теории. Ну а Geforce GTX 980 и GTX 980 Ti в этот раз впереди новой Fury во всех режимах, даже в легком, где они явно не раскрываются полностью.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели пары Geforce в этом тесте довольно слабы, и новая модель AMD Radeon R9 Fury оказывается на одном уровне с Geforce GTX 980 даже несмотря на странно большое отставание Radeon R9 Fury от Fury X. Даже если сравнивать новинку с предшественницей на чипе Hawaii, то видно, что новая плата Radeon R9 Fury в этот раз снова серьезно уступила Radeon R9 290X во всех режимах. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали заметно сильнее. Правда, в выводах мало что меняется, хотя новая плата Radeon R9 Fury в этот раз впереди прямого конкурента Geforce GTX 980.

Новая модель Radeon оказалась медленнее предшественницы на основе одного чипа Hawaii и на четверть уступила старшей плате Radeon R9 Fury X, что далеко от теоретической разницы между этими решениями по всем показателям. То есть, с точки зрения теории ситуацию нельзя объяснить чем-то другим, кроме недостаточной программной оптимизации.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Radeon R9 Fury в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Разница в скорости между Radeon R9 Fury и R9 Fury X получилась равной 29% в пользу старшего решения на базе чипа Fiji, что близко к теории. В целом, новинка оказалась примерно посередине между Radeon R9 290X из прошлого поколения и топовой R9 Fury X.

Что касается сравнения скорости текстурирования новой видеоплаты компании AMD с имеющимися решениями конкурента, то новинка по понятным причинам остается заметно быстрее всех Geforce, несмотря на сниженную относительно Fury X производительность. Даже Geforce GTX 980 Ti по скорости текстурирования всего лишь чуть-чуть быстрее Radeon R9 290X, а близкий конкурент GTX 980 и вовсе сильно отстает — с текстурированием видеокарты компании AMD справляются лучше плат Nvidia.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Значения производительности во втором подтесте 3DMark Vantage показывают скорость блоков ROP без учета величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность этой подсистемы. Рассматриваемая нами сегодня плата Radeon R9 Fury на новом чипе Fiji более чем вдвое быстрее предшественницы Radeon R9 290X, основанной на Hawaii, так как тест измеряет не только количество блоков ROP, но и эффективность их работы. Ну а топовая Fury X быстрее обычной Fury лишь на 8%, что близко к теории.

Если сравнивать скорость заполнения сцены новой видеокартой Radeon R9 Fury с показателями видеокарт компании Nvidia, то можно отметить, что рассматриваемая сегодня плата в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей платой Geforce GTX 980 Ti, не говоря уже о более слабой модели GTX 980, являющейся ближайшим ценовым конкурентом для нее — очень хороший результат!

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Radeon R9 Fury оказалась по скорости ровно между моделями R9 290X и R9 Fury X, основанными на базе полноценных графических процессоров Hawaii и Fiji, соответственно. Проигрыш перед Fury X составил 18%, что также очень близко к теоретической разнице в скорости TMU и ALU. Новая одночиповая плата AMD из элитной серии Fury в этом тесте снова показала результат заметно лучше обеих конкурирующих плат Nvidia, которые заметно отстали от Radeon R9 Fury и в этот раз — даже более дорогая Geforce GTX 980 Ti.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, но основными факторами влияния в этот раз должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны были проявиться, но мы традиционно отмечаем странный результат, когда более мощная видеокарта Nvidia уступает в этом подтесте всем решениям, даже младшей Geforce GTX 980. Разница между Radeon R9 Fury и Fury X равна 5%, что соответствует теории. Однако, Radeon R9 290X даже быстрее новинки — оптимизации и увеличение количества исполнительных блоков в этом тесте пользы не принесли.

А вот сравнение с платами Geforce в этом тесте для новинки приятное — несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности чипов AMD, по сравнению с конкурирующими решениями, платы Radeon в этом тесте работают эффективнее и обгоняют все видеокарты Geforce, представленные в сравнении. Очень похоже на недостаточно эффективное выполнение кода и отсутствие оптимизации в драйверах Nvidia под эту конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация иная, хотя она все равно довольно далека от того, что должно быть по теории. В этот раз представленная недавно одночиповая плата Radeon R9 Fury оказалась заметно быстрее Radeon R9 290X, и уступила Fury X около 4%, что очень близко к разнице в теоретических показателях.

Сравнение новинки AMD с конкурирующими видеокартами компании Nvidia и в этот раз положительное — Fury показала результат заметно быстрее прямого конкурента в виде Geforce GTX 980, лишь немного отстала от самой мощной одночиповой видеокарты компании-соперника из игровой серии.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не совсем соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим распределение результатов, резко отличающееся по сравнению со схожими тестами из нашего тестового пакета.

Мы знаем, что видеочипы компании AMD с архитектурой GCN справляются с подобными задачами лучше решений конкурента в случаях, когда выполняется интенсивная «математика», касается это и данного подтеста. Но топовая модель компании Nvidia, основанная на большом и сложном графическом процессоре GM200, в свое время серьезно подтянулась к решениям предыдущего поколения компании AMD, показав результат заметно выше, чем у Radeon R9 290X. Но новинка показала скорость быстрее и GTX 980 и GTX 980 Ti.

Рассматриваемая сегодня Radeon R9 Fury оказалась на 19% медленнее топовой R9 Fury X, что более-менее объяснимо с теоретической точки зрения. По сравнению с Radeon R9 290X можно сказать, что она ровно посередине между платами на основе полноценных чипов Fiji и Hawaii.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать свежевышедшее решение компании AMD в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, хотя у видеокарт на основе GPU предыдущих архитектур наблюдались некоторые отличия. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти и эффективности блоков ROP.

В данном случае, новая видеокарта AMD показывает скорость примерно на уровне Geforce GTX 980 Ti, опережая GTX 980 и Radeon R9 290X. Разница между Radeon R9 Fury и R9 Fury X оказалась равна 20%, что близко к теории. Переходим ко второму тесту вычислительных шейдеров, который также взят из Microsoft DirectX SDK. В нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация.

В данном тесте чаще всего отмечается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний всегда получается совершенно иным, по сравнению с любым другим тестом из предыдущих.

Нагрузка в тесте явно в пользу видеоплат Geforce, которые далеко впереди, более чем вдвое быстрее решений компании AMD. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах архитектуры Maxwell. Новинка, основанная на урезанном графическом процессоре Fiji, показала себя ожидаемо, опередив Radeon R9 290X из предыдущего поколения, и отстав на 11% от старшей модели Radeon R9 Fury X.

Direct3D 11: Производительность тесселяции

Еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и более новых. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость видеокарт не так уж важна, так как эта задача является слишком легкой для топовых GPU, а производительность в ней часто упирается в филлрейт. Обычно, все видеокарты Radeon показывают близкие результаты, но производительность сегодняшнего героя обзора узнать не удалось, так как по какой-то странной причине, Radeon R9 Fury показал очень низкие результаты — равные во всех трех режимах. Так что выводов по «воздушному» Fury в этом тесте не будет, потому что скорость его явно ограничена какими-то недоработками в последней версии драйверов AMD (Fury X тестировался на другой версии).

Вторым тестом производительности тесселяции является еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется в том числе и более сложная геометрия, поэтому сравнение геометрической мощи различных решений вполне актуально. Все представленные в материале решения достаточно хорошо справляются с легкой геометрической нагрузкой, показывая достаточно высокую скорость. Хотя в легких условиях графические процессоры Hawaii и Fiji в составе Radeon работают отлично, в двух тяжелых режимах платы Nvidia уже выходят вперед. И в двух сложных режимах новая плата модели Radeon R9 Fury оказалась заметно хуже конкурирующих Geforce, что не стало новостью.

Что касается сравнения плат AMD, то рассматриваемая сегодня модель Radeon R9 Fury оказалась немного медленнее одночипового аналога из предыдущего поколения в виде R9 290X — оптимизации геометрического конвейера в этом конкретном тесте также не сработали. Новинка компании во всех режимах уступает одночиповой плате на основе Hawaii. А от старшей модели Fury X отставание составило около 20%, что больше теоретической разницы в тактовых частотах.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island является одним из самых интересных, он не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но на результат может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокие результаты, близкие к показателям Geforce или превышающие их. Но уже на следующих ступенях геометрической нагрузки производительность платы Radeon серьезно снижается, и решения Nvidia выходят вперед.

Отставание новой платы компании AMD на видеочипе Fiji от соперников в виде плат Geforce в таких тестах никуда не делось. Хотя графический процессор Fiji заметно эффективнее работает в режиме смешанной нагрузки, и Radeon R9 Fury выигрывает у R9 290X в этом тесте почти до двух раз, это не помогает ей догнать Geforce GTX 980 Ti и GTX 980, что вполне объяснимо в том числе и по теории. Сравнение R9 Fury с R9 Fury X показывает разницу 8-12%, что близко к тем цифрам, которые мы предсказывали в первой части материала.

***

Исходя из результатов синтетических тестов новой видеокарты верхнего ценового диапазона модели AMD Radeon R9 Fury, основанной на урезанном по скорости графическом процессоре Fiji, а также результатам других моделей видеокарт обоих производителей дискретных видеочипов, можно сделать вывод, что рассматриваемая видеокарта может быть вполне успешной на рынке и должна стать отличным конкурентом для Nvidia Geforce GTX 980.

Новая видеокарта компании AMD показывает хорошие результаты почти во всех синтетических тестах по сравнению с платами Radeon предыдущих поколений и с лучшими из видеокарт Geforce. В очередной раз отметим, что у видеоплат Radeon и Geforce традиционно разные сильные стороны: GPU компании AMD отличаются очень эффективным исполнением вычислительных задач, а графические процессоры архитектуры Nvidia Maxwell побеждают в геометрических тестах с применением тесселяции.

В реальных игровых приложениях нагрузка на исполнительные блоки отличается от «синтетической», и Radeon R9 Fury должен показать в играх скорость заметно выше, чем у предшествующей видеокарты модели Radeon R9 290X, и примерно на десяток процентов хуже топовой Radeon R9 Fury X. Что ставит новую модель на уровень между одночиповыми решениями конкурента в виде Geforce GTX 980 Ti и GTX 980 — и, скорее всего, ближе к младшей.

Чтобы определить скорость новинки в игровых приложениях по сравнению с конкурентами, в следующей части нашего материала мы протестируем Radeon R9 Fury в нашем наборе игровых тестов и сравним скоростные показатели этой модели с конкурирующими. Предполагаем, что по игровой 3D-производительности новинка должна стать одной из лучших видеоплат из топового сегмента, а по соотношению цены и скорости рендеринга будет одной из лучших в своем классе.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
R9 Fury — $423 (на 05.09.16) R9 Fury X — $616 (на 05.09.16)
R9 Fury — $423 (на 05.09.16) GTX 980 Ti — $569 (на 05.09.16)
R9 Fury — $423 (на 05.09.16) GTX 980 — $446 (на 05.09.16)
Asus R9 Fury Strix — Н/Д(0) R9 Fury — $423 (на 05.09.16)


Благодарим компанию AMD Russia
и лично Кирилла Погорелова
за предоставленную на тестирование видеокарту

Блок питания Thermaltake DPS G 1050W для тестового стенда предоставлены компанией Thermaltake

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.