AMD Radeon R9 295 X2:

описание видеокарты и результаты синтетических тестов


Содержание

В этой части мы изучим видеокарту, а также познакомимся с результатами синтетических тестов. В нашей лаборатории побывала референс-карта.

Платa

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
  • GPU: 2 x Radeon R9 290X (Hawaii)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 1018 МГц (номинал — 1018 МГц)
  • Частота работы памяти (физическая (эффективная)): 1250 (5000) МГц (номинал — 1250 (5000) МГц)
  • Ширина шины обмена с памятью: 2×512 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 2×44/1000 МГц (номинал — 2×44/1000 МГц)
  • Число операций (ALU) в блоке: 64
  • Суммарное число операций (ALU): 2×2816
  • Число блоков текстурирования: 2×176 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 2×64
  • Размеры: 307×110×40 мм (видеокарта занимает 2 слота в системном блоке, плюс радиатор охлаждения водяной системы, длина шлангов 380 мм)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 504/86/5 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 4×mini-Display Port 1.2
  • Поддержка многопроцессорной работы: CrossFire X

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
Карта имеет 8192 МБ памяти GDDR5 SDRAM, размещенной в 32 2-гигабитных микросхемах (по 16 на каждой стороне PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1250 (5000) МГц.

Сравнение с эталонным дизайном, вид спереди
AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E Reference card AMD Radeon R9 290X

Сравнение с эталонным дизайном, вид сзади
AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E Reference card AMD Radeon R9 290X

Понятно, что данный ускоритель тяжело сравнивать с однопроцессорным аналогом, а двухпроцессорный HD 7990 предыдущего поколения имел PCB с разведенной шиной обмена с памятью 2×384 бит. В данном же случае ширина шины — аж 2×512 бит! Поэтому PCB получилась очень сложной и дорогой. Присутствует многофазная система питания, управляемая традиционно цифровым контроллером. На одной плате два GPU, каждый из которых расчитан на интерфейс PCI-E, поэтому требуется коммутатор для эмуляции моста PCI-E вне системной шины (он всегда требуется для двухпроцессорных ускорителей). В нашем случае в качестве коммутатора используется пятипортовый PEX8747 компании PLX Technology.

Поскольку ускоритель потребляет 500 Вт и более, предусмотрено два 8-контактных гнезда для дополнительного питания. Подчеркну, что в системных платах, имеющих PCI-E версии ниже 2.0, эта видеокарта может не заработать, так как ее будет ограничивать недостаток питания через слот PCI-E (более 75 Вт).

Ускоритель имеет следующий набор гнезд вывода: 1 DVI (Dual-Link и совместим с выводом на HDMI) и 4 порта DP в мини-формате. Таким образом, суммарно можно подключать 4 монитора с DP либо комбинированную схему DVI+DP. Особо стоить отметить, что при наличии потрясающей суммарной производительности становится очень актуальным работа AMD Eyefinity с возможностью вывода игровой картинки одновременно на несколько (до четырех) приемников.

Максимальные разрешения и частоты в 3D: 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI). Заявлена поддержка разрешения 4K, что является одним из выделяемых достоинств данного продукта, однако по причине отсутствия соответствующего монитора в тестлабе, работоспособность в 4К не проверялась.

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Напомню, что карта требует дополнительного питания через два 8-контактных разъема.

О системе охлаждения.

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
Вот здесь основная «изюминка» ускорителя. Впервые мы видим, что не партнеры AMD/Nvidia, а сам производитель GPU в качестве референс-кулера предложил воздушно-водяную СО. То есть положено начало применению СО такого типа не в качестве чрезвычайной экзотики, а как равноправного варианта. Работа данной СО настроена так, чтобы нагрев ядер не превышал 70 градусов, обеспечивая долговечную и стабильную работу ускорителя. Забегая вперед, скажу, что это получилось. И получилось удачно. Нагрев действительно не превышал 70 градусов, и при этом кулер не был шумным.

Данная СО произведена компанией Asetek, известной подобными решениями (часто — в качестве OEM-производителя), так что неудивительно, что AMD выбрала именно этого партнера. На каждом ядре установлена по одной помпе, имеющей медные основание и радиатор. Обе помпы объединены системой шлангов в единый контур, составной частью которого является внешний радиатор охлаждения воды, имеющий свой вентилятор. К сожалению, мониторинг утилит EVGA/MSI не позволяет установить частоты работы данного вентилятора (хотя, судя по проводной схеме, передача данных от тахометра к видеокарте идет). Мониторинг ССС показал, что предельная частота вращения — 900 оборотов в минуту, что делает внешний блок охлаждения практически бесшумным. Центральный вентилятор на самой карте также вращается очень медленно и бесшумен. Самой шумной частью СО являются помпы, качающие жидкость по шлангам.

Микросхемы памяти на лицевой стороне и силовые транзисторы охлаждаются массивной пластиной в основании кулера. Для микросхем памяти на оборотной стороне есть своя отдельная пластина-радиатор.

Особо следует отметить, что любители моддинга и красоты в системных блоках не забыты. Ускоритель имеет красную подсветку как на центральном вентиляторе, так и на логотипе «Radeon» на торце.

Мы провели исследование температурного режима с помощью версии 4.2.1 утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты.

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E

После 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 68 градусов (то есть заданный алгоритм работы СО выдерживается), что для такого рода ускорителей великолепный результат. Однако СО все-таки не бесшумная, так как жидкостные СО бесшумными не могут быть по определению (у них всегда работает помпа для прокачки жидкости).

Комплектация. Kарта прибыла к нам в ОЕМ-упаковке, поэтому комплекта нет.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • монитор Asus ProArt PA249Q (24″);
  • драйверы AMD версии Catalyst 14.3 (14.4 для R9 295 X2); Nvidia версии 335.23

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon R9 295X2 со стандартными параметрами (далее R9 295X2)
  • Radeon R9 290X со стандартными параметрами (далее R9 290X)
  • Radeon HD 7990 со стандартными параметрами (далее HD 7990)
  • Geforce GTX 780 Ti со стандартными параметрами (далее GTX 780 Ti)
  • Geforce GTX 690 со стандартными параметрами (далее GTX 690)

Для анализа результатов новой видеокарты Radeon R9 295X2 были выбраны именно эти решения по следующим причинам. Radeon R9 290X является одночиповой моделью компании новой линейки, основанной на том же графическом процессоре, которая полностью соответствует новинке по характеристикам. Будет интересно посмотреть, насколько CrossFire-решение из двух GPU быстрее одночипового. А Radeon HD 7990 является предыдущей двухчиповой моделью на базе пары графических процессоров Tahiti — посмотрим, насколько повысилась производительность нового топового решения AMD.

Из стана конкурирующей компании Nvidia для нашего сравнения были выбраны две совершенно разные видеоплаты, основанные на разных графических процессорах. Geforce GTX 780 Ti является быстрейшим игровым решением на базе одиночного GPU (по сути, правильнее было бы сравнить с GTX Titan Black, но у нас ее еще нет) с заметно меньшей рекомендованной ценой. А видеоплата с названием Geforce GTX 690 взята для сравнения текущих двухчиповых вариантов AMD и Nvidia, хотя она сильно устарела и уже давно не производится.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим чуть позже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся разве что в старых играх, очень простых для современных видеочипов.

Все современные GPU с этими тестами справляются с легкостью, и скорость даже слабых решений упирается в различные ограничители производительности, не говоря уже о столь мощных платах. Эти тесты не способны показать возможности современных видеочипов, и интересны лишь с точки зрения устаревших игровых приложений.

Производительность современных видеокарт в этих задачах ограничена скоростью текстурирования или филлрейта, но в данном случае никакого сравнения не получилось, вышедшая сегодня двухчиповая видеокарта AMD Radeon R9 295X2 в этом сравнении явно некорректно работает в CrossFire, поэтому даже одночиповому аналогу сильно уступила. Нет никакого смысла анализировать полученные данные. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

По крайней мере, в одном из двух синтетических тестов, система на двух GPU работает нормально. Тест Cook-Torrance вычислительно интенсивный, и скорость в нем зависит почти исключительно от количества ALU и их частоты, а также и от скорости TMU. Но увы, в нем от второго чипа Radeon R9 295X2 нет никакого толка, CrossFire явно работает некорректно.

А вот в тесте Water, скорость в котором больше зависит от текстурирования, новинка отработала неплохо, показав прирост в 66%, по сравнению с Radeon R9 290X. Новая модель стала лидером в этом тесте, опередив и всех конкурентов Nvidia. Этот тест исторически лучше подходит для графических решений компании AMD, но и новые платы Geforce на базе чипов архитектур Kepler и Maxwell в нем также показывают неплохие результаты.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье «Современная терминология 3D-графики».
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Прошлые наши исследования показывают, что в этих конкретных задачах архитектура AMD GCN выступает значительно лучше графических архитектур Nvidia.

Но увы, ни в тесте «Frozen Glass», где скорость больше зависит от математической производительности, ни в тесте «Parallax Mapping» новая видеокарта Radeon не показала производительность выше, чем у одночипового варианта — явно драйверы еще недостаточно оптимизированы, и CrossFire в таких условиях не просто не работает, но еще и мешает, так как одночиповый R9 290X оказывается даже быстрее. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Не произошло никаких изменений — Radeon R9 295X2 все так же работает в неоптимальном режиме, когда CrossFire-рендеринг только снижает производительность, а не повышает ее. Похоже, что во всех Direct3D 9 тестах нет никакого толка от второго GPU. Осталась надежда лишь на еще два теста пиксельных шейдеров, уже версии 3.0 — самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они более показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье «Современная терминология 3D-графики».
  • Fur — процедурный шейдер, визуализирующий мех.

Вот это уже другое дело. Тесты не ограничены производительностью только текстурных выборок или филлрейтом и скорость в них более всего зависит от эффективности исполнения сложного шейдерного кода, и CrossFire тут работает, хоть и не всегда эффективно. В самых тяжелых DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia в предыдущие годы были несколько сильнее, но архитектура GCN помогла видеокартам AMD вырваться вперед, особенно после тщательной доводки драйверов Catalyst.

Двухчиповая новинка компании AMD показывает в этих задачах неплохой результат, если сравнивать ее скорость с производительностью одночипового аналога — Radeon R9 290X. В тесте продвинутого параллакс-маппинга новинка лишь на 15% быстрее его, зато в тесте Fur разница по производительности между решениями на базе разного количества чипов Hawaii составляет вполне приличные 70%.

Если сравнивать свежую модель на базе пары топовых чипов AMD с решениями Nvidia, то новинка обходит обе Geforce: и современный одночиповый топовый вариант, и старую двухчиповую видеокарту на паре GK104. Пока не выйдет игровое решение на двух GK110, то ситуация не изменится — Radeon R9 295X2 останется лидером.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару предыдущих поколений графических архитектур компания AMD сократила разницу с платами Nvidia, а с выпуском видеочипов на базе архитектуры GCN и вовсе вырвалась вперед, и теперь именно платы Radeon являются лидерами в этих сравнениях, что говорит о заметно более высокой эффективности выполнения ими данных программ.

Новая видеоплата Radeon R9 295X2 явно быстрее всех представленных на диаграмме решений. Преимущество над одночиповой R9 290X достигает двукратного, что говорит об отличной эффективности двухчипового рендеринга в этой задаче. Новинка опережает и предшествующую модель HD 7990, причем разница между ними приличная. Что касается сравнения новинки с двумя видеокартами конкурента, то для Nvidia тут все очень печально, даже самые мощные их платы не могут достать одночиповый Radeon, не говоря уже о новинке, которая более чем вдвое быстрее.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

В целом, ситуация похожа на ту, что мы видели на предыдущей диаграмме. Новая модель Radeon R9 295X2 снова быстрее одночипового аналога почти вдвое и с запасом опережает устаревшую Radeon HD 7990. Преимущество над конкурентами (хотя они и не являются прямыми соперниками по цене) в виде Geforce GTX 780 Ti и GTX 690 лишь упрочилось — превосходство в подобных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления, а CrossFire в этой задаче работает отлично.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом весьма похожа на предыдущую, также без включения SSAA, но в этот раз новая Radeon R9 295X2 показала даже чуть более высокую относительную скорость. Она опережает одночиповую модель Radeon R9 290X более чем на 100%, и на треть или четверть (в зависимости от режима) быстрее предшественника на двух GPU.

Так как видеокарты Nvidia в этом тесте снова справляются с работой заметно хуже конкурирующих решений AMD, то и сравнивать с Geforce новинку нет смысла — в обновленном D3D10-варианте теста без суперсэмплинга обе платы Nvidia показывают результат хуже, чем все представленные в сравнении платы Radeon. Посмотрим, что изменит включение суперсэмплинга:

Здесь мало что изменилось, хотя при включении суперсэмплинга и самозатенения задача получается еще более тяжелой и совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась совсем немного, а включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

В очередной раз мы видим, что графические решения Radeon в наших D3D10-тестах пиксельных шейдеров работают более эффективно, по сравнению с конкурирующими Geforce, и новая плата на двух чипах Hawaii показала весьма неплохую скорость, более чем вдвое опередив старшую одночиповую Radeon R9 290X — то есть, даже чуть больше, чем должна по теории. Конкуренты Nvidia остались далеко позади, даже двухчиповая Geforce GTX 690 не догнала R9 290X, а новинка еще вдвое быстрее.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, тем более если речь о системе из нескольких GPU. На результаты также влияет и разная эффективность их использования в конкретных решениях, равно как и оптимизация драйверов. В случае теста Mineral, новая модель Radeon R9 295X2 оказалась ровно вдвое быстрее одночипового аналога R9 290X, как и должно быть, исходя из теоретической разницы по математической производительности между этими моделями.

Плату предыдущего поколения на двух GPU новинка обогнала на 37%, ну а сравнение с платами Nvidia почти не имеет смысла, так как архитектуры AMD в таких тестах всегда имели значительное преимущество перед конкурирующими решениями Nvidia. И даже с учетом того, что в архитектуре Kepler калифорнийской компании удалось увеличить число потоковых процессоров, и пиковая математическая производительность Geforce серьезно возросла, в математических тестах видеокарты Nvidia сильно уступают новинке компании AMD. Конкурентов по цене для модели R9 295X2 пока нет, но представленные на диаграмме Geforce более чем вдвое медленнее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте мы видим несколько иные результаты видеокарт относительно друг друга. Разница между Radeon R9 295X2 и R9 290X в этом тесте также близка к теоретической двукратной разнице, а Radeon HD 7990 отстал от новинки уже чуть более чем на 40%. Обе видеокарты компании Nvidia не могут всерьез противостоять Radeon R9 295X2, и даже двухчиповая Geforce GTX 690 прошлого поколения показала результат лишь на уровне одночиповой GTX 780 Ti, а обе они далеки даже от Radeon R9 290X. С тестами пиковой математической производительности все как обычно — видеочипы Nvidia все так же сильно отстают.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена скоростью обработки геометрии, а иногда — пропускной способностью памяти.

Заметна разница и между результатами видеокарт на чипах Nvidia и AMD, которая обусловлена отличиями в геометрических конвейерах чипов этих компаний. Если в предыдущих тестах с пиксельными шейдерами платы AMD были заметно эффективнее и быстрее, то тесты геометрии показывают, что в таких задачах платы Nvidia оказываются несколько производительнее (сравниваем одночиповые решения).

Сегодняшняя новинка Radeon R9 295X2 основана на Hawaii, который имеет оптимизации геометрического конвейера, поэтому он не уступает двухчиповой плате прошлого поколения компании Nvidia. У видеокарт Geforce с геометрической производительностью дела всегда были лучше, поэтому они оказываются быстрее, но новая модель Radeon основана на двух GPU, поэтому практически не уступает в этом тесте Geforce GTX 690. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD и для решений Nvidia. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними. CrossFire-рендеринг в новой модели Radeon R9 295X2 работает достаточно эффективно, новинка быстрее одночиповой модели R9 290X почти вдвое, да и в остальном в выводах ничего не изменилось.

К сожалению, но «Hyperlight» — наш второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и ошибка не исправлена уже пару лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что особенно заметно в легком режиме. Результаты одночиповой видеокарты компании Nvidia и новой AMD Radeon R9 295X2 ограничены еще чем-то, и слабая разница между скоростью рендеринга в разных режимах лишь подтверждает эту аномалию.

Самой быстрой в тяжелом режиме стала новая Radeon R9 295X2, а в легком почему-то лидирует Radeon HD 7990 предыдущего поколения. Понятно, что результаты новинки превосходят и производительность представленных в сравнении плат Nvidia, которые особенно много уступают новинке в тяжелом режиме. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме заметно изменилась — решения компании AMD в тяжелых режимах потеряли заметно больше, чем Geforce. И теперь в тяжелом режиме разница между R9 295X2 и GTX 780 Ti не такая уж большая. Новая видеоплата Radeon R9 295X2 опережает одночиповую модель на 34-67%, что несколько меньше теоретической разницы — CrossFire работает не слишком эффективно.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» чем-то схожи с теми, что мы видели на предыдущих диаграммах, по каким-то причинам показатели новой платы во всех режимах близки — ее явно что-то ограничивает. В любом случае, она опережает Radeon R9 290X до 80-90%, что говорит об эффективности двухчипового рендеринга в этой задаче. Скорость новой платы Radeon R9 295X2 в этом тесте очень хорошая, она стала лидером сравнения, заметно обогнав обе Geforce. Рассмотрим второй вариант этого же теста:

Во втором тесте текстурных выборок с усложнением задачи скорость всех решений стала ниже, и особенно серьезно пострадали видеокарты Geforce. Платы на чипах Nvidia во всех режимах не могут конкурировать даже с Radeon R9 290X, а новинка на базе двух чипов Hawaii еще вдвое быстрее — в этом тесте очень хорошо работает AFR-рендеринг.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой двухчиповой видеокарты Radeon R9 295X2 в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и сравнительные цифры моделей близки к соответствующим теоретическим параметрам. Разница в скорости между одночиповой и двухчиповой моделями на базе графических процессоров Hawaii равна 82%, что несколько ниже ожидаемой, исходя из теории. Новая двухчиповая модель из семейства Radeon R9 по скорости текстурирования явно быстрее всех видеокарт на рынке, но опережает HD 7990 не так и много — менее чем на 30%.

Что касается сравнения скорости платы Radeon R9 295X2 с решениями конкурента, то новинка AMD по текстурной скорости обгоняет обе Geforce. В целом, все ожидаемо и соответствует теоретическим показателям, но нужно учитывать, что GTX 780 Ti является одночиповой моделью. Когда выйдет двухчиповая плата на GK110, то она опередит новинку AMD.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP с учетом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет скорее пропускную способность, а не производительность ROP. Результат у выпущенной сегодня видеоплаты AMD получился лишь на 15% выше, чем у двухчиповой карты предыдущего поколения. Зато старшая одночиповая модель Radeon R9 290X превзойдена почти ровно вдвое — то есть, эффективность AFR-рендеринга в этом тесте весьма велика.

Что касается сравнения скорости заполнения сцены видеокартой Radeon R9 295X2 с видеокартами Nvidia, то рассматриваемая модель AMD показала в этом тесте более высокую скорость заполнения сцены, чем устаревшая двухчиповая Geforce GTX 690, и уж тем более она обошла GTX 780 Ti.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, поэтому в этой «синтетике» из 3DMark Vantage новая плата Radeon R9 295X2 на 94% быстрее самой мощной одночиповой модели на том же чипе, который имеет близкие характеристики, что близко к теоретической разнице между ними. Неудивительно и то, что новинка обгоняет также и обе представленные в сравнении видеоплаты Nvidia, так как графические процессоры производства компании AMD являются более эффективными в этой задаче, к тому же на R9 295X2 установлено два чипа Hawaii.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте по идее также должна зависеть сразу от нескольких параметров, а основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Топовая двухчиповая модель семейства Radeon R9 показала скорость на 90% лучше, чем у R9 290X, что чуть меньше теоретической разницы.

Несмотря на большее количество соответствующих исполнительных блоков и большую геометрическую производительность видеокарт Nvidia, по сравнению с конкурирующими решениями, обе платы Geforce уступили всем платам Radeon, что довольно трудно объяснить с точки зрения теории. Поэтому новинка стала быстрейшей и в этом тесте.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage ситуация изменилась, но и в этот раз новая Radeon R9 295X2 значительно производительнее конкурирующих видеокарт Nvidia — двухчиповую GTX 690 она обогнала с запасом и почти вдвое быстрее GTX 780 Ti. Для платы AMD это очень неплохой результат, ведь ранее в синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, платы Nvidia опережали конкурирующие с ними модели.

Вероятно, в этом тесте наблюдается упор не только в геометрическую производительность, а производительность ROP или (что логичнее) пропускную способность видеопамяти. Если сравнивать скорость новинки AMD с одночиповым аналогом R9 290X, то новая модель AMD опережает ее на 86% — эффективность многочипового рендеринга еще немного снизилась.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим почти такое же распределение результатов, как и в двух аналогичных тестах нашего тестового пакета. В этом случае производительность решений не совсем соответствует теории, но близка к тому, что мы видели в математических тестах и ранее.

Видеокарты Radeon компании AMD, созданные на базе чипов архитектуры GCN, очень хорошо справляются с подобными задачами и показывают лучшие результаты в случаях, когда выполняется интенсивная «математика». Даже одночиповая модель Radeon R9 290X в этом тесте показала результат выше, чем Geforce GTX 780 Ti и GTX 690, поэтому неудивительно, что двухчиповая R9 295X2 сделала это с еще большей легкостью. Вышедшая сегодня видеокарта показала производительность на 90% выше, чем старшее одночиповое решение в лице R9 290X.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании AMD в задачах, использующих такие свежие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia давно уже почти одинаковая, хотя у видеокарт с GPU предыдущих архитектур были различия. Судя по нашим предыдущим тестам, результаты в задаче явно зависят не столько от математической мощи и эффективности вычислений, но от других факторов, вроде пропускной способности памяти и производительности ROP.

В данном случае скорость видеокарт упирается в ПСП, а новая плата компании AMD по этому параметру ровно вдвое лучше одночипового варианта. Поэтому и превосходство над ним на практике получилось равным 93-94%, что очень близко к теории. Ну и Geforce GTX 780 Ti новинка обогнала примерно вдвое. А вот GTX 690 явно пострадала от неэффективного двухчипового рендеринга.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте упор не только в скорость исполнения простых математических вычислений, но и в эффективности выполнения сложного кода с ветвлениями. Во втором DX11-тесте расклад сил между решениями разных компаний уже другой. Да и двухчиповый рендеринг в этом случае не работает что в случае платы Nvidia, что для Radeon R9 295X2. Платы Geforce в подобных расчетных задачах весьма неплохо смотрятся, но и новые Radeon также сносно справляются с ними — если бы AFR-рендеринг сработал нормально, то и для новинки все было бы неплохо.

Но пока что в этом тесте победила мощная одночиповая видеокарта Nvidia, а почти вдвое медленнее ее — все три платы на чипах AMD, в том числе и рассматриваемая сегодня Radeon R9 295X2. А вот Geforce GTX 690 далеко позади — она проиграла всем и стала самой медленной в этом тесте из-за неэффективной работы двух GPU.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат AMD чаще всего упирается во что-то, и результат новой видеокарты подтверждает это — производительность всех Radeon явно упирается в предел 2500-2600 FPS — задача стала слишком легкой для таких мощных решений. Двухчиповая Geforce в этом подтесте оказалась чуть медленнее, а одночиповый топ расположился еще ниже. Естественно, что сегодняшний герой обзора — среди лидеров.

Во втором подтесте с более сложными попиксельными расчетами все уже сложилось иначе. Эффективность выполнения таких математических вычислений в пиксельных шейдерах у чипов архитектуры GCN заметно выше, чем у Kepler, поэтому платы Nvidia проигрывают и одночиповой Radeon R9 290X, не говоря уже о сегодняшней новинке. Модель Radeon R9 295X2 оказалась вдвое быстрее одночипового аналога, что близко к теории.

В подтесте с тесселяцией платы AMD снова упираются в неведомую преграду, заметно опережая платы на чипах Nvidia — это объясняется тем, что в этом тесте тесселяции разбиение треугольников умеренное и скорость в нем упирается не в производительность блоков обработки геометрии, а все в ту же ПСП.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом варианте в самом тяжелом режиме применяется уже куда более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Хотя все представленные в материале современные решения хорошо справляются с легкой и средней геометрической нагрузкой, показывая достаточно высокую скорость, но в тяжелых условиях графические процессоры Nvidia все-таки заметно производительнее. Radeon R9 295X2 заметно уступает Geforce GTX 780 Ti и GTX 690 только в самом сложном режиме, когда скорость у всех плат AMD сильно падает.

Что касается плат AMD, то рассматриваемая сегодня двухчиповая модель R9 295X2 опередила одночиповую R9 290X до двух раз, что соответствует теории. Лишь в легком режиме по какой-то странной причине она уступила младшей модели, хотя у HD 7990 в таких же условиях все в порядке — вероятно, сказывается недоработанный видеодрайвер.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Впрочем, основной все равно остается именно нагрузка на блоки обработки геометрии.

Мы тестируем все решения при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. Если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, видеокарты Radeon компании AMD показывают достаточно высокие результаты, то уже в следующей ступени все они уже не дотягиваются до уровня Geforce. При увеличении геометрической работы платы компании Nvidia вырываются вперед, а производительность всех Radeon снижается куда сильнее.

Видеокарты Geforce в этом тесте всегда очень быстры, но новинка в лице Radeon R9 295X2 показывает себя очень неплохо. Она примерно вдвое быстрее одночиповой платы Radeon аналогичной конфигурации, и ощутимо быстрее Radeon HD 7990 из предыдущего поколения. Понятно, что в сложных условиях представленная сегодня видеокарта проиграла обеим Geforce, но не слишком сильно. А так как в играх геометрическая нагрузка всегда ниже, то и возможностей новой видеокарты для них более чем достаточно.


Результаты синтетических тестов новой двухчиповой видеоплаты AMD Radeon R9 295X2, а также результаты других моделей видеокарт производства обоих производителей дискретных видеочипов показали, что новая плата по скорости стала явным лидером — если AFR-рендеринг двумя видеочипами работал корректно, то почти во всех тестах она была быстрее других видеокарт топового класса. Скорость в играх будет зависеть как раз от этого — эффективности оптимизации драйверов для работы в режиме CrossFire. Новинка должна быть особенно быстрой в условиях сверхвысоких разрешений, включенного полноэкранного сглаживания и максимальных настроек качества.

Сравнивать новинку с конкурентами компании Nvidia, по сути, почти бесполезно. Понятно, что двухчиповая модель Radeon R9 295X2 на базе пары графических процессоров Hawaii превзойдет все одночиповые варианты и в играх, да и со старенькой Geforce GTX 690 легко справится. Куда интереснее было бы сравнение с аналогичной (технически, но не по цене) Geforce GTX Titan Z, но она еще не вышла на рынок, да и стоить будет вдвое больше.

Для игрового рынка желательно было бы появление модели вроде Geforce GTX 790 — на базе двух графических процессоров GK110, но не такой дорогой, как Titan Z. Но пока что мы не знаем о планах Nvidia по выпуску подобных решений, и сравнивать приходится с тем, что у нас есть — с GTX Titan (Black), GTX 780 Ti и даже GTX 690. В следующей части нашего материала мы как раз и рассмотрим, как Radeon R9 295X2 справляется с существующими конкурентами в реальных играх.

AMD Radeon R9 295 X2 — Часть 3: производительность в игровых тестах →

2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek




Дополнительно

Обзор нового видеоускорителя AMD Radeon R9 295 X2. Часть 2 — Особенности видеокарты, результаты синтетических тестов

AMD Radeon R9 295 X2:

описание видеокарты и результаты синтетических тестов

Содержание

В этой части мы изучим видеокарту, а также познакомимся с результатами синтетических тестов. В нашей лаборатории побывала референс-карта.

Платa

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
  • GPU: 2 x Radeon R9 290X (Hawaii)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs): 1018 МГц (номинал — 1018 МГц)
  • Частота работы памяти (физическая (эффективная)): 1250 (5000) МГц (номинал — 1250 (5000) МГц)
  • Ширина шины обмена с памятью: 2×512 бит
  • Число вычислительных блоков в GPU/частота работы блоков: 2×44/1000 МГц (номинал — 2×44/1000 МГц)
  • Число операций (ALU) в блоке: 64
  • Суммарное число операций (ALU): 2×2816
  • Число блоков текстурирования: 2×176 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 2×64
  • Размеры: 307×110×40 мм (видеокарта занимает 2 слота в системном блоке, плюс радиатор охлаждения водяной системы, длина шлангов 380 мм)
  • Цвет текстолита: черный
  • Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»): 504/86/5 Вт
  • Выходные гнезда: 1×DVI (Dual-Link/HDMI), 4×mini-Display Port 1.2
  • Поддержка многопроцессорной работы: CrossFire X

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
Карта имеет 8192 МБ памяти GDDR5 SDRAM, размещенной в 32 2-гигабитных микросхемах (по 16 на каждой стороне PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1250 (5000) МГц.

Сравнение с эталонным дизайном, вид спереди
AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E Reference card AMD Radeon R9 290X

Сравнение с эталонным дизайном, вид сзади
AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E Reference card AMD Radeon R9 290X

Понятно, что данный ускоритель тяжело сравнивать с однопроцессорным аналогом, а двухпроцессорный HD 7990 предыдущего поколения имел PCB с разведенной шиной обмена с памятью 2×384 бит. В данном же случае ширина шины — аж 2×512 бит! Поэтому PCB получилась очень сложной и дорогой. Присутствует многофазная система питания, управляемая традиционно цифровым контроллером. На одной плате два GPU, каждый из которых расчитан на интерфейс PCI-E, поэтому требуется коммутатор для эмуляции моста PCI-E вне системной шины (он всегда требуется для двухпроцессорных ускорителей). В нашем случае в качестве коммутатора используется пятипортовый PEX8747 компании PLX Technology.

Поскольку ускоритель потребляет 500 Вт и более, предусмотрено два 8-контактных гнезда для дополнительного питания. Подчеркну, что в системных платах, имеющих PCI-E версии ниже 2.0, эта видеокарта может не заработать, так как ее будет ограничивать недостаток питания через слот PCI-E (более 75 Вт).

Ускоритель имеет следующий набор гнезд вывода: 1 DVI (Dual-Link и совместим с выводом на HDMI) и 4 порта DP в мини-формате. Таким образом, суммарно можно подключать 4 монитора с DP либо комбинированную схему DVI+DP. Особо стоить отметить, что при наличии потрясающей суммарной производительности становится очень актуальным работа AMD Eyefinity с возможностью вывода игровой картинки одновременно на несколько (до четырех) приемников.

Максимальные разрешения и частоты в 3D: 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI). Заявлена поддержка разрешения 4K, что является одним из выделяемых достоинств данного продукта, однако по причине отсутствия соответствующего монитора в тестлабе, работоспособность в 4К не проверялась.

Что касается возможностей по ускорению декодирования видео — в 2007 году мы проводили такое исследование, с ним можно ознакомиться здесь.

Напомню, что карта требует дополнительного питания через два 8-контактных разъема.

О системе охлаждения.

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E
Вот здесь основная «изюминка» ускорителя. Впервые мы видим, что не партнеры AMD/Nvidia, а сам производитель GPU в качестве референс-кулера предложил воздушно-водяную СО. То есть положено начало применению СО такого типа не в качестве чрезвычайной экзотики, а как равноправного варианта. Работа данной СО настроена так, чтобы нагрев ядер не превышал 70 градусов, обеспечивая долговечную и стабильную работу ускорителя. Забегая вперед, скажу, что это получилось. И получилось удачно. Нагрев действительно не превышал 70 градусов, и при этом кулер не был шумным.

Данная СО произведена компанией Asetek, известной подобными решениями (часто — в качестве OEM-производителя), так что неудивительно, что AMD выбрала именно этого партнера. На каждом ядре установлена по одной помпе, имеющей медные основание и радиатор. Обе помпы объединены системой шлангов в единый контур, составной частью которого является внешний радиатор охлаждения воды, имеющий свой вентилятор. К сожалению, мониторинг утилит EVGA/MSI не позволяет установить частоты работы данного вентилятора (хотя, судя по проводной схеме, передача данных от тахометра к видеокарте идет). Мониторинг ССС показал, что предельная частота вращения — 900 оборотов в минуту, что делает внешний блок охлаждения практически бесшумным. Центральный вентилятор на самой карте также вращается очень медленно и бесшумен. Самой шумной частью СО являются помпы, качающие жидкость по шлангам.

Микросхемы памяти на лицевой стороне и силовые транзисторы охлаждаются массивной пластиной в основании кулера. Для микросхем памяти на оборотной стороне есть своя отдельная пластина-радиатор.

Особо следует отметить, что любители моддинга и красоты в системных блоках не забыты. Ускоритель имеет красную подсветку как на центральном вентиляторе, так и на логотипе «Radeon» на торце.

Мы провели исследование температурного режима с помощью версии 4.2.1 утилиты EVGA PrecisionX (автор А. Николайчук AKA Unwinder) и получили следующие результаты.

AMD Radeon R9 295 X2 2×4096 МБ 2×512-битной GDDR5 PCI-E

После 6 часов прогона карты под максимальной игровой нагрузкой максимальная температура ядра составила 68 градусов (то есть заданный алгоритм работы СО выдерживается), что для такого рода ускорителей великолепный результат. Однако СО все-таки не бесшумная, так как жидкостные СО бесшумными не могут быть по определению (у них всегда работает помпа для прокачки жидкости).

Комплектация. Kарта прибыла к нам в ОЕМ-упаковке, поэтому комплекта нет.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11;
  • монитор Dell UltraSharp U3011 (30″);
  • монитор Asus ProArt PA249Q (24″);
  • драйверы AMD версии Catalyst 14.3 (14.4 для R9 295 X2); Nvidia версии 335.23

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon R9 295X2 со стандартными параметрами (далее R9 295X2)
  • Radeon R9 290X со стандартными параметрами (далее R9 290X)
  • Radeon HD 7990 со стандартными параметрами (далее HD 7990)
  • Geforce GTX 780 Ti со стандартными параметрами (далее GTX 780 Ti)
  • Geforce GTX 690 со стандартными параметрами (далее GTX 690)

Для анализа результатов новой видеокарты Radeon R9 295X2 были выбраны именно эти решения по следующим причинам. Radeon R9 290X является одночиповой моделью компании новой линейки, основанной на том же графическом процессоре, которая полностью соответствует новинке по характеристикам. Будет интересно посмотреть, насколько CrossFire-решение из двух GPU быстрее одночипового. А Radeon HD 7990 является предыдущей двухчиповой моделью на базе пары графических процессоров Tahiti — посмотрим, насколько повысилась производительность нового топового решения AMD.

Из стана конкурирующей компании Nvidia для нашего сравнения были выбраны две совершенно разные видеоплаты, основанные на разных графических процессорах. Geforce GTX 780 Ti является быстрейшим игровым решением на базе одиночного GPU (по сути, правильнее было бы сравнить с GTX Titan Black, но у нас ее еще нет) с заметно меньшей рекомендованной ценой. А видеоплата с названием Geforce GTX 690 взята для сравнения текущих двухчиповых вариантов AMD и Nvidia, хотя она сильно устарела и уже давно не производится.

Direct3D 9: тесты Pixel Shaders

Тесты текстурирования и заполнения (филлрейта) из пакета 3DMark Vantage мы рассмотрим чуть позже, а первая группа пиксельных шейдеров, которую мы используем, включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся разве что в старых играх, очень простых для современных видеочипов.

Все современные GPU с этими тестами справляются с легкостью, и скорость даже слабых решений упирается в различные ограничители производительности, не говоря уже о столь мощных платах. Эти тесты не способны показать возможности современных видеочипов, и интересны лишь с точки зрения устаревших игровых приложений.

Производительность современных видеокарт в этих задачах ограничена скоростью текстурирования или филлрейта, но в данном случае никакого сравнения не получилось, вышедшая сегодня двухчиповая видеокарта AMD Radeon R9 295X2 в этом сравнении явно некорректно работает в CrossFire, поэтому даже одночиповому аналогу сильно уступила. Нет никакого смысла анализировать полученные данные. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

По крайней мере, в одном из двух синтетических тестов, система на двух GPU работает нормально. Тест Cook-Torrance вычислительно интенсивный, и скорость в нем зависит почти исключительно от количества ALU и их частоты, а также и от скорости TMU. Но увы, в нем от второго чипа Radeon R9 295X2 нет никакого толка, CrossFire явно работает некорректно.

А вот в тесте Water, скорость в котором больше зависит от текстурирования, новинка отработала неплохо, показав прирост в 66%, по сравнению с Radeon R9 290X. Новая модель стала лидером в этом тесте, опередив и всех конкурентов Nvidia. Этот тест исторически лучше подходит для графических решений компании AMD, но и новые платы Geforce на базе чипов архитектур Kepler и Maxwell в нем также показывают неплохие результаты.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье «Современная терминология 3D-графики».
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это — универсальные тесты, производительность в которых зависит и от скорости блоков ALU, и от скорости текстурирования, также в них важен общий баланс чипа и эффективность исполнения вычислительных программ. Прошлые наши исследования показывают, что в этих конкретных задачах архитектура AMD GCN выступает значительно лучше графических архитектур Nvidia.

Но увы, ни в тесте «Frozen Glass», где скорость больше зависит от математической производительности, ни в тесте «Parallax Mapping» новая видеокарта Radeon не показала производительность выше, чем у одночипового варианта — явно драйверы еще недостаточно оптимизированы, и CrossFire в таких условиях не просто не работает, но еще и мешает, так как одночиповый R9 290X оказывается даже быстрее. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям:

Не произошло никаких изменений — Radeon R9 295X2 все так же работает в неоптимальном режиме, когда CrossFire-рендеринг только снижает производительность, а не повышает ее. Похоже, что во всех Direct3D 9 тестах нет никакого толка от второго GPU. Осталась надежда лишь на еще два теста пиксельных шейдеров, уже версии 3.0 — самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Они более показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье «Современная терминология 3D-графики».
  • Fur — процедурный шейдер, визуализирующий мех.

Вот это уже другое дело. Тесты не ограничены производительностью только текстурных выборок или филлрейтом и скорость в них более всего зависит от эффективности исполнения сложного шейдерного кода, и CrossFire тут работает, хоть и не всегда эффективно. В самых тяжелых DX9-тестах из первой версии пакета RightMark видеокарты производства Nvidia в предыдущие годы были несколько сильнее, но архитектура GCN помогла видеокартам AMD вырваться вперед, особенно после тщательной доводки драйверов Catalyst.

Двухчиповая новинка компании AMD показывает в этих задачах неплохой результат, если сравнивать ее скорость с производительностью одночипового аналога — Radeon R9 290X. В тесте продвинутого параллакс-маппинга новинка лишь на 15% быстрее его, зато в тесте Fur разница по производительности между решениями на базе разного количества чипов Hawaii составляет вполне приличные 70%.

Если сравнивать свежую модель на базе пары топовых чипов AMD с решениями Nvidia, то новинка обходит обе Geforce: и современный одночиповый топовый вариант, и старую двухчиповую видеокарту на паре GK104. Пока не выйдет игровое решение на двух GK110, то ситуация не изменится — Radeon R9 295X2 останется лидером.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, за пару предыдущих поколений графических архитектур компания AMD сократила разницу с платами Nvidia, а с выпуском видеочипов на базе архитектуры GCN и вовсе вырвалась вперед, и теперь именно платы Radeon являются лидерами в этих сравнениях, что говорит о заметно более высокой эффективности выполнения ими данных программ.

Новая видеоплата Radeon R9 295X2 явно быстрее всех представленных на диаграмме решений. Преимущество над одночиповой R9 290X достигает двукратного, что говорит об отличной эффективности двухчипового рендеринга в этой задаче. Новинка опережает и предшествующую модель HD 7990, причем разница между ними приличная. Что касается сравнения новинки с двумя видеокартами конкурента, то для Nvidia тут все очень печально, даже самые мощные их платы не могут достать одночиповый Radeon, не говоря уже о новинке, которая более чем вдвое быстрее.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

В целом, ситуация похожа на ту, что мы видели на предыдущей диаграмме. Новая модель Radeon R9 295X2 снова быстрее одночипового аналога почти вдвое и с запасом опережает устаревшую Radeon HD 7990. Преимущество над конкурентами (хотя они и не являются прямыми соперниками по цене) в виде Geforce GTX 780 Ti и GTX 690 лишь упрочилось — превосходство в подобных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления, а CrossFire в этой задаче работает отлично.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом весьма похожа на предыдущую, также без включения SSAA, но в этот раз новая Radeon R9 295X2 показала даже чуть более высокую относительную скорость. Она опережает одночиповую модель Radeon R9 290X более чем на 100%, и на треть или четверть (в зависимости от режима) быстрее предшественника на двух GPU.

Так как видеокарты Nvidia в этом тесте снова справляются с работой заметно хуже конкурирующих решений AMD, то и сравнивать с Geforce новинку нет смысла — в обновленном D3D10-варианте теста без суперсэмплинга обе платы Nvidia показывают результат хуже, чем все представленные в сравнении платы Radeon. Посмотрим, что изменит включение суперсэмплинга:

Здесь мало что изменилось, хотя при включении суперсэмплинга и самозатенения задача получается еще более тяжелой и совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась совсем немного, а включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

В очередной раз мы видим, что графические решения Radeon в наших D3D10-тестах пиксельных шейдеров работают более эффективно, по сравнению с конкурирующими Geforce, и новая плата на двух чипах Hawaii показала весьма неплохую скорость, более чем вдвое опередив старшую одночиповую Radeon R9 290X — то есть, даже чуть больше, чем должна по теории. Конкуренты Nvidia остались далеко позади, даже двухчиповая Geforce GTX 690 не догнала R9 290X, а новинка еще вдвое быстрее.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, тем более если речь о системе из нескольких GPU. На результаты также влияет и разная эффективность их использования в конкретных решениях, равно как и оптимизация драйверов. В случае теста Mineral, новая модель Radeon R9 295X2 оказалась ровно вдвое быстрее одночипового аналога R9 290X, как и должно быть, исходя из теоретической разницы по математической производительности между этими моделями.

Плату предыдущего поколения на двух GPU новинка обогнала на 37%, ну а сравнение с платами Nvidia почти не имеет смысла, так как архитектуры AMD в таких тестах всегда имели значительное преимущество перед конкурирующими решениями Nvidia. И даже с учетом того, что в архитектуре Kepler калифорнийской компании удалось увеличить число потоковых процессоров, и пиковая математическая производительность Geforce серьезно возросла, в математических тестах видеокарты Nvidia сильно уступают новинке компании AMD. Конкурентов по цене для модели R9 295X2 пока нет, но представленные на диаграмме Geforce более чем вдвое медленнее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте мы видим несколько иные результаты видеокарт относительно друг друга. Разница между Radeon R9 295X2 и R9 290X в этом тесте также близка к теоретической двукратной разнице, а Radeon HD 7990 отстал от новинки уже чуть более чем на 40%. Обе видеокарты компании Nvidia не могут всерьез противостоять Radeon R9 295X2, и даже двухчиповая Geforce GTX 690 прошлого поколения показала результат лишь на уровне одночиповой GTX 780 Ti, а обе они далеки даже от Radeon R9 290X. С тестами пиковой математической производительности все как обычно — видеочипы Nvidia все так же сильно отстают.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для современных видеокарт не слишком сложная, и производительность в ней ограничена скоростью обработки геометрии, а иногда — пропускной способностью памяти.

Заметна разница и между результатами видеокарт на чипах Nvidia и AMD, которая обусловлена отличиями в геометрических конвейерах чипов этих компаний. Если в предыдущих тестах с пиксельными шейдерами платы AMD были заметно эффективнее и быстрее, то тесты геометрии показывают, что в таких задачах платы Nvidia оказываются несколько производительнее (сравниваем одночиповые решения).

Сегодняшняя новинка Radeon R9 295X2 основана на Hawaii, который имеет оптимизации геометрического конвейера, поэтому он не уступает двухчиповой плате прошлого поколения компании Nvidia. У видеокарт Geforce с геометрической производительностью дела всегда были лучше, поэтому они оказываются быстрее, но новая модель Radeon основана на двух GPU, поэтому практически не уступает в этом тесте Geforce GTX 690. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD и для решений Nvidia. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними. CrossFire-рендеринг в новой модели Radeon R9 295X2 работает достаточно эффективно, новинка быстрее одночиповой модели R9 290X почти вдвое, да и в остальном в выводах ничего не изменилось.

К сожалению, но «Hyperlight» — наш второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и ошибка не исправлена уже пару лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что особенно заметно в легком режиме. Результаты одночиповой видеокарты компании Nvidia и новой AMD Radeon R9 295X2 ограничены еще чем-то, и слабая разница между скоростью рендеринга в разных режимах лишь подтверждает эту аномалию.

Самой быстрой в тяжелом режиме стала новая Radeon R9 295X2, а в легком почему-то лидирует Radeon HD 7990 предыдущего поколения. Понятно, что результаты новинки превосходят и производительность представленных в сравнении плат Nvidia, которые особенно много уступают новинке в тяжелом режиме. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме заметно изменилась — решения компании AMD в тяжелых режимах потеряли заметно больше, чем Geforce. И теперь в тяжелом режиме разница между R9 295X2 и GTX 780 Ti не такая уж большая. Новая видеоплата Radeon R9 295X2 опережает одночиповую модель на 34-67%, что несколько меньше теоретической разницы — CrossFire работает не слишком эффективно.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» чем-то схожи с теми, что мы видели на предыдущих диаграммах, по каким-то причинам показатели новой платы во всех режимах близки — ее явно что-то ограничивает. В любом случае, она опережает Radeon R9 290X до 80-90%, что говорит об эффективности двухчипового рендеринга в этой задаче. Скорость новой платы Radeon R9 295X2 в этом тесте очень хорошая, она стала лидером сравнения, заметно обогнав обе Geforce. Рассмотрим второй вариант этого же теста:

Во втором тесте текстурных выборок с усложнением задачи скорость всех решений стала ниже, и особенно серьезно пострадали видеокарты Geforce. Платы на чипах Nvidia во всех режимах не могут конкурировать даже с Radeon R9 290X, а новинка на базе двух чипов Hawaii еще вдвое быстрее — в этом тесте очень хорошо работает AFR-рендеринг.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов новой двухчиповой видеокарты Radeon R9 295X2 в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и сравнительные цифры моделей близки к соответствующим теоретическим параметрам. Разница в скорости между одночиповой и двухчиповой моделями на базе графических процессоров Hawaii равна 82%, что несколько ниже ожидаемой, исходя из теории. Новая двухчиповая модель из семейства Radeon R9 по скорости текстурирования явно быстрее всех видеокарт на рынке, но опережает HD 7990 не так и много — менее чем на 30%.

Что касается сравнения скорости платы Radeon R9 295X2 с решениями конкурента, то новинка AMD по текстурной скорости обгоняет обе Geforce. В целом, все ожидаемо и соответствует теоретическим показателям, но нужно учитывать, что GTX 780 Ti является одночиповой моделью. Когда выйдет двухчиповая плата на GK110, то она опередит новинку AMD.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры этого подтеста из 3DMark Vantage показывают производительность блоков ROP с учетом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет скорее пропускную способность, а не производительность ROP. Результат у выпущенной сегодня видеоплаты AMD получился лишь на 15% выше, чем у двухчиповой карты предыдущего поколения. Зато старшая одночиповая модель Radeon R9 290X превзойдена почти ровно вдвое — то есть, эффективность AFR-рендеринга в этом тесте весьма велика.

Что касается сравнения скорости заполнения сцены видеокартой Radeon R9 295X2 с видеокартами Nvidia, то рассматриваемая модель AMD показала в этом тесте более высокую скорость заполнения сцены, чем устаревшая двухчиповая Geforce GTX 690, и уж тем более она обошла GTX 780 Ti.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, поэтому в этой «синтетике» из 3DMark Vantage новая плата Radeon R9 295X2 на 94% быстрее самой мощной одночиповой модели на том же чипе, который имеет близкие характеристики, что близко к теоретической разнице между ними. Неудивительно и то, что новинка обгоняет также и обе представленные в сравнении видеоплаты Nvidia, так как графические процессоры производства компании AMD являются более эффективными в этой задаче, к тому же на R9 295X2 установлено два чипа Hawaii.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте по идее также должна зависеть сразу от нескольких параметров, а основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Топовая двухчиповая модель семейства Radeon R9 показала скорость на 90% лучше, чем у R9 290X, что чуть меньше теоретической разницы.

Несмотря на большее количество соответствующих исполнительных блоков и большую геометрическую производительность видеокарт Nvidia, по сравнению с конкурирующими решениями, обе платы Geforce уступили всем платам Radeon, что довольно трудно объяснить с точки зрения теории. Поэтому новинка стала быстрейшей и в этом тесте.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage ситуация изменилась, но и в этот раз новая Radeon R9 295X2 значительно производительнее конкурирующих видеокарт Nvidia — двухчиповую GTX 690 она обогнала с запасом и почти вдвое быстрее GTX 780 Ti. Для платы AMD это очень неплохой результат, ведь ранее в синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, платы Nvidia опережали конкурирующие с ними модели.

Вероятно, в этом тесте наблюдается упор не только в геометрическую производительность, а производительность ROP или (что логичнее) пропускную способность видеопамяти. Если сравнивать скорость новинки AMD с одночиповым аналогом R9 290X, то новая модель AMD опережает ее на 86% — эффективность многочипового рендеринга еще немного снизилась.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В чисто математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим почти такое же распределение результатов, как и в двух аналогичных тестах нашего тестового пакета. В этом случае производительность решений не совсем соответствует теории, но близка к тому, что мы видели в математических тестах и ранее.

Видеокарты Radeon компании AMD, созданные на базе чипов архитектуры GCN, очень хорошо справляются с подобными задачами и показывают лучшие результаты в случаях, когда выполняется интенсивная «математика». Даже одночиповая модель Radeon R9 290X в этом тесте показала результат выше, чем Geforce GTX 780 Ti и GTX 690, поэтому неудивительно, что двухчиповая R9 295X2 сделала это с еще большей легкостью. Вышедшая сегодня видеокарта показала производительность на 90% выше, чем старшее одночиповое решение в лице R9 290X.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать новое решение компании AMD в задачах, использующих такие свежие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia давно уже почти одинаковая, хотя у видеокарт с GPU предыдущих архитектур были различия. Судя по нашим предыдущим тестам, результаты в задаче явно зависят не столько от математической мощи и эффективности вычислений, но от других факторов, вроде пропускной способности памяти и производительности ROP.

В данном случае скорость видеокарт упирается в ПСП, а новая плата компании AMD по этому параметру ровно вдвое лучше одночипового варианта. Поэтому и превосходство над ним на практике получилось равным 93-94%, что очень близко к теории. Ну и Geforce GTX 780 Ti новинка обогнала примерно вдвое. А вот GTX 690 явно пострадала от неэффективного двухчипового рендеринга.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте упор не только в скорость исполнения простых математических вычислений, но и в эффективности выполнения сложного кода с ветвлениями. Во втором DX11-тесте расклад сил между решениями разных компаний уже другой. Да и двухчиповый рендеринг в этом случае не работает что в случае платы Nvidia, что для Radeon R9 295X2. Платы Geforce в подобных расчетных задачах весьма неплохо смотрятся, но и новые Radeon также сносно справляются с ними — если бы AFR-рендеринг сработал нормально, то и для новинки все было бы неплохо.

Но пока что в этом тесте победила мощная одночиповая видеокарта Nvidia, а почти вдвое медленнее ее — все три платы на чипах AMD, в том числе и рассматриваемая сегодня Radeon R9 295X2. А вот Geforce GTX 690 далеко позади — она проиграла всем и стала самой медленной в этом тесте из-за неэффективной работы двух GPU.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат AMD чаще всего упирается во что-то, и результат новой видеокарты подтверждает это — производительность всех Radeon явно упирается в предел 2500-2600 FPS — задача стала слишком легкой для таких мощных решений. Двухчиповая Geforce в этом подтесте оказалась чуть медленнее, а одночиповый топ расположился еще ниже. Естественно, что сегодняшний герой обзора — среди лидеров.

Во втором подтесте с более сложными попиксельными расчетами все уже сложилось иначе. Эффективность выполнения таких математических вычислений в пиксельных шейдерах у чипов архитектуры GCN заметно выше, чем у Kepler, поэтому платы Nvidia проигрывают и одночиповой Radeon R9 290X, не говоря уже о сегодняшней новинке. Модель Radeon R9 295X2 оказалась вдвое быстрее одночипового аналога, что близко к теории.

В подтесте с тесселяцией платы AMD снова упираются в неведомую преграду, заметно опережая платы на чипах Nvidia — это объясняется тем, что в этом тесте тесселяции разбиение треугольников умеренное и скорость в нем упирается не в производительность блоков обработки геометрии, а все в ту же ПСП.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом варианте в самом тяжелом режиме применяется уже куда более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Хотя все представленные в материале современные решения хорошо справляются с легкой и средней геометрической нагрузкой, показывая достаточно высокую скорость, но в тяжелых условиях графические процессоры Nvidia все-таки заметно производительнее. Radeon R9 295X2 заметно уступает Geforce GTX 780 Ti и GTX 690 только в самом сложном режиме, когда скорость у всех плат AMD сильно падает.

Что касается плат AMD, то рассматриваемая сегодня двухчиповая модель R9 295X2 опередила одночиповую R9 290X до двух раз, что соответствует теории. Лишь в легком режиме по какой-то странной причине она уступила младшей модели, хотя у HD 7990 в таких же условиях все в порядке — вероятно, сказывается недоработанный видеодрайвер.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Впрочем, основной все равно остается именно нагрузка на блоки обработки геометрии.

Мы тестируем все решения при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. Если при самом первом коэффициенте разбиения треугольников, когда скорость не ограничена производительностью геометрических блоков, видеокарты Radeon компании AMD показывают достаточно высокие результаты, то уже в следующей ступени все они уже не дотягиваются до уровня Geforce. При увеличении геометрической работы платы компании Nvidia вырываются вперед, а производительность всех Radeon снижается куда сильнее.

Видеокарты Geforce в этом тесте всегда очень быстры, но новинка в лице Radeon R9 295X2 показывает себя очень неплохо. Она примерно вдвое быстрее одночиповой платы Radeon аналогичной конфигурации, и ощутимо быстрее Radeon HD 7990 из предыдущего поколения. Понятно, что в сложных условиях представленная сегодня видеокарта проиграла обеим Geforce, но не слишком сильно. А так как в играх геометрическая нагрузка всегда ниже, то и возможностей новой видеокарты для них более чем достаточно.


Результаты синтетических тестов новой двухчиповой видеоплаты AMD Radeon R9 295X2, а также результаты других моделей видеокарт производства обоих производителей дискретных видеочипов показали, что новая плата по скорости стала явным лидером — если AFR-рендеринг двумя видеочипами работал корректно, то почти во всех тестах она была быстрее других видеокарт топового класса. Скорость в играх будет зависеть как раз от этого — эффективности оптимизации драйверов для работы в режиме CrossFire. Новинка должна быть особенно быстрой в условиях сверхвысоких разрешений, включенного полноэкранного сглаживания и максимальных настроек качества.

Сравнивать новинку с конкурентами компании Nvidia, по сути, почти бесполезно. Понятно, что двухчиповая модель Radeon R9 295X2 на базе пары графических процессоров Hawaii превзойдет все одночиповые варианты и в играх, да и со старенькой Geforce GTX 690 легко справится. Куда интереснее было бы сравнение с аналогичной (технически, но не по цене) Geforce GTX Titan Z, но она еще не вышла на рынок, да и стоить будет вдвое больше.

Для игрового рынка желательно было бы появление модели вроде Geforce GTX 790 — на базе двух графических процессоров GK110, но не такой дорогой, как Titan Z. Но пока что мы не знаем о планах Nvidia по выпуску подобных решений, и сравнивать приходится с тем, что у нас есть — с GTX Titan (Black), GTX 780 Ti и даже GTX 690. В следующей части нашего материала мы как раз и рассмотрим, как Radeon R9 295X2 справляется с существующими конкурентами в реальных играх.

AMD Radeon R9 295 X2 — Часть 3: производительность в игровых тестах →

2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek


iXBT Brand 2025

iXBT Brand 2025 - Выбор читателей в номинации "x86, ARM, MIPS -совместимые процессоры (CPU) для настольных ПК"
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.