AMD Radeon HD 6990:


описание видеокарты и результаты синтетических тестов

Содержание

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)

AMD Radeon HD 6990: Часть 1: Теоретические сведения


В этой части, как обычно, мы изучим саму видеокарту, а также познакомимся с результатами синтетических тестов.

Плата

AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E
  • GPU: 2 x Radeon HD 6970 (Cayman)
  • Интерфейс: PCI Express x16
  • Частота работы GPU (ROPs) (МГц): 830 (o/c 880) (номинал — 830 (o/c 880))
  • Частота работы памяти (физическая (эффективная)) (МГц): 1250 (5000) (номинал — 1250 (5000))
  • Ширина шины обмена с памятью (бит): 2 x 256
  • Число вычислительных блоков в GPU/частота работы блоков (МГц): 2 x 384/830 (o/c 2 x 384/880) (номинал — 2 x 384/830 (o/c 2 x 384/880))
  • Число операций (ALU) в блоке: 4
  • Суммарное число операций (ALU): 2 x 1536
  • Число блоков текстурирования: 2 x 96 (BLF/TLF/ANIS)
  • Число блоков растеризации (ROP): 2 x 32
  • Размеры (мм): 330×100×33 (последняя величина — максимальная толщина видеокарты)
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU
  • Выходные гнезда: 1×DVI (Dual-Link), 4×mini-DisplayPort 1.2
  • Поддержка многопроцессорной работы: CrossFire X (Hardware)

AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E
Карта имеет 2 x 2048 МБ памяти GDDR5 SDRAM, размещенной в 16 микросхемах (по 8 на каждой сторонe PCB).

Микросхемы памяти Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1250 (5000) МГц.


Сравнение с эталонным дизайном, вид спереди
AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E Reference card AMD Radeon HD 5970

Сравнение с эталонным дизайном, вид сзади
AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E Reference card AMD Radeon HD 5970

Мы не зра сравнили 6990 c 5970, поскольку оба продукта идентичны по внешней архитектуре (2 процессора, 2 шины обмена с памятью по 256 бит каждая). И видим, что дизайн 6990 сущесвенно отличается от предшественника. Да, само окружение процессоров микросхемами памяти осталось прежним, однако эти модули разъехались по краям PCB, а в центре сосредоточен силовой блок, причем нового поколения. Это понятно, ведь карта суммарно при работе в оверклокерском режиме может потреблять до 420 Вт, следовательно, это означает колоссально высокие значения токов, а это уже значит, что требуется ограждать от наводок высокочастотные процессорные модули. А также элементы силового блока требуют очень тщательного охлаждения, и потому общий кулер должен охлаждать и их. Длина карты осталась как у 5970, тут различий нет. Конечно же это запределельные размеры, но увы, как и в случае с 5970, - хочешь самый мощный ускоритель, - имей просторный корпус.

Напомним, что карта может работать в 2х режимах: обычном и оверклокерском. Поэтому продукт имеют сверху небольшой переключатель BIOS и оснащен двумя микросхемами BIOS. Это и спасает ситуацию в случае неудачных прошивок новых версий BIOS, и переключает частоты работы ядра. Обычный режим предусматривает частоту работы ядра 830 МГц, а оверклокерский - 880 МГц. Частота работы памяти остается неизменной.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Напомним также, что продукты обладают AMD Eyefinity — то есть вывод одновременно картинки игры на три монитора (хотя бы один из них должен иметь DisplayPort).

А также карта обладает версией 1.2 DP, поэтому есть возможность с помощью специальных хабов выводить с каждого порта DP на три монитора (в сумме 12 - разумеется, если CrossFire не работает).

Максимальные разрешения и частоты:

  • 240 Гц максимальная частота обновления
  • 2048×1536@85 Гц — по аналоговому интерфейсу
  • 2560×1600@60 Гц — по цифровому интерфейсу (для DVI-гнезд с Dual-Link/HDMI)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Есть смысл еще раз напомнить, что карта требует дополнительного питания, причем двумя 8-контактными разъемами! Надеемся, что партнеры AMD будут вкладывать в комплект соответствующие переходники-разветвители питания.

О системе охлаждения.

AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E
Учитывая особо высокую энергопотребляемость продукта, к системе охлаждения предъявлены особые требования. И потому уже невозможно сделать ранее повсеместно применяемый способ расположения цилиндрического вентилятора на конце кулера - по простой причине: процессорные блоки разнесены по концам карты. Поэтому вентилятор расположен посредине всей конструкции.

К каждому ядру прижимаются медные радиторы с испарительными камерами и ребрами охлаждения. Все это соединено общей платформой, которая также прижимается и к силовым элементам посредине PCB. Центральный цилиндрический вентилятор гонит воздух в 2х противоположных направлениях, охлаждая радиаторы. При этом для более высокоэффективной теплопередачи используются современные материалы в виде прослоек между микросхемами и радиаторами, которые очень хрупки и по сути одноразовы. Именно поэтому компания AMD не рекомендует разбирать видеокарту, ибо после сборки уже не получить такой же эффективности СО.

Что касается шумности, то она весьма высока при нагрузке в 3D. Цилиндрический вентилятор разгоняется весьма сильно, и шум прохождения воздуха через радиаторы ощутим. В 2D-режиме или легком 3D шума нет.

Мы провели исследование температурного режима с помощью утилиты EVGA (автор А. Николайчук AKA Unwinder) и получили следующие результаты:

AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E - нормальный режим 830 МГц
AMD Radeon HD 6990 2x2048 MB 2x256-битной GDDR5, PCI-E - оверклокерский режим 880 МГц

Как мы видим, несмотря на просто колоссальное энергопотребление, нагрев для топового ускорителя находится в норме и не превышает 90 градусов по ядрам. Что говорит о высокой эффективности работы СО. Потребление же составляет при пиковых нагрузках около 360 Вт на нормальной частоте работы ядер, и 418 Вт на оверклокерской частоте работы ядер. Так что, запасайтесь сверхмощными блоками питания.

Комплектация. Учитывая, что референс-образцы никогда не имеют комплектации, мы этот вопрос опустим.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core i7-975 (Socket 1366)
    • процессор Intel Core i7-975 (3340 МГц);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 6 ГБ DDR3 SDRAM Corsair 1600 МГц;
    • жесткий диск WD Caviar SE WD1600JD 160 ГБ SATA;
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows 7 64 бит; DirectX 11;
  • монитор Dell 3007WFP (30″);
  • драйверы ATI версии Catalyst 11.2; Nvidia версии 266.58/266.66.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать по следующим ссылкам:

  • D3D RightMark Beta 4 (1050) с описанием на сайте http://3d.rightmark.org.
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1.

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Radeon HD 6990 OC с увеличенной до 880 МГц частотой GPU — режим заводского разгона Dual-BIOS (далее HD 6990 OC)
  • Radeon HD 6990 со стандартными параметрами (далее HD 6990)
  • Radeon HD 6970 со стандартными параметрами (далее HD 6970)
  • Radeon HD 5970 со стандартными параметрами (далее HD 5970)
  • Geforce GTX 570 SLI две видеокарты GTX 570 в режиме SLI со стандартными параметрами (далее GTX 570 SLI)
  • Geforce GTX 580 со стандартными параметрами (далее GTX 580)

Для сравнения результатов новой двухчиповой видеокарты Radeon HD 6990 были выбраны именно эти решения потому что: Radeon HD 5970 — это предыдущее двухчиповое решение компании для верхнего ценового диапазона, сильнейшее до выхода представленной сегодня модели; Radeon HD 6970 — быстрейшее одночиповой решение компании AMD из той же серии HD 6900, основанное на аналогичном видеочипе Cayman.

С решениями Nvidia всё несколько сложнее. Geforce GTX 580 является в принципе быстрейшей видеокартой компании, основанной на самом свежем GPU. Она не является конкурентом для представленной видеокарты AMD по цене, но её результаты интересны именно как максимальные для одноплатных решений Nvidia на текущий момент.

А вот пара GTX 570 в режиме SLI взята как некий индикатор под условным названием «GTX 590», примерно показывающий вероятный нижний уровень производительности ожидаемого весной двухчипового решения компании. Возможно, реальная такая видеокарта Nvidia будет основана на двух полноценных чипах GTX 580, но на всякий случай мы подстраховались, взяв для примера не топовые версии GPU.

Direct3D 9: тесты Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:

Даже одночиповые решения в нашем тесте фильтрации 32-битных (8 бит на цвет) текстур показывают цифры, далёкие от теоретически возможных. А уж от двухчиповых мы так и вообще получили странные результаты. Nvidia SLI в этом тесте работает явно некорректно (цифры крайне низки), а обе карты AMD на базе двух GPU не работают толком в CrossFire и/или упираются в пропускную способность шины памяти.

Соответственно и смысла рассматривать результаты этого теста из RightMark нет никакого, лучше мы ниже проанализируем цифры скорости текстурирования по соответствующему тесту из пакета 3DMark Vantage. Единственное, что понятно, так это то, что все решения AMD сильнее всех видеокарт Nvidia. И лишь для собственного успокоения рассмотрим эти же результаты и в тесте филлрейта:

Цифры показывают явное ограничение многочиповых технологий и в них мы видим всё то же самое, что и на предыдущей диаграмме. Номинально, лучший результат остаётся за новым топовым решением семейства Radeon HD 6900, хотя и одночиповый аналог отстал не слишком сильно. Но всё это не очень важно, потому что результаты теста некорректны.

Direct3D 9: тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0, встречающихся в старых играх.

Тесты очень просты для современных GPU даже в единственном экземпляре и скорость рендеринга в них упирается зачастую в производительность текстурирования. Поэтому они показывают далеко не все возможности современных видеочипов. Тем не менее, двухчиповые решения получают в них неплохой прирост производительности. Разница между скоростью HD 6970 и HD 6990 OC составила от 23% до 91% в этих тестах. И чем сложнее тест, тем больший прирост от второго GPU.

Новая HD 6990 выступила неплохо, во всех режимах обогнав HD 5970, хотя разница между ними оказалась не очень велика. А вот по сравнению с решениями Nvidia всё вообще прекрасно — последние остались далеко позади. Причиной этому — слабая эффективность SLI для двух GTX 570, которые недалеко ушли от одной GTX 580. Также в плохом уровне производительности решений Nvidia явно виноват и недостаток скорости текстурирования.

Посмотрим на результаты более сложных пиксельных программ промежуточных версий:

И в этот раз получилось примерно то же самое, что и в наиболее сложных тестах прошлого раздела. SLI-система из двух GTX 570 снова конкурирует максимум с одночиповой HD 6970, а не с реальными двухчиповыми моделями от AMD. В обоих тестах прирост от CrossFire составил почти 100%, а вот SLI эффективна разве что в подтесте Water. Тест Cook-Torrance, который интенсивен вычислительно, по какой-то причине не очень хорошо выполняется на SLI-конфигурации.

Понятно, что данные тесты лучше подходят для архитектуры AMD, чипы которой имеют большее количество математических и текстурных блоков. И Radeon HD 6990 с запасом опередил своего двухчипового предшественника, хотя разница в Cook-Torrance тоже оказалась не очень большой. Зато конкуренты от Nvidia снова отдыхают.

Direct3D 9: тесты пиксельных шейдеров Pixel Shaders 2.0

Эти тесты пиксельных шейдеров DirectX 9 сложнее предыдущих, они близки к тому, что мы сейчас видим в мультиплатформенных играх, и делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики.
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами.

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, в них важен общий баланс чипа. Производительность новой модели видеокарты AMD в тесте «Frozen Glass» оказалась лишь на 50% выше, чем у одночиповой Radeon HD 6970, хотя даже такой показатель оказался достаточен для того, чтобы с запасом опередить и GTX 580 и две GTX 570. Увы, но тест снова явно не для Nvidia, решения которой проигрывают из-за слабого текстурирования.

Во втором тесте «Parallax Mapping» решения Nvidia чувствуют себя немногим лучше, но и там проигрывают, особенно с учётом сравнительно низкой эффективности SLI — посмотрите, результат GTX 570 SLI близок к цифрам GTX 580. Но тут любопытно другое — скорость HD 6990 оказалась более чем вдвое выше, чем у HD 6970! Но ларчик открывался просто — виновата недостаточная оптимизация первых драйверов для новой архитектуры, а обновленные драйверы дали столь мощное ускорение.

Рассмотрим далее эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям — будут ли там какие-то важные изменения?

Логично, что для решений Nvidia всё в очередной раз стало заметно печальнее, так как со скоростью текстурирования у последних чипов AMD дела обстоят значительно лучше. Поэтому последние лишь наращивают своё преимущество. Даже система из двух GTX 570 проигрывает одночиповому HD 6970 в обоих тестах в модификации с упором на текстурирование. Ну а новый двухчиповый топ из семейства HD 6900 оказывается быстрейшим решением. Он прилично обогнал своего предшественника HD 5970, что вполне объяснимо теоретически, ведь важнее всего тут производительность блоков TMU.

Всё это были устаревшие задачи, в основном с упором в текстурирование, а реже в филлрейт. Далее мы рассмотрим результаты ещё двух тестов пиксельных шейдеров — но уже версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9 API. Они наиболее показательны с точки зрения современных игр на ПК, среди которых много мультиплатформенных. Тесты отличаются тем, что сильно нагружают и ALU, и текстурные модули, обе шейдерные программы сложны и длинны, и включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики.
  • Fur — процедурный шейдер, визуализирующий мех.

В наших самых сложных DX9 тестах, видеокарты производства Nvidia всегда выступали сильнее решений AMD, в отличие от предыдущих тестов подраздела. Это связано с тем, что последние два DX9 теста не ограничены производительностью текстурных выборок, а зависят скорее от эффективности исполнения кода пиксельных шейдеров.

Но Nvidia снова немного подвела сравнительно низкая эффективность двухчипового рендеринга, так как GTX 570 SLI оказался не так уж и сильнее одной GTX 580. А вот скорость HD 6990 OC ровно вдвое быстрее, чем производительность одночипового аналога HD 6970, что говорит о максимальной эффективности CrossFire. В итоге, в тестах сложных пиксельных шейдеров версии 3.0 новая топовая видеокарта от AMD смогла не только догнать конкурентов, но и обогнать систему из двух GTX 570 в одном из тестов.

Скорость в обоих PS 3.0 тестах слабо зависит от ПСП и текстурирования, зато код отличается сложностью, с чем неплохо справляются обе новые архитектуры Nvidia и AMD. Кроме того, в этом тесте и разница между эффективностью предыдущей и новейшей архитектурами компании (Cypress и Cayman) оказалась максимальной.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте более всего зависит от количества и эффективности блоков TMU и ROP. Результаты при детализации уровня «High» получаются примерно в полтора раза ниже, чем при «Low», как и должно быть по теории. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia были раньше сильнее, но семейство Radeon HD 6900 заметно к ним подтянулось.

В варианте без суперсэмплинга, на производительность большее влияние оказывает эффективный филлрейт и пропускная способность памяти. Поэтому одночиповое решение Nvidia оказалось впереди одночиповой же HD 6970, но из-за высокой эффективности CrossFire мы снова видим, что HD 6990 стала лидером и обгоняет SLI конфигурацию двух карт GTX 570 в фабрично разогнанном режиме. Похоже, что Nvidia желательно делать двухчиповую карту не на основе GTX 570, а двух GTX 580...

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Как всегда, включение суперсэмплинга увеличивает теоретическую нагрузку в четыре раза и сравнительные результаты решений Nvidia заметно падают. Теперь HD 6970 показывает результат на уровне GTX 580, а две GTX 570 могут соперничать лишь с устаревшим HD 5970. Новое двухчиповое решение HD 6990 в обоих частотных режимах опережает все остальные представленные видеоплаты. Снова мы видим очень неплохой результат от свежего решения компании AMD.

Второй шейдерный DX10 тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 несколько интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются во многих проектах, например, в играх Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Диаграмма во многом похожа на предыдущую без сглаживания методом суперсэмплинга, но позиции обеих решений Nvidia ослабли. В обновленном D3D10 варианте теста без SSAA, HD 6970 становится ближе к GTX 580, хотя и немного отстаёт. Зато, новинка Radeon HD 6990 теперь обгоняет GTX 570 SLI во всех режимах и частотных конфигурациях. В этом тесте у неё есть явное преимущество, по сравнению с предыдущим двухчиповым решением HD 5970. Посмотрим, что изменит включение суперсэмплинга, ведь он обычно вызывает дополнительное падение скорости на платах с GPU производства Nvidia.

При включении суперсэмплинга и самозатенения задача ещё более сложна, совместное включение сразу двух этих опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась, включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD немного улучшили свои показатели относительно решений Nvidia.

И снова с включением SSAA одночиповая HD 6970 показывает результаты на уровне GTX 580, а новинка на базе двух GPU опережает SLI-систему из пары GTX 570. Сравнительная разница между Cayman и Antilles близка к двукратной, что снова говорит о прекрасной работе CrossFire. SLI также работает неплохо, но сравнительная слабость GTX 570 не позволяет паре таких видеокарт догнать HD 6990.

В общем, по паре последних тестов можно сделать вывод о том, что выпущенная сегодня двухчиповая плата семейства HD 6900 справляется со своим потенциальным конкурентом от Nvidia, если он будет основан на двух GTX 570 или иметь близкие к ним характеристики: количество исполнительных блоков и тактовую частоту.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов привычно соответствуют разнице в частотах и количестве исполнительных блоков, с небольшим влиянием их эффективности. Современная архитектура AMD в таких случаях имеет просто огромное преимущество перед конкурирующими видеокартами от Nvidia и это прекрасно объясняет полученные результаты.

Теоретическая разница в пользу AMD настолько велика, что даже система из двух GTX 570 показывает результат лишь чуть-чуть лучше, чем одночиповая Radeon HD 6970! Понятно, что даже HD 5970 обгоняет два GPU от Nvidia, хотя теоретическая разница между ними даже ещё больше.

Но теория мало что меняет в случае противостояния HD 6990 и GTX 570 SLI — новая топовая видеокарта от компании AMD на 80% быстрее в несложных математических вычислениях, по сравнению с гипотетической двухчиповой видеокартой Nvidia на базе двух GF110 с характеристиками GTX 570. В данном случае и CrossFire и SLI эффективно справились с распараллеливанием работы на два чипа, и разница между HD 6970 и HD 6990 OC близка к двукратной.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нём только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

И в этот раз все решения остались примерно на тех же позициях. Единственное отличие в том, что относительная производительность двух чипов Cypress чуть улучшилась. В остальном, изменений практически нет. Так как скорость рендеринга в тесте ограничена исключительно производительностью шейдерных блоков, то HD 6990 снова является явным лидером.

За новой моделью следует двухчиповая же HD 5970 от той же AMD, а обе системы на Geforce им уступают. GTX 570 SLI снова недалеко ушла от одночиповой HD 6970. Nvidia в следующем поколении явно нужно что-то менять, наращивая математическую мощь.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS почти двукратное. Задача для современных видеокарт не особенно сложная, производительность в целом ограничена не только скоростью обработки геометрии, но и пропускной способностью памяти или филлрейтом в определённой мере (только в рамках GPU одного производителя).

Увы, хотя новые чипы AMD отличаются увеличенной геометрической производительностью, но хвастать им в этом тесте оказалось нечем. Фабрично разогнанная HD 6990 OC лишь совсем немного опередила одночиповую GTX 580. Немудрено, что две GTX 570 в SLI стали единоличным лидером теста, на 50% обгоняя HD 6990. Да и от Radeon HD 5970 предыдущего поколения новая карта AMD ушла недалеко. Возможно, тут виновато ограничение производительности ПСП видеопамяти или блоки ROP выполняют данную работу неэффективно, как мы отмечали ранее.

Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте, цифры для решений и Nvidia и AMD почти не изменились. Хотя видеокарты семейства HD 6900 в данном тесте всё же немного реагируют на изменения параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, показывая результаты чуть выше, чем на предыдущей диаграмме. Но это ничего не меняет по сути, серьёзное отставание от GPU архитектуры Nvidia остаётся. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Сразу же понятно, что тест для сравнения многочиповых систем просто не подходит. По каким-то причинам, и CrossFire и SLI в этом тесте не просто неработоспособны, но и показывают аномально низкие результаты, намного хуже, чем аналогичные одночиповые системы. Чем-то это похоже на тест филлрейта в исполнении GTX 570 SLI. Ну а одночиповые видеокарты мы сравнили ещё в декабре — решения Nvidia тут явно побыстрее.

Впрочем, цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров.

Но нет, видим тут ровно то же самое — тест Hyperlight не подходит для мультичиповых графических систем. И Nvidia SLI и AMD CrossFire работают в нём одинаково неадекватно. В любом случае, по предыдущим сравнительным материалам и результатам GTX 580 и HD 6970 мы видим, что видеокарты Nvidia справляются с геометрическими шейдерами гораздо лучше, чем решения AMD.

И вряд ли Radeon HD 6990 здесь что-то изменит, ну разве что два GPU от AMD всё-таки догонят один чип производства Nvidia. Вероятно, инженерам AMD ещё предстоит решать задачу распараллеливания работы блоков установки треугольников (geometry setup), в которую могут упираться эти тесты.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Предыдущие исследования показали, что на результаты этого теста влияет и скорость текстурирования и пропускная способность памяти, в той или иной мере. И мультичипы, в отличие от последнего теста геометрических шейдеров, выступают здесь очень неплохо.

Radeon HD 6990, основанный на двух новых GPU, показывает очень хорошие результаты даже чуть выше уровня двух GTX 570 в SLI. Которые сильно отстали только в наиболее простом режиме (у видеокарт Nvidia в этом тесте производительность во что-то явно упирается).

Эффективность двухчиповых конфигураций весьма неплохая, разница между HD 6990 и HD 6970 почти достигает двух раз. Именно поэтому новое решение AMD становится лидером теста. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Во втором тесте VTF соотношение результатов заметно изменилось, особенно в тяжёлом режиме. Хотя видеокарты Nvidia продолжают показывать низкие результаты в наиболее лёгких условиях. Вероятно, при малом количестве полигонов скорость рендеринга упирается во что-то (на ПСП не похоже) и в этом случае новая плата AMD даже опережает потенциальное двухчиповое решение Nvidia.

А вот в тяжёлых режимах разница остаётся в пользу Nvidia. Предыдущий двухчиповый топ Radeon HD 5970 показывает скорость на уровне одночиповой GTX 580, а HD 6990 даже в разогнанном виде отстаёт от системы из двух GTX 570, хотя и не слишком сильно.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования — «Waves» традиционно сильно отличаются от того, что мы видели на предыдущих диаграммах. В этом тесте одночиповые видеокарты показывают близкие результаты, что можно списать на ограничение пропускной способностью видеопамяти, зато эффективность двухчипового рендеринга весьма высока — почти 100%.

И поэтому, с учётом того, что Cayman — это полночастотный и полноценный топовый GPU, и на HD 6990 их установлено две штуки, данное решение выходит на первое место в сравнении, а SLI-система из двух Geforce GTX 570 отстаёт от новой платы AMD довольно сильно. Рассмотрим второй вариант этого же теста:

Разница, по сравнению с предыдущей диаграммой, крайне невелика. Хотя скорость видеокарт Nvidia «просела» значительно меньше, чем у решений AMD. Поэтому, в режиме с малым количеством полигонов лучшим остаётся представленный сегодня Radeon HD 6990, но в среднем и тяжёлом лидирует уже система на двух GTX 570. А одиночная GTX 580 составляет конкуренцию старенькому, но двухчиповому HD 5970.

3DMark Vantage: Feature тесты

Синтетические тесты из пакета 3DMark Vantage могут показать нам что-то, что мы ранее упустили. Feature тесты этого тестового пакета обладают поддержкой DirectX 10 и интересны уже тем, что отличаются от наших. При анализе результатов новых видеокарт в этом пакете мы сможем сделать какие-то новые и полезные выводы, ускользнувшие от нас в тестах семейства RightMark. К сожалению, ещё более новый тестовый пакет компании — 3DMark11 — не содержит специализированных синтетических тестов и нам в данном случае совсем не интересен.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Результаты видеокарт в текстурном тесте компании Futuremark всегда близки к теоретически возможному уровню скорости текстурных выборок и эффективность видеокарт от AMD и Nvidia в нём несколько выше, чем в нашем. В данном тесте всегда получается иное соотношение результатов, по сравнению с RightMark, а в этот раз и подавно.

Итак, по диаграмме наглядно видно, что видеокарты AMD гораздо быстрее по текстурированию, по сравнению со своими конкурентами. Даже одночиповая модель Radeon HD 6970 показывает результат, близкий к двум GTX 570, не говоря уже о двухчиповых решениях. Двухчиповый HD 6990 является явным лидером теста, ведь текстурная производительность Cayman заметно выросла, по сравнению с Cypress, а тут ещё и установлены два GPU, а не один. Отличный результат для новинки!

Feature Test 2: Color Fill

Это — тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Тут мы также видим совсем иную ситуацию, по сравнению с нашим тестом филлрейта. Подтест Futuremark измеряет именно производительность блоков ROP, почти без влияния величины пропускной способности видеопамяти. Тут уже карты Nvidia вполне себе конкурируют с решениями AMD и делают это совсем неплохо.

Одночиповый Geforce GTX 580 получился явно быстрее аналогичного Radeon HD 6970, а две GTX 570 лишь немного не достают HD 6990. И всё же, для того, чтобы будущая двухчиповая плата от Nvidia составила сильную конкуренцию для HD 6990, её нужно будет создавать на основе двух чипов, по характеристикам аналогичным GTX 580, а не GTX 570.

Влияние ПСП на результаты теста видно по цифрам HD 6990 в двух режимах. Сначала может показаться странным, что разницы между ними почти нет, но объяснение этому очень простое — в режиме повышенных частот меняется только тактовая частота GPU, а частота видеопамяти остаётся номинальной, ограничивая ПСП. Поэтому и результаты показаны схожие.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.

Этот тест отличается от других подобных тем, что результаты в нём зависят не исключительно от скорости математических вычислений или эффективности исполнения ветвлений или скорости текстурных выборок, а от всего понемногу. И для достижения высокой скорости важен правильный баланс производительности различных блоков GPU. Влияет на скорость и эффективность выполнения ветвлений в шейдерах.

Сравнительные результаты видеокарт AMD весьма похожи на то, что мы видели в тесте текстурной производительности чуть выше. Ну а решения платы Nvidia получили небольшой рост скорости, что говорит о том, что не только текстурная производительность влияет на результаты теста. В итоге, даже с учётом подтягивания решений Nvidia вверх, лидером остаётся новая двухчиповая модель от AMD. А пара GTX 570 успешно конкурирует лишь с HD 5970 на GPU прошлого поколения.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте зависит от многих параметров, основными из которых является производительность обработки геометрии и эффективность выполнения геометрических шейдеров. Как и в наших тестах, видеокарты производства компании Nvidia чувствуют себя в этом приложении явно лучше, значительно опережая конкурентов.

В тесте хорошо видно преимущество нового поколения архитектуры AMD перед старой. Ведь Radeon HD 6970 на базе одного Cayman справляется с двухчиповым HD 5970 (возможно, у него не работал CrossFire в этом тесте). Прирост производительности от второго Cayman составил почти 100%, но это всё же не позволило даже приблизиться к паре GTX 570. Более того, даже одна GTX 580 показывает скорость лишь на 20% ниже, чем у двухчиповой новинки. Скорее всего, это объясняется именно разницей в организации графического конвейера по обработке геометрии.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.

Результаты ещё одного теста из пакета 3DMark Vantage похожи на те, что мы видели на предыдущей диаграмме, и тут также больше всего важна скорость обработки геометрии. Поэтому прошлое поколение в виде карты Radeon HD 5970 стало аутсайдером, отстав от обеих систем производства Nvidia, являющихся явными лидерами, а также от новых моделей семейства HD 6900, основанных на чипах Cayman.

Силы чипов новой архитектуры AMD хватает только для соперничества с одночиповым Geforce GTX 580, а пара GTX 570 убежала далеко вперёд. Получается, что в синтетических тестах имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры, решения линейки HD 6900 продолжают отставать от конкурирующих видеокарт соперника, имеющих отличную скорость обработки геометрии.

Feature Test 6: Perlin Noise

Последний feature тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он использует очень много математических расчётов.

А вот в чисто математическом тесте из пакета компании Futuremark, показывающим пиковую производительность видеочипов в предельных задачах, мы увидели примерно то же, что и в аналогичных тестах из нашего пакета RightMark 2.0 — полный разгром решений Nvidia.

Но вот что странно — результат HD 6990 в обычном режиме аномально низкий. При теоретической разнице в 6% получилось больше четверти отставания от разогнанного режима. Почему? Мы думаем, что в этом виновата слишком умная система управления питанием PowerPlay, снизившая тактовую частоту на неразогнанном варианте, а вместе с ней и производительность решения при достижении установленного порога энергопотребления. А в «OC» режиме система просто расправила крылья.

В остальном же обошлось без откровений. Платы Nvidia по пиковой математике изрядно отстают от решений AMD даже из других ценовых диапазонов, поэтому и сравнение получается далеко не в их пользу. Две GTX 570 не достают даже Radeon HD 5970, не говоря уже о HD 6990 в режиме фабричного разгона Dual-BIOS. Тут Nvidia и три GF110 на одной плате не помогут...

Выводы по синтетическим тестам

По результатам проведённых синтетических тестов новой видеокарты из семейства Radeon HD 6900, основанной на двух графических процессорах Cayman, а также результатам других моделей видеокарт производства обоих производителей дискретных видеочипов, можно сделать вывод о том, что это — быстрейшая видеокарта на рынке на сегодняшний день, и отличная замена для Radeon HD 5970.

Благодаря установке двух мощных GPU на основе новой архитектуры AMD, выпущенная сегодня видеокарта Radeon HD 6990 ещё дальше оторвалась от конкурента в лице лучшего (но одночипового) решения Nvidia — Geforce GTX 580. И до выхода двухчиповой видеокарты от этой компании, если таковой всё же состоится, именно Radeon HD 6990 будет носить звание быстрейшей. В большинстве синтетических тестов она опередила другие модели, кроме тех редких применений, производительность в которых ограничена скоростью обработки геометрии, тесселяции и выполнения геометрических шейдеров.

Даже одночиповый Radeon HD 6970 показывал в синтетике приличную скорость, а высокая эффективность режима CrossFireX позволила модели HD 6990 стать ещё почти вдвое быстрее. И особенно заметно преимущество представленной сегодня видеокарты в тестах текстурирования и пиковой математической производительности, что стало традиционным для решений компании AMD.

Из потенциальных недостатков, кроме отставания в геометрической производительности, можно отметить не слишком выдающиеся результаты в математических тестах, по сравнению с тем же HD 5970. А также вполне реальную возможность того, что система управления питанием PowerTune может снизить тактовые частоты при достижении максимального энергопотребления в некоторых наиболее требовательных синтетических тестах, не позволяя показать в них более высокую производительность.

Но эти маленькие ложечки дёгтя мало что меняют. Как мы уже писали выше, новое решение наверняка окажется самой производительной видеокартой и в игровых тестах. И результаты Radeon HD 6990 в синтетических тестах просто обязаны быть подтвержденными соответствующими цифрами и в «игровой» части нашего материала. Соответственно и цена решения получилась хоть и высокой, но она вполне оправдана уже тем, что у Radeon HD 6990 в принципе нет конкурентов.

К слову о конкурентах. По многочисленным слухам, Nvidia готова вскоре выпустить свой вариант двухчиповой платы на двух чипах GF110. И исход двухчипового сражения будет зависеть от того, какими характеристиками наделят эти два GPU, будут ли они ближе к GTX 570 или к GTX 580. По нашим тестам очевидно, что для Nvidia весьма желательно максимально приблизиться к частотам и количеству исполнительных блоков, имеющихся в GTX 580, чтобы опередить анонсированное решение, особенно в режиме заводского разгона.

Но сделать это будет не так то просто, ведь главным ограничителем послужит довольно высокое энергопотребление GPU от Nvidia. Пока же характеристики их будущей видеокарты неизвестны, и мы можем лишь гадать о них. И чтобы гадания были предметными, давайте рассмотрим результаты игровых тестов Radeon HD 6990.



AMD Radeon HD 6990 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN

Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3Logic

Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно