Nvidia Geforce 9800 GX2

Новый двухчиповый претендент на трон 3D короля: Gigabyte Geforce 9800 GX2 2x512MB PCI-E, XFX Geforce 9800 GX2 2x512MB PCI-E




СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 9800 GX2 (2xG92): Часть 1: Теоретические сведения


Мы протестировали две видеокарты на базе Geforce 9800 GX2, выпуска Gigabyte и XFX. Все ускорители имеют номинальные частоты работы. Карты — референс-платы, купленные партнерами у Nvidia, и произведенные на заводах Flextronics и PC Partner по заказу калифорнийского чипмейкера.

Платы



Gigabyte Geforce 9800 GX2 2x512MB PCI-E
  • GPU: 2 × Geforce 9800 GTX (2 × G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders):600/1512 МГц (номинал — 600/1512 МГц)
  • Частоты работы памяти (физическая (эффективная): 1000 (2000) МГц (номинал — 1000 (2000) МГц)
  • Ширина шины обмена с памятью: 2 × 256bit
  • Число вершинных процессоров:
  • Число пиксельных процессоров:
  • Число универсальных процессоров: 2 × 128
  • Число текстурных процессоров: 2 × 64 (BLF/TLF)
  • Число ROPs: 2 × 16
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI.
  • VIVO: нет
  • TV-out: не выведен.
  • Поддержка многопроцессорной работы: SLI (Hardware).
XFX Geforce 9800 GX2 2x512MB PCI-E
  • GPU: 2 × Geforce 9800 GTX (2 × G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 600/1512 MHz (номинал — 600/1512 МГц)
  • Частоты работы памяти (физическая (эффективная): 1000 (2000) МГц (номинал — 1000 (2000) МГц)
  • Ширина шины обмена с памятью: 2 × 256bit
  • Число вершинных процессоров:
  • Число пиксельных процессоров:
  • Число универсальных процессоров: 2 × 128
  • Число текстурных процессоров: 2 × 64 (BLF/TLF)
  • Число ROPs: 2 × 16
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI.
  • VIVO: нет
  • TV-out: не выведен.
  • Поддержка многопроцессорной работы: SLI (Hardware).


Gigabyte Geforce 9800 GX2 2x512MB PCI-E
XFX Geforce 9800 GX2 2x512MB PCI-E
Каждая карта имеет 1024 МБ памяти GDDR3 SDRAM, размещенной в 16 микросхемах (по 8 на каждой PCB, на лицевой стороне)

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 0,8 нс, что соответствует частоте работы 1250 (2500) МГц.



Сравнение с эталонным дизайном, вид спереди
Gigabyte Geforce 9800 GX2 2x512MB PCI-E Reference card Nvidia Geforce 9800 GTX
XFX Geforce 9800 GX2 2x512MB PCI-E


Сравнение с эталонным дизайном, вид сзади
Gigabyte Geforce 9800 GX2 2x512MB PCI-E Reference card Nvidia Geforce 9800 GTX
XFX Geforce 9800 GX2 2x512MB PCI-E


Очевидно, что перед нами уникальные платы. В отличие от предшественника в двухчиповом исполнении 7950GX2 в данном случае компания Nvidia подошла к формированию готового продукта более серьезно. Это вызвано, прежде всего, сильным тепловыделением каждого из G92, а также оснащением карт быстрой памятью, которая также нуждается в охлаждении, поэтому использовать прежние относительно простые системы охлаждения стало невозможно.

Разместить оба процессора со своим комплектом памяти на одной PCB — очень тяжело и дорого, хотя по окончании исследования сложности представленной конструкции 9800 GX2 возникли сомнения в том, что сделать двухчиповый ускоритель на двух PCB — это дешевле, чем разместить их же на одной плате по подобию RADEON 3870 X2.




Получилась не видеокарта, а коробка с разъемами. Инженеры Nvidia решили разместить две PCB вдоль стенок этого кожуха, а общий кулер, охлаждающий оба процессора и два комплекта памяти, — между ними. Поэтому, как можно догадаться, обе PCB расположены чипами друг к другу, то есть вовнутрь всей конструкции.



Разработчики так сильно заботились о целостности конструкции, что разобрать карту весьма сложно. Одна половинка кожуха очень хитро закреплена, и отсоединить ее без приложения силы оказалось невозможно.

Внутри — две PCB (как у 9800 GTX), но с вырезами для доступа воздуха к турбине, находящейся к хвостовой части конструкции.

Как мы видим из вышеприведенных фотографий, засасывание воздуха идет по бокам, в задней части акселератора. Там нет PCB, а установлена большая цилиндрический вентилятор, работающая на относительно невысоких оборотах. Куда уходит отработанный теплый воздух? Ведь мы привыкли, что такие турбины выбрасывают его за пределы корпуса через решетки, занимающие второй слот у подобных карт. Но в данном случае наличие двух PCB позволило разработчикам построить такой выхлоп лишь в нижней части конструкции (посмотрите на первые снимки карт, где демонстрируются разъемы, — под ними хорошо видно решетку, через которую идет выдув горячего воздуха).

Но данного выдува будет маловато, и потому разработчики решили использовать верхнюю часть конструкции. И наверху ускорителя также есть решетки, и туда также выдувается горячий воздух, но он остается внутри системного блока. Ради более удобной и относительно компактной (не занимающей больше двух слотов) конструкции пришлось пожертвовать полноценным выбросом тепла за пределы корпуса.



Это, разумеется, не может не привести к повышенному нагреву, как самой карты, так и всего, что рядом с ней. Более того, после длительной работы нагрев кожуха становится выше болевого порога чувствительности, и надо чтобы ускоритель немного остыл после окончания работы. Это следует учитывать потенциальным покупателям данного продукта, которым необходимо иметь просторный корпус с очень хорошо организованной продувкой.

Длина ускорителя — 270 мм, как у 8800 GTX/Ultra, поэтому в корпусе должно быть достаточно места для установки такой конструкции. Ширина кожуха неизменна вдоль всей длины, а, следовательно, на материнской плате за PCI-E x16 разъемом не должно быть портов и высоких конденсаторов, на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть высоких частей на системной плате).

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому-то эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок.

Питание ускорителя осуществляется с помощью ДВУХ разъемов, 6-пинового и 8-пинового. Поэтому также следует обращать внимание на наличие в комплекте поставки переходника питания на 8-пин.

Огромным минусом является расположение этих гнезд питания — защелками вовнутрь. Это создаст большие трудности при снятии «хвостов» питания от БП, когда потребуется нажатие на защелку (а между разъемами палец просунуть почти нереально, поэтому потребуется относительно мастерски владеть отверткой для данных целей).

У данных карт НЕТ(!) гнезда TV-выхода.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами не должно быть. Имеется третье гнездо для вывода сразу непосредственно на HDMI-приемник.

Максимальные разрешения и частоты:

  • 240 Гц Max Refresh Rate
  • 2048 × 1536 × 32bit × 85 Гц Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60 Гц Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А. Николайчук AKA Unwinder) и получили следующие результаты:

Geforce 9800 GX2 2x512MB PCI-E

Мониторинг дает возможность увидеть нагрев через внешний датчик, расположенный на плате (первое значение температуры ядра), а также температуры, полученные через драйвер Nvidia, показывающие нагрев каждого ядра (второе и третье значения температур). Очевидно, что практика доказывает наше предположение о том, что данная СО, которая частично выбрасывает горячий воздух наружу, но в большей степени он остается внутри корпуса, не слишком эффективна. Поэтому мы видим нагрев до 90 градусов. Хотя, должны заметить, что это не сказывается на шуме, кулер работает на относительно невысоких оборотах. Разумеется, система охлаждения не полностью бесшумна, некоторый шелест можно услышать. Но это не критично.

Теперь насчет комплектов поставки.

Все карты в базовом номинальном комплекте имеют руководство пользователя, диск с драйверами и утилитами, два разветвителя внешнего питания (один на 6 пин, а второй на 8 пин), переходник-адаптер DVI-to-VGA, DVI-to-HMDI адаптер, аудио-шнурок для передачи сигнала со звуковой карты на HDMI. Далее мы покажем, что предлагается каждым вендором дополнительно.



Gigabyte Geforce 9800 GX2 2x512MB PCI-E
Этот комплект полностью соответствует базовому набору.
XFX Geforce 9800 GX2 2x512MB PCI-E
Не хватает HDMI-адаптера, хотя при наличии отдельного гнезда это малосущественно. Имеется бонус — игра Company Of Heroes с DX10-патчем.


Упаковки.

Gigabyte Geforce 9800 GX2 2x512MB PCI-E

Традиционная для этой компании вертикальная упаковка (когда весь дизайн расположен по вертикали). Яркий глянцевый супер в давних традициях Gigabyte, а внутри — бокс из толстого картона. Сама карта находится в отсеке из пенополиуретана, поэтому сохранность в процессе транспортировки гарантирована. А остальной комплект — в отсеке над картой.

XFX Geforce 9800 GX2 2x512MB PCI-E

Эта компания известна своими толстыми упаковками для Hi-End продуктов. И в данном случае мы видим то же. Внутри бокса в куске толстенного поролона сделан вырез, куда помещена карта. Поэтому сохранность при перевозке будет отличной.

Остальной комплект — в специальном отсеке.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 МГц);
    • системная плата Gigabyte GA-X38-DQ6 на чипсете Intel X38;
    • оперативная память 2 ГБ DDR2 SDRAM Corsair 1142 МГц (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan 1100-U95 (1100W).
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista 32bit; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.3; Nvidia версии 174.74.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce 9800 GX2 со стандартными параметрами (далее GF9800GX2)
  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX)
  • Nvidia Geforce 8800 Ultra со стандартными параметрами (далее GF8800U)
  • RADEON HD 3870 X2 со стандартными параметрами (далее HD3870X2)

Эти модели видеокарт были выбраны для сравнения результатов Geforce 9800 GX2 по следующим причинам: с новой Geforce 9800 GTX и со старой Geforce 8800 Ultra её сравниваем, как с быстрейшими одночиповыми видеокартами на аналогичной архитектуре, в том числе и чтобы понять, что даёт второй чип в синтетических тестах. а с RADEON HD 3870 X2 сравнение интересно потому, что это аналогичное двухчиповое решение от AMD, единственный прямой конкурент рассматриваемой сегодня видеокарты.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



В этом тесте традиционно не у всех видеокарт получаются значения, близкие к теоретическому максимуму. Чаще всего результаты синтетики не дотягивают до теории, ближе всего к ним подбираются видеокарты на основе G80 и RV670. А для видеокарт Nvidia, отличающихся улучшенными TMU, в нашем старом тесте теоретический максимум не достигается.

Что касается нашего сегодняшнего героя, то по какой-то странной причине, связанной с реализацией мультичипового рендеринга, в наших тестах филлрейта он провалился. В то время как его конкурент RADEON HD 3870 X2 прекрасно себя чувствует, показывая результат между Geforce 9800 GTX и Geforce 8800 Ultra, в случаях, когда карты не ограничены пропускной способностью видеопамяти. Смотрим на результаты в тесте филлрейта:

Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами производительность всё так же ограничена ПСП, количеством и рабочей частотой блоков ROP. И всё так же конкурент от AMD показывает результат, близкий к скорости одночиповых карт Nvidia.

Хорошо видно, что для Geforce 9800 GX2 в тесте есть какой-то предел производительности, не позволяющий ему показать достойный результат, соответствующий теории. Впрочем, наша несколько устаревшая DX9 синтетика не является определяющей при установлении относительной производительности, но мы можем предположить, что подобная ситуация повторится и в некоторых из более новых тестов.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Все чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты в очередной раз подтверждают, что решения AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia. Разница между всеми Geforce и RADEON HD 3870 X2 достаточно велика, даже в такой простой задаче решение AMD оказывается быстрее. Но и Geforce 9800 GX2 почти вдвое опережает одночиповый Geforce 9800 GTX, учитывая меньшую частоту GPU у первого. Производительность при выполнении геометрических задач в AFR режиме почти удваивается и одночиповые решения того же производителя остаются далеко позади.

Эффективность выполнения теста в разных режимах у всех представителей архитектуры Nvidia несколько отличается. На картах с G9x, включая двухчиповый вариант, режим FFP оказался быстрее, чем VS 1.1 и VS 2.0, а у G80 цифры отличаются не сильно. Мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, и сразу переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



В этом случае разница между скоростью решений AMD и Nvidia увеличилась, RADEON HD 3870 X2 уверенно опережает остальные решения, в том числе и двухчиповый Geforce 9800 GX2. Даже в самой сложной геометрической задаче возможности RV670 не раскрыты полностью, результаты в разных режимах близки и почти не отличаются от показанных на предыдущей диаграмме. В этом тесте с тремя смешанными источниками света наличие оптимизированной эмуляции FFP у чипа G92 видно ещё нагляднее.

Эффективность двухчипового рендеринга на Geforce 9800 GX2 в этот раз ниже, до двукратной разницы дотянули не всегда. Впрочем, карта заметно быстрее одночиповых Geforce 8800 Ultra и 9800 GTX, как и должно быть, исходя из теории. В целом, все решения хорошо проявили себя в тестах, и способны использовать все свои универсальные потоковые процессоры для решения геометрических задач. В реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.

Данные тесты слишком просты для современных архитектур и не показывают их истинную силу. В них производительность зачастую ограничена скоростью текстурных выборок и филлрейтом, что хорошо видно по слабым результатам RADEON HD 3870 X2, который во многих тестах показывает результаты на уровне одночиповых карт Nvidia, иногда даже и хуже. Явно сказывается сравнительно малое количество TMU у чипа AMD, ведь даже в относительно сложных PS 2.0 тестах, таких, как Phong с тремя источниками света, решение AMD продолжает оставаться позади двухчипового аналога Nvidia.

А Geforce 9800 GX2 показывает отличные результаты в простых тестах пиксельных шейдеров, он примерно в два раза быстрее одночипового аналога, если учитывать меньшую частоту решения. А у RADEON выигрывает с большим преимуществом всегда, кроме самого сложного шейдера, где скорость уже не ограничена филлрейтом и текстурными выборками. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому двухчиповая карта AMD отстаёт даже от одночиповых решений на основе и G92 и G80, а рассматриваемая сегодня видеокарта весьма эффективно работает в AFR режиме, удваивая частоту кадров в секунду, по сравнению с одночиповой Geforce 9800 GTX, в полном соответствии с частотами и теорией.

А второй тест, более интенсивный вычислительно, явно лучше подходит для архитектуры AMD с большим числом вычислительных блоков: в нём решение AMD не только опережает одночиповые варианты карт Nvidia, но и немного обгоняет нашего героя — Geforce 9800 GX2. Который, в свою очередь, честно удваивает производительность по отношению с картой на основе единственного G92, работающей на равной частоте.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существуют два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

Положение RADEON HD 3870 X2 в тесте «Frozen Glass» очень тяжёлое, ситуация схожа с той, что получилась в предыдущем блоке в тесте «Water». В этом случае решение AMD проигрывает и одночиповым Geforce 9800 GTX и Geforce 8800 Ultra и уж тем более — двухчиповой 9800 GX2. Несмотря на то, что это математические тесты, которые должны зависеть больше от мощности шейдерных блоков, по всей видимости, их производительность ограничена не только математикой и скоростью текстурных выборок, но также и филлрейтом.

Во втором тесте «Parallax Mapping» решение AMD уже почти догоняет Geforce 9800 GX2, являющуюся лидером в данном тесте, обе двухчиповые карты эффективно удваивают производительность по сравнению с одночиповыми картами. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там видеокарты на основе G92 должны показать более высокие результаты:



На всех решениях варианты шейдеров с большим количеством текстурных выборок работают медленнее, чем их «математические» варианты. Но положение несколько изменилось, производительность в тесте ещё больше упирается в скорость текстурных блоков, и двухчиповый вариант на основе пары G92 очень сильно опережает RADEON HD 3870 X2 в обоих тестах, около двух раз. Карта AMD может кое-как конкурировать только с одиночными платами Nvidia. а Geforce 9800 GX2 вдвое быстрее, по сравнению с одночиповым аналогом, с учетом разности в частотах.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Нагрузка на видеокарты становится очень большой, и хотя чипы AMD обеспечивают эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, двухчиповая карта на основе пары RV670 показывает результат, близкий к цифрам, достигнутым одночиповым Geforce 9800 GTX. Судя по сравнению результатов, показанных картами на основе G80 и G92, это можно объяснить ускоренными билинейными текстурными выборками в архитектуре G9x, а также большей эффективностью использования имеющихся ресурсов.

Разница в скорости двухчипового Geforce 9800 GX2 и одночипового Geforce 9800 GTX на той же модели GPU полностью соответствует теории, производительность удвоена при помощи AFR, если учесть пониженные рабочие частоты рассматриваемой сегодня видеокарты.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Результаты всех карт в режиме «High» получились примерно в полтора раза ниже, чем в «Low». Так как Geforce 8800 Ultra несколько быстрее решения на основе одного G92, значит, в тесте сказывается влияние филлрейта и большей ПСП. Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок в очередной раз показывают огромное преимущество решений Nvidia над AMD, двухчиповое решение второй компании в этом тесте не может конкурировать с картами Nvidia.

Производительность Geforce 9800 GX2, не забывая о более низких тактовых частотах, почти точно в два раза быстрее одночиповой карты Geforce 9800 GTX, AFR в этом синтетическом тесте очень эффективен. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, но на видеокартах Nvidia скорость снижается сильнее, чем на AMD. Отрыв между HD 3820 X2 и одночиповыми Geforce сокращается, но видеоплата AMD всё так же отстаёт, а преимущество карт Nvidia в данном случае подавляющее. В остальном, всё то же — с увеличением нагрузки на видеочип, разница между картами немного сокращается, а Geforce 9800 GX2 всё так же почти в два раза быстрее одночиповой новинки Nvidia.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест интереснее с практической точки зрения, — разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в последних релизах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Хотя решения AMD ранее были традиционно сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга даже двухчиповая видеокарта AMD не может справиться с нашей задачей на уровне одночиповых видеокарт Geforce 9800 GTX и 8800 Ultra. Да и включение самозатенения вызывает на продукции AMD большее падение производительности.

Рассматриваемый Geforce 9800 GX2 показывает высокий FPS, почти в два раза больший, чем у 9800 GTX, с учетом частот. Это говорит о том, что данные синтетические тесты отлично подходят для SLI AFR. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia…

При включении суперсэмплинга и самозатенения задача получается более тяжелой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже иная. Включение суперсэмплинга сказывается, как и в предыдущем случае, — карта производства AMD значительно улучшает свои показатели относительно решений Nvidia, и RADEON HD 3870 X2 практически догоняет одночиповые варианты решений Geforce, но двухчиповый Geforce 9800 GX2 оказывается далеко впереди, он ровно в два раза быстрее равночастотного Geforce 9800 GTX, что точно соответствует теории.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Ранее, при анализе результатов наших Direct3D 9 синтетических тестов мы не раз отмечали, что в вычислительно сложных задачах современная архитектура AMD показывает себя очень хорошо, и зачастую даже лучше конкурирующей от Nvidia. Но модификации в G92 действительно помогли улучшить производительность, как вы можете видеть по сравнению двух одночиповых карт, и теперь в соперничестве RADEON HD 3870 X2 и конкурирующего Geforce 9800 GX2, решение AMD даже проигрывает, хоть и несущественно.

Номинально наибольшую частоту кадров показывает Geforce 9800 GX2, но эффективность SLI несколько упала, по сравнению с предыдущими тестами, и прирост от работы второго чипа не составляет 95-100%. Всё остальное соответствует теоретическим данным по количеству и тактовой частоте универсальных шейдерных блоков, а также пропускной способности памяти и филлрейта, так как разница между скоростью Geforce 8800 Ultra и Geforce 9800 GTX весьма невелика.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В тестовых сравнениях прошлого года видеокарты AMD проваливали этот тест, показывая очень низкие результаты, но со времени выхода RADEON HD 3870 X2 ошибка была исправлена, и результат решений AMD стал близок к теории. Конкретно RADEON HD 3870 X2 в этом тесте показывает максимальную скорость. На 20% выше, чем рассматриваемый сегодня Geforce 9800 GX2.

Что касается относительной производительности видеоплат Nvidia, в данном случае скорость рендеринга двухчиповой конфигурации ровно вдвое превосходит производительность одночипового аналога на сниженных частотах. То есть, скорость явно ограничена производительностью шейдерных блоков, и результат полностью соответствует теоретической разнице.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое. Производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт несложная и, как показали предыдущие исследования, ограничение скорости мощностью шейдерных ALU в тесте не явное, задача ограничена как мощностью ALU, так и ПСП и филлрейтом, хотя в меньшей степени.

Двухчиповая видеокарта AMD показывает результат между одно- и двухчиповыми картами Nvidia, а двухчиповая Geforce 9800 GX2 является лидером, ровно вдвое опережая своего аналога на единственном GPU, с учетом частот. Возможно, при переносе части вычислений в геометрический шейдер ситуация несколько изменится.

Нет, разница невелика, существенных изменений не произошло. Все видеокарты Nvidia показывают те же результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер, а на AMD RADEON HD 3870 X2 мы видим некоторое увеличение результатов, и от двухчипового героя обзора она отстаёт заметно меньше, особенно в тяжелых режимах. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Первый неожиданный результат в Direct3D 10 тестах. Снова сказалась та же проблема, что и в DX9 тестах филлрейта, — Geforce 9800 GX2 показала явно аномальные результаты. Такого не должно быть ни при каких условиях, явная ошибка в драйверах… Производительность двухчипового конкурента от AMD также не может порадовать — хотя тут обошлось без ошибок, результаты весьма низкие, более чем в полтора раза ниже, чем у одночиповых Geforce 9800 GTX и 8800 Ultra, при любой геометрической сложности.

В остальном, относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленнее. Наблюдается то же, что и в предыдущем тесте, но цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

По рассматриваемому сегодня Geforce 9800 GX2 можем сказать то же — наблюдаются явные проблемы с работой SLI AFR в этом тесте. И поэтому сравнивать карты друг с другом мы не можем. Среди остальных карт соотношение скоростей поменялось. Чипы AMD выполняют более сложные геометрические шейдеры несколько эффективнее чипов Nvidia. Хотя если на Geforce 9800 GX2 технология SLI работала бы корректно, это решение должно показать результат, примерно схожий с тем, что показывает RADEON HD 3870 X2. Похоже, что Nvidia исправила некоторые недостатки в драйверах, и теперь все одночиповые Geforce смотрятся довольно неплохо, хотя раньше отставание было значительно больше.

Что касается сравнения результатов в разных режимах, то там всё, как всегда, видеокарте AMD не помогает то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia очень сильно теряют в производительности. RADEON HD 3870 X2 продолжает уступать лучшей из одночиповых Geforce на основе G92, скорость последней в «Balanced» режиме получается выше, чем в «Heavy» у RADEON. При этом получаемая в разных режимах картинка не отличается визуально.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Сравнительные результаты в разных режимах отличаются сильнее, чем обычно, так как на результаты этого теста сильно влияет, в том числе и пропускная способность памяти. Чем проще режим, тем большее влияние на скорость она оказывает, что хорошо заметно по результатам Geforce 8800 Ultra, которая во всех режимах показывает сильные результаты на уровне двухчиповой видеокарты конкурента.

Да и Geforce 9800 GX2 в этом тесте особо не похвалить, разница между ним и Geforce 9800 GTX в первый раз (за исключением явно ошибочных результатов) заметно отличается от теоретической. Хотя сегодняшний герой остаётся номинальным лидером, вышеупомянутая разница составляет лишь 20-50%, и это ещё без учёта разных тактовых частот… Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, в лёгких режимах из-за большей ПСП очень хорошо смотрится Geforce 8800 Ultra, продолжающая обгонять RADEON HD 3870 X2. Карта производства AMD не изменила ни позиции, ни отставания. А Geforce 9800 GX2 показывает лучший результат, но разница между одночиповой и двухчиповой видеокартами на основе G92 всё так же далека от теоретической двукратной. Не так то просто распараллелить синтетические тесты текстурных выборок из вершинных шейдеров…

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Тест «Waves» заметно благосклоннее к продукции AMD, протестированная двухчиповая модель RADEON HD 3870 X2 тут смотрится очень сильно, она опережает все решения Nvidia до полутора раз. Интересно, что в этом тесте скорость, скорее, зависит не от мощности TMU, а от ПСП и филлрейта, судя по результатам решения предыдущего поколения — Geforce 8800 Ultra. Двухчиповая карта на G92 показывает результат лишь на одном уровне с Ультрой!

А чем тяжелее задачи по текстурным выборкам, тем ближе результаты. Но рассматриваемая Geforce 9800 GX2 очень уступает конкурирующей карте AMD, вероятно, что-то не так с реализацией SLI в драйверах — разница между одно- и двухчиповой Geforce 9800 лишь 30-60%. Хотя ПСП влияет сильнее, судя по карте на основе чипа G80. Рассмотрим второй вариант этого же теста:

Всё так же, почти без изменений. Хотя с увеличением сложности теста относительные результаты двухчиповых карт стали лучше, особенно у RADEON HD 3870 X2. Остальные карты Nvidia потеряли в скорости больше, чем решение AMD. Остальные выводы также остаются в силе — во всех режимах скорость ограничивается ПСП, в лёгком — сильнее, а в тяжёлых большую роль начинают играть блоки TMU.

Geforce 9800 GX2 показывает слишком слабый результат, не удваивая производительность по сравнению с Geforce 9800 GTX, а положение плат AMD в последнее время заметно улучшилось в тестах VTF, и теперь быстрейшая видеокарта AMD справляется с тестами текстурных выборок из вершинных шейдеров лучше всех карт Nvidia.

Выводы по синтетическим тестам

На основе анализа результатов синтетических тестов видеокарты Geforce 9800 GX2 и других моделей двух основных производителей видеочипов, мы убедились в том, что новое двухчиповое решение Nvidia получилось очень мощным. В большом количестве случаев оно показывает максимальную частоту кадров, по сравнению как с лучшими одночиповыми Geforce, так и с конкурирующим двухчиповым решением от AMD — RADEON HD 3870 X2. Высокоэффективная архитектура, достаточно большое количество блоков ALU, TMU и ROP, а также довольно высокие рабочие частоты позволяют рассмотренному решению показывать хорошие результаты почти во всех синтетических тестах.

На это повлияла, в том числе, и улучшенная по сравнению с G8x архитектура G9x, которая отличается высокой вычислительной производительностью, важной для современных и будущих приложений с большим количеством сложных шейдеров всех типов. По сравнению с предыдущей G8x, в архитектуру G9x внесены изменения в блоки TMU и ROP, текстурные модули в определенных условиях умеют выбирать вдвое больше данных, а блоки ROP оснащены новой технологией компрессии, увеличивающей эффективность использования видеопамяти.

Geforce 9800 GX2 неплохо сбалансирована, её основным недостатком является сама по себе технология SLI. Так, в наших тестах явно обнаружились и некоторые недостатки двухчиповой системы, работающей по технологии AFR. DX9 тесты филлрейта и один из DX10 тестов геометрических шейдеров новая видеокарта провалила, что говорит о недостаточной оптимизации драйверов. То же, хоть и в меньшей степени, касается и тестов текстурных выборок из вершинных шейдеров — показываемые рассматриваемой видеокартой результаты слишком низки, она явно страдает от недостатка эффективности двухчипового рендеринга.

В следующей части статьи мы рассмотрим тесты решения Nvidia в современных игровых приложениях, они должны примерно соответствовать выводам, сделанным при анализе результатов синтетических тестов. Но игровые результаты должны быть интереснее синтетических, эффективность двухчипового AFR рендеринга в играх не может быть такой же высокой, как в синтетике.



Nvidia Geforce 9800 GX2 (2xG92) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.