Nvidia Geforce 8800 GT (G92)

Уже 112 быстрых калифорнийских стрелков…

Часть 2: Особенности видеокарт, синтетические тесты





СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 8800 GT (G92): Часть 1: Теоретические сведения


Итак, все подробности об особенностях архитектуры новинок освещены в первой части материала.

В нашей лаборатории были три видеокарты от BFG, Forsa и Zotac. Забегая вперед, скажем, что все они практически идентичны (reference card), разницы лишь в частотах у отдельных карт, и кулер у Zotac отличается от референс.

Платы



BFG Geforce 8800 GT OC (G92) 512MB PCI-E
  • GPU: Geforce 8800 GT (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 625/1566 MHz (номинал — 600/1512 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 112
  • Число текстурных процессоров: 56(28)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: зеленый
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Forsa Geforce 8800 GT (G92) 512MB PCI-E
  • GPU: Geforce 8800 GT (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 600/1512 MHz (номинал — 600/1512 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 112
  • Число текстурных процессоров: 56(28)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: светло-зеленый
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).
Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E
  • GPU: Geforce 8800 GT (G92)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 700/1674 MHz (номинал — 600/1512 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1000 (2000) MHz (номинал — 900 (1800) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 112
  • Число текстурных процессоров: 56(28)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: светло-зеленый
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: SLI (Hardware).


BFG Geforce 8800 GT OC (G92) 512MB PCI-E
Forsa Geforce 8800 GT (G92) 512MB PCI-E
Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E
Каждая карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Qimonda (GDDR3). Время выборки у микросхем памяти 1.0ns, что соответствует частоте работы 1000 (2000) МГц.



Сравнение с эталонным дизайном, вид спереди
Forsa Geforce 8800 GT (G92) 512MB PCI-E Reference card Nvidia Geforce 7900 GS
BFG Geforce 8800 GT OC (G92) 512MB PCI-E
Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E


Сравнение с эталонным дизайном, вид сзади
BFG Geforce 8800 GT OC (G92) 512MB PCI-E Reference card Nvidia Geforce 7900 GS
Forsa Geforce 8800 GT (G92) 512MB PCI-E
Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E


C возвратом обратно к 256-битной шине вернулся и прежний дизайн, основанный на округлом расположении микросхем памяти вокруг ядра, то есть схожим с 7900-серией. Разумеется, новые реалии в потреблении, а также в наличии более быстрой памяти внесли коррективы, и плата получилась более длинной, чем 7900GS, но не длиннее 7900GTX/8800GTS.

На фотографиях четко видно, что плата требует один шестипиновый PCI-E хвост от БП. Поэтому это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 400Вт с поддержкой токов по 12В каналу не менее 18-20А.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). О ТВ-выходе можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма, загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

Что касается HDTV и прочих новомодных видеоштучек, то одно из исследований также проведено, и с ним можно ознакомиться здесь.

О системе охлаждения. Она одинаковая у карт BFG и Forsa:

Forsa Geforce 8800 GT (G92) 512MB PCI-E

Кулер вполне привычной конструкции, снова видим закрытый плоский радиатор, через который, смещенный относительно центра вентилятор продувает воздух.

Размеры весьма приличные по длине, хотя толщина весьма мала, поэтому кулер однослотовый. Весь радиатор алюминиевый, лишь пластина, касающаяся ядра, медная.

Поскольку нагрев карты весьма велик, кулер вынужден пи нагрузке выставлять на приличные обороты, поэтому он весьма шумноват. Пока нет возможности регулировать обороты, в драйвере и это отключено.



А кулер от Zotac, несмотря на аналогичные размеры, более эффективен, и потому справляется с охлаждением без высоких оборотов. Он имеет вентилятор большего размера по диаметру, а также ребер у радиатора больше. Давайте сравним.

Вначале надо сообщить, что после некоторой доработки автором Алексеем Николайчуком последняя бета-версия RivaTuner стала поддерживать G92.



Geforce 8800 GT 600/1512/1800 МГц



Geforce 8800 GT 700/1674/2000 МГц



Посмотрите, как трудно справляется с охлаждением референс-кулер, работающий на более высоких частотах, когда как второй кулер от Zotac с легкостью и без шума охлаждает ядро и память, работающие, к тому же, на гораздо более высоких частотах.

Посмотрим на сам процессор.

8800 GT — G92



Размеры кристалла весьма велики. Что говорит в пользу версии, что он содержит в себе практически полноценный G80, урезанный лишь по шине. А для 8800GT ядро специально урезали аппаратно, чтобы его скорость была не столь велика для его цены.

Комплектация. Forsa Geforce 8800 GT (G92) 512MB PCI-E прибыла в ОЕМ-поставке, поэтому комплект и упаковку не рассматриваем.

BFG Geforce 8800 GT OC (G92) 512MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub и S-Video-to-RCA, TV-кабели, адаптер для компонентного вывода.

Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E
Аналогичный комплект, только без обилия листовок и регистрационных карточек, каковых много у BFG.



Упаковка.

BFG Geforce 8800 GT OC (G92) 512MB PCI-E

Американская компания BFG все ищет, как бы выделиться среди конкурентов. Эпатаж с охваченной головой, что еще виднеется на кулере карты, мало кого впечатляет, поэтому придумали мало разборчивые рейтинги-полоски, размещенные на щите. Неприятно смотреть на мрачную черную коробку, хотя размеры коробки привлекательны: не огромные и не мизерные.

Умилил способ упаковки всех кабелей: их завернули в сверток и положили рядом с картой. Карта находится в жестком отсеке в двух пакетах, поэтому надежно защищена от повреждений.

Zotac Geforce 8800 GT (G92) AMP Edition 512MB PCI-E

А Zotac резко изменил дизайн упаковки. И она стала яркой и стильной. Наличие окна, через которое видна карта, а также общая драконья тема кулера и упаковки весьма привлекательны. Такую упаковку приятно брать в руки.

Весь комплект расположен в жестких отсеках, поэтому повреждения карты в процессе перевозки исключены.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете Nvidia nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista Ultimate; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 7.10; Nvidia версии 169.04.

VSync отключен.

Синтетические тесты

Начиная с этого обзора, в базовых статьях мы будем использовать новую версию пакета — RightMark3D 2.0, предназначенную для тестирования Direct3D 10 совместимых ускорителей в операционной системе MS Windows Vista. Некоторые ранее известные тесты в его составе были переписаны под DX10, добавились новые виды синтетических тестов: модифицированные тесты пиксельных шейдеров, переписанные под SM 4.0, тесты геометрических шейдеров, тесты выборки текстур из вершинных шейдеров. Но и предыдущие версии RightMark останутся до тех пор, пока в новом пакете не появятся низкоуровневые тесты заполнения и т.п.

Все используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce 8800 GT со стандартными параметрами (далее GF8800GT)
  • Nvidia Geforce 8800 GTX со стандартными параметрами (далее GF8800GTX)
  • Nvidia Geforce 8800 GTS со стандартными параметрами (далее GF8800GTS)
  • Nvidia Geforce 8600 GTS со стандартными параметрами (далее GF8600GTS)
  • RADEON HD 2900 XT со стандартными параметрами (далее HD2900XT)

Для сравнения результатов Geforce 8800 GT эти модели были выбраны по следующим причинам: с Geforce 8600 GTS будет интересно сравнить, как с предыдущим топовым решением среднего ценового диапазона, со старыми Geforce 8800 сравним, чтобы оценить влияние изменений в архитектуре (измененное количество блоков ROP, модифицированные TMU), увеличения рабочих частот и снижения пропускной способности видеопамяти, с RADEON HD 2900 XT сравнение должно быть интересно потому, что на основе R600 разработаны следующие решения среднего уровня от AMD, которые скоро должны быть анонсированы.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



У многих видеокарт получились значения, близкие к теоретическому максимуму. Чаще всего результаты синтетических тестов чуть-чуть не дотягивают до теоретических цифр в режимах с большим количеством текстур, ближе всего к этому подбираются "старые" видеокарты из серии Geforce 8800, да и топовое решение AMD с некоторыми оговорками. А у двух видеокарт Nvidia, которые отличаются чипами с улучшенными TMU, в нашем старом тесте теоретический максимум не достигается.

Исходя из этих результатов Geforce 8800 GT, можно отметить, что количество странностей только добавилось. Ситуация G92 не полностью повторяет то, что было с G84, новый чип, судя по цифрам, выбирает более 30 текселей за один такт для 32-битных текстур при билинейной фильтрации. Хотя теоретически с билинейкой должен больше (56), а с трилинейкой — меньше (28). Что особенно интересно — в том же тесте с трилинейной фильтрацией у нас получились такие же значения.

В случае с малым количеством текстур на пиксель, Geforce 8800 GT выглядит хуже других Geforce 8800, ему не хватает пропускной способности видеопамяти, которая у этого решения меньше, чем у моделей GTX и GTS. Но в более тяжелых условиях новая видеокарта начинает выигрывать у всех, подтверждая большую частоту и архитектурные изменения TMU. Посмотрим на тест филлрейта:



Второй синтетический тест измеряет скорость заполнения, тут мы видим ту же ситуацию, с учетом количества записанных в буфер кадра пикселей. Хорошо видно, что в случаях с 0, 1 и 2 накладываемыми текстурами новое решение среднего уровня Nvidia отстаёт от предыдущих топовых, выходя вперед в ситуациях с большим количеством текстур на пиксель. По сравнению с будущими конкурентами от AMD, у Geforce 8800 GT есть все шансы быть впереди по скорости текстурных выборок и филлрейту в случаях, когда они не ограничиваются пропускной способностью памяти.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим предельные геометрические тесты, первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Так как все чипы основаны на унифицированных архитектурах, все универсальные исполнительные блоки в этом тесте заняты геометрической работой и все решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Эффективность выполнения теста в разных режимах у чипов примерно одинаковая, пиковая производительность в FFP, VS 1.1 и VS 2.0 отличается мало. По этим результатам ничего определенного сказать нельзя, хотя видно, что решение AMD традиционно быстрее обрабатывает геометрию, по сравнению с чипами Nvidia. Посмотрим, что изменится в усложненном тесте с одним diffuse источником освещения:



Тут видна некоторая разница, хотя потенциал решений явно больше, Geforce 8600 GTS не так сильно отстаёт от более мощных решений. В этот раз режим FFP несколько быстрее на всех видеокартах, кроме основанной на чипе G84. Во всех режимах Geforce отстают от топового RADEON, хотя и пока не слишком сильно. Посмотрим, что получится в еще более тяжелых условиях сложного расчета освещения с одним источником света и расчетом бликовой составляющей:



Примерно та же ситуация, лидером по геометрической производительности остался чип R600, так что будущие mid-end решения AMD будут явно быстрее G92 в обработке геометрии. На смешанном источнике света наличие оптимизированной эмуляции FFP проявляется у большинства протестированных решений, Geforce 8600 GTS в этот раз отстает ещё сильнее, а рассматриваемый сегодня Geforce 8800 GT ни в чём не проигрывает своим собратьям. Рассмотрим самую сложную геометрическую задачу с тремя источниками света, включающую статические и динамические переходы:



Тут видна разница между всеми участниками. RADEON HD 2900 XT вышел вперёд ещё заметнее, и, похоже, в нашей самой сложной геометрической задаче его возможности не раскрыты полностью. Традиционно отмечаем противоположные слабые места вершинных блоков архитектур AMD и Nvidia — динамические переходы вызывают большее падение производительности у чипов первой, а статические — у чипов второй.

Отдельно рассмотрим Geforce 8800 GT. В FFP режиме сказывается большая частота G92 по сравнению с обоими G80, поэтому он и опережает их, так как те же блоки triangle setup работают быстрее. Возможно, причины этого ещё и в проведенных оптимизациях архитектуры, увеличенных кэшах и т.п. Во всех остальных случаях, когда основными ограничителями являются шейдерные блоки, результаты решений становятся в строгом соответствии с теоретически достижимыми цифрами и G92 чуть-чуть проигрывает старшей G80.

Краткие итоги по геометрическим тестам: из-за унифицированной архитектуры все чипы довольно хорошо проявляют себя в таких тестах, они способны использовать все свои универсальные потоковые процессоры для решения геометрических задач. В реальных приложениях универсальные шейдерные процессоры будут заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, слишком проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Видно, что тесты слишком просты для современных архитектур и не показывают их истинную силу. В простых тестах производительность ограничена текстурными выборками и филлрейтом, что и видно на примере слабых результатов RADEON HD 2900 XT. В чуть более сложных PS 2.0 тестах результаты становятся интереснее, Geforce 8800 GT всегда опережает вариант GTS, лишь немного проигрывая топовому GTX в полном соответствии с теорией.

О равном соперничестве Geforce 8600 GTS и 8800 GT говорить не приходится, предыдущее решение среднего уровня сильно отстаёт, более чем в два раза в среднем, что объясняется ограничением скорости филлрейтом и текстурными выборками, в первую очередь. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:



В зависимом от скорости текстурирования, в тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, поэтому RADEON сильно отстаёт от решений Nvidia. Geforce 8600 GTS в очередной раз оказывается заметно медленнее Geforce 8800 GT. Во втором тесте, более интенсивном вычислительно, решение AMD вырывается вперед, эта задача лучше подходит для его архитектуры с большим числом унифицированных вычислительных блоков. Разница между результатами Geforce 8800 GT и GTS/GTX обусловлена отличиями в производительности шейдерных блоков и TMU и соответствует теории.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существуют два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные, с точки зрения будущих приложений:



В тесте «Frozen Glass» ситуация между картами Nvidia схожа с той, что получилась в предыдущем блоке тестов. Geforce 8600 GTS продолжает отставать от 8800 GT более чем в два раза, а последняя держится очень близко к 8800 GTX. Карты Nvidia на базе G80 и G92 опережают HD 2900 XT, что подтверждает ограничение производительности скоростью текстурных выборок.

Интересно, что хотя лидерство во втором тесте «Parallax Mapping» принадлежит HD 2900 XT, Geforce 8800 GT немного от него отстаёт, опережая Geforce 8800 GTX! Судя по всему, тут играют роль улучшенные блоки TMU, ведь для параллакс маппинга нужна ещё одна дополнительная текстурная выборка. Рассмотрим эти тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там Geforce 8800 GT может показать себя ещё лучше:



Ситуация довольно сильно меняется, производительность в тестах ещё больше упирается в скорость текстурных блоков, именно поэтому Geforce 8800 GT опережает Geforce 8800 GTX почти на треть! А RADEON HD 2900 XT проигрывает картам серии Geforce 8800,  в тесте «Parallax Mapping», где они всегда были сильны. Нужно учитывать, что в реальных приложениях картина будет иной, так как на таких быстрых видеокартах почти всегда включается трилинейная и/или анизотропная фильтрация текстур, а в таких условиях Geforce 8800 GT скорее всего отстанет от GTX.

Как и раньше, на всех видеокартах варианты шейдеров с большим количеством математических вычислений работают быстрее, и для современных архитектур GPU смысла в варианте с упором на текстурирование нет, все новые чипы AMD и Nvidia предпочитают математические вычисления текстурированию.

Рассмотрим результаты еще двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



В этих двух тестах нагрузка на видеокарты достаточно велика  для таких мощных чипов, как R600 и G80, а младший G84 отстаёт от G80 более чем в два раза. Хотя чип R600 явно обеспечивает более эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений, по сравнению с G80, его преимущество над новым G92 в наших синтетических тестах почти исчезает. Что интересно, Geforce 8800 GT вновь показывает себя заметно лучше, чем Geforce 8800 GTX в обоих тестах, причём это ускорение относительно G80 можно объяснить разве что всё теми же билинейными текстурными выборками, так как 20-40% превосходства над G80 у нового чипа нет более ни по одному теоретическому параметру.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0, используемую в этой статье, вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также два полностью новых теста. В первые два добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Эти тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот, и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Тесты процедурной визуализации меха с большим количеством текстурных выборок показывают огромное преимущество решений Nvidia над RADEON HD 2900 XT.  предыдущая карта среднего уровня показала результат выше, чем топовое решение AMD. Такого отставания не должно быть  теоретически, вероятно, у AMD до сих пор недоработаны Direct3D 10 драйверы.

Все результаты в «High» примерно в полтора раза ниже, чем в «Low». Результаты двух карт Geforce 8800 GTS говорят об отсутствии влияния объема памяти на тесты, Geforce 8600 GTS отстаёт от решений на основе G80 примерно столько, сколько и должен, урезание количества исполнительных блоков серьёзно сказалось на его скорости. Судя по цифрам Geforce 8800 GT и GTX, производительность данного теста зависит не только от количества и скорости блоков TMU, иначе разница была бы иной. По тесту получилось 20-25%, такая разница между решениями есть только по филлрейту и ПСП.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно, в такой ситуации что-то изменится:

Подобная сложность под силу только топовым чипам Nvidia, Geforce 8600 GTS продолжает опережать лучшего из AMD, отставая от моделей на основе G80 в два-три раза, а Geforce 8800 GT всё так же проигрывает модификации GTX. Хотя по мере увеличения сложности шейдера и нагрузки на видеочип, он сокращает разрыв. Включение суперсэмплинга увеличивает нагрузку ровно в четыре раза, но на видеокартах семейства G8x оно снижает скорость примерно в пять раз, а на R6xx — лишь в 3.5, за счет чего HD 2900 XT почти догоняет Geforce 8600 GTS.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Тест интереснее с практической точки зрения, разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping, скоро будут в них использоваться, например, в Crysis, который скоро выйдет. В этом тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Хотя решения AMD были традиционно сильны в наших Direct3D 9 тестах parallax mapping, в обновленном варианте без суперсэмплинга RADEON HD 2900 XT справляется с задачей лишь на уровне Geforce 8600 GTS. Кроме того, включение самозатенения вызывает на продукции AMD большее падение производительности, более двух раз, по сравнению с полуторакратной разницей для решений производства Nvidia.

Наш сегодняшний герой Geforce 8800 GT заметно опережает своего предшественника Geforce 8600 GTS, между ними примерно трехкратная разница в скорости. Geforce 8800 GTX по-прежнему впереди, но отставание модели GT меньшее — всего 13-16%. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia и сближал 8800 GT и GTX.

Полученные значения FPS при включенных суперсэмплинге и самозатенении вновь говорят о тяжелейшей задаче для видеочипов, совместное включение двух опций увеличивают нагрузку почти в восемь раз, вызывая катастрофическое падение производительности. Разница между скоростью разных видеокарт сохраняется, но включение суперсэмплинга сказывается, как и в предыдущем случае — карта на чипе AMD улучшает свои показатели относительно Nvidia. У Nvidia падение скорости около четырех раз, а у AMD — только в три раза. Несмотря на это, R600 лишь опережает G84, отставая от всех остальных видеокарт.

Оба варианта Geforce 8800 GTS показывают идентичные результаты, а Geforce 8600 GTS отстаёт от них в два раза. Что касается сравнения Geforce 8800 GT и GTX, то новая модель немного уступает модификации GTX, но разница составляет 10-12%. И это в таком сложном тесте! Всё-таки, в условиях, близких к реальным, у G92 перед G80 нет особых преимуществ от модифицированных TMU с большим количеством блоков адресации.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимум текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

В соответствии с результатами наших исследований в Direct3D 9 синтетических тестах, в вычислительно сложных задачах архитектура AMD R6xx показывает себя лучше конкурирующей от Nvidia. RADEON HD 2900 XT явно сильнее в этом тесте, решения на базе G80 и G92 не могут противостоять его натиску.

Производительность Geforce 8800 GT почти в три раза превышает показатель Geforce 8600 GTS, традиционное соотношение между ними наблюдается в очередной раз. Новая модель от Nvidia опережает оба варианта GTS и немного уступает Geforce 8800 GTX, в соответствии с производительностью (количеством и тактовой частотой) универсальных шейдерных блоков — менее чем на 5%.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

С RADEON HD 2900 XT и с будущими решениями AMD сравнить новый продукт Nvidia не получится, явная ошибка в драйверах AMD до сих пор не исправлена. Ещё один возможный вариант — это вовсе не ошибка драйверов, а аппаратная проблема. В таком случае для AMD всё плохо в этом тесте.

Что касается сравнения с видеокартами из своего лагеря, то ситуация неизменна — Geforce 8800 GT быстрее 8600 GTS в три раза, быстрее любого из 8800 GTS на 40-50%, а отставание от модели GTX составляет лишь 3% — абсолютно точное соответствие разнице в мощности ALU, их частотах и количестве исполнительных блоков.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен получилось примерно одинаковым, отличаются только абсолютные значения. Показываемая производительность полностью соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Geforce 8800 GT показывает высокие результаты, незначительно обгоняя  Geforce 8800 GTX.

Влияния объема видеопамяти на результаты не отмечено. Задача для современных видеокарт несложная, Geforce 8600 GTS показывает высокий результат, что может говорить об отсутствии ограничений мощностью шейдерных ALU. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится.

Интересно, что слишком больших изменений, по сути, не произошло. Все видеокарты, кроме Geforce 8600 GTS, показали те же результаты при изменении параметра GS load, при переносе части вычислений в геометрический шейдер. Geforce 8800 GT всё также впереди HD 2900 XT, Geforce 8800 GTS и очень близок к GTX. Интересна малая разница между результатами разных карт с разным числом исполнительных блоков и частотой. Возможно, во втором тесте ситуация изменится.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленным в «Heavy», — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Результаты видеокарт Nvidia разного уровня относительно друг друга отличаются не так сильно, при любой геометрической сложности. А решение AMD отстаёт от Geforce 8600 GTS, когда нагрузка на геометрические шейдеры не так велика. Во всех случаях производительность хорошо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленнее.

Если не смотреть на плачевный результат HD 2900 XT, наблюдается ровно то же — Geforce 8800 GT опережает все три GTS и выступает наравне с GTX. Впрочем, цифры могут измениться в следующем тесте, с более активным использованием геометрических шейдеров, можно сравнить друг с другом цифры, полученные в «Balanced» и «Heavy» режимах.

Соотношение скоростей изменилось очень сильно. Чип AMD R600 явно выполняет подобную работу быстрее чипов Nvidia, и имеет преимущество в 1.5-2 раза. Подтверждается полученный в ранних исследованиях вывод о том, что чем сложнее работа для геометрического шейдера, тем быстрее будут решения AMD по сравнению с видеокартами на чипах Nvidia. В этот раз все чипы Nvidia показали результаты строго по линейке — G84 медленнее G80 в два-три раза, в зависимости от модели. Geforce 8800 GT показала результат, немного уступающий верхней GTX, но значительно лучший по сравнению с Geforce 8800 GTS.

Сравнивая результаты в разных режимах, нужно отметить, что у Geforce 8800 GT скорость в «Balanced» получилась выше, чем в «Heavy» у RADEON HD 2900 XT. Это при том, что получаемая в разных режимах картинка не отличается визуально. Решению AMD не помогло то, что при переходе от использования «instancing» к геометрическому шейдеру при выводе, видеокарты Nvidia сильно теряют в производительности, а у AMD всё наоборот.

Основной вывод по геометрическим шейдерам такой — несмотря на то, что разные тесты геометрических шейдеров могут давать отличающиеся результаты, Geforce 8800 GT всегда показывает очень высокие результаты, опережая своих ближайших конкурентов. При росте сложности работы для геометрического шейдера вперед выходит RADEON HD 2900 XT, но это синтетические тесты, а о реальной производительности нужно судить по игровым тестам, которые будут в следующей части нашего обзора.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Все три графика показывают примерно одинаковую картину производительности видеокарт относительно друг друга. Соотношение между производительностью верхних решений и видеокарт среднего ценового уровня осталось прежним, около двух раз между Geforce 8600 GTS и 8800 GTS, и до полутора раз — между GTX и GTS. Интересно довольно большое отличие в производительности между Geforce 8800 GT и GTX, его нельзя объяснить исключительно отличающимся количеством текстурных модулей. Похоже, что на результаты данного теста сильно влияет и пропускная способность памяти, которая у этих моделей значительно отличается.

Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация почти не изменилась, всё так же впереди Geforce 8800 GTX, затем с небольшим отставанием из-за разности в количестве TMU и значениях ПСП следует Geforce 8800 GT, далее RADEON HD 2900 XT и обе Geforce 8800 GTS. Предыдущая модель среднего уровня — Geforce 8600 GTS — далеко позади и показывает свои слабые стороны.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

В «Waves» всё почти то же самое, что и в предыдущем тесте «Earth», но разница между видеокартами на основе G92 и G80 стала ещё больше. Geforce 8800 GT теперь иногда отстаёт и от GTS вариантов и от RADEON, но с увеличением сложности геометрии восстанавливает свои позиции, проигрывая в наиболее сложном тесте менее 20%. Смотрим второй режим:

Эти результаты также примерно соответствуют показанным в предыдущих случаях, лишь RADEON HD 2900 XT откатился назад по сравнению с решениями Nvidia. В целом, хорошо видно, что Geforce 8800 GT хорошо справляется с тестами текстурных выборок из вершинных шейдеров, при небольшой геометрической сложности сцен его сдерживает меньшая пропускная способность локальной памяти, а при увеличении количества геометрических данных скорость модели приближается к производительности Geforce 8800 GTX.

Выводы по синтетическим тестам

  • Архитектура G92 по сравнению с G8x изменилась незначительно, судя по всему. Она отличается высокой вычислительной производительностью, нацелена на современные и будущие приложения с большим количеством сложных шейдеров всех типов. Высокая эффективность универсальных процессоров, большое количество блоков TMU и ROP, а также высокие рабочие частоты позволяют этому чипу показывать отличные результаты во всех синтетических тестах. Видеокарта Geforce 8800 GT выступает почти на уровне более дорогой Geforce 8800 GTX, приближаясь к ней при увеличении нагрузки, и  опережая в редких случаях.


  • Выводы по тестам шейдеров для Geforce 8800 GT: новое решение среднего ценового диапазона от Nvidia отлично подходит для выполнения сложных пиксельных, геометрических и вершинных шейдеров. Архитектура чипа была дополнительно улучшена при помощи изменений в TMU и в результате, Geforce 8800 GT иногда выигрывает у Geforce 8800 GTX, имея большую теоретическую скорость текстурных выборок в определенных условиях.


  • Единственное слабое место у G92 и Geforce 8800 GT — меньшая ширина шины памяти и, соответственно, её пропускная способность. Именно её и не хватает в некоторых тестах, чтобы показывать результаты на уровне Geforce 8800 GTX или  выше. Впрочем, для этого решения среднего ценового диапазона и ПСП вполне достаточно, да и производительности более чем хватает.

На основе анализа результатов синтетических тестов Geforce 8800 GT и предыдущих моделей разных ценовых диапазонов мы убедились в том, что новое решение среднего уровня у Nvidia получилось очень мощным. Оно может составить конкуренцию для более дорогих видеокарт Nvidia и AMD, тем более что чипы производятся по более совершенному техпроцессу, получая дополнительные преимущества по энергопотреблению и тепловыделению. Будет очень интересно сравнить Geforce 8800 GT с соответствующими конкурентами от AMD, анонс которых ожидается  скоро.

В следующей части статьи вы увидите тесты нового mid-end решения Nvidia в современных игровых приложениях, которые должны показать справедливость выводов, сделанных при анализе результатов нашей синтетики. Игровая часть всегда является самой главной, именно на основе реальных игровых тестов и следует делать свой выбор покупателям.



Nvidia Geforce 8800 GT (G92) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.