Nvidia Geforce GTX 295 2x240sp 2x896MB 2x448bit PCI-E

В сумме 480 калифорнийских стрелков — получится непобедимое войско



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce GTX 295: Часть 1: Теоретические сведения


В данной части мы приступаем к практическим исследованиям нового ускорителя.

Когда в лабораторию попадает эталонная карта от Nvidia или AMD, то в львиной доле случаев карта поставляется как есть, без комплекта и упаковки.

Однако же стоить напомнить, что в качестве комплекта к подобного рода картам должен идти следующий набор:

  • руководство пользователя,
  • диск с драйверами и утилитами,
  • переходник-адаптер DVI-to-VGA,
  • DVI-to-HMDI адаптер,
  • адаптер компонентного вывода (TV-out),
  • разветвители внешнего питания,
  • аудио-шнурок для соединения со звуковой картой (для передачи звука по HDMI).

То есть когда уже пользователь будет покупать серийную карту от какого-либо вендора, то он может ожидать вот такой комплектации.

А теперь изучим саму карту.



Nvidia Geforce GTX 295 2x896MB PCI-E
  • GPU: 2 × Geforce GTX 280 (GT200)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 575/1240 MHz (номинал — 575/1240 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1000 (2000) MHz (номинал — 1000 (2000) МГц)
  • Ширина шины обмена с памятью: 2 × 448bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 2 × 240
  • Число текстурных процессоров: 2 × 96 (BLF/TLF)
  • Число ROPs: 2 × 32
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: вынесены в отдельный чип NVIO.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI, TV-out.
  • VIVO: нет
  • TV-out: не выведен.
  • Поддержка многопроцессорной работы: внутренний SLI (Hardware). А также возможен внешний SLI (Quad-SLI)


Nvidia Geforce GTX 295 2x896MB PCI-E
Карта имеет 2 × 896 МБ памяти GDDR3 SDRAM, размещенной в 14 микросхемах (по 7 на каждой PCB)

Микросхемы памяти Hynix (GDDR3). Микросхемы расчитаны на максимальную частоту работы в 1200 (2400) МГц.



Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTX 295 2x896MB PCI-E Reference Nvidia Geforce GTX 260 896MB PCI-E


Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTX 295 2x896MB PCI-E Reference Nvidia Geforce GTX 260 896MB PCI-E


Понятно, что данный ускоритель двухпроцессорный, однако по традиции Nvidia выпускает такие карты не просто с двумя ядрами, а с двумя PCB. То есть по сути мы получаем «бутерброд» из двух карт, кажлая из которых несет на себе свой GPU и свой комплект памяти, а связаны эти PCB мостом SLI.



Причем каждая PCB хоть и имеет разводку в 448 бит, однако размеры весьма небольшие, потому можно сделать выводы о том, что инженеры постарались очень уплотнить дизайн PCB, и они получилмсь явно недешевыми. В целом ускоритель можно условно назвать одноплатным (Single card), поскольку в целом это получается видеокарта с одним разъемом PCI-E, лишь занимаюшая два слота в системном блоке. Однако по своей сути — это двухплатное устройство, просто обе видеокарты совмещены в одну.

Напомним, что на данной карте используется все тот же GTX 280 (лишь по 55нм), однако если он расчитан на 512 бит шину, в данном случае используется не вся ширина шины, поскольку PCB разведена под 448 бит, а также объем памяти на одно ядро упал с 1024 до 896 мегабайт.

Напоминаем еще раз важный момент: длина ускорителя — 270 мм, как у 8800 GTX/Ultra, поэтому в корпусе должно быть достаточно места для установки такой конструкции. А также обратим внимание на ширину кожуха, которая неизменна вдоль всей длины, а следовательно на материнской плате за PCI-E x16 разъемом не должно быть никаких портов и высоких конденсаторов, причем на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть никаких высоких частей на системной плате).

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

Также напомним, что питание ускорителя осуществляется с помощью ДВУХ разъемов, причем один 6-пиновый, а второй 8-пиновый.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Кулер представляет собой расположенное между платами устройство с массивным медным радиатором в центре и алюминиевыми крыльями на концах. Через все это продувает возлух большая цилиндрический вентилятор, расположенная в конце карты.

То есть мы снова видим единую СО для обеих PCB, поэтому они расположены ядрами во-внутрь, к кулеру.







А далее мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Nvidia Geforce GTX 295 2x896MB PCI-E



Nvidia Geforce GTX 280 SLI



Для сравнения я привел еще и мониторинг для двух GTX 280 карт, работающих в системе SLI. Какмы видим, нагрев у GTX 295 весьма велик, несмотря на 55 нм, однако при это шума от кулера практически нет. Следует иметь в виду, что выдув горячего воздуха идет не только за пределы системного блока, но в верхней части ускорителя и во-внутрь.

А теперь мы займемся тестами.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra на чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA;
    • блок питания Tagan TG900-BZ 900W;
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30");
  • драйверы ATI версии 8.561.3 (CATALYST 8.12beta); Nvidia версии 181.20.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce GTX 295 со стандартными параметрами (далее GTX 295)
  • Nvidia Geforce GTX 280 SLI две карты со стандартными параметрами в SLI режиме (далее GTX 280 SLI)
  • Nvidia Geforce GTX 260 SLI две карты со стандартными параметрами в SLI режиме (далее GTX 260 SLI)
  • Nvidia Geforce GTX 280 со стандартными параметрами (далее GTX 280)
  • RADEON HD 4870 X2 со стандартными параметрами (далее HD 4870 X2)

Для сравнения результатов видеокарты Geforce GTX 295 были выбраны эти модели по следующим причинам: RADEON HD 4870 X2 является её основным конкурентом, и по цене и по характеристикам; Geforce GTX 280 выступает как мощнейшая (пока что) одночиповая видеокарта, также её показатели полезны для того, чтобы увидеть прирост от работы двух GPU; ну а сравнение с двумя SLI системами на основе Geforce GTX 260 и GTX 280 покажет, насколько одна видеокарта с двумя GPU соответствуют двум аналогам в режиме SLI.

Direct3D 9: Тесты Pixel Filling

В тестах пиковой производительности выборки текстур и скорости заполнения, на тестовых драйверах Nvidia все мультичиповые системы производства этой компании показали явно некорректные результаты. Ими были показаны цифры в десятки раз ниже, чем теоретические цифры текстурных выборок и скорости заполнения, и соответствующие показатели одночипового решения Geforce GTX 280. Так как смысла в анализе подобных результатов нет, мы их не приводим — это явная ошибка драйверов.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Тесты слишком просты для современных архитектур и на данный момент интересны больше при смене архитектур. Так как в простых тестах производительность ограничена больше скоростью текстурных выборок и эффективностью мультичипового рендеринга, результат Geforce GTX 295 на 60-70% выше, чем у одночиповой Geforce GTX 280. А по сравнению со SLI системами новое решение Nvidia показывает скорость где-то посередине, но ближе к GTX 280 SLI, что говорит об упоре производительности в тестах в текстурирование и математическую производительность.

О большом влиянии скорости математических вычислений говорят и результаты RADEON HD 4870 X2, который опережает все карты Nvidia, в том числе и GTX 295, во всех рассмотренных задачах. Даже GTX 280 SLI не может с ним сравниться в наших простых тестах пиксельных шейдеров, что является следствием улучшенной архитектуры RV770. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



Получается всё примерно то же самое, а SLI работает даже ещё эффективнее. AFR почти удваивает частоту кадров в таких синтетических тестах, и в сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water», где используется зависимая выборка из текстур больших уровней вложенности, карты располагаются соответственно максимальной скорости текстурирования. Новая двухчиповая модель Nvidia почти вдвое быстрее одночипового GTX 280, и почти вровень с GTX 280 SLI, но продолжает отставать от HD 4870 X2.

Второй тест интенсивнее загружает вычислительные блоки, и поэтому лучше подходит для архитектуры AMD, обладающей большим количеством потоковых процессоров и большей теоретической производительностью. В нём новое решение Nvidia хотя и показывает очень высокий результат по сравнению с одночиповой картой и SLI системами, но не может конкурировать с решением AMD, которое снова показывает максимальный результат.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

В этих математических тестах, зависящих прежде всего от частоты шейдерных блоков и скорости текстурирования, важен баланс производительности разных блоков GPU. Скорость видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок, и старая архитектура AMD показывала тут слабый результат. Но два RV770 очень хороши, и снова мы видим преимущество решения HD 4870 X2. Наш же герой опережает всех своих собратьев, кроме двух карт GTX 280 в SLI, которые имеют большую тактовую частоту.

И во втором тесте «Parallax Mapping» мы видим то же самое. Geforce GTX 295 хоть и опережает GTX 280 и GTX 260 SLI, и совсем немного отстаёт от GTX 280 SLI, что полностью соответствует теории, но проигрывает двухчиповой карте серии HD 4800. Судя по нашим предыдущим исследованиям, в данном синтетическом тесте и одночиповые карты AMD очень сильны, а эффективная реализация AFR в CrossFire позволяет HD 4870 X2 одержать победу над Geforce GTX 295. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там результаты могут получиться иными.

В целом — почти то же самое, RADEON HD 4870 X2 даже показал ещё немного более сильные сравнительные результаты. Ну и Geforce GTX 295 всё так же очень близок к системе из двух Geforce GTX 280, и опережает два GTX 260. В целом, взаимное положение карт изменилось совсем немного. Ну и хорошо видно, что с математикой все нынешние решения справляются гораздо лучше, чем с выборкой данных из текстур.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех

Ну что же, самые сложные DirectX 9 тесты показывают, что Geforce GTX 295 очень быстра — почти вдвое производительнее одиночной GTX 280, и лишь немного отстаёт от связки из двух таких карт. Наличие 480 потоковых процессоров и 160 текстурных модулей позволяет ей показывать результат ощутимо выше, чем у GTX 260 SLI, работающих на тех же частотах.

Ну а последняя архитектура компании AMD отлично показывает себя в этих тестах, RADEON HD 4870 X2 опережает всех соперников хоть и не очень много, но всё-таки достаточно для того, чтобы полностью укрепить своё лидерство в этой части тестов — ни один из них она не проиграла рассматриваемому сегодня новейшему решению Nvidia. Посмотрим, что получится в Direct3D 10 тестах, ведь во всех предыдущих исследованиях у карт AMD там дела были явно хуже, чем в Direct3D 9.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

И сразу же огорчение — к сожалению, из-за того, что мы пользуемся специальной версией RightMark 2.0, не выпущенной публично, режим мультичипового рендеринга в D3D10 тестах не работает, а небольшую разницу между GTX 280 и GTX 280 SLI можно объяснить погрешностью измерения. По крайней мере, так получается на тех драйверах, что предназначены для тестирования Geforce GTX 295, которые были предоставлены компанией Nvidia. Следовательно, к нашему огромному сожалению, остальная часть статьи, посвящённая Direct3D 10 тестам, будет совсем неинтересной. Geforce GTX 295 нельзя будет сравнить ни с одночиповой GTX 280, ни с конкурентом HD 4870 X2, который, скорее всего, и станет победителем всех тестов.

Причём, ранее при тестировании Geforce 9800 GX2 всё было в порядке, режим SLI работал и давал ожидаемое преимущество. В этот же раз, похоже, что SLI не включается в драйверах для нашей версии исполнимого файла RightMark 2.0. И единственное, для чего мы оставляем эти результаты — чтобы увидеть соотношение между GTX 295 и SLI системами на основе GTX 280 и GTX 260. Несмотря на одночиповый режим рендеринга, их относительные результаты будут, скорее всего, соответствовать и скорости этих же систем в двухчиповом режиме. А вот сравнения с одиночным GTX 280 и RADEON HD 4870 X2 не получится, увы.

Производительность в тесте Fur зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. С определённого времени в драйверах AMD были исправлены ошибки, и теперь в Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок, двухчиповое решение AMD показывает результат на уровне одночиповых Nvidia.

Результаты этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза. Возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этот раз почти ничего не изменилось — новая двухчиповая видеокарта AMD хоть немного, но опережает одночиповые Nvidia. Очень хорошо, что AMD наконец-то подтянула результаты в этом тесте, а то раньше было совсем некрасиво. Теперь бы ещё Nvidia снова SLI включила для RightMark…

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Посмотрим сразу же его и с включением суперсэмплинга, который в предыдущем тесте вызывает большее падение скорости на картах Nvidia. При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности.

Эти тесты интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Результаты предыдущего теста полностью повторяются. Карта AMD при включении суперсэмплинга выигрывает, хотя включение самозатенения вызывает на продукции AMD слишком большое падение производительности. Рассматриваемая сегодня Geforce GTX 295, даже при работе в одночиповом режиме отстаёт от HD 4870 X2 лишь немного, в основном в тяжёлых режимах. Сравнение с остальными решениями Nvidia показывает результаты, соответствующие теории — GTX 295 располагается между GTX 280 и GTX 260.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современные решения Nvidia показывают себя несколько хуже конкурирующих от AMD. Даже если мысленно удвоить производительность всех систем на основе Nvidia, кроме одиночной GTX 280, они все проиграют двухчиповому решению RADEON HD 4870 X2, у которого в тесте Mineral получился очень сильный результат. Ну а Geforce GTX 295, с учётом нерабочего SLI, показывает результат, близкий к тому, что получился у пары GTX 280 SLI.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В данном тесте скорость рендеринга также ограничена исключительно производительностью шейдерных блоков, и тест очень хорошо подходит архитектурам AMD. В этот раз преимущество решений этой компании ещё более впечатляющее. Даже если удвоить цифры рассматриваемого сегодня Geforce GTX 295, то он будет отставать от двухчипового решения конкурента более чем в полтора раза. В любом случае, если сравнивать только решения Nvidia, то GTX 295 покажет очень высокий результат (при условии включения SLI).

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом.

В этом тесте видеокарты Nvidia подводит одночиповый режим работы. Как мы знаем на практике, AFR режим позволяет увеличить производительность в этом тесте почти вдвое, для каждого режима. С учётом этого, GTX 295 должен быть примерно сопоставим по скорости с HD 4870 X2. Посмотрим, что будет при переносе части вычислений в геометрический шейдер:

Разницы между рассмотренными вариантами теста практически нет, никаких изменений не произошло. Лидером остаётся конкурент нашего сегодняшнего героя — HD 4870 X2. Двухчиповые решения Nvidia снова отстают из-за нерабочего SLI в RightMark 2.0, хотя алгоритм многочипового рендеринга AFR в этих тестах эффективно удваивает FPS. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. А вот в этом тесте двухчиповый рендеринг не показывает высокой эффективности, как в предыдущем случае. Поэтому все видеокарты Nvidia, показавшие близкие результаты в одночиповом режиме, отстают от RADEON HD 4870 X2, работающего в CrossFire, не очень сильно. И рассматриваемый Geforce GTX 295 близок к его результатам, особенно в тяжёлых режимах.

Цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также иногда бывает интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Но, в отличие от наших предыдущих исследований, в этот раз не видно никаких изменений, ведь все новые архитектуры улучшают свои результаты. И в GT200(b), и в RV770 были сделаны некоторые оптимизации, направленные на улучшение исполнения геометрических шейдеров. С учётом не очень высокой эффективности AFR в этом тесте, можно сказать, что в двухчиповом режиме GTX 295 должен быть не хуже RADEON HD 4870 X2, но и не особенно лучше.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth». Так как режим SLI в этом исследовании не включился, рассматриваем сразу по две диаграммы для обоих режимов: «Effect detail Low» и «High», с увеличенным количеством текстурных выборок:

Судя по предыдущим исследованиям, на результаты этого теста влияет и скорость текстурирования, и производительность ROP и пропускная способность памяти. Обе диаграммы показывают схожее взаимное расположение видеокарт, Geforce GTX 295 ближе к GTX 280 SLI, чем к GTX 260 SLI. Но во всех режимах лидером является двухчиповая модель серии RADEON HD 4800, так как она работает в номинальном режиме, в отличие от карт Nvidia. Судя по прошлым тестам, многочиповый рендеринг показывает себя с хорошей стороны, и очень жаль, что решения Nvidia в нашем тестовом пакете его не использовали, и сравнение получилось неполноценным.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Во втором тесте отрыв HD 4870 X2 от решений Nvidia ещё больше усилился, так как тест «Waves» относится благосклоннее к продукции AMD, и новые модели семейства RADEON HD 4800 смотрятся в нём очень хорошо. Даже виртуальное удвоение производительности от включения режима SLI не даст Geforce GTX 295 догнать решение конкурента в тяжёлых режимах. А вот в простом режиме с большим влиянием ПСП даже одночиповые карты выступают почти на уровне двухчиповых. Разница между двумя вариантами теста невелика, разве что при увеличении нагрузки результат карты AMD становится ещё сильнее относительно решений Nvidia.

Выводы по синтетическим тестам

На основе результатов проведённых синтетических тестов, мы подтверждаем выводы, сделанные во всех предыдущих статьях, посвящённых многочиповому рендерингу. Так как GT200b — это тот же GT200, а двухчиповая карта Geforce GTX 295 совмещает работу двух таких GPU в режиме SLI, то вывод напрашивается сам собой — во всех синтетических тестах, где работал режим мультичипового рендеринга AFR, эта видеокарта опережает одиночные карты компании Nvidia, и её скоростные показатели находится между SLI системами на основе двух карт GTX 260 и GTX 280, но ближе к последней.

Самым неожиданным выводом из этой части получилось то, что ни в одном синтетическом тесте новый Geforce GTX 295 не смог превзойти RADEON HD 4870 X2. Конечно, в этом виноват и одночиповый режим рендеринга для нашего теста RightMark 2.0, выставленный драйверами Nvidia для всех SLI систем. Если бы не эта досадная недоработка, то в Direct3D 10 тестах у GTX 295 были бы явные и ощутимые победы. Тем не менее, старый пакет тестов (Direct3D 9) явно показал слабости всех решений на основе GT200 — им просто не хватает банальных рабочих частот, чтобы везде догнать и перегнать конкурента.

Но, несмотря на проигрыш конкуренту от AMD во всех синтетических тестах по объективным причинам, решение на основе двух GT200b получилось явно очень мощным, оно обладает большим количеством исполнительных блоков и отличными теоретическими показателями. Скорее всего, в игровых приложениях ситуация будет совсем иной, чем в наших синтетических тестах, и Geforce GTX 295 выиграет там у HD 4870 X2 в большинстве случаев. На такое предположение наталкивают и показатели в синтетических D3D10 тестах, где у всех SLI систем на основе чипов Nvidia работал лишь один GPU из двух, но они всё равно были сильны везде, кроме чисто математических тестов.

Поэтому, предлагаем перейти к следующей части статьи, которая содержит наиболее интересные тесты нового двухчипового решения компании Nvidia, а также других видеокарт обоих производителей в нескольких современных игровых приложениях. Можно предположить, что в случае работоспособности режимов SLI и AFR, в большинстве игр скорость Geforce GTX 295 будет выше, чем у RADEON HD 4870 X2, кроме редких случаев нехватки локальной видеопамяти и тяжёлых режимов вроде MSAA 8x, в которых видеокарты Nvidia чувствуют себя не очень комфортно.



Nvidia Geforce GTX 295 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

Двухпроцессорный графический монстр от Nvidia - Geforce GTX 295

Nvidia Geforce GTX 295 2x240sp 2x896MB 2x448bit PCI-E

В сумме 480 калифорнийских стрелков — получится непобедимое войско


СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce GTX 295: Часть 1: Теоретические сведения


В данной части мы приступаем к практическим исследованиям нового ускорителя.

Когда в лабораторию попадает эталонная карта от Nvidia или AMD, то в львиной доле случаев карта поставляется как есть, без комплекта и упаковки.

Однако же стоить напомнить, что в качестве комплекта к подобного рода картам должен идти следующий набор:

  • руководство пользователя,
  • диск с драйверами и утилитами,
  • переходник-адаптер DVI-to-VGA,
  • DVI-to-HMDI адаптер,
  • адаптер компонентного вывода (TV-out),
  • разветвители внешнего питания,
  • аудио-шнурок для соединения со звуковой картой (для передачи звука по HDMI).

То есть когда уже пользователь будет покупать серийную карту от какого-либо вендора, то он может ожидать вот такой комплектации.

А теперь изучим саму карту.



Nvidia Geforce GTX 295 2x896MB PCI-E
  • GPU: 2 × Geforce GTX 280 (GT200)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 575/1240 MHz (номинал — 575/1240 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1000 (2000) MHz (номинал — 1000 (2000) МГц)
  • Ширина шины обмена с памятью: 2 × 448bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 2 × 240
  • Число текстурных процессоров: 2 × 96 (BLF/TLF)
  • Число ROPs: 2 × 32
  • Размеры: 270x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: вынесены в отдельный чип NVIO.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), HDMI, TV-out.
  • VIVO: нет
  • TV-out: не выведен.
  • Поддержка многопроцессорной работы: внутренний SLI (Hardware). А также возможен внешний SLI (Quad-SLI)


Nvidia Geforce GTX 295 2x896MB PCI-E
Карта имеет 2 × 896 МБ памяти GDDR3 SDRAM, размещенной в 14 микросхемах (по 7 на каждой PCB)

Микросхемы памяти Hynix (GDDR3). Микросхемы расчитаны на максимальную частоту работы в 1200 (2400) МГц.



Сравнение с эталонным дизайном, вид спереди
Nvidia Geforce GTX 295 2x896MB PCI-E Reference Nvidia Geforce GTX 260 896MB PCI-E


Сравнение с эталонным дизайном, вид сзади
Nvidia Geforce GTX 295 2x896MB PCI-E Reference Nvidia Geforce GTX 260 896MB PCI-E


Понятно, что данный ускоритель двухпроцессорный, однако по традиции Nvidia выпускает такие карты не просто с двумя ядрами, а с двумя PCB. То есть по сути мы получаем «бутерброд» из двух карт, кажлая из которых несет на себе свой GPU и свой комплект памяти, а связаны эти PCB мостом SLI.



Причем каждая PCB хоть и имеет разводку в 448 бит, однако размеры весьма небольшие, потому можно сделать выводы о том, что инженеры постарались очень уплотнить дизайн PCB, и они получилмсь явно недешевыми. В целом ускоритель можно условно назвать одноплатным (Single card), поскольку в целом это получается видеокарта с одним разъемом PCI-E, лишь занимаюшая два слота в системном блоке. Однако по своей сути — это двухплатное устройство, просто обе видеокарты совмещены в одну.

Напомним, что на данной карте используется все тот же GTX 280 (лишь по 55нм), однако если он расчитан на 512 бит шину, в данном случае используется не вся ширина шины, поскольку PCB разведена под 448 бит, а также объем памяти на одно ядро упал с 1024 до 896 мегабайт.

Напоминаем еще раз важный момент: длина ускорителя — 270 мм, как у 8800 GTX/Ultra, поэтому в корпусе должно быть достаточно места для установки такой конструкции. А также обратим внимание на ширину кожуха, которая неизменна вдоль всей длины, а следовательно на материнской плате за PCI-E x16 разъемом не должно быть никаких портов и высоких конденсаторов, причем на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть никаких высоких частей на системной плате).

Видеокарты этой серии оснащены гнездом для подключения звукового потока с аудио-карты для передачи его затем на HDMI (с помощью переходника DVI-to-HDMI), то есть сама видеокарта не оснащена аудио-кодеком, но осуществляет прием сигнала от внешней звуковой карты. Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был аудио-шнурок для этих целей.

Также напомним, что питание ускорителя осуществляется с помощью ДВУХ разъемов, причем один 6-пиновый, а второй 8-пиновый.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Кулер представляет собой расположенное между платами устройство с массивным медным радиатором в центре и алюминиевыми крыльями на концах. Через все это продувает возлух большая цилиндрический вентилятор, расположенная в конце карты.

То есть мы снова видим единую СО для обеих PCB, поэтому они расположены ядрами во-внутрь, к кулеру.







А далее мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

Nvidia Geforce GTX 295 2x896MB PCI-E



Nvidia Geforce GTX 280 SLI



Для сравнения я привел еще и мониторинг для двух GTX 280 карт, работающих в системе SLI. Какмы видим, нагрев у GTX 295 весьма велик, несмотря на 55 нм, однако при это шума от кулера практически нет. Следует иметь в виду, что выдув горячего воздуха идет не только за пределы системного блока, но в верхней части ускорителя и во-внутрь.

А теперь мы займемся тестами.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra на чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA;
    • блок питания Tagan TG900-BZ 900W;
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30");
  • драйверы ATI версии 8.561.3 (CATALYST 8.12beta); Nvidia версии 181.20.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • Nvidia Geforce GTX 295 со стандартными параметрами (далее GTX 295)
  • Nvidia Geforce GTX 280 SLI две карты со стандартными параметрами в SLI режиме (далее GTX 280 SLI)
  • Nvidia Geforce GTX 260 SLI две карты со стандартными параметрами в SLI режиме (далее GTX 260 SLI)
  • Nvidia Geforce GTX 280 со стандартными параметрами (далее GTX 280)
  • RADEON HD 4870 X2 со стандартными параметрами (далее HD 4870 X2)

Для сравнения результатов видеокарты Geforce GTX 295 были выбраны эти модели по следующим причинам: RADEON HD 4870 X2 является её основным конкурентом, и по цене и по характеристикам; Geforce GTX 280 выступает как мощнейшая (пока что) одночиповая видеокарта, также её показатели полезны для того, чтобы увидеть прирост от работы двух GPU; ну а сравнение с двумя SLI системами на основе Geforce GTX 260 и GTX 280 покажет, насколько одна видеокарта с двумя GPU соответствуют двум аналогам в режиме SLI.

Direct3D 9: Тесты Pixel Filling

В тестах пиковой производительности выборки текстур и скорости заполнения, на тестовых драйверах Nvidia все мультичиповые системы производства этой компании показали явно некорректные результаты. Ими были показаны цифры в десятки раз ниже, чем теоретические цифры текстурных выборок и скорости заполнения, и соответствующие показатели одночипового решения Geforce GTX 280. Так как смысла в анализе подобных результатов нет, мы их не приводим — это явная ошибка драйверов.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Тесты слишком просты для современных архитектур и на данный момент интересны больше при смене архитектур. Так как в простых тестах производительность ограничена больше скоростью текстурных выборок и эффективностью мультичипового рендеринга, результат Geforce GTX 295 на 60-70% выше, чем у одночиповой Geforce GTX 280. А по сравнению со SLI системами новое решение Nvidia показывает скорость где-то посередине, но ближе к GTX 280 SLI, что говорит об упоре производительности в тестах в текстурирование и математическую производительность.

О большом влиянии скорости математических вычислений говорят и результаты RADEON HD 4870 X2, который опережает все карты Nvidia, в том числе и GTX 295, во всех рассмотренных задачах. Даже GTX 280 SLI не может с ним сравниться в наших простых тестах пиксельных шейдеров, что является следствием улучшенной архитектуры RV770. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



Получается всё примерно то же самое, а SLI работает даже ещё эффективнее. AFR почти удваивает частоту кадров в таких синтетических тестах, и в сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water», где используется зависимая выборка из текстур больших уровней вложенности, карты располагаются соответственно максимальной скорости текстурирования. Новая двухчиповая модель Nvidia почти вдвое быстрее одночипового GTX 280, и почти вровень с GTX 280 SLI, но продолжает отставать от HD 4870 X2.

Второй тест интенсивнее загружает вычислительные блоки, и поэтому лучше подходит для архитектуры AMD, обладающей большим количеством потоковых процессоров и большей теоретической производительностью. В нём новое решение Nvidia хотя и показывает очень высокий результат по сравнению с одночиповой картой и SLI системами, но не может конкурировать с решением AMD, которое снова показывает максимальный результат.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:

В этих математических тестах, зависящих прежде всего от частоты шейдерных блоков и скорости текстурирования, важен баланс производительности разных блоков GPU. Скорость видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок, и старая архитектура AMD показывала тут слабый результат. Но два RV770 очень хороши, и снова мы видим преимущество решения HD 4870 X2. Наш же герой опережает всех своих собратьев, кроме двух карт GTX 280 в SLI, которые имеют большую тактовую частоту.

И во втором тесте «Parallax Mapping» мы видим то же самое. Geforce GTX 295 хоть и опережает GTX 280 и GTX 260 SLI, и совсем немного отстаёт от GTX 280 SLI, что полностью соответствует теории, но проигрывает двухчиповой карте серии HD 4800. Судя по нашим предыдущим исследованиям, в данном синтетическом тесте и одночиповые карты AMD очень сильны, а эффективная реализация AFR в CrossFire позволяет HD 4870 X2 одержать победу над Geforce GTX 295. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там результаты могут получиться иными.

В целом — почти то же самое, RADEON HD 4870 X2 даже показал ещё немного более сильные сравнительные результаты. Ну и Geforce GTX 295 всё так же очень близок к системе из двух Geforce GTX 280, и опережает два GTX 260. В целом, взаимное положение карт изменилось совсем немного. Ну и хорошо видно, что с математикой все нынешние решения справляются гораздо лучше, чем с выборкой данных из текстур.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех

Ну что же, самые сложные DirectX 9 тесты показывают, что Geforce GTX 295 очень быстра — почти вдвое производительнее одиночной GTX 280, и лишь немного отстаёт от связки из двух таких карт. Наличие 480 потоковых процессоров и 160 текстурных модулей позволяет ей показывать результат ощутимо выше, чем у GTX 260 SLI, работающих на тех же частотах.

Ну а последняя архитектура компании AMD отлично показывает себя в этих тестах, RADEON HD 4870 X2 опережает всех соперников хоть и не очень много, но всё-таки достаточно для того, чтобы полностью укрепить своё лидерство в этой части тестов — ни один из них она не проиграла рассматриваемому сегодня новейшему решению Nvidia. Посмотрим, что получится в Direct3D 10 тестах, ведь во всех предыдущих исследованиях у карт AMD там дела были явно хуже, чем в Direct3D 9.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

И сразу же огорчение — к сожалению, из-за того, что мы пользуемся специальной версией RightMark 2.0, не выпущенной публично, режим мультичипового рендеринга в D3D10 тестах не работает, а небольшую разницу между GTX 280 и GTX 280 SLI можно объяснить погрешностью измерения. По крайней мере, так получается на тех драйверах, что предназначены для тестирования Geforce GTX 295, которые были предоставлены компанией Nvidia. Следовательно, к нашему огромному сожалению, остальная часть статьи, посвящённая Direct3D 10 тестам, будет совсем неинтересной. Geforce GTX 295 нельзя будет сравнить ни с одночиповой GTX 280, ни с конкурентом HD 4870 X2, который, скорее всего, и станет победителем всех тестов.

Причём, ранее при тестировании Geforce 9800 GX2 всё было в порядке, режим SLI работал и давал ожидаемое преимущество. В этот же раз, похоже, что SLI не включается в драйверах для нашей версии исполнимого файла RightMark 2.0. И единственное, для чего мы оставляем эти результаты — чтобы увидеть соотношение между GTX 295 и SLI системами на основе GTX 280 и GTX 260. Несмотря на одночиповый режим рендеринга, их относительные результаты будут, скорее всего, соответствовать и скорости этих же систем в двухчиповом режиме. А вот сравнения с одиночным GTX 280 и RADEON HD 4870 X2 не получится, увы.

Производительность в тесте Fur зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. С определённого времени в драйверах AMD были исправлены ошибки, и теперь в Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок, двухчиповое решение AMD показывает результат на уровне одночиповых Nvidia.

Результаты этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза. Возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этот раз почти ничего не изменилось — новая двухчиповая видеокарта AMD хоть немного, но опережает одночиповые Nvidia. Очень хорошо, что AMD наконец-то подтянула результаты в этом тесте, а то раньше было совсем некрасиво. Теперь бы ещё Nvidia снова SLI включила для RightMark…

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Посмотрим сразу же его и с включением суперсэмплинга, который в предыдущем тесте вызывает большее падение скорости на картах Nvidia. При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности.

Эти тесты интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Результаты предыдущего теста полностью повторяются. Карта AMD при включении суперсэмплинга выигрывает, хотя включение самозатенения вызывает на продукции AMD слишком большое падение производительности. Рассматриваемая сегодня Geforce GTX 295, даже при работе в одночиповом режиме отстаёт от HD 4870 X2 лишь немного, в основном в тяжёлых режимах. Сравнение с остальными решениями Nvidia показывает результаты, соответствующие теории — GTX 295 располагается между GTX 280 и GTX 260.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современные решения Nvidia показывают себя несколько хуже конкурирующих от AMD. Даже если мысленно удвоить производительность всех систем на основе Nvidia, кроме одиночной GTX 280, они все проиграют двухчиповому решению RADEON HD 4870 X2, у которого в тесте Mineral получился очень сильный результат. Ну а Geforce GTX 295, с учётом нерабочего SLI, показывает результат, близкий к тому, что получился у пары GTX 280 SLI.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В данном тесте скорость рендеринга также ограничена исключительно производительностью шейдерных блоков, и тест очень хорошо подходит архитектурам AMD. В этот раз преимущество решений этой компании ещё более впечатляющее. Даже если удвоить цифры рассматриваемого сегодня Geforce GTX 295, то он будет отставать от двухчипового решения конкурента более чем в полтора раза. В любом случае, если сравнивать только решения Nvidia, то GTX 295 покажет очень высокий результат (при условии включения SLI).

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом.

В этом тесте видеокарты Nvidia подводит одночиповый режим работы. Как мы знаем на практике, AFR режим позволяет увеличить производительность в этом тесте почти вдвое, для каждого режима. С учётом этого, GTX 295 должен быть примерно сопоставим по скорости с HD 4870 X2. Посмотрим, что будет при переносе части вычислений в геометрический шейдер:

Разницы между рассмотренными вариантами теста практически нет, никаких изменений не произошло. Лидером остаётся конкурент нашего сегодняшнего героя — HD 4870 X2. Двухчиповые решения Nvidia снова отстают из-за нерабочего SLI в RightMark 2.0, хотя алгоритм многочипового рендеринга AFR в этих тестах эффективно удваивает FPS. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. А вот в этом тесте двухчиповый рендеринг не показывает высокой эффективности, как в предыдущем случае. Поэтому все видеокарты Nvidia, показавшие близкие результаты в одночиповом режиме, отстают от RADEON HD 4870 X2, работающего в CrossFire, не очень сильно. И рассматриваемый Geforce GTX 295 близок к его результатам, особенно в тяжёлых режимах.

Цифры могут измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также иногда бывает интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Но, в отличие от наших предыдущих исследований, в этот раз не видно никаких изменений, ведь все новые архитектуры улучшают свои результаты. И в GT200(b), и в RV770 были сделаны некоторые оптимизации, направленные на улучшение исполнения геометрических шейдеров. С учётом не очень высокой эффективности AFR в этом тесте, можно сказать, что в двухчиповом режиме GTX 295 должен быть не хуже RADEON HD 4870 X2, но и не особенно лучше.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth». Так как режим SLI в этом исследовании не включился, рассматриваем сразу по две диаграммы для обоих режимов: «Effect detail Low» и «High», с увеличенным количеством текстурных выборок:

Судя по предыдущим исследованиям, на результаты этого теста влияет и скорость текстурирования, и производительность ROP и пропускная способность памяти. Обе диаграммы показывают схожее взаимное расположение видеокарт, Geforce GTX 295 ближе к GTX 280 SLI, чем к GTX 260 SLI. Но во всех режимах лидером является двухчиповая модель серии RADEON HD 4800, так как она работает в номинальном режиме, в отличие от карт Nvidia. Судя по прошлым тестам, многочиповый рендеринг показывает себя с хорошей стороны, и очень жаль, что решения Nvidia в нашем тестовом пакете его не использовали, и сравнение получилось неполноценным.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Во втором тесте отрыв HD 4870 X2 от решений Nvidia ещё больше усилился, так как тест «Waves» относится благосклоннее к продукции AMD, и новые модели семейства RADEON HD 4800 смотрятся в нём очень хорошо. Даже виртуальное удвоение производительности от включения режима SLI не даст Geforce GTX 295 догнать решение конкурента в тяжёлых режимах. А вот в простом режиме с большим влиянием ПСП даже одночиповые карты выступают почти на уровне двухчиповых. Разница между двумя вариантами теста невелика, разве что при увеличении нагрузки результат карты AMD становится ещё сильнее относительно решений Nvidia.

Выводы по синтетическим тестам

На основе результатов проведённых синтетических тестов, мы подтверждаем выводы, сделанные во всех предыдущих статьях, посвящённых многочиповому рендерингу. Так как GT200b — это тот же GT200, а двухчиповая карта Geforce GTX 295 совмещает работу двух таких GPU в режиме SLI, то вывод напрашивается сам собой — во всех синтетических тестах, где работал режим мультичипового рендеринга AFR, эта видеокарта опережает одиночные карты компании Nvidia, и её скоростные показатели находится между SLI системами на основе двух карт GTX 260 и GTX 280, но ближе к последней.

Самым неожиданным выводом из этой части получилось то, что ни в одном синтетическом тесте новый Geforce GTX 295 не смог превзойти RADEON HD 4870 X2. Конечно, в этом виноват и одночиповый режим рендеринга для нашего теста RightMark 2.0, выставленный драйверами Nvidia для всех SLI систем. Если бы не эта досадная недоработка, то в Direct3D 10 тестах у GTX 295 были бы явные и ощутимые победы. Тем не менее, старый пакет тестов (Direct3D 9) явно показал слабости всех решений на основе GT200 — им просто не хватает банальных рабочих частот, чтобы везде догнать и перегнать конкурента.

Но, несмотря на проигрыш конкуренту от AMD во всех синтетических тестах по объективным причинам, решение на основе двух GT200b получилось явно очень мощным, оно обладает большим количеством исполнительных блоков и отличными теоретическими показателями. Скорее всего, в игровых приложениях ситуация будет совсем иной, чем в наших синтетических тестах, и Geforce GTX 295 выиграет там у HD 4870 X2 в большинстве случаев. На такое предположение наталкивают и показатели в синтетических D3D10 тестах, где у всех SLI систем на основе чипов Nvidia работал лишь один GPU из двух, но они всё равно были сильны везде, кроме чисто математических тестов.

Поэтому, предлагаем перейти к следующей части статьи, которая содержит наиболее интересные тесты нового двухчипового решения компании Nvidia, а также других видеокарт обоих производителей в нескольких современных игровых приложениях. Можно предположить, что в случае работоспособности режимов SLI и AFR, в большинстве игр скорость Geforce GTX 295 будет выше, чем у RADEON HD 4870 X2, кроме редких случаев нехватки локальной видеопамяти и тяжёлых режимов вроде MSAA 8x, в которых видеокарты Nvidia чувствуют себя не очень комфортно.



Nvidia Geforce GTX 295 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia