Nvidia Geforce GTX Titan Z

Часть 2: Особенности карты и синтетические тесты


Содержание

Устройство(а)

Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E
ПараметрНоминальное значение (референс)
GPU2×Geforce GTX Titan Black (2×GK110)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц705—1058
Частота работы памяти (физическая (эффективная)), МГц1750 (7000)
Ширина шины обмена с памятью, бит2×384
Число вычислительных блоков в GPU/частота работы блоков, МГц2×15/705—1058
Число операций (ALU) в блоке192
Суммарное число операций (ALU)2×2880
Число блоков текстурирования (BLF/TLF/ANIS)2×240
Число блоков растеризации (ROP)2×48
Размеры, мм270×100×53
Количество слотов в системном блоке, занимаемые видеокартой3
Цвет текстолитачерный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт384/141/58
Выходные гнезда1×DVI (Dual-Link/HDMI),1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
Поддержка многопроцессорной работыSLI
Максимальное количество приемников/мониторов для одновременного вывода изображения4
Дополнительное питание: количество 8-контактных разъемов2
Дополнительное питание: количество 6-контактных разъемовНет
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 2×6144 МБ памяти GDDR5 SDRAM, размещенной в 48 микросхемах по 2 Гбит (по 24 на каждой стороне PCB).

Микросхемы памяти SK Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1750 (7000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 690
Вид сзади
Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 690

Сравнение с GTX 690 мы приводим потому, что это предыдущий (перед Titan Z) двухпроцессорный ускоритель Nvidia. Разница очевидна: использованы разные шины обмена с памятью (GTX 690 — 2 по 256 бит, Titan Z — 2 по 384 бит), а отсюда и разное количество микросхем памяти. И если GTX 690 смогли выпустить с размещением памяти только на лицевой стороне PCB, то в случае с Titan Z это уже невозможно. (48 микросхем памяти на лицевой стороне разместить в принципе можно, но размеры PCB сильно вырастут, а как мы видим, Nvidia четко следует принципу: любой, даже самый мощный, ускоритель не должен выходить за рамки некоего стандарта 270×100 мм. Кроме того, сложность PCB вырастет в разы.) В принципе, мы видели дизайн с разведением шины 2×384 бит у Geforce GTX 590, однако тогда объем памяти был в 4(!) раза меньше (2×1,5 ГБ), и микросхем памяти также было в разы меньше.

Мы уже писали о том, что по причине размещения на одной печатной плате двух GPU, каждый из которых рассчитан на интерфейс PCI-E, требуется коммутатор для эмуляции моста PCI-E вне системной шины (для двухпроцессорных ускорителей он требуется всегда). В качестве коммутатора используется PEX8747.

Система охлаждения
В Nvidia не решились пойти на установку ЖСО, как это сделали в AMD для своего топа (R9 295X2), и оставили воздушный кулер. Правда, устройство охлаждения получилось очень массивным, ведь надо рассеивать огромное количество тепла. СО основана на двух испарительных камерах, каждая из которых прижимается к своему GPU. Другой стороной камеры припаяны к мелкореберному медному радиатору, причем дизайн ребер — особенный, учитывающий направление движения воздуха от большого центрального вентилятора в каждую сторону.

Основному радиатору помогает дополнительная рама, служащая отдельным радиатором для микросхем памяти и силовых транзисторов. Микросхемы памяти на оборотной стороне PCB имеют свою весьма массивную пластину-радиатор.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 84 градусов, что является хорошим результатом для такого очень мощного ускорителя. При этом максимальная частота вращения вентилятора достигала 1905 оборотов в минуту, делая кулер весьма шумным, однако не достигая критического уровня. Обычно мы хорошо слышим вентиляторы на частотах 1800-2000 оборотов в минуту, но этот уровень шума еще может не раздражать. А вот если частота вращения достигает 2500 оборотов в минуту, то такие СО уже однозначно становятся некомфортными по шумовым параметрам. Конечно, это несколько упрощенная классификация, ведь все зависит еще от конструкции вентиляторов, а также от степени восприимчивости того или иного человека к шуму. Единой оценки быть не может.
Мониторинг температурного режима (с помощью EVGA PrecisionX (автор А. Николайчук AKA Unwinder)

Комплектация. Карта попала к нам в ОЕМ-поставке, поэтому упаковки и комплекта нет.

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
    • корпус Corsair Obsidian 800D Full-Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Dell UltraSharp U3011 (30″);
  • монитор Asus ProArt PA249Q (24″);
  • драйверы AMD версии Catalyst 14.7, Nvidia версии 340.52. VSync отключен.


Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX Titan Z со стандартными параметрами (сокращенно GTX Titan Z)
  • Geforce GTX Titan со стандартными параметрами (сокращенно GTX Titan), не путать с GTX Titan Black!
  • Geforce GTX 690 со стандартными параметрами (сокращенно GTX 690)
  • Radeon R9 295X2 CrossFire две платы Radeon R9 295X2 в режиме CrossFire (сокращенно R9 295X2 CF)
  • Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)

Для анализа результатов видеокарты Geforce GTX Titan Z нами были выбраны именно эти решения по следующим причинам. Geforce GTX 690 является моделью из предыдущего семейства с двухчиповой конфигурацией компании Nvidia, которая основана на графических процессорах GK104, ну а Geforce GTX Titan — элитная модель на базе такого же чипа GK110, как и в GTX Titan Z, но в единственном числе. Будет интересно узнать, насколько двухчиповая новинка быстрее аналогичной платы на базе одного GPU.

У конкурирующей компании AMD для нашего сравнения были выбраны две конфигурации видеоподсистемы, основанные на одинаковых двухчиповых видеокартах, отличающиеся друг от друга только их количеством. Хотя единственную Radeon R9 295X2 и можно считать аналогом GTX Titan Z, но по цене разница между ними двукратная, поэтому мы рассмотрели и видеосистему на основе двух таких видеокарт компании AMD, работающую в четырехчиповом режиме CrossFire.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В этом материале мы решили отказаться от устаревших тестов DirectX 9, так как практически все мощные решения показывают в нем не слишком показательные результаты, будучи ограничены ПСП, филлрейтом или текстурированием. К тому же, двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях, не говоря уже о четырехчиповой CrossFire-конфигурации, которая и вовсе не прошла набор наших DX9-тестов.

А во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD вырвалась вперед по производительности, и теперь именно платы Radeon являются лидерами в этих сравнениях, что говорит о значительно более высокой эффективности выполнения ими этих программ.

Видеоплата модели Geforce GTX Titan Z явно быстрее аналога из предыдущего поколения в виде GTX 690, да и одночиповую GTX Titan она опережает, но разница далековата от двукратной (60-80%). Увы, но обе видеосистемы конкурента на базе AMD Radeon R9 295X2 далеко впереди, так что для Nvidia в этих тестах все остается по-прежнему. Даже одиночная R9 295X2 почти вдвое быстрее, чем GTX Titan Z.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

И в таких условиях новая двухчиповая видеокарта Geforce GTX Titan Z также заметно опережает аналог из предыдущего поколения — устаревшую GTX 690, а также и одночиповую GTX Titan — вот теперь уже почти до двух раз. Отставание от конкурентов в виде одиночной и двойной Radeon R9 295X2 лишь увеличилось — превосходство в подобных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом похожа на предыдущую, также без включения SSAA, и в этот раз новая Geforce GTX Titan Z показала скорость на 50-70% выше, чем одночиповая GTX Titan. Также она продолжает заметно опережать и двухчиповую предшественницу GTX 690. Но если брать сравнение с видеокартами AMD, то в этом случае все снова весьма печально, так как новинка уступает даже одной Radeon R9 295X2, так как платы Nvidia в этом тесте справляются с работой снова заметно хуже конкурирующих решений. Посмотрим, что изменит включение суперсэмплинга:

Изменений почти нет и в этот раз. При включении суперсэмплинга и самозатенения задача получается еще более тяжелой и совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась слабо, а включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Мы в очередной раз убедились, что графические решения Radeon в D3D10-тестах пиксельных шейдеров работают значительно эффективнее, по сравнению с конкурирующими платами Geforce, и два чипа GK110 тут мало что изменили. Новая плата Geforce GTX Titan Z на этих чипах архитектуры Kepler хоть и заметно быстрее других представленных плат Nvidia, но если сравнивать ее даже с одной Radeon R9 295X2, то отставание Geforce слишком велико.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и даже упор в ПСП, особенно в случае быстрейших решений. В случае теста Mineral, новая модель Geforce GTX Titan Z оказалась лишь на 39% быстрее одночипового GTX Titan, и опередила аналог из номинально предыдущего поколения (GTX 690) не так уж сильно.

Сравнение GTX Titan Z с двухчиповой платой AMD в очередной раз показало сильные стороны архитектуры конкурента, так как их чипы в таких тестах имеют значительное преимущество перед конкурирующими решениями калифорнийцев. В математических тестах даже не конкурирующая с новинкой по цене видеокарта Radeon R9 295X2 оказалась далеко впереди, а уж две штуки за такие же деньги и вовсе более чем вдвое быстрее даже в тесте, который явно упирается во что-то непонятное.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте мы видим уже несколько иные результаты видеокарт относительно друг друга, но разница не радикальная. Так, Geforce GTX Titan Z опережает GTX Titan уже на 67%, но даже одиночная Radeon R9 295X2 все так же сильно обгоняет двухчиповую новинку Nvidia. С тестами пиковой математической производительности все как обычно — видеочипы Nvidia в них сильно отстают от соперников.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда также и пропускной способностью памяти.

Хотя некоторая разница между результатами видеокарт на чипах Nvidia и AMD, которая обусловлена отличиями в геометрических конвейерах чипов этих компаний, и заметна, но в целом результаты Titan Z и R9 295X2 довольно близкие. Если в предыдущих тестах с пиксельными шейдерами платы AMD были заметно эффективнее и быстрее, то тесты геометрии показывают, что в таких задачах платы Nvidia вполне конкурентоспособны.

Двухчиповая новинка Geforce GTX Titan Z серьезно опережает аналогичный вариант платы прошлого поколения в лице Geforce GTX 690, выигрывая у одночиповой платы Titan до 80%. Видеокарта Radeon R9 295X2 в этот раз впервые отстает, что можно объяснить тем, что геометрическая производительность у GPU компании AMD все же хуже. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD и для решений Nvidia, но разница невелика и ничего не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними. Плата Nvidia на двух GK110 быстрее аналогичной модели на паре GK104 и быстрее одночипового Titan лишь на 70-80%. Также двухчиповая Geforce чуть быстрее Radeon R9 295X2 в единственном числе.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и эта ошибка не исправлена вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что особенно заметно в легком режиме. Собственно, по результатам пары Radeon R9 295X2 в режиме CrossFire видно, что на столь мощной видеосистеме эти параметры главенствуют уже во всех режимах.

Новая двухчиповая видеокарта компании Nvidia до полутора раз быстрее одночиповой GTX Titan и более чем вдвое быстрее аналогичного двухчипового решения предыдущего поколения — GTX 690. Главный конкурент новинки в виде Radeon R9 295X2 в этот раз заметно опережает новинку даже в единственном числе, хотя если сравнивать по цене, то плат AMD надо брать две штуки, и в таком случае разгром получается просто колоссальный. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме изменилась, решения компании AMD в тяжелых режимах потеряли чуть больше, чем платы Geforce. И все же новая видеоплата Geforce GTX Titan Z показала скорость ниже, чем у конкурента, даже в единственном числе. Если же сравнивать новинку с решениями Nvidia предыдущего поколения, то она опережает одночиповую плату на 40-45%, а GTX 690 осталась далеко позади обеих.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» обычно не слишком похожи на то, что мы видели на предыдущих диаграммах, но в этот раз это мало что изменило, так как скоростные показатели Geforce в этом тесте еще сильнее ухудшились. И хотя новая модель Nvidia заметно быстрее GTX Titan (до 60%) и особенно Geforce GTX 690, но даже одна плата Radeon R9 295X2 заметно быстрее ее во всех режимах. А двум таким платам в режиме CrossFire уже не хватает эффективности. Рассмотрим второй вариант этого же теста:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже. Чуть больше пострадали видеокарты Nvidia, поэтому и в выводах мало что меняется. Новая модель Geforce GTX Titan Z на 60% быстрее одночиповой GTX Titan и более чем втрое быстрее Geforce GTX 690 в самом тяжелом режиме, но главное не это. А то, что в сравнении с прямыми конкурентами ситуация снова нерадостная — двухчиповая новинка Nvidia в очередной раз серьезно уступает даже одной Radeon R9 295X2, не говоря уже про их пару.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов видеокарты модели Geforce GTX Titan Z в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей обычно близки к соответствующим теоретическим параметрам. Разница в скорости между GTX Titan Z и GTX Titan оказалась близкой к полуторакратной, что маловато для двухчиповой новинки. Если сравнивать платы разных поколений, созданные на основе пары графических процессоров, то новинка тоже почти наполовину быстрее Geforce GTX 690 по скорости текстурирования.

Что касается сравнения скорости новой двухчиповой видеоплаты с аналогичным решением конкурента, то новинка Nvidia по текстурной скорости чуть-чуть уступает более дешевой плате в лице Radeon R9 295X2, а прямой ценовой соперник в виде двух таких плат в режиме CrossFire заметно быстрее, чем GTX Titan Z.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP с учетом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет пропускную способность и/или производительность ROP. Результат у выпущенной в конце весны топовой двухчиповой платы Geforce получился уже даже более чем вдвое лучше, чем у GTX Titan (не Black), что можно объяснить как раз повышенной ПСП. Да и модель предыдущего поколения на двух GK104 заметно отстала.

Если сравнивать скорость заполнения сцены видеокартой GTX Titan Z с видеокартами AMD, то рассматриваемая нами сегодня плата в этом тесте показывает практически точно такую же скорость заполнения сцены, что и идентичная Radeon R9 295X2 — разницы в скорости между этими двумя картами практически нет. Но плата AMD вдвое дешевле, не нужно забывать об этом.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Данный тест пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, поэтому в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX Titan Z оказалась лишь на 70% быстрее своего одночипового аналога на таком же GPU, и обогнала двухчип предыдущего поколения GTX 690.

Немудрено, что при таких данных новинка серьезно проигрывает не только в прямой ценовой конкуренции с двумя платами AMD Radeon R9 295X2, но показывает результат ниже уровня одной двухчиповой платы этой компании. В общем, графические процессоры производства компании AMD и в этой задаче работают более эффективно.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, а основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны бы проявиться именно тут, но увы — все платы Nvidia показали не слишком высокую скорость, а SLI так и вовсе практически не работает. В результате, новинка быстрее GTX Titan лишь на 23%, а GTX 690 так и вовсе показала почти такую же скорость.

Сравнение с платой Radeon R9 295X2 еще более печально — несмотря на меньшее количество геометрических исполнительных блоков и большую геометрическую производительность, по сравнению с конкурирующими решениями Nvidia, двухчиповый Radeon в этом тесте работает просто отлично и обгоняет все Geforce более чем вдвое. И с эффективностью CrossFire никаких проблем нет — при равной цене, пара R9 295X2 опережает одну GTX Titan Z более чем вчетверо!

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage ситуация изменилась, и в этот раз SLI в новой Geforce GTX Titan Z работает заметно лучше — новинка на 72% быстрее одночипового варианта GTX Titan, и заметно быстрее GTX 690. В этом тесте наблюдается упор не только в геометрическую производительность, но и производительность блоков ROP и/или пропускную способность видеопамяти.

Сравнивать новинку с конкурирующей видеокартой компании AMD в этот раз вполне можно. Обе двухчиповые платы заклятых соперников показывают близкие результаты (но Radeon R9 295X2 все же побыстрее на 5-6%). Получается, что платы на чипах AMD уже достаточно хорошо оптимизированы для синтетических тестов имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим почти такое же распределение результатов, как и в аналогичных тестах нашего тестового пакета. В этом случае производительность решений не совсем соответствует теории, но близка к тому, что мы видели в других математических тестах.

Видеочипы компании AMD с архитектурой GCN просто отлично справляются с подобными задачами и показывают результаты заметно лучше конкурента в тех случаях, когда выполняется интенсивная «математика». Неудивительно, что новая двухчиповая модель компании Nvidia в этом тесте показала результат хуже, чем даже один Radeon R9 295X2, не говоря о паре таких решений, работающих в тандеме. Удивительно, что разница с GTX Titan оказалась равна лишь 21%, что явно говорит о странном провале — отличие в скорости явно меньше теоретического.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать двухчиповое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia давно уже приблизительно одинаковая, отличия наблюдались только у видеокарт с GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче явно зависят не столько от математической мощи и эффективности вычислений, но от других факторов, вроде пропускной способности памяти и производительности блоков ROP.

В данном случае скорость видеокарт упирается в филлрейт — параметр, по которому новинка Nvidia уступает конкуренту. Новая двухчиповая плата компании в этом тесте всего лишь на 17-18% быстрее одночиповой GTX Titan — SLI просто не работает должным образом. Поэтому если сравнивать Geforce GTX Titan Z с прямым конкурентом в лице Radeon R9 295X2, то рассматриваемая сегодня плата заметно отстает.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте наблюдается упор в скорость исполнения простых математических вычислений и в эффективность выполнения сложного кода с ветвлениями. Во втором DX11-тесте расклад сил между решениями разных компаний уже другой, и решения компании Nvidia в этот раз явно сильнее соперника, даже несмотря на то, что SLI снова не работает.

Двухчиповая плата Radeon R9 295X2 тут выглядит тоже неплохо, особенно в варианте двух видеокарт, но в GK110 настолько много геометрических блоков, что всего лишь один GPU в составе GTX Titan дает преимущество перед четырьмя Hawaii. А вот результат Geforce GTX Titan Z даже ниже, так как SLI не работает, а тактовая частота видеочипа ниже, чем у одночипового решения.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не слишком важна, так как эта задача давно стала слишком легкой и производительность упирается в ПСП. Сегодняшний герой обзора превосходит одночиповый Geforce GTX Titan на 61%, да и Radeon R9 295X2 также оказался позади в первом подтесте (две такие платы быстрее, ясное дело).

Во втором подтесте с куда более сложными попиксельными расчетами новинка уже заметно уступила даже одной Radeon R9 295X2, так как эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, чем у Kepler. Если сравнивать двухчиповую модель GTX Titan Z с одночиповой GTX Titan, то новинка оказалась в этот раз почти вдвое быстрее — на 95%.

В подтесте с применением легкой тесселяции, новая плата Nvidia уже лишь на 70% быстрее одночиповой GTX Titan. Ну и даже единственная плата AMD выигрывает у двухчиповой новинки Nvidia, что объясняется тем, что в этом тесте тесселяции разбиение треугольников весьма умеренное и скорость не упирается в производительность блоков обработки геометрии.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте в тяжелых режимах применяется уже более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Все представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Хотя в легких условиях графические процессоры AMD отлично работают, опережая калифорнийских конкурентов, в тяжелых режимах платы Nvidia выходят вперед — даже одночиповая GTX Titan в самых сложных условиях почти на одном уровне с двумя Radeon R9 295X2.

Что касается сравнения плат Nvidia между собой, то интересно, что рассматриваемая сегодня модель Geforce GTX Titan Z уступила аналогичной плате на единственном чипе GK110 в двух легких режимах. Получается, что SLI работает эффективно только со сложной геометрией. Любопытно также и то, что и CrossFire в легких режимах не дает прироста, упираясь в ПСП, вероятно.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарта Radeon R9 295X2 показывает высокий результат, опережая конкурента, но уже в следующих ступенях нагрузки новинка производительность всех Radeon снижается заметнее, и новинка выходит вперед.

И все же, двухчиповая плата AMD показывает себя очень неплохо, а два таких решения (равные по цене одной GTX Titan Z, напомним) даже слегка быстрее новой видеокарты Nvidia. А так как в играх геометрическая нагрузка всегда намного ниже, то Radeon будут еще быстрее. Если сравнивать GTX Titan Z с GTX Titan, то разница между производительностью двухчиповой и одночиповой видеокарт достигает 87% — неплохой результат.

***

Подводя итоги этого раздела статьи и проанализировав результаты синтетических тестов представленной в конце мая видеокарты Nvidia Geforce GTX Titan Z, а также результаты других моделей видеокарт обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемой топовой плате на базе пары чипов GK110 будет очень непросто сражаться на игровом рынке со своим главным соперником по цене в виде одной или даже двух плат Radeon R9 295X2.

Даже одна видеокарта AMD почти всегда показывает более высокие результаты в «синтетике», кроме некоторых тестов (чаще всего геометрических), не говоря уже о паре таких плат, которые стоят ровно столько же, что и одна Geforce GTX Titan Z. В реальных игровых приложениях нагрузка на геометрические блоки заметно ниже, чем в наших синтетических тестах, поэтому даже одна Radeon R9 295X2 будет очень сильным конкурентом для Geforce GTX Titan Z в игровых тестах, даже без учета вдвое меньшей цены. Очевидно, что топовая двухчиповая модель Nvidia имеет явно завышенную цену, если рассматривать ее как игровое решение.

Но для того, чтобы сделать окончательные выводы, нужно узнать реальную производительность двухчиповой новинки Nvidia в играх. Что мы и сделаем в следующей части нашего материала, оценив и оправданность ее розничной цены уже с учетом скорости Geforce GTX Titan Z и Radeon R9 295X2 в привычном наборе игр.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
GTX Titan Z — Н/Д(0) R9 295 X2 — $1458(2)
GTX Titan Z — Н/Д(0) HD 7990 — Н/Д(0)
GTX Titan Z — Н/Д(0) GTX Titan Black — $1008 (на 01.05.16)
GTX Titan Z — Н/Д(0) GTX 690 — Н/Д(0)


2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek




Дополнительно

Обзор видеоускорителя Nvidia Geforce GTX Titan Z. Часть 2: особенности карты и синтетические тесты

Nvidia Geforce GTX Titan Z

Часть 2: Особенности карты и синтетические тесты

Содержание

Устройство(а)

Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E
ПараметрНоминальное значение (референс)
GPU2×Geforce GTX Titan Black (2×GK110)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц705—1058
Частота работы памяти (физическая (эффективная)), МГц1750 (7000)
Ширина шины обмена с памятью, бит2×384
Число вычислительных блоков в GPU/частота работы блоков, МГц2×15/705—1058
Число операций (ALU) в блоке192
Суммарное число операций (ALU)2×2880
Число блоков текстурирования (BLF/TLF/ANIS)2×240
Число блоков растеризации (ROP)2×48
Размеры, мм270×100×53
Количество слотов в системном блоке, занимаемые видеокартой3
Цвет текстолитачерный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт384/141/58
Выходные гнезда1×DVI (Dual-Link/HDMI),1×DVI (Single-Link/VGA), 1×HDMI 1.4a, 1×DisplayPort 1.2
Поддержка многопроцессорной работыSLI
Максимальное количество приемников/мониторов для одновременного вывода изображения4
Дополнительное питание: количество 8-контактных разъемов2
Дополнительное питание: количество 6-контактных разъемовНет
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 2×6144 МБ памяти GDDR5 SDRAM, размещенной в 48 микросхемах по 2 Гбит (по 24 на каждой стороне PCB).

Микросхемы памяти SK Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1750 (7000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 690
Вид сзади
Nvidia Geforce GTX Titan Z 2×6144 МБ 2×384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 690

Сравнение с GTX 690 мы приводим потому, что это предыдущий (перед Titan Z) двухпроцессорный ускоритель Nvidia. Разница очевидна: использованы разные шины обмена с памятью (GTX 690 — 2 по 256 бит, Titan Z — 2 по 384 бит), а отсюда и разное количество микросхем памяти. И если GTX 690 смогли выпустить с размещением памяти только на лицевой стороне PCB, то в случае с Titan Z это уже невозможно. (48 микросхем памяти на лицевой стороне разместить в принципе можно, но размеры PCB сильно вырастут, а как мы видим, Nvidia четко следует принципу: любой, даже самый мощный, ускоритель не должен выходить за рамки некоего стандарта 270×100 мм. Кроме того, сложность PCB вырастет в разы.) В принципе, мы видели дизайн с разведением шины 2×384 бит у Geforce GTX 590, однако тогда объем памяти был в 4(!) раза меньше (2×1,5 ГБ), и микросхем памяти также было в разы меньше.

Мы уже писали о том, что по причине размещения на одной печатной плате двух GPU, каждый из которых рассчитан на интерфейс PCI-E, требуется коммутатор для эмуляции моста PCI-E вне системной шины (для двухпроцессорных ускорителей он требуется всегда). В качестве коммутатора используется PEX8747.

Система охлаждения
В Nvidia не решились пойти на установку ЖСО, как это сделали в AMD для своего топа (R9 295X2), и оставили воздушный кулер. Правда, устройство охлаждения получилось очень массивным, ведь надо рассеивать огромное количество тепла. СО основана на двух испарительных камерах, каждая из которых прижимается к своему GPU. Другой стороной камеры припаяны к мелкореберному медному радиатору, причем дизайн ребер — особенный, учитывающий направление движения воздуха от большого центрального вентилятора в каждую сторону.

Основному радиатору помогает дополнительная рама, служащая отдельным радиатором для микросхем памяти и силовых транзисторов. Микросхемы памяти на оборотной стороне PCB имеют свою весьма массивную пластину-радиатор.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 84 градусов, что является хорошим результатом для такого очень мощного ускорителя. При этом максимальная частота вращения вентилятора достигала 1905 оборотов в минуту, делая кулер весьма шумным, однако не достигая критического уровня. Обычно мы хорошо слышим вентиляторы на частотах 1800-2000 оборотов в минуту, но этот уровень шума еще может не раздражать. А вот если частота вращения достигает 2500 оборотов в минуту, то такие СО уже однозначно становятся некомфортными по шумовым параметрам. Конечно, это несколько упрощенная классификация, ведь все зависит еще от конструкции вентиляторов, а также от степени восприимчивости того или иного человека к шуму. Единой оценки быть не может.
Мониторинг температурного режима (с помощью EVGA PrecisionX (автор А. Николайчук AKA Unwinder)

Комплектация. Карта попала к нам в ОЕМ-поставке, поэтому упаковки и комплекта нет.

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
    • корпус Corsair Obsidian 800D Full-Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Dell UltraSharp U3011 (30″);
  • монитор Asus ProArt PA249Q (24″);
  • драйверы AMD версии Catalyst 14.7, Nvidia версии 340.52. VSync отключен.


Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX Titan Z со стандартными параметрами (сокращенно GTX Titan Z)
  • Geforce GTX Titan со стандартными параметрами (сокращенно GTX Titan), не путать с GTX Titan Black!
  • Geforce GTX 690 со стандартными параметрами (сокращенно GTX 690)
  • Radeon R9 295X2 CrossFire две платы Radeon R9 295X2 в режиме CrossFire (сокращенно R9 295X2 CF)
  • Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)

Для анализа результатов видеокарты Geforce GTX Titan Z нами были выбраны именно эти решения по следующим причинам. Geforce GTX 690 является моделью из предыдущего семейства с двухчиповой конфигурацией компании Nvidia, которая основана на графических процессорах GK104, ну а Geforce GTX Titan — элитная модель на базе такого же чипа GK110, как и в GTX Titan Z, но в единственном числе. Будет интересно узнать, насколько двухчиповая новинка быстрее аналогичной платы на базе одного GPU.

У конкурирующей компании AMD для нашего сравнения были выбраны две конфигурации видеоподсистемы, основанные на одинаковых двухчиповых видеокартах, отличающиеся друг от друга только их количеством. Хотя единственную Radeon R9 295X2 и можно считать аналогом GTX Titan Z, но по цене разница между ними двукратная, поэтому мы рассмотрели и видеосистему на основе двух таких видеокарт компании AMD, работающую в четырехчиповом режиме CrossFire.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В этом материале мы решили отказаться от устаревших тестов DirectX 9, так как практически все мощные решения показывают в нем не слишком показательные результаты, будучи ограничены ПСП, филлрейтом или текстурированием. К тому же, двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях, не говоря уже о четырехчиповой CrossFire-конфигурации, которая и вовсе не прошла набор наших DX9-тестов.

А во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и эффективности блоков TMU, влияет и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD вырвалась вперед по производительности, и теперь именно платы Radeon являются лидерами в этих сравнениях, что говорит о значительно более высокой эффективности выполнения ими этих программ.

Видеоплата модели Geforce GTX Titan Z явно быстрее аналога из предыдущего поколения в виде GTX 690, да и одночиповую GTX Titan она опережает, но разница далековата от двукратной (60-80%). Увы, но обе видеосистемы конкурента на базе AMD Radeon R9 295X2 далеко впереди, так что для Nvidia в этих тестах все остается по-прежнему. Даже одиночная R9 295X2 почти вдвое быстрее, чем GTX Titan Z.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

И в таких условиях новая двухчиповая видеокарта Geforce GTX Titan Z также заметно опережает аналог из предыдущего поколения — устаревшую GTX 690, а также и одночиповую GTX Titan — вот теперь уже почти до двух раз. Отставание от конкурентов в виде одиночной и двойной Radeon R9 295X2 лишь увеличилось — превосходство в подобных вычислениях явно у чипов компании AMD, предпочитающих попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом похожа на предыдущую, также без включения SSAA, и в этот раз новая Geforce GTX Titan Z показала скорость на 50-70% выше, чем одночиповая GTX Titan. Также она продолжает заметно опережать и двухчиповую предшественницу GTX 690. Но если брать сравнение с видеокартами AMD, то в этом случае все снова весьма печально, так как новинка уступает даже одной Radeon R9 295X2, так как платы Nvidia в этом тесте справляются с работой снова заметно хуже конкурирующих решений. Посмотрим, что изменит включение суперсэмплинга:

Изменений почти нет и в этот раз. При включении суперсэмплинга и самозатенения задача получается еще более тяжелой и совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт изменилась слабо, а включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Мы в очередной раз убедились, что графические решения Radeon в D3D10-тестах пиксельных шейдеров работают значительно эффективнее, по сравнению с конкурирующими платами Geforce, и два чипа GK110 тут мало что изменили. Новая плата Geforce GTX Titan Z на этих чипах архитектуры Kepler хоть и заметно быстрее других представленных плат Nvidia, но если сравнивать ее даже с одной Radeon R9 295X2, то отставание Geforce слишком велико.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и даже упор в ПСП, особенно в случае быстрейших решений. В случае теста Mineral, новая модель Geforce GTX Titan Z оказалась лишь на 39% быстрее одночипового GTX Titan, и опередила аналог из номинально предыдущего поколения (GTX 690) не так уж сильно.

Сравнение GTX Titan Z с двухчиповой платой AMD в очередной раз показало сильные стороны архитектуры конкурента, так как их чипы в таких тестах имеют значительное преимущество перед конкурирующими решениями калифорнийцев. В математических тестах даже не конкурирующая с новинкой по цене видеокарта Radeon R9 295X2 оказалась далеко впереди, а уж две штуки за такие же деньги и вовсе более чем вдвое быстрее даже в тесте, который явно упирается во что-то непонятное.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте мы видим уже несколько иные результаты видеокарт относительно друг друга, но разница не радикальная. Так, Geforce GTX Titan Z опережает GTX Titan уже на 67%, но даже одиночная Radeon R9 295X2 все так же сильно обгоняет двухчиповую новинку Nvidia. С тестами пиковой математической производительности все как обычно — видеочипы Nvidia в них сильно отстают от соперников.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда также и пропускной способностью памяти.

Хотя некоторая разница между результатами видеокарт на чипах Nvidia и AMD, которая обусловлена отличиями в геометрических конвейерах чипов этих компаний, и заметна, но в целом результаты Titan Z и R9 295X2 довольно близкие. Если в предыдущих тестах с пиксельными шейдерами платы AMD были заметно эффективнее и быстрее, то тесты геометрии показывают, что в таких задачах платы Nvidia вполне конкурентоспособны.

Двухчиповая новинка Geforce GTX Titan Z серьезно опережает аналогичный вариант платы прошлого поколения в лице Geforce GTX 690, выигрывая у одночиповой платы Titan до 80%. Видеокарта Radeon R9 295X2 в этот раз впервые отстает, что можно объяснить тем, что геометрическая производительность у GPU компании AMD все же хуже. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD и для решений Nvidia, но разница невелика и ничего не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними. Плата Nvidia на двух GK110 быстрее аналогичной модели на паре GK104 и быстрее одночипового Titan лишь на 70-80%. Также двухчиповая Geforce чуть быстрее Radeon R9 295X2 в единственном числе.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и эта ошибка не исправлена вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что особенно заметно в легком режиме. Собственно, по результатам пары Radeon R9 295X2 в режиме CrossFire видно, что на столь мощной видеосистеме эти параметры главенствуют уже во всех режимах.

Новая двухчиповая видеокарта компании Nvidia до полутора раз быстрее одночиповой GTX Titan и более чем вдвое быстрее аналогичного двухчипового решения предыдущего поколения — GTX 690. Главный конкурент новинки в виде Radeon R9 295X2 в этот раз заметно опережает новинку даже в единственном числе, хотя если сравнивать по цене, то плат AMD надо брать две штуки, и в таком случае разгром получается просто колоссальный. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме изменилась, решения компании AMD в тяжелых режимах потеряли чуть больше, чем платы Geforce. И все же новая видеоплата Geforce GTX Titan Z показала скорость ниже, чем у конкурента, даже в единственном числе. Если же сравнивать новинку с решениями Nvidia предыдущего поколения, то она опережает одночиповую плату на 40-45%, а GTX 690 осталась далеко позади обеих.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» обычно не слишком похожи на то, что мы видели на предыдущих диаграммах, но в этот раз это мало что изменило, так как скоростные показатели Geforce в этом тесте еще сильнее ухудшились. И хотя новая модель Nvidia заметно быстрее GTX Titan (до 60%) и особенно Geforce GTX 690, но даже одна плата Radeon R9 295X2 заметно быстрее ее во всех режимах. А двум таким платам в режиме CrossFire уже не хватает эффективности. Рассмотрим второй вариант этого же теста:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже. Чуть больше пострадали видеокарты Nvidia, поэтому и в выводах мало что меняется. Новая модель Geforce GTX Titan Z на 60% быстрее одночиповой GTX Titan и более чем втрое быстрее Geforce GTX 690 в самом тяжелом режиме, но главное не это. А то, что в сравнении с прямыми конкурентами ситуация снова нерадостная — двухчиповая новинка Nvidia в очередной раз серьезно уступает даже одной Radeon R9 295X2, не говоря уже про их пару.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов видеокарты модели Geforce GTX Titan Z в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей обычно близки к соответствующим теоретическим параметрам. Разница в скорости между GTX Titan Z и GTX Titan оказалась близкой к полуторакратной, что маловато для двухчиповой новинки. Если сравнивать платы разных поколений, созданные на основе пары графических процессоров, то новинка тоже почти наполовину быстрее Geforce GTX 690 по скорости текстурирования.

Что касается сравнения скорости новой двухчиповой видеоплаты с аналогичным решением конкурента, то новинка Nvidia по текстурной скорости чуть-чуть уступает более дешевой плате в лице Radeon R9 295X2, а прямой ценовой соперник в виде двух таких плат в режиме CrossFire заметно быстрее, чем GTX Titan Z.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP с учетом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет пропускную способность и/или производительность ROP. Результат у выпущенной в конце весны топовой двухчиповой платы Geforce получился уже даже более чем вдвое лучше, чем у GTX Titan (не Black), что можно объяснить как раз повышенной ПСП. Да и модель предыдущего поколения на двух GK104 заметно отстала.

Если сравнивать скорость заполнения сцены видеокартой GTX Titan Z с видеокартами AMD, то рассматриваемая нами сегодня плата в этом тесте показывает практически точно такую же скорость заполнения сцены, что и идентичная Radeon R9 295X2 — разницы в скорости между этими двумя картами практически нет. Но плата AMD вдвое дешевле, не нужно забывать об этом.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Данный тест пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, поэтому в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX Titan Z оказалась лишь на 70% быстрее своего одночипового аналога на таком же GPU, и обогнала двухчип предыдущего поколения GTX 690.

Немудрено, что при таких данных новинка серьезно проигрывает не только в прямой ценовой конкуренции с двумя платами AMD Radeon R9 295X2, но показывает результат ниже уровня одной двухчиповой платы этой компании. В общем, графические процессоры производства компании AMD и в этой задаче работают более эффективно.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, а основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны бы проявиться именно тут, но увы — все платы Nvidia показали не слишком высокую скорость, а SLI так и вовсе практически не работает. В результате, новинка быстрее GTX Titan лишь на 23%, а GTX 690 так и вовсе показала почти такую же скорость.

Сравнение с платой Radeon R9 295X2 еще более печально — несмотря на меньшее количество геометрических исполнительных блоков и большую геометрическую производительность, по сравнению с конкурирующими решениями Nvidia, двухчиповый Radeon в этом тесте работает просто отлично и обгоняет все Geforce более чем вдвое. И с эффективностью CrossFire никаких проблем нет — при равной цене, пара R9 295X2 опережает одну GTX Titan Z более чем вчетверо!

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором геометрическом тесте из 3DMark Vantage ситуация изменилась, и в этот раз SLI в новой Geforce GTX Titan Z работает заметно лучше — новинка на 72% быстрее одночипового варианта GTX Titan, и заметно быстрее GTX 690. В этом тесте наблюдается упор не только в геометрическую производительность, но и производительность блоков ROP и/или пропускную способность видеопамяти.

Сравнивать новинку с конкурирующей видеокартой компании AMD в этот раз вполне можно. Обе двухчиповые платы заклятых соперников показывают близкие результаты (но Radeon R9 295X2 все же побыстрее на 5-6%). Получается, что платы на чипах AMD уже достаточно хорошо оптимизированы для синтетических тестов имитации тканей и частиц из тестового пакета 3DMark Vantage, в которых активно используются геометрические шейдеры.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим почти такое же распределение результатов, как и в аналогичных тестах нашего тестового пакета. В этом случае производительность решений не совсем соответствует теории, но близка к тому, что мы видели в других математических тестах.

Видеочипы компании AMD с архитектурой GCN просто отлично справляются с подобными задачами и показывают результаты заметно лучше конкурента в тех случаях, когда выполняется интенсивная «математика». Неудивительно, что новая двухчиповая модель компании Nvidia в этом тесте показала результат хуже, чем даже один Radeon R9 295X2, не говоря о паре таких решений, работающих в тандеме. Удивительно, что разница с GTX Titan оказалась равна лишь 21%, что явно говорит о странном провале — отличие в скорости явно меньше теоретического.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать двухчиповое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia давно уже приблизительно одинаковая, отличия наблюдались только у видеокарт с GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче явно зависят не столько от математической мощи и эффективности вычислений, но от других факторов, вроде пропускной способности памяти и производительности блоков ROP.

В данном случае скорость видеокарт упирается в филлрейт — параметр, по которому новинка Nvidia уступает конкуренту. Новая двухчиповая плата компании в этом тесте всего лишь на 17-18% быстрее одночиповой GTX Titan — SLI просто не работает должным образом. Поэтому если сравнивать Geforce GTX Titan Z с прямым конкурентом в лице Radeon R9 295X2, то рассматриваемая сегодня плата заметно отстает.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте наблюдается упор в скорость исполнения простых математических вычислений и в эффективность выполнения сложного кода с ветвлениями. Во втором DX11-тесте расклад сил между решениями разных компаний уже другой, и решения компании Nvidia в этот раз явно сильнее соперника, даже несмотря на то, что SLI снова не работает.

Двухчиповая плата Radeon R9 295X2 тут выглядит тоже неплохо, особенно в варианте двух видеокарт, но в GK110 настолько много геометрических блоков, что всего лишь один GPU в составе GTX Titan дает преимущество перед четырьмя Hawaii. А вот результат Geforce GTX Titan Z даже ниже, так как SLI не работает, а тактовая частота видеочипа ниже, чем у одночипового решения.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не слишком важна, так как эта задача давно стала слишком легкой и производительность упирается в ПСП. Сегодняшний герой обзора превосходит одночиповый Geforce GTX Titan на 61%, да и Radeon R9 295X2 также оказался позади в первом подтесте (две такие платы быстрее, ясное дело).

Во втором подтесте с куда более сложными попиксельными расчетами новинка уже заметно уступила даже одной Radeon R9 295X2, так как эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, чем у Kepler. Если сравнивать двухчиповую модель GTX Titan Z с одночиповой GTX Titan, то новинка оказалась в этот раз почти вдвое быстрее — на 95%.

В подтесте с применением легкой тесселяции, новая плата Nvidia уже лишь на 70% быстрее одночиповой GTX Titan. Ну и даже единственная плата AMD выигрывает у двухчиповой новинки Nvidia, что объясняется тем, что в этом тесте тесселяции разбиение треугольников весьма умеренное и скорость не упирается в производительность блоков обработки геометрии.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте в тяжелых режимах применяется уже более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Все представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Хотя в легких условиях графические процессоры AMD отлично работают, опережая калифорнийских конкурентов, в тяжелых режимах платы Nvidia выходят вперед — даже одночиповая GTX Titan в самых сложных условиях почти на одном уровне с двумя Radeon R9 295X2.

Что касается сравнения плат Nvidia между собой, то интересно, что рассматриваемая сегодня модель Geforce GTX Titan Z уступила аналогичной плате на единственном чипе GK110 в двух легких режимах. Получается, что SLI работает эффективно только со сложной геометрией. Любопытно также и то, что и CrossFire в легких режимах не дает прироста, упираясь в ПСП, вероятно.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарта Radeon R9 295X2 показывает высокий результат, опережая конкурента, но уже в следующих ступенях нагрузки новинка производительность всех Radeon снижается заметнее, и новинка выходит вперед.

И все же, двухчиповая плата AMD показывает себя очень неплохо, а два таких решения (равные по цене одной GTX Titan Z, напомним) даже слегка быстрее новой видеокарты Nvidia. А так как в играх геометрическая нагрузка всегда намного ниже, то Radeon будут еще быстрее. Если сравнивать GTX Titan Z с GTX Titan, то разница между производительностью двухчиповой и одночиповой видеокарт достигает 87% — неплохой результат.

***

Подводя итоги этого раздела статьи и проанализировав результаты синтетических тестов представленной в конце мая видеокарты Nvidia Geforce GTX Titan Z, а также результаты других моделей видеокарт обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемой топовой плате на базе пары чипов GK110 будет очень непросто сражаться на игровом рынке со своим главным соперником по цене в виде одной или даже двух плат Radeon R9 295X2.

Даже одна видеокарта AMD почти всегда показывает более высокие результаты в «синтетике», кроме некоторых тестов (чаще всего геометрических), не говоря уже о паре таких плат, которые стоят ровно столько же, что и одна Geforce GTX Titan Z. В реальных игровых приложениях нагрузка на геометрические блоки заметно ниже, чем в наших синтетических тестах, поэтому даже одна Radeon R9 295X2 будет очень сильным конкурентом для Geforce GTX Titan Z в игровых тестах, даже без учета вдвое меньшей цены. Очевидно, что топовая двухчиповая модель Nvidia имеет явно завышенную цену, если рассматривать ее как игровое решение.

Но для того, чтобы сделать окончательные выводы, нужно узнать реальную производительность двухчиповой новинки Nvidia в играх. Что мы и сделаем в следующей части нашего материала, оценив и оправданность ее розничной цены уже с учетом скорости Geforce GTX Titan Z и Radeon R9 295X2 в привычном наборе игр.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
GTX Titan Z — R9 295 X2 —
GTX Titan Z — HD 7990 —
GTX Titan Z — GTX Titan Black —
GTX Titan Z — GTX 690 —


2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek