Nvidia Geforce GTX Titan X

Самый мощный однопроцессорный ускоритель


Содержание

Из-за позднего получения тестового образца нового ускорителя (и ПО к нему), а также из-за участия нашего автора Алексея Берилло в работе GTC, части этого обзора, посвященные архитектуре нового продукта Nvidia и анализу синтетических тестов, выйдут позже (примерно через неделю). А сейчас мы представляем материал, знакомящий читателей с особенностями видеокарты, а также с результатами игровых тестов.

Устройство(а)


Nvidia Geforce GTX Titan X 12288 МБ 384-битной GDDR5 PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPUGeforce GTX Titan X (GM200)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц1000—10751000—1075
Частота работы памяти (физическая (эффективная)), МГц1750 (7000)1750 (7000)
Ширина шины обмена с памятью, бит384
Число вычислительных блоков в GPU/частота работы блоков, МГц24/1000—107524/1000—1075
Число операций (ALU) в блоке128
Суммарное число операций (ALU)3072
Число блоков текстурирования (BLF/TLF/ANIS)192
Число блоков растеризации (ROP)96
Размеры, мм270×100×35270×100×35
Количество слотов в системном блоке, занимаемые видеокартой22
Цвет текстолитачерныйчерный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт257/98/14257/98/14
Уровень шума (в режиме 2D/в режиме 2D (просмотр видео)/в режиме максимального 3D), дБА20/21/29,5
Выходные гнезда1×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.21×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2
Поддержка многопроцессорной работыSLI
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов11
Дополнительное питание: количество 6-контактных разъемов11
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 12288 МБ памяти GDDR5 SDRAM, размещенной в 24 микросхемах по 4 Гбит (по 12 на каждой стороне PCB).

Микросхемы памяти SK Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1750 (7000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Nvidia Geforce GTX Titan X 12288 МБ 384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX Titan Black
Вид сзади
Nvidia Geforce GTX Titan X 12288 МБ 384-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX Titan X

Очевидно, что основой для Titan X явилась PCB от Titan (Titan Black). Собственно, отличия лишь в блоке питания — в количестве фаз, а остальное без изменений. Оно и логично, ведь ядра Titan и Titan X совместимы по контактам. Техпроцесс один и тот же, поэтому существенные изменения в схеме питания не требуются. Использование энергосберегающей технологии Maxwell дает существенный рост производительности ядра (и блоков тоже), при этом потребление практически не выросло.

Система охлаждения
Референсная СО Nvidia имеет традиционную закрытую форму с цилиндрическим вентилятором на конце. Радиатор, прижимающийся к ядру, основан на испарительной камере, внутри которой находится особая легкоиспаряемая жидкость. Нижняя пластина камеры прижимается к ядру, тепло передается жидкости, которая испаряется и уносит тепло к верхней пластине (имеющей ребра охлаждения), где пары конденсируются и т. д. Мы уже рассказывали о такой схеме современного охлаждения топовых ускорителей.

Вентилятор гонит воздух через вышеупомянутый радиатор и имеет особую форму крыльчатки, дающую пониженный уровень шума.

Странная ситуация с охлаждением микросхем памяти. Охлаждается только половина, расположенная на лицевой стороне карты (у кулера есть специальная пластина, прижимающаяся к микросхемам памяти и транзисторам силового блока). Вторая половина на оборотной стороне оставлена вообще без охлаждения. Впрочем, для памяти, работающей на номинальной для нее частоте, охлаждение вряд ли требуется.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 83 градусов, что является удовлетворительным результатом для такого рода ускорителей.
Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

  • Помещение шумоизолировано и заглушено, снижены реверберации.
  • Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
  • Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
  • Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
  • Режимы измерения:
    1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
    2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
    3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентилятор работал на малых оборотах (700 об/мин), температура ядра не поднималась выше 50 °C, шум оставался фоновым.

При просмотре фильма с аппаратным декодированием температура ядра медленно росла до 60 °C, вентилятор повышал частоту вращения до 800 оборотов в минуту, уровень шума не превышал 21 дБА.

В режиме максимальной нагрузки в 3D температура достигала уровня 83 °C, частота вращения — чуть более 1900 оборотов в минуту, шум вырастал до 29,5 дБА.

Комплектация.
Тестовый референс образец поставляется без комплекта.

Упаковка

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • блок питания Thermaltake Амур 1200 (1200 Вт);
    • блок питания Thermaltake Toughpower DPS G 1050W (1050 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Samsung U28D590D (28″);
  • монитор Asus ProArt PA249Q (24″);
  • клавиатура Cougar 700K;
  • драйверы AMD версии Catalyst 14.12,
  • драйверы Nvidia версии 347.52, (для Titan X — 347.84)
  • VSync отключен.


Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX Titan X со стандартными параметрами (сокращенно GTX Titan X)
  • Geforce GTX Titan Z со стандартными параметрами (сокращенно GTX Titan Z)
  • Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)
  • Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)
  • Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)

Для анализа производительности новой модели видеокарты Geforce GTX Titan X были выбраны именно эти решения по следующим причинам. Geforce GTX 980 основана на графическом процессоре этой же архитектуры Maxwell, но более низкого уровня — GM204, и нам будет очень интересно оценить, что дало усложнение чипа до GM200. Ну а двухчиповая видеокарта Geforce GTX Titan Z взята просто для ориентира — как самая производительная видеокарта Nvidia, основанная на паре чипов GK110 предыдущей архитектуры Kepler.

От конкурирующей компании AMD для нашего сравнения мы также выбрали две видеокарты. Они очень разные в принципе, хотя и основаны на одинаковых графических процессорах Hawaii — просто на картах разное количество GPU и они отличаются по позиционированию и цене. Ценовых конкурентов у Geforce GTX Titan X нет, поэтому мы взяли самую мощную двухчиповую видеокарту Radeon R9 295X2, хотя такое сравнение будет не слишком интересно технически. Для последнего взята быстрейшая одночиповая видеокарта конкурента — Radeon R9 290X, хотя она выпущена слишком давно и основана на GPU явно меньшей сложности. Но другого выбора из решений AMD просто нет.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Geforce GTX Titan X показывают в них не слишком показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях, а их у нас целых две.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в данном тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD давно перехватила лидерство. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Такой вывод подтверждается и сегодняшним сравнением — рассматриваемая нами видеокарта Nvidia проиграла даже устаревшей одночиповой Radeon R9 290X, не говоря уже про ближайшего ценового конкурента от AMD.

В первом Direct3D 10 тесте новая видеоплата модели Geforce GTX Titan X оказалась чуть быстрее своей младшей сестры на чипе этой же архитектуры в виде GTX 980, но отставание последней невелико — 9-12%. Такой результат объясним заметно меньшей скоростью текстурирования у GTX 980, да и по остальным параметрам она отстаёт, хотя дело явно не в производительности блоков ALU. Двухчиповая Titan Z быстрее, но не так, как Radeon R9 295X2.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и ПСП с филлрейтом будут влиять меньше:

В усложнённых условиях новая видеокарта модели Geforce GTX Titan X уже заметнее опережает младшую модель из этого же поколения — GTX 980, оказываясь быстрее уже на приличные 33-39%, что куда ближе к теоретической разнице между ними. Да и отставание от конкурентов в виде Radeon R9 295X2 и R9 290X сократилось — новинка от Nvidia почти догнала одночиповую Radeon. Впрочем, двухчиповая осталась далеко впереди, ведь чипы компании AMD предпочитают попиксельные вычисления и в подобных вычислениях очень сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Geforce GTX Titan X оказалась чуть ближе к GTX Titan Z, проигрывая двухчиповой плате на паре GPU семейства Kepler не так уж много. В разных условиях новинка на 14-19% опережает предыдущую топовую модель текущего поколения от Nvidia, и даже если брать сравнение с видеокартами AMD, то тут кое-что изменилось — в этом случае новинка GTX Titan X чуть уступает Radeon R9 290X совсем немного. Двухчиповая R9 295X2, впрочем, далеко впереди всех. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают эффективнее, по сравнению с конкурирующими платами Geforce, но новый чип GM200 изменяет ситуацию в лучшую сторону — плата Geforce GTX Titan X на чипе архитектуры Maxwell уже во всех условиях опережает Radeon R9 290X (впрочем, основанный на заметно менее сложном GPU). Двухчиповое решение на паре Hawaii осталось лидером, ну а по сравнению с другими решениями Nvidia новинка неплоха. Она показала скорость почти на уровне двухчиповой Geforce GTX Titan Z, и обогнала Geforce GTX 980 на 28-33%.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае теста Mineral, новая модель Geforce GTX Titan X лишь на 10% быстрее платы GTX 980 на чипе GM204 из этого же поколения, да и двухчиповая GTX Titan Z оказалась не так уж быстра в этом тесте — платам Nvidia явно что-то мешает раскрыться.

Сравнение Geforce GTX Titan X с конкурирующими платами компании AMD было бы не таким печальным, если бы GPU в R9 290X и Titan X были близки по сложности. Но GM200 гораздо крупнее, чем Hawaii, и его небольшая победа вполне естественна. Обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы в таких тестах приблизились к конкурирующим решениям от AMD. Но даже меньшее по стоимости двухчиповое решение Radeon R9 295X2 заметно быстрее.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из RigthMark мы видим уже иные результаты видеокарт относительно друг друга. Так, новая Geforce GTX Titan X уже сильнее (на 20%) опережает GTX 980 на чипе той же графической архитектуры, да и двухчиповый Geforce очень близок к новинке — Maxwell справляется с расчётными задачами заметно лучше Kepler.

Radeon R9 290X остался позади, но как мы уже писали — GPU Hawaii заметно проще, чем GM200, и такая разница логична. Но хотя двухчиповый Radeon R9 295X2 продолжает оставаться лидером в тестах математических вычислений, в целом в таких задачах новый видеочип Nvidia показал себя неплохо, хотя и не достиг теоретической разницы с GM204.

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах Nvidia и AMD обычно есть в пользу решений калифорнийской компании, и она обусловлена отличиями в геометрических конвейерах чипов этих компаний. Вот и в данном случае, топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрыш налицо. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon.

Новая модель Geforce GTX Titan X слегка отстаёт от двухчиповой платы GTX Titan Z на графических процессорах предыдущего поколения, но GTX 980 она обгоняет на 12-25%. Видеокарты Radeon показывают заметно отличающиеся результаты, так как R9 295X2 основана на паре GPU, и только она может поспорить с новинкой в этом тесте, а Radeon R9 290X стала аутсайдером. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно, для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что хорошо заметно по результатам плат Nvidia, особенно в простых режимах. Новая видеокарта компании Nvidia в этом тесте показывает скорость явно ниже, чем должна — все платы Geforce оказались примерно на одном уровне, что явно не соответствует теории. Они во всех режимах явно упираются во что-то типа ПСП. Впрочем, Radeon R9 295X2 тоже далеко не вдвое быстрее R9 290X.

Кстати, одночиповая плата от AMD в этот раз оказалась сильнее всех плат от Nvidia в лёгком режиме и примерно на их уровне в тяжёлом. Ну а двухчиповая Radeon R9 295X2 снова стала лидером нашего сравнения. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме слегка изменилась, одночиповое решение компании AMD в тяжелых режимах потеряло значительно больше плат Geforce. Новая модель Geforce GTX Titan X показала скорость до 14% быстрее, чем Geforce GTX 980, и выиграла у одночиповой Radeon во всех режимах, кроме самого лёгкого — из-за всё того же упора во что-то. Если сравнивать новинку с двухчиповым решением AMD, то Titan X смогла дать бой в тяжёлом режиме, показав близкую производительность, но отстав в лёгких режимах.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» совсем не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели всех Geforce в этом тесте серьёзно ухудшились, и новая модель Nvidia Geforce GTX Titan X показывает скорость лишь чуть быстрее GTX 980, отставая от двухчиповой Titan Z. Если сравнивать новинку с конкурентами, то обе платы Radeon смогли показать лучшую производительность в этом тесте во всех режимах. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали сильнее, в том числе и рассматриваемая модель. В выводах почти ничего не меняется, новая модель Geforce GTX Titan X до 10-30% быстрее, чем GTX 980, отстав и от двухчиповой Titan Z, и от обеих плат Radeon. Далеко впереди в этих тестах оказалась Radeon R9 295X2, и с точки зрения теории это просто необъяснимо ничем, кроме недостаточной оптимизации от Nvidia.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Geforce GTX Titan X в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Так, разница в скорости между GTX Titan X и GTX 980 оказалась равной 38% в пользу решения на базе GM200, что близко к теории, ведь у новинки в полтора раза больше блоков TMU, но работают они на меньшей частоте. Естественно, отставание от двухчиповой GTX Titan Z остаётся, так как два GPU имеют большую скорость текстурирования.

Что касается сравнения скорости текстурирования новой топовой видеоплаты Nvidia с близкими по цене решениями конкурента, то тут новинка уступает двухчиповому сопернику, который является условным соседом в ценовой нише, но зато опережает Radeon R9 290X, хоть и не слишком существенно. Всё-таки с текстурированием видеокарты компании AMD до сих пор справляются чуть лучше.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность ROP. Рассматриваемая нами сегодня плата Geforce GTX Titan X заметно опередила обе платы Nvidia, и GTX 980 и даже GTX Titan Z, обогнав одночиповую плату на базе GM204 аж на 45% — количество блоков ROP и эффективность их работы в топовом GPU архитектуры Maxwell отличная!

Да и если сравнивать скорость заполнения сцены новой видеокартой Geforce GTX Titan X с видеокартами AMD, то рассматриваемая нами плата Nvidia в этом тесте показывает лучшую скорость заполнения сцены даже по сравнению с мощнейшей двухчиповой Radeon R9 295X2, не говоря уже про изрядно отставшую Radeon R9 290X. Большое количество блоков ROP и оптимизации по эффективности сжатия данных буфера кадра сделали своё дело.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX Titan X оказалась более чем на треть быстрее модели, основанной на базе графического процессора той же архитектуры Maxwell. И даже двухчиповый Kepler в виде GTX Titan Z выиграл у новинки менее 10%.

Одночиповая топовая плата Nvidia в этом тесте показала результат явно лучше, чем у одночиповой Radeon R9 290X, но обе очень серьёзно проигрывают двухчиповой модели Radeon R9 295X2. Графические процессоры производства компании AMD в этой задаче работают несколько эффективнее чипов Nvidia, а у R9 295X2 их целых два.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны бы являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны проявляться, но увы — мы увидели очень странный результат (перепроверяли), новая видеокарта Nvidia показала не слишком высокую скорость, мягко говоря. Geforce GTX Titan X в этом подтесте показала результат хуже всех решений, отстав почти на 20% даже от GTX 980!

Ну и сравнение с платами Radeon в этом тесте столь же неприглядное для новинки. Несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности у чипов AMD, по сравнению с конкурирующими решениями, обе платы Radeon в этом тесте работают весьма эффективно и обгоняют все три платы Geforce, представленные в сравнении. Снова похоже на недостаток оптимизации в драйверах Nvidia под конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация серьёзно изменилась, в этот раз все Geforce уже показывают более-менее нормальный результат, хотя двухчиповая Radeon всё равно осталась в лидерах. Новая модель GTX Titan X работает на 24% быстрее своей сестры в лице GTX 980 и примерно столько же отстаёт от двухчиповой Titan Z на GPU прошлого поколения.

Сравнение новинки Nvidia с конкурирующими видеокартами от компании AMD в этот раз более позитивное — она показала результат между двумя платами от компании-соперника, и оказалась ближе к Radeon R9 295X2, имеющей два GPU. Новинка значительно опережает Radeon R9 290X и это чётко показывает нам, насколько разными могут быть два вроде бы похожих теста: имитации тканей и симуляции системы частиц.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не совсем соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим иное распределение результатов, по сравнению со схожими тестами из нашего тестового пакета.

Мы давно знаем, что видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше решений конкурента, особенно в тех случаях, когда выполняется интенсивная «математика». Но новая топовая модель компании Nvidia основана на большом чипе GM200, и поэтому Geforce GTX Titan X в данном тесте показала результат заметно выше, чем Radeon R9 290X.

Если сравнивать новинку с лучшей моделью семейства Geforce GTX 900, то в этом тесте разница между ними составила почти 40% — в пользу рассматриваемой сегодня видеокарты, конечно. Это также близко к теоретической разнице. Неплохой результат для Titan X, лишь двухчиповая Radeon R9 295X2 оказалась впереди, причём далеко впереди.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать недавно выпущенное топовое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, отличия наблюдались только у видеокарт на основе GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти.

В данном случае, новая топовая видеокарта по скорости опережает одночиповые варианты Geforce GTX 980 и Radeon R9 290X, но отстаёт от двухчиповой R9 295X2, что вполне объяснимо, ведь она обладает мощью пары R9 290X. Если сравнивать новинку с Geforce GTX 980, то рассматриваемая сегодня плата калифорнийской компании на 34-36% быстрее — точно по теории.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В данном тесте чаще всего наблюдается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной — явно в пользу видеоплат Geforce.

Впрочем, результаты пары решений компании Nvidia на разных чипах тоже странные — Geforce GTX Titan X и GTX 980 почти равны, их разделяет всего лишь 5% разницы в производительности. Двухчиповый рендеринг в этой задаче не работает, поэтому соперники (одночиповая и двухчиповая модель Radeon) примерно равны по скорости. Ну а GTX Titan X опережает их раза так в три. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах именно архитектуры Maxwell, что мы отмечали и ранее.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не очень важна, так как эта задача давно стала слишком легкой, а производительность в ней упирается в ПСП или филлрейт. Сегодняшний герой обзора на 23% опережает предыдущую топовую модель Geforce GTX 980 на базе чипа GM204 и чуть-чуть уступает конкуренту в виде Radeon R9 290X. Двухчиповый вариант ещё чуть быстрее.

Во втором подтесте с более сложными попиксельными расчетами новинка стала уже на 34% быстрее модели Geforce GTX 980, что ближе к теоретической разнице между ними. Зато Titan X в этот раз уже немного быстрее одночипового условного конкурента на базе одиночного Hawaii. Так как два чипа в составе Radeon R9 295X2 работают отлично, то эта задача выполняется на нём ещё быстрее. Хотя эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, но выход решений архитектуры Maxwell улучшил позиции решений Nvidia.

В подтесте с применением лёгкой степени тесселяции анонсированная недавно плата Nvidia снова лишь на четверть быстрее модели Geforce GTX 980 — возможно, скорость упирается в пропускную способность памяти, так как текстурирование в этом тесте почти не влияет. Если сравнивать новинку с платами от AMD в этом подтесте, то плата Nvidia снова уступает обеим Radeon, так как в этом тесте тесселяции разбиение треугольников весьма умеренное и геометрическая производительность не ограничивает общую скорость рендеринга.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется уже более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Но хотя в лёгких условиях графические процессоры Hawaii в составе Radeon R9 290X и R9 295X2 в количестве одной и двух штук отлично работают, в тяжёлых режимах платы Nvidia выходят далеко вперёд. Так, в самых сложных режимах представленная сегодня Geforce GTX Titan X показывает скорость уже заметно лучше, чем двухчиповый Radeon.

Что касается сравнения плат Nvidia на чипах GM200 и GM204 между собой, то рассматриваемая сегодня модель Geforce GTX Titan X наращивает преимущество с ростом геометрической нагрузки, так как в лёгком режиме всё упирается в ПСП. В итоге, новинка опережает плату Geforce GTX 980 в зависимости от сложности режима до 31%.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарты Radeon показывают довольно высокий результат, особенно двухчиповая R9 295X2, даже превосходящий результат анонсированной платы Geforce GTX Titan X, но уже на следующих ступенях геометрической нагрузки производительность плат Radeon снижается, и решения Nvidia выходят вперёд.

Преимущество новой платы Nvidia на видеочипе GM200 над соперниками в таких тестах уже весьма приличное, и даже многократное. Если сравнить Geforce GTX Titan X с GTX 980, то разница между их производительностью доходит до 37-42%, что отлично объясняется теорией и точно ей соответствует. Графические процессоры Maxwell заметно эффективнее работают в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно, и Titan X в этом тесте намного быстрее даже двухчиповой Radeon R9 295X2.

***

Проанализировав результаты синтетических тестов новой видеокарты Nvidia Geforce GTX Titan X, основанной на новом топовом графическом процессоре GM200, а также рассмотрев и результаты других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта должна стать быстрейшей на рынке, составив конкуренцию сильнейшей двухчиповой видеокарте от компании AMD. В общем, это неплохой последователь модели Geforce GTX Titan Black — мощнейший одночип.

Новая видеокарта компании Nvidia показывает довольно сильные результаты в «синтетике» — во многих тестах, хоть и не во всех. У Radeon и Geforce традиционно разные сильные стороны. В большом количестве тестов два графических процессора в составе модели Radeon R9 295X2 оказались быстрее, в том числе из-за большей итоговой пропускной способности памяти и скорости текстурирования с весьма эффективным исполнением вычислительных задач. Но в других случаях топовый графический процессор архитектуры Maxwell отыгрывается, особенно в геометрических тестах и примерах с тесселяцией.

Впрочем, в реальных игровых приложениях всё будет несколько иначе, по сравнению с «синтетикой» и Geforce GTX Titan X должен показать там скорость заметно выше уровня одночиповых Geforce GTX 980 и уж тем более Radeon R9 290X. А с двухчиповой Radeon R9 295X2 новинку сравнивать сложно — у систем на базе двух и более GPU есть свои неприятные особенности, хотя прирост средней частоты кадров при должной оптимизации они обеспечивают.

А вот архитектурные особенности и функциональность явно в пользу премиального решения Nvidia. Geforce GTX Titan X потребляет гораздо меньше энергии, чем тот же Radeon R9 295X2, и по энергоэффективности новая модель компании Nvidia весьма сильна — это отличительная особенность архитектуры Maxwell. Не нужно забывать о большей функциональности новинки Nvidia: тут есть поддержка уровня Feature Level 12.1 в DirectX 12, аппаратное ускорение VXGI, новый метод сглаживания MFAA и другие технологии. О рыночной точке зрения мы уже говорили в первой части — в элитном сегменте от цены зависит не так уж много. Главное, чтобы решение было максимально функциональным и производительным в игровых приложениях. Попросту — было лучшим во всём.

Как раз для того, чтобы оценить скорость новинки в играх, в следующей части нашего материала мы определим производительность Geforce GTX Titan X в нашем наборе игровых проектов и сравним её с показателями конкурентов, в том числе оценим оправданность розничной цены новинки с точки зрения энтузиастов, а также узнаем, насколько она быстрее Geforce GTX 980 уже в играх.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
GTX Titan X — 62 000  (на 01.03.17) R9 295 X2 — $1458(2)
GTX Titan X — 62 000  (на 01.03.17) GTX Titan Black — $1008 (на 01.05.16)
GTX Titan X — 62 000  (на 01.03.17) GTX Titan Z — Н/Д(0)


Благодарим компанию Nvidia Russia
и лично Ирину Шеховцову
за предоставленную на тестирование видеокарту

2 блока питания Thermaltake DPS G 1050W/Амур 1200 для тестового стенда предоставлены компанией Thermaltake

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar




Дополнительно