Nvidia Geforce GTX 980 Ti

Самый производительный однопроцессорный ускоритель игрового класса

Содержание

Справочные материалы

Данная часть знакомит читателей с особенностями видеокарты, а также с результатами синтетических тестов.

Видеообзор

Для начала предлагаем посмотреть наш видеообзор ускорителя Nvidia Geforce GTX 980 Ti:

Наш видеообзор ускорителя Nvidia Geforce GTX 980 Ti можно также посмотреть на filmdepo.ru

Теперь давайте взглянем на спецификации устройства.

Устройство(а)

Nvidia Geforce GTX 980 Ti 6144 МБ 384-битной GDDR5 PCI-E
Параметр	Значение	Номинальное значение (референс)
GPU	Geforce GTX 980 Ti (GM200)
Интерфейс	PCI Express x16
Частота работы GPU (ROPs), МГц	1000—1075	1000—1075
Частота работы памяти (физическая (эффективная)), МГц	1750 (7000)	1750 (7000)
Ширина шины обмена с памятью, бит	384
Число вычислительных блоков в GPU/частота работы блоков, МГц	22/1000—1075	22/1000—1075
Число операций (ALU) в блоке	128
Суммарное число операций (ALU)	2816
Число блоков текстурирования (BLF/TLF/ANIS)	176
Число блоков растеризации (ROP)	96
Размеры, мм	270×100×35	270×100×35
Количество слотов в системном блоке, занимаемые видеокартой	2	2
Цвет текстолита	черный	черный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт	248/94/12	248/94/12
Уровень шума (в режиме 2D/в режиме 2D (просмотр видео)/в режиме максимального 3D), дБА	20/22/32,5	20/22/32,5
Выходные гнезда	1×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2	1×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2
Поддержка многопроцессорной работы	SLI
Максимальное количество приемников/мониторов для одновременного вывода изображения	4	4
Дополнительное питание: количество 8-контактных разъемов	1	1
Дополнительное питание: количество 6-контактных разъемов	1	1
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI	3840×2400/3840×2400/2560×1600/1920×1200
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI	3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 6144 МБ памяти GDDR5 SDRAM, размещенной в 12 микросхемах по 4 Гбит на лицевой стороне PCB. Микросхемы памяти SK Hynix (GDDR5). Микросхемы рассчитаны на максимальную частоту работы в 1750 (7000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Nvidia Geforce GTX 980 Ti 6144 МБ 384-битной GDDR5 PCI-E	Reference card Nvidia Geforce GTX TITAN X

Вид сзади
Nvidia Geforce GTX 980 Ti 6144 МБ 384-битной GDDR5 PCI-E	Reference card Nvidia Geforce GTX TITAN X

Очевидно, что основой для GTX 980 Ti явилась PCB от Titan X. Собственно, отличий по сути и нет, лишь не распаяна половина микросхем памяти на оборотной стороне (тем самым получились 6 гигабайт, а не 12).

Система охлаждения

Референсная СО Nvidia имеет традиционную закрытую форму с цилиндрическим вентилятором на конце. Радиатор, прижимающийся к ядру, основан на испарительной камере, внутри которой находится особая легкоиспаряемая жидкость. Нижняя пластина камеры прижимается к ядру, тепло передается жидкости, которая испаряется и уносит тепло к верхней пластине (имеющей ребра охлаждения), где пары конденсируются и т. д. Мы уже рассказывали о такой схеме современного охлаждения топовых ускорителей.

Вентилятор гонит воздух через вышеупомянутый радиатор и имеет особую форму крыльчатки, дающую пониженный уровень шума.

Микросхемы памяти также охлаждаются (у кулера есть специальная пластина, прижимающаяся к микросхемам памяти и транзисторам силового блока).

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 85 градусов, что является удовлетворительным результатом для такого рода ускорителей.

Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

Помещение шумоизолировано и заглушено, снижены реверберации.
Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
Режимы измерения:
1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентилятор работал на малых оборотах (700 об/мин), температура ядра не поднималась выше 45 °C, шум оставался фоновым.

При просмотре фильма с аппаратным декодированием температура ядра медленно вырастала до 62 °C, вентилятор повышал частоту вращения до 850 оборотов в минуту, уровень шума не превышал 22 дБА.

В режиме максимальной нагрузки в 3D температура достигала уровня 85 °C, частота вращения — чуть более 2200 оборотов в минуту, шум вырастал до 32,5 дБА. Конечно, бесшумной карту назвать нельзя, но это далеко не самый «громкий» вариант из тех, что мы видели, включая серийные ускорители партнеров AMD и Nvidia.

Комплектация. Тестовый референс образец поставляется без комплекта.

Установка и драйверы

Конфигурация тестового стенда

Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
- 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
- СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
- СО Intel Thermal Solution RTS2011LC;
- системная плата Asus Sabertooth X79 на чипсете Intel X79;
- системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
- оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
- жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
- жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
- 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
- блок питания Thermaltake Амур 1200 (1200 Вт);
- блок питания Thermaltake Toughpower DPS G 1050W (1050 Вт);
- корпус Corsair Obsidian 800D Full Tower.
операционная система Windows 7 64-битная; DirectX 11.1;
монитор Samsung U28D590D (28″);
монитор Asus ProArt PA249Q (24″);
клавиатура Cougar 700K;
драйверы AMD версии Catalyst 15.4,
драйверы Nvidia версии 352.86 (для GTX 980 Ti — 352.90)
VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org.
D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0, ссылка.
RightMark3D 2.0 с кратким описанием: под Vista без SP1, под Vista c SP1.

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

Geforce GTX 980 Ti со стандартными параметрами (сокращенно GTX 980 Ti)
Geforce GTX Titan X со стандартными параметрами (сокращенно GTX Titan X)
Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)
Radeon R9 295X2 со стандартными параметрами (сокращенно R9 295X2)
Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)

Для анализа производительности новой модели видеокарты Geforce GTX 980 Ti были выбраны именно эти решения по следующим причинам. Geforce GTX 980 располагается в линейке компании на ступень ниже по цене и мощности, эта видеокарта основана на графическом процессоре также архитектуры Maxwell, но более низкого уровня — GM204. Ну а видеокарта из премиальной серии Geforce GTX Titan X взята для ориентира — это сравнение покажет, насколько медленнее стал видеочип GM200 после его урезания в рассматриваемой сегодня модификации.

От конкурирующей компании AMD для нашего сравнения мы снова выбрали две видеокарты, выпущенные уже очень давно. Обе платы Radeon основаны на одинаковых графических процессорах Hawaii, но их на картах разное количество, равно как они отличаются и по позиционированию. Реального конкурента для Geforce GTX 980 Ti от AMD пока что просто нет, поэтому мы взяли самую мощную одночиповую видеокарту Radeon R9 290X и быстрейшую двухчиповую видеокарту конкурента — Radeon R9 295X2, хотя последнее сравнение и будет не слишком интересным. Другого выбора из устаревшей линейки AMD пока что просто нет, ждём скорого её обновления!

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Мы отказались от устаревших DirectX 9 тестов, так как сверхмощные решения вроде Geforce GTX 980 Ti показывают в них не слишком то показательные результаты, будучи всегда ограничены ПСП, филлрейтом или текстурированием. Не говоря уже о том, что двухчиповые видеокарты далеко не всегда корректно работают в таких приложениях.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в данном тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, компания AMD перехватила лидерство ещё с выпуском первых видеочипов на базе архитектуры GCN. Именно платы Radeon и по сей день являются лучшими в этих сравнениях, что говорит о большей эффективности выполнения ими этих программ. Такой вывод подтверждается и сегодняшним сравнением — рассматриваемая нами видеокарта Nvidia проиграла даже устаревшей одночиповой Radeon R9 290X, не говоря уже про двухчиповую.

В первом Direct3D 10 тесте новая видеоплата модели Geforce GTX 980 Ti оказалась на 4% медленнее премиальной модели Titan X и чуть быстрее своей младшей сестры на чипе этой же архитектуры в виде GTX 980. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и ПСП с филлрейтом будут влиять меньше:

В усложнённых условиях новая видеокарта модели Geforce GTX 980 Ti уступила модели GTX Titan X уже целых 10%, что близко к теоретической разнице в математической и текстурной мощности. Также она опережает младшую модель из этого же поколения — GTX 980, оказываясь быстрее уже на 18-25%, что также ближе к разнице между ними по теоретическим показателям. Отставание от конкурентов в виде Radeon R9 295X2 и R9 290X несколько сократилось, и новинка Nvidia в сложных условиях близка к одночиповой Radeon, но чипы компании AMD в подобных вычислениях очень сильны.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом схожа с предыдущей, также без включения суперсэмплинга, и в этот раз новая Geforce GTX 980 Ti оказалась медленнее Titan X примерно на 6%. Новинка также на 8-12% опережает младшую модель текущего поколения от Nvidia. А если брать сравнение с видеокартами AMD, то и тут кое-что изменилось — в этом случае новинка уступает одночиповой Radeon R9 290X уже не так уж и много. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают хоть и эффективнее, по сравнению с конкурирующими платами Geforce, но новая модель Geforce GTX 980 Ti на чипе архитектуры Maxwell всё же смогла опередить Radeon R9 290X уже во всех условиях. Впрочем, сравнивать новинку с устаревшим решением, основанном на заметно менее сложном GPU, не совсем корректно. По сравнению с другими решениями Nvidia, новинка показала скорость на 5-7% медленнее Titan X и обогнала Geforce GTX 980 почти на четверть.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего соответствуют разнице по частотам и количеству вычислительных блоков, но лишь примерно, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае теста Mineral, новая модель Geforce GTX 980 Ti уступает своей старшей премиальной сестре лишь 4%, но и всего на 6% быстрее платы GTX 980 на чипе GM204 из этого же поколения, что явно не совсем соответствует теории — платам Nvidia явно что-то мешает раскрыться в этом тесте.

Сравнение Geforce GTX 980 Ti с платами от компании AMD интересно тем, что менее сложный GPU в Radeon R9 290X почти догоняет GTX 980, а GTX 980 Ti недалеко ушёл от обоих. GM200 гораздо крупнее и сложнее, по сравнению со старым уже Hawaii, и его (небольшая) победа естественна. Именно обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что новые чипы компании в таких тестах приблизились к конкурирующим решениям от AMD.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Во втором математическом тесте из нашего RigthMark мы видим уже несколько иные результаты видеокарт относительно друг друга. Так, новая Geforce GTX 980 Ti в этот раз уже на 14% опережает GTX 980, основанную на чипе той же графической архитектуры, а GTX Titan X оторвался от неё снова на привычные 5% — похоже, что примерно такой и будет разница между GTX 980 Ti и Titan X в реальных приложениях.

Radeon R9 290X остался довольно далеко позади, но сравнение некорректное по причине того, что графический процессор Hawaii выпущен очень давно и он заметно проще, чем GM200. В любом случае, с выпуском GM204 и GM200 компания Nvidia явно сделала большой шаг вперёд по математической производительности.

Direct3D 10: тесты геометрических шейдеров

В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах Nvidia и AMD есть в пользу решений калифорнийской компании, и она обусловлена отличиями в геометрических конвейерах чипов этих компаний. В тестах геометрии платы Geforce всегда конкурентоспособнее Radeon. Вот и в данном случае хорошо заметно, что топовые видеочипы Nvidia имеют много блоков по обработке геометрии, поэтому и выигрывают с заметным преимуществом.

Новая модель Geforce GTX 980 Ti почти не отстаёт от Titan X, а Geforce GTX 980 она обгоняет на 13-24%. Видеокарты Radeon показывают сильно отличающиеся результаты, так как R9 295X2 основана на паре GPU, поэтому она пытается поспорить с одночиповой новинкой в этом тесте, ну а Radeon R9 290X стала аутсайдером. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно, для плат AMD и для решений Nvidia. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются неизменными.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и это не исправлено вот уже несколько лет.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что хорошо заметно по результатам плат Nvidia в простых режимах. Новая видеокарта компании Nvidia в этом тесте показывает скорость явно ниже, чем должна бы — все платы Geforce оказались примерно на одном уровне, что явно не соответствует теории. Похоже, что все они во всех режимах упираются во что-то. Впрочем, у Radeon R9 295X2 тоже есть схожие проблемы — возможно, нагрузка на GPU слишком слаба.

Интересно, что одночиповая плата от AMD в этот раз оказалась сильнее всех плат от Nvidia в лёгком режиме и примерно на уровне Geforce GTX 980 Ti в самом тяжёлом. Интересующая нас сегодня новинка практически не отстаёт от Titan X в этом тесте и на 2-9% быстрее младшей модели этой же серии. Посмотрим на производительность представленных в сравнении видеокарт в этом же тесте, но с увеличенным количеством текстурных выборок:

Ситуация на диаграмме слегка изменилась, одночиповое решение компании AMD в тяжелых режимах потеряло значительно больше плат Geforce. Новая модель Geforce GTX 980 Ti показала скорость до 8% быстрее, чем Geforce GTX 980 и уступила Titan X от 2% до 5%. Зато она выиграла у одночиповой Radeon в двух из трёх режимов, кроме самого лёгкого — так получается всё из-за того же упора во что-то неведомое.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» удивительно не похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели всех Geforce в этом тесте очень низки, и новая модель Nvidia Geforce GTX 980 Ti показывает скорость лишь чуть быстрее GTX 980, отставая от Titan X до 6%. Ну и если сравнивать новинку с конкурентами, то платы Radeon смогли показать лучшую производительность в этом тесте во всех режимах, даже устаревшее одночиповое решение, смена которому скоро придёт. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, но видеокарты Nvidia пострадали даже сильнее, в том числе и рассматриваемая нами модель. Но в выводах мало что меняется, новая модель Geforce GTX 980 Ti оказалась до 18% быстрее, чем младшенькая GTX 980, отстав и от Titan X на 9% в сложном режиме, что близко к теоретической максимальной разнице. Платы Radeon снова впереди, особенно двухчиповая Radeon R9 295X2. Но и R9 290X раза в полтора быстрее новинки и с точки зрения теории это не объяснить ничем, кроме недостаточной оптимизации.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты модели Geforce GTX 980 Ti в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Разница в скорости между Geforce GTX 980 Ti и GTX 980 оказалась равна 28% в пользу свежего решения на базе чипа GM200, и это близко к теории. Отставание от премиальной Geforce GTX Titan X составило порядка 7%, что тоже близко к теории, так как два GPU имеют разницу в скорости текстурирования около 9%.

Что касается сравнения скорости текстурирования очередной топовой видеоплаты от Nvidia с имеющимися решениями конкурента, то новинка по понятным причинам уступает двухчиповой видеокарте, которая является лишь условным соперником для GTX 980 Ti, а вот Radeon R9 290X с небольшим преимуществом она опережает — с текстурированием видеокарты компании AMD до сих пор справляются весьма неплохо, даже такие старые.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, без учёта величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность ROP. Рассматриваемая нами сегодня плата Geforce GTX 980 Ti заметно опередила младшую плату Nvidia — на 26%, правда GTX Titan X оказалась быстрее новинки аж на 13%, что явно не соответствует теории. Вероятно, тест в данном случае измеряет не только количество блоков ROP и эффективность их работы.

Если сравнивать скорость заполнения сцены новой видеокартой Geforce GTX 980 Ti с видеокартами AMD, то рассматриваемая нами сегодня плата Nvidia в этом тесте показывает заметно лучшую скорость заполнения сцены даже по сравнению с мощнейшей двухчиповой Radeon R9 295X2, не говоря уже про более чем вдвое отставшую Radeon R9 290X. Большое количество блоков ROP и оптимизации по эффективности сжатия данных буфера кадра сделали своё дело.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX 980 Ti оказалась на 22% быстрее модели, основанной на базе менее сложного графического процессора той же архитектуры Maxwell — GTX 980 на чипе GM204. А вот старшая видеокарта GTX Titan X на основе всё того же GM200, но в полной конфигурации, выиграла у новинки 10%, что близко к теоретической разнице. Одночиповая топовая плата Nvidia серии Geforce GTX 900 в этом тесте также показала результат чуть лучше, чем у одночиповой Radeon R9 290X, но они обе серьёзно отстают от двухчиповой модели Radeon R9 295X2.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны бы являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны проявляться, но увы — мы в очередной раз отмечаем какой-то сверхстранный результат, когда новая видеокарта Nvidia показала не просто низкую скорость, а уступила в этом подтесте около 20% даже младшей GTX 980. Впрочем, GTX Titan X ведёт себя в этом тесте столь же странно.

Понятно, что и сравнение с платами Radeon в этом тесте для новинки совсем неприглядное. Несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности у чипов AMD, по сравнению с конкурирующими решениями, платы Radeon в этом тесте работают весьма эффективно и обгоняют все видеокарты Geforce, представленные в сравнении. Очень похоже на недостаток оптимизации в драйверах Nvidia под эту конкретную задачу.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация изменилась, хотя и всё равно далека от того, что должно быть по теории. В этот раз все Geforce уже показывают результат выше одночиповой платы соперника, хотя двухчиповая Radeon всё равно осталась в лидерах. Новая модель Geforce GTX 980 Ti работает на 13% быстрее своей младшей сестры в лице GTX 980 и на 8% отстаёт от Titan X, основанной на точно таком же GPU, но слегка урезанном по количеству функциональных блоков как раз почти на столько же.

Сравнение новинки Nvidia с конкурирующими видеокартами от компании AMD в этот раз позитивное — она показала результат явно быстрее самой мощной (на данный момент) одночиповой видеокарты компании-соперника, а с двухчиповой Radeon R9 295X2 сравнивать мало смысла. Новинка на треть опережает Radeon R9 290X в этом тесте и такая разница показывает нам то, насколько отличающимися могут быть два вроде бы похожих теста.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не полностью соответствует теории, хотя и близка к тому, что мы видели в аналогичных тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим распределение результатов, отличающееся по сравнению со схожими тестами из нашего тестового пакета.

Мы знаем, что видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше решений конкурента в случаях, когда выполняется интенсивная «математика». Но новая топовая модель компании Nvidia основана на большом и сложном графическом процессоре GM200, поэтому Geforce GTX 980 Ti в данном тесте показала результат на 18% выше, чем Radeon R9 290X.

Если сравнивать новинку с моделью семейства Geforce GTX 900, которая стоит на ступень ниже, то в этом тесте разница между ними составила 31% в пользу рассматриваемой сегодня видеокарты, что близко к теоретической разнице. Ну а от схожей по всем параметрам GTX Titan X новинка отстаёт на 6%, что совсем немного.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать недавно выпущенное топовое решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia приблизительно одинаковая, хотя у видеокарт на основе GPU предыдущих архитектур наблюдались некоторые отличия. Судя по нашим предыдущим тестам, результаты в задаче часто зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти.

В данном случае, новая видеокарта Nvidia по скорости опережает одночиповые платы Geforce GTX 980 и Radeon R9 290X и почти не отстаёт от GTX Titan X, что говорит в пользу версии об упоре в ПСП или ROP. Переходим ко второму тесту вычислительных шейдеров, который также взят из Microsoft DirectX SDK. В нём показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют такие физические силы, как гравитация.

В данном тесте чаще всего отмечается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И в этом DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной, по сравнению с любым другим тестом из предыдущих — и он явно в пользу видеоплат Geforce.

Хотя и результаты всех решений компании Nvidia на разных чипах тоже довольно странные — Geforce GTX Titan X, GTX 980 Ti и GTX 980 почти равны, их разделяет лишь 5% разницы в производительности, и лучшая среди них именно новинка (правда, она лишь на 3% быстрее Titan X, что можно считать погрешностью измерения. Похоже, что данная задача заметно эффективнее рассчитывается на графических процессорах именно архитектуры Maxwell, что мы отмечали и в ранних материалах.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не так уж важна, так как эта задача давно стала слишком легкой, а производительность в ней упирается в ПСП или филлрейт. Сегодняшний герой обзора опережает младшую модель серии Geforce GTX 980, основанную на базе чипа GM204 и лишь на 5% уступает GTX Titan X в этом подтесте. Условный конкурент в виде Radeon R9 290X ещё чуть быстрее их всех.

Во втором подтесте с более сложными попиксельными расчетами новинка оторвалась от модели Geforce GTX 980 ещё больше — ближе к теоретической разнице между ними. Разница между GTX 980 Ti и Titan X в этот раз составила 6% — близко к теории, но всё же чуть меньше. По сравнению с условным конкурентом на базе одиночного Hawaii, новинка всё же смогла взять победу, хотя и номинальную. Хотя эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN всё ещё выше, но выход мощных решений архитектуры Maxwell улучшил позиции Nvidia.

В подтесте с применением лёгкой степени тесселяции свежеанонсированная плата от Nvidia снова чуть быстрее модели Geforce GTX 980 и уступает 3% старшей GTX Titan X — возможно, скорость сразу нескольких Geforce упирается в пропускную способность памяти, а текстурирование в этом тесте почти не влияет. Если сравнивать новинку с платой AMD в этом подтесте, то решение Nvidia отстаёт, так как в этом тесте тесселяции разбиение треугольников весьма умеренное, и геометрическая производительность не ограничивает общую скорость рендеринга.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте применяется более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит другие выводы. Все представленные в материале решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. Но хотя в лёгких условиях графический процессор Hawaii в составе Radeon R9 290X отлично работает, в самом тяжёлом режиме платы Nvidia выходят уже далеко вперёд. Поэтому в самом сложном режиме представленная сегодня Geforce GTX 980 Ti показала скорость в разы выше, чем Radeon.

Что касается сравнения плат Nvidia на чипах GM200 и GM204 между собой, то рассматриваемая сегодня модель Geforce GTX 980 Ti немного теряет с ростом геометрической нагрузки по сравнению с GTX Titan X, так как в лёгком режиме всё упирается в ПСП. В итоге, новинка проигрывает Titan X до 3% и опережает плату Geforce GTX 980 на величину до 27%, в зависимости от сложности режима.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island один из самых интересных. Он не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии, но на результат может влиять и та же ПСП, например.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарта Radeon показывает довольно высокий результат, близкий к показателю Geforce GTX 980. Но уже на следующих ступенях геометрической нагрузки производительность платы Radeon снижается, и решения Nvidia выходят вперёд.

Преимущество новой платы Nvidia на видеочипе GM200 над соперником в таких тестах весьма приличное — многократное. Графические процессоры Maxwell заметно эффективнее работают в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно, и GTX 980 Ti выигрывает у R9 290X до 3-х раз и даже более. Если же сравнить Geforce GTX 980 Ti с GTX 980, то разница между их производительностью доходит до 23%, что отлично объясняется теорией.

А вот сравнение с Titan X в этом тесте озадачило — разница между видеоплатами на базе пары модификаций одного и того же чипа GM200 составляет почти ровно 13% во всех подтестах, что явно выше 9% теории почти по всем показателям. Объяснить сию аномалию не представляется возможным, по теории такой разницы нет ни по какой из характеристик GPU. Блоки обработки геометрии привязаны к мультипроцессорам и их количество уменьшилось ровно на столько же, что и количество ALU и TMU.

***

Судя по результатам синтетических тестов новой видеокарты Nvidia Geforce GTX 980 Ti, основанной на слегка урезанной версии топового графического процессора GM200, а также результатам других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта станет одним из наиболее производительных одночиповых решений на рынке. Мало того, новинка чаще всего уступает мощнейшей одночиповой плате Geforce GTX Titan X совсем немного — порядка 5-8%.

Новая видеокарта компании Nvidia показывает сильные результаты во многих синтетических тестах и по сравнению с имеющимися на рынке платами Radeon, хоть и не во всех. У серий Radeon и Geforce традиционно отмечаются разные сильные стороны. В некоторых тестах старичок Radeon R9 290X до сих пор достаточно силён, чтобы поспорить даже с более сложным GPU соперника, отличаясь весьма эффективным исполнением вычислительных задач. А в других случаях топовый графический процессор архитектуры Maxwell отыгрывается сполна, особенно в геометрических тестах с применением тесселяции.

В реальных игровых приложениях всё будет несколько иначе, по сравнению с «синтетикой», и Geforce GTX 980 Ti должен показать там скорость ощутимо выше уровня одночиповых Geforce GTX 980 и Radeon R9 290X. И как раз для того, чтобы оценить скорость новинки по сравнению с конкурентами уже в играх, в следующей части нашего материала мы определим производительность Geforce GTX 980 Ti в нашем наборе игровых тестов и сравним эти показатели с цифрами конкурентов. Особенно интересна будет разница в игровой 3D-производительности по сравнению с Geforce GTX 980 и GTX Titan X. Похоже, что GTX 980 Ti может стать одной из самых выгодных плат топового сегмента.

Nvidia Geforce GTX 980 Ti — Часть 3: игровые тесты и выводы →

Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты	Конкуренты
GTX 980 Ti —	R9 290X —
GTX 980 Ti —	GTX 780 Ti —
GTX 980 Ti —	GTX 980 —

Благодарим компанию Nvidia Russia
и лично Ирину Шеховцову
за предоставленную на тестирование видеокарту

2 блока питания Thermaltake DPS G 1050W/Амур 1200 для тестового стенда предоставлены компанией Thermaltake	Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair	Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair	Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair
Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт	Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek	Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI	Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate
Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia	2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair	Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek	Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar

1 июня 2015 г.

Андрей Воробьев