Видеоускоритель Nvidia Geforce GTX 970

Часть 2: Особенности карты и синтетические тесты


Содержание

Устройство(а)


Gigabyte Geforce GTX 970 WindForce SuperOC 4096 МБ 256-битной GDDR5 PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPUGeforce GTX 970 (GM204)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц1178—13801050—1178
Частота работы памяти (физическая (эффективная)), МГц1750 (7000)1750 (7000)
Ширина шины обмена с памятью, бит256
Число вычислительных блоков в GPU/частота работы блоков, МГц13/1178—138013/1050—1178
Число операций (ALU) в блоке128
Суммарное число операций (ALU)1664
Число блоков текстурирования (BLF/TLF/ANIS)104
Число блоков растеризации (ROP)64
Размеры, мм300×105×35270×100×36
Количество слотов в системном блоке, занимаемые видеокартой22
Цвет текстолитачерныйчерный
Энергопотребление (пиковое в 3D/в режиме 2D/в режиме «сна»), Вт159/68/21147/62/22
Выходные гнезда1×DVI (Dual-Link/HDMI), 1×DVI (Single-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.21×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2
Поддержка многопроцессорной работыSLI
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов1Нет
Дополнительное питание: количество 6-контактных разъемов12
Максимальное разрешение 2D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200
Максимальное разрешение 3D: DP/HDMI/Dual-Link DVI/Single-Link DVI3840×2400/3840×2400/2560×1600/1920×1200

Комплектация локальной памятью
Картa имеeт 4096 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах по 4 Гбит (по 4 на каждой стороне PCB).

Микросхемы памяти Samsung (GDDR5). Микросхемы рассчитаны на номинальную частоту работы в 1785 (7140) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Gigabyte Geforce GTX 970 WindForce SuperOC 4096 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 980
Вид сзади
Gigabyte Geforce GTX 970 WindForce SuperOC 4096 МБ 256-битной GDDR5 PCI-E Reference card Nvidia Geforce GTX 980

Мы сравниваем с GTX 980, потому что обе карты используют один и тот же GPU, да и шина обмена с памятью у них одинаковая. Тем не менее, Gigabyte использует здесь совершенно иную разводку. Прежде всего, это касается размещения микросхем памяти на обеих сторонах PCB. В результате на печатной плате образовалось много пустого пространства. Почему не сокращены размеры PCB? Возможно, из-за необходимости крепить систему охлаждения больших размеров. Могут быть и иные причины.

Схема питания ядра 5-фазная, 1-фазная у питания микросхем памяти. Это дает возможность довольно тонкого и серьезного оверклокинга. Видимо, поэтому дополнительное питание организовано по схеме 8+6 контактов, вместо 6+6 у референсной карты.

Система охлаждения
Перед нами снова фирменное решение Gigabyte, в состав которого входят три радиатора, соединенных между собой тепловыми трубками (которые прижимаются непосредственно к GPU). Центральный радиатор имеет пластину для охлаждения микросхем памяти на лицевой стороне, когда как с оборотной стороны платы память остается без охлаждения (задняя пластина СО играет роль ребра жесткости, плюс имеет декоративную функцию). Снова конструкция выглядит несколько нелепо; возникает вопрос: почему бы не оставить все микросхемы памяти на лицевой стороне и не охлаждать их полноценно центральным радиатором? Силовые транзиторы охлаждаются вспомогательным радиатором.

Сверху установлен кожух с тремя плоскими вентиляторами фирменной конструкции (с особым изгибом лопастей). Это обеспечивает минимизацию шума.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 60 градусов, что является просто великолепным результатом для такого мощного ускорителя. При этом максимальная частота вращения вентиляторов не превышала 1862 оборотов в минуту, что сделало кулер практически бесшумным. Обычно мы начинаем слышать вентиляторы на частотах 1800-2000 оборотов в минуту, однако особая форма данных вентиляторов сделала кулер карты Gigabyte практически неслышимым, особенно на фоне работы системного блока.
Мониторинг температурного режима с помощью EVGA PrecisionX (автор А. Николайчук AKA Unwinder)

Комплектация.
Базовый комплект поставки должен включать в себя руководство пользователя, диск с драйверами и утилитами. Мы видим базовый комплект плюс разветвители питания.

Упаковка

Установка и драйверы

Конфигурация тестового стенда

  • Компьютеры на базе процессора Intel Core i7-3960X (Socket 2011):
    • 2 процессора Intel Core i7-3960X (o/c 4 ГГц);
    • СО Hydro SeriesT H100i Extreme Performance CPU Cooler;
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата Asus Sabertooth X79 на чипсете Intel X79;
    • системная плата MSI X79A-GD45(8D) на чипсете Intel X79;
    • оперативная память 16 ГБ DDR3 Corsair Vengeance CMZ16GX3M4A1600C9 1600 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • жесткий диск WD Caviar Blue WD10EZEX 1 TБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • 2 блока питания Corsair CMPSU-1200AXEU (1200 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 7 64-битная; DirectX 11.1;
  • монитор Dell UltraSharp U3011 (30″);
  • монитор Asus ProArt PA249Q (24″);
  • клавиатура Cougar 700K;
  • драйверы AMD версии Catalyst 14.8 RC1, Nvidia версии 344.16. VSync отключен.


Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу Nvidia. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: Nvidia и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании Nvidia — Realistic Water Terrain, также известная, как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • Geforce GTX 970 со стандартными параметрами (сокращенно GTX 970)
  • Geforce GTX 980 со стандартными параметрами (сокращенно GTX 980)
  • Geforce GTX 770 со стандартными параметрами (сокращенно GTX 770)
  • Radeon R9 290X со стандартными параметрами (сокращенно R9 290X)
  • Radeon R9 290 со стандартными параметрами (сокращенно R9 290)

Для анализа производительности новой модели видеокарты Geforce GTX 970 нами были выбраны эти решения по следующим причинам. Geforce GTX 980 также является новейшей моделью компании Nvidia на базе того же графического процессора GM204, но в полной конфигурации, и будет интересно оценить разницу между ними. А из предыдущего семейства для сравнения была взята модель Geforce GTX 770, которая является предшественницей рассматриваемой новинки в этом же сегменте, и основана на графическом процессоре GK104, схожем по позиционированию с GM204, но с предыдущей архитектурой Kepler.

От конкурирующей компании AMD для нашего сравнения мы выбрали две видеокарты, основанные на одинаковом графическом процессоре — Hawaii, но отличающиеся по скорости. Плата Radeon R9 290 является главным ценовым конкурентом для Geforce GTX 970, и мы сравним их с рыночной точки зрения, ну а Radeon R9 290X будет тем решением, к которому нужно стремиться новинке в идеале, хотя эта видеокарта AMD заметно дороже и потребляет куда больше энергии.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Мы отказались от устаревших тестов DirectX 9, так как все мощные решения отличаются в них не слишком показательными результатами, будучи серьёзно ограничены ПСП, филлрейтом или текстурированием. К тому же, некоторые из видеокарт некорректно работают в таких приложениях, а Nvidia и вовсе давно перестала заниматься оптимизацией D3D9-приложений.

Во вторую версию RightMark3D вошли два уже знакомых нам теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в тесте зависит от количества и эффективности блоков TMU, влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются до полутора раза ниже, чем при «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, с выпуском видеочипов на базе архитектуры GCN компания AMD вырвалась вперед по производительности, и сейчас платы Radeon являются лидерами в этих сравнениях, что говорит о значительно более высокой эффективности выполнения ими этих программ. Такой вывод подтверждается и сегодняшним сравнением — представленная недавно видеокарта Nvidia проиграла обоим конкурентам от AMD, в том числе своему главному сопернику в лице Radeon R9 290.

В первом нашем тесте новая видеоплата модели Geforce GTX 970 оказалась явно побыстрее своего ценового аналога из предыдущего поколения в виде GTX 770, но преимущество не очень большое. Результат объясним более эффективным исполнением данной задачи новым GPU и заметно большей скоростью заполнения, так как скорость текстурирования у GTX 970 не слишком высока. Отставание в 16% от GTX 980 говорит в пользу упора в производительность блоков TMU и ALU.

Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: возможно, в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

В изменившихся условиях новая видеокарта Geforce GTX 970 также опережает аналогичную модель из предыдущего поколения — GTX 770, оказываясь между последней и GTX 980. От своего более производительного собрата на GM204 она отстаёт на 15-18%, а отставание от главного ценового конкурента в виде Radeon R9 290 лишь увеличилось — в подобных вычислениях чипы компании AMD явно сильны, так как они предпочитают попиксельные вычисления.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма очень похожа на предыдущую (также без включения суперсэмплинга), и в этот раз новая Geforce GTX 970 оказалась ближе к GTX 980, чем к GTX 770. Новинка продолжает заметно опережать модель предыдущего поколения от Nvidia, а старшей проигрывает уже чуть меньше — 14%. Похоже, что новый графический процессор Nvidia в пиксельных шейдерах справляется с работой лучше предыдущих решений.

Ну а если брать сравнение с видеокартами AMD, то в этом случае все примерно так же, как и было ранее в прошлом тесте. Новинка GTX 970 уступает и Radeon R9 290X и R9 290, хотя подобралась к своему ценовому конкуренту несколько ближе. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача получается еще более тяжелой и совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Оба графических решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров работают явно эффективнее, по сравнению с конкурирующими платами Geforce, но новый чип GM204 слегка изменил ситуацию в лучшую сторону — представленная ранее вторая из топовых плат Geforce GTX 970 на втором чипе архитектуры Maxwell стала заметно быстрее предшествующей Geforce GTX 770 и в самых сложных условиях отстаёт от соперничающей с ней Radeon R9 290 лишь на 10%.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, так как на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП, особенно в случае быстрейших решений. В случае теста Mineral, новая модель Geforce GTX 970 оказалась заметно быстрее платы GTX 770 из предыдущего поколения, которую заменила в линейке компании Nvidia. А от старшей GTX 980 она отстаёт всего лишь на 12%.

Мало того, даже сравнение Geforce GTX 970 с конкурирующей с ней платой от компании AMD, оказывается в пользу первой! Обновление архитектуры Nvidia с Kepler до Maxwell привело к тому, что их новый чип в таких тестах даже имеет преимущество перед конкурирующими решениями от AMD. В этом математическом тесте конкурирующая с новинкой по цене видеокарта Radeon R9 290 оказалась чуть-чуть, но всё же позади, что можно назвать отличным результатом для второй платы на чипе GM204.

Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Да и во втором нашем математическом тесте из RigthMark мы видим примерно такие же результаты видеокарт относительно друг друга — разница между тестами получилась несущественной. Так, новая Geforce GTX 970 всё так же сильно опережает GTX 770, отставая от GTX 980 на те же 12%. Да и Radeon R9 290 всё так же, хоть и чуть-чуть, но всё же отстаёт от новинки производства Nvidia. В тестах пиковой математической производительности новый видеочип Nvidia показывает себя просто отлично!

Direct3D 10: тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт очень простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт на чипах Nvidia и AMD обусловлена отличиями в геометрических конвейерах чипов этих компаний, и она весьма заметна. Если в предыдущих тестах с пиксельными шейдерами платы AMD справлялись с работой не хуже, а то и лучше решений Nvidia, то первые же тесты геометрии показывают, что в таких задачах платы Nvidia весьма конкурентоспособны.

Свежая модель видеокарты Geforce GTX 970 опережает аналогичную GTX 770 из предыдущего поколения чуть ли не вдвое, а отставание от GTX 980 на таком же чипе составляет уже привычные 15-16%. Видеокарты Radeon в этот раз сильно отстают, и это можно объяснить тем, что геометрическая производительность у графических процессоров компании AMD хуже, чем у Nvidia. Особенно отличился новый GM204, который справляется с работой заметно быстрее чем даже GK110. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры слегка улучшились и для плат AMD и для решений Nvidia, но разница невелика и ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и выводы остаются прежними.

Плата Nvidia на базе урезанного графического процессора архитектуры Maxwell более чем в полтора раза быстрее аналогичной модели предыдущего поколения, от GTX 980 отстаёт на 13-14%, ну а оба решения конкурента (Radeon R9 290X и R9 290) остаются далеко позади.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD просто не работает. В какой-то момент очередное обновление драйверов Catalyst привело к тому, что данный тест перестал запускаться на платах этой компании, и эта ошибка не исправлена вот уже несколько лет. Так что рассматриваем в этом тесте только результаты видеокарт Nvidia:

Тут мы видим примерно то же самое, что и в тесте Galaxy — вторая видеоплата на чипе GM204 всё так же быстрее GTX 770, хотя разница между ними уже сократилась, а отставание от Geforce GTX 980 снизилось до 6-9%. Возможно, в тяжёлом режиме что-то изменится:

В таких условиях результаты разных видеокарт компании Nvidia изменились, и разница между GTX 980 и GTX 970 увеличилась до 10-13%. Новая Geforce GTX 970 хоть и быстрее подобной же платы из прошлого поколения в виде Geforce GTX 770, но отставание последней уже явно меньше. В любом случае, новинка показала себя очень неплохо, она весьма эффективно справляется с различными программами на основе геометрических шейдеров.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, что особенно хорошо заметно в простом режиме. Новая топовая видеокарта компании Nvidia в нём показывает скорость выше, чем аналогичная по рыночному позиционированию плата GTX 770 из предыдущего поколения, а в лёгком режиме явно упирается в ПСП. Отставание от старшей GTX 980 составило 6-9%.

Главный ценовой конкурент новинки в виде Radeon R9 290 в этот раз немного опережает плату от Nvidia, особенно в лёгком режиме. Разница в остальных двух режимах не слишком велика, а в самом сложном она составляет лишь 4%. Посмотрим на производительность в этом же тесте с увеличенным количеством текстурных выборок:

Ситуация на диаграмме заметно изменилась, решения компании AMD в тяжелых режимах потеряли явно больше, чем платы Geforce, и значительно. Новая видеоплата Geforce GTX 970 показала скорость выше, чем оба конкурента (за исключением самого лёгкого режима, где она упёрлась в пропускную способность памяти). Если же сравнивать новинку с решением этой же компании из предыдущего поколения, то GTX 970 опережает плату GTX 770 с хорошим запасом. Ну а отставание от GTX 980 составляет привычные 6-8%.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» не слишком похожи на то, что мы видели на предыдущих диаграммах. Скоростные показатели всех Geforce в этом тесте сильно ухудшились, и хотя новая модель Nvidia Geforce GTX 970 чуть быстрее GTX 770, но разница мизерная, а старшей модели GTX 980 новинка проигрывает и вовсе до 19%. Если сравнивать её с конкурентами, то обе платы серии Radeon R9 290 смогли показать лучшую производительность в этом тесте. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, и больше всего пострадали видеокарты Nvidia. В выводах меняется не слишком многое, но новая модель Geforce GTX 970 отстаёт от GTX 980 уже целых 17-23%, да и в сравнении её с предшественницей из серии Geforce GTX 700, новинка проигрывает — дело явно в недостаточной скорости текстурирования. А уж стоящей те же деньги Radeon R9 290 новинка от Nvidia уступила в этом тесте и вовсе чуть ли не вдвое.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage покажут нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10 и интересны тем, что отличаются от наших и до сих пор актуальны. При анализе результатов видеокарты модели Geforce GTX 970 в этом пакете мы сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и Nvidia в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Увы, но разница в скорости между GTX 970 и GTX 770 в пользу решения предыдущего поколения, что легко объяснимо теоретически — у новинки меньше блоков TMU. Если сравнивать GTX 970 с GTX 980, то рассматриваемая сегодня модель на основе урезанного чипа GM204 в текстурировании уступает 16%, что меньше теоретической разницы.

Что же касается сравнения скорости текстурирования новой топовой видеоплаты Nvidia с аналогичным по цене решением конкурента, то тут новинка также уступает своему главному сопернику по ценовой нише — Radeon R9 290, причём очень сильно. Всё-таки сравнительно малое количество текстурных блоков в GM204 высокой частотой работы GPU не перекрыть.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, иногда — с учетом величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), поэтому тест измеряет пропускную способность и/или производительность ROP, и в этот раз похоже на второе. Результат у рассматриваемой сегодня топовой платы Geforce GTX 970 намного (более чем в полтора раза) лучше, чем у GTX 770, а старшей GTX 980 новинка уступила тоже немало — 17%.

Если сравнивать скорость заполнения сцены новой видеокартой Geforce GTX 970 с видеокартами AMD, то рассматриваемая нами сегодня плата в этом тесте показывает скорость заполнения сцены, превышающую ту, на которую способны и идентичная по цене Radeon R9 290 и даже более дорогая Radeon R9 290X — всё-таки оптимизации по эффективности сжатия данных буфера кадра и большое количество блоков ROP сделали своё дело.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника уже используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата Geforce GTX 970 оказалась почти на 40% быстрее своего аналога на базе графического процессора архитектуры Kepler, хотя и уступила 17% плате GTX 980 на основе такого же чипа GM204, но в полноценной его версии.

Новинка немного (13%) проигрывает и своему сопернику по цене в виде AMD Radeon R9 290, что объясняется тем, что графические процессоры производства компании AMD в этой задаче работают весьма эффективно, ну а теперь и новые платы на базе графического процессора GM204 подобрались к Radeon на близкое расстояние.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны бы являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов Nvidia должны были проявиться именно тут, но нет — все платы Nvidia показали не слишком высокую (и одинаковую!) скорость. В результате, новая модель Geforce GTX 970 показала результат примерно на одном уровне с GTX 770 и GTX 980 — тут что-то явно не так.

Сравнение с платами Radeon в этом тесте приводит к понятным выводам — несмотря на меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности, по сравнению с конкурирующими решениями Nvidia, обе платы Radeon в этом тесте работают весьма эффективно и обгоняют все три платы Geforce, представленные в сравнении.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация серьёзно изменилась, в этот раз новая модель Geforce GTX 970 работает заметно лучше — новинка на 23% быстрее своего предшественника в лице GTX 770, и на 14% отстаёт от старшего варианта GTX 980.

Сравнение новинки Nvidia с конкурирующими видеокартами компании AMD в этот раз куда более позитивное, ведь обе платы от компании-соперника показывают чуть худшие результаты, новинка опережает Radeon R9 290 на 5%, и даже более дорогая модель в виде Radeon R9 290X также совсем чуть-чуть отстала. В итоге: платы на чипах AMD лучше выполняют синтетический тест имитации тканей из тестового пакета 3DMark Vantage, а за Nvidia остаётся тест с расчётом частиц, хотя в обеих задачах используются геометрические шейдеры.

Feature Test 6: Perlin Noise

Ну и последний feature-тест пакета Vantage является математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

В этом случае производительность решений не полностью соответствует теории, но она близка к тому, что мы видели в других математических тестах. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим отличающееся распределение результатов, по сравнению с аналогичными тестами из нашего тестового пакета. Главным отличием стало то, что результат новинки Geforce GTX 970 теперь ниже, чем у Radeon R9 290.

Видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше конкурента, особенно в тех случаях, когда выполняется интенсивная «математика». Вторая модель компании Nvidia из семейства Geforce GTX 900 в этом тесте показала неплохой результат, обогнав Geforce GTX 770 аж на 42% и отстав от GTX 980 лишь на 13% (при несколько большей теоретической разнице), но этого не хватило, чтобы догнать Radeon R9 290, являющийся главным соперником новинки по цене. Разница между ними оказалась порядка 10%, в пользу решения AMD.

Direct3D 11: Вычислительные шейдеры

Чтобы протестировать анонсированное сегодня решение компании Nvidia в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы воспользовались примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, Nvidia и AMD.

Сначала мы рассмотрим тесты, использующие вычислительные (Compute) шейдеры. Их появление — одно из наиболее важных нововведений в последних версиях DX API, они уже используются в современных играх для выполнения различных задач: постобработки, симуляций и т. п. В первом тесте показан пример HDR-рендеринга с tone mapping из DirectX SDK, с постобработкой, использующей пиксельные и вычислительные шейдеры.

Скорость расчетов в вычислительном и пиксельном шейдерах для всех плат AMD и Nvidia давно уже приблизительно одинаковая, отличия наблюдались только у видеокарт на основе GPU предыдущих архитектур. Судя по нашим предыдущим тестам, результаты в задаче порой зависят не столько от математической мощи и эффективности вычислений, сколько от других факторов, вроде пропускной способности памяти и производительности блоков ROP.

В данном случае скорость видеокарт всё же зависит больше всего именно от математической производительности. Новая плата от компании Nvidia в этом тесте немного впереди своей предшественницы в лице Geforce GTX 770, и уступает GTX 980 лишь 12%, что объяснимо теорией. Если сравнивать Geforce GTX 970 с прямым ценовым конкурентом в лице Radeon R9 290, то рассматриваемая сегодня плата калифорнийской компании отстаёт от него ещё немного больше.

Второй тест вычислительных шейдеров также взят из Microsoft DirectX SDK, в нем показана расчетная задача гравитации N тел (N-body) — симуляция динамической системы частиц, на которую воздействуют физические силы, такие как гравитация.

В этом тесте чаще всего наблюдается упор в скорость исполнения сложных математических вычислений, обработки геометрии и эффективность выполнения кода с ветвлениями. И во втором DX11-тесте расклад сил между решениями двух разных компаний получился совершенно иной.

Решения компании Nvidia в этот раз явно сильнее, чем платы соперника, а Geforce GTX 970 удивила большим отставанием от старшей модели — она аж на 27% медленнее старшей сестры GTX 980. Похоже, что сказываются серьёзно урезанные возможности по геометрической и математической производительности.

Direct3D 11: Производительность тесселяции

Вычислительные шейдеры очень важны, но еще одним важным нововведением в Direct3D 11 считается аппаратная тесселяция. Мы очень подробно рассматривали ее в своей теоретической статье про Nvidia GF100. Тесселяцию уже довольно давно начали использовать в DX11-играх, таких как STALKER: Зов Припяти, DiRT 2, Aliens vs Predator, Metro Last Light, Civilization V, Crysis 3, Battlefield 3 и других. В некоторых из них тесселяция используется для моделей персонажей, в других — для имитации реалистичной водной поверхности или ландшафта.

Существует несколько различных схем разбиения графических примитивов (тесселяции). Например, phong tessellation, PN triangles, Catmull-Clark subdivision. Так, схема разбиения PN Triangles используется в STALKER: Зов Припяти, а в Metro 2033 — Phong tessellation. Эти методы сравнительно быстро и просто внедряются в процесс разработки игр и существующие движки, поэтому и стали популярными.

Первым тестом тесселяции будет пример Detail Tessellation из ATI Radeon SDK. В нем реализована не только тесселяция, но и две разные техники попиксельной обработки: простое наложение карт нормалей и parallax occlusion mapping. Что ж, сравним DX11-решения AMD и Nvidia в различных условиях:

В тесте простого бампмаппинга скорость плат не так уж важна, так как эта задача давно стала слишком легкой и производительность упирается в ПСП или филлрейт. Сегодняшний герой обзора незначительно превосходит предшествующую модель Geforce GTX 770, уступая GTX 980 более 20%, а схожее с новинкой по цене решение конкурента в виде Radeon R9 290 явно быстрее всех.

Во втором подтесте с более сложными попиксельными расчетами новинка всё так же быстрее модели Geforce GTX 770, уступает GTX 980 на полноценном GM204 около 17%, и снова заметно отстаёт от конкурирующей Radeon R9 290. Всё-таки эффективность выполнения математических вычислений в пиксельных шейдерах у чипов архитектуры GCN выше, чем у Kepler, хотя Maxwell и улучшил позиции решений Nvidia.

В подтесте с применением лёгкой степени тесселяции, новая плата Nvidia почти наравне с моделью предыдущего поколения Geforce GTX 770, а топовая GTX 980 на 18% быстрее. Если сравнивать новинку с единственной платой производства AMD, то она всё так же серьёзно уступает, так как в этом тесте тесселяции разбиение треугольников весьма умеренное и скорость не упирается в производительность блоков обработки геометрии.

Вторым тестом производительности тесселяции будет еще один пример для 3D-разработчиков из ATI Radeon SDK — PN Triangles. Собственно, оба примера входят также и в состав DX SDK, так что мы уверены, что на их основе создают свой код игровые разработчики. Этот пример мы протестировали с различным коэффициентом разбиения (tessellation factor), чтобы понять, как сильно влияет его изменение на общую производительность.

В этом тесте в тяжелых режимах применяется более сложная геометрия, поэтому и сравнение геометрической мощи различных решений приносит совершенно другие выводы. Все представленные в материале современные решения достаточно хорошо справляются с легкой и средней геометрической нагрузкой, показывая высокую скорость. И хотя в лёгких условиях графический процессор AMD в составе Radeon R9 290 отлично работает, даже опережая калифорнийских конкурентов, которые явно во что-то уперлись, то в тяжёлых режимах платы Nvidia выходят вперёд с большим запасом. В самых сложных режимах представленная в прошлом месяце Geforce GTX 970 показывает скорость заметно лучше, чем единственная Radeon.

Что касается сравнения плат Nvidia различных поколений между собой, то рассматриваемая сегодня модель Geforce GTX 970 тоже наращивает преимущество с ростом геометрической нагрузки, как и должно быть по теории. В итоге она опережает предшествующую плату Geforce GTX 770 в самом сложном режиме почти вдвое! Да и старшая модель на топовом чипе Maxwell не так уж сильно обгоняет рассматриваемую новинку — разница между ними составляет лишь 7-10%.

Рассмотрим результаты еще одного теста — демонстрационной программы Nvidia Realistic Water Terrain, также известной как Island. В этой демке используется тесселяция и карты смещения (displacement mapping) для рендеринга реалистично выглядящей поверхности океана и ландшафта.

Тест Island не является чисто синтетическим тестом для измерения исключительно геометрической производительности GPU, так как он содержит и сложные пиксельные и вычислительные шейдеры в том числе, и такая нагрузка ближе к реальным играм, в которых используются все блоки GPU, а не только геометрические, как в предыдущих тестах геометрии. Хотя основной все равно остается именно нагрузка на блоки обработки геометрии.

Мы тестируем все видеоплаты при четырех разных коэффициентах тесселяции — в данном случае настройка называется Dynamic Tessellation LOD. При первом коэффициенте разбиения треугольников, скорость не ограничена производительностью геометрических блоков, и видеокарта Radeon R9 290 показывает высокий результат, даже превосходящий скорость анонсированной недавно платы Geforce GTX 970, но уже на следующих ступенях геометрической нагрузки производительность платы Radeon снижается весьма серьёзно, и новинка Nvidia выходит вперёд.

Преимущество новой платы Nvidia на видеочипе GM204 в таких тестах доходит до двух раз. Интересно, что если сравнить Geforce GTX 970 с GTX 770, то разница между их производительностью доходит до полутора раз, что трудно объяснить одной лишь возросшей скоростью обработки геометрии. Вполне возможно, что дело ещё и в том, что GM204 заметно эффективнее работает в режиме смешанной нагрузки, быстро переключаясь от исполнения графических задач к вычислительным и обратно. От старшей модели GTX 980 новинка отстаёт лишь на 11-16%, что близко к теории.

***

Проанализировав результаты синтетических тестов новой видеокарты Nvidia Geforce GTX 970, основанной на графическом процессоре GM204 с урезанными функциональными блоками, а также рассмотрев результаты других моделей видеокарт от обоих производителей дискретных видеочипов, можно сделать вывод о том, что рассматриваемая сегодня видеокарта вполне сможет составить конкуренцию не только сопернику по цене от компании AMD в виде Radeon R9 290, но и может стать одной из самых удачных видеокарт в своём ценовом сегменте. Она совсем немного (порядка 7-15%) уступает старшей модели GTX 980, а стоит намного дешевле её.

Новая видеокарта компании Nvidia показывает довольно высокие результаты в «синтетике», близкие к показателям Radeon R9 290. Вообще, у этих решений разные сильные стороны, в некоторых тестах сильнее более сложный графический процессор AMD, в том числе из-за большей пропускной способности памяти и эффективного исполнения пиксельных шейдеров, а в других быстрее уже графический процессор архитектуры Maxwell. Конечно, ситуация в реальных игровых приложениях может отличаться от итогов синтетических тестов, но Geforce GTX 970 в любом случае станет сильным конкурентом для Radeon R9 290 и в играх.

При этом, Geforce GTX 970 ещё и потребляет энергии меньше, чем даже Radeon R9 285, не говоря о Radeon R9 290. В смысле энергоэффективности обе новые модели компании (Geforce GTX 970 и GTX 980) выглядят потрясающе — инженеры Nvidia добились высочайшей эффективности нового GM204. С рыночной же точки зрения всё будет зависеть от цен в магазинах и сравнения производительности в игровых приложениях.

И как раз для того, чтобы сделать выводы по реальному положению дел, в следующей части нашего материала мы определим производительность новинки Nvidia в игровых проектах, сравнив её с конкурентами и оценив, в том числе и оправданность розничной цены решения с учётом скорости рендеринга Geforce GTX 970 и Radeon R9 290 в нашем наборе игровых приложений.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
GTX 970 — 19 800  (на 01.12.16) R9 290X — $431(33)
GTX 970 — 19 800  (на 01.12.16) R9 290 — $551(2)
GTX 970 — 19 800  (на 01.12.16) GTX 770 — $362 (на 01.11.16)
GTX 970 — 19 800  (на 01.12.16) GTX 780 — $662 (на 01.08.16)
Gigabyte GTX 970 OC — $362(2) GTX 970 — 19 800  (на 01.12.16)


Благодарим компанию Gigabyte
и лично Наталью Лагуненко
за предоставленную на тестирование видеокарту

2 блока питания Corsair CMPSU-1200AXEU для тестового стенда предоставлены компанией Corsair

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek

Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair

Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek

Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.