Видеоускоритель Nvidia GeForce GTX 1070

Часть 2: особенности карты, результаты синтетических тестов


Содержание

Данная часть знакомит читателей с особенностями видеокарты, а также с результатами синтетических тестов.

Видеообзор

Для начала предлагаем посмотреть наш видеообзор ускорителя Nvidia GeForce GTX 1070:

Наш видеообзор ускорителя Nvidia GeForce GTX 1070 можно также посмотреть на iXBT.Video

Теперь давайте взглянем на спецификации устройства.

Устройство(а)

Nvidia GeForce GTX 1070 8 ГБ 256-битной GDDR5 PCI-E
ПараметрЗначениеНоминальное значение (референс)
GPUGeForce GTX 1070 (GP104) (P/N 900-1G411-2520-000 L)
ИнтерфейсPCI Express x16
Частота работы GPU (ROPs), МГц1507-17971507-1797
Частота работы памяти (физическая (эффективная)), МГц2000 (8000)2000 (8000)
Ширина шины обмена с памятью, бит256
Число вычислительных блоков в GPU15
Число операций (ALU) в блоке128
Суммарное количество блоков ALU1920
Число блоков текстурирования (BLF/TLF/ANIS)120
Число блоков растеризации (ROP)64
Размеры, мм270×100×35270×100×35
Количество слотов в системном блоке, занимаемые видеокартой22
Цвет текстолитачерныйчерный
ЭнергопотреблениеПиковое в 3D, Вт151151
В режиме 2D, Вт4242
В режиме «сна», Вт2121
Уровень шумаВ режиме 2D, дБА20,520,5
В режиме 2D (просмотр видео), дБА20,520,5
В режиме максимального 3D, дБА25,525,5
Выходные гнезда1×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.21×DVI (Dual-Link/HDMI), 1×HDMI 2.0, 3×DisplayPort 1.2
Поддержка многопроцессорной работыSLI
Максимальное количество приемников/мониторов для одновременного вывода изображения44
Дополнительное питание: количество 8-контактных разъемов11
Дополнительное питание: количество 6-контактных разъемовНетНет
Максимальное разрешение 2DDisplay Port4096×2160
HDMI4096×2160
Dual-Link DVI2560×1600
Single-Link DVI1920×1200
Максимальное разрешение 3DDisplay Port4096×2160
HDMI4096×2160
Dual-Link DVI2560×1600
Single-Link DVI1920×1200

Комплектация локальной памятью
Карта имеет 8 ГБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах по 8 Гбит на лицевой сторонe PCB.

Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на номинальную частоту работы в 2000 (8000) МГц.

Сравнение с эталонным дизайном (reference)
Вид спереди
Nvidia GeForce GTX 1070 8 ГБ 256-битной GDDR5 PCI-E Reference card Nvidia GeForce GTX 970
Вид сзади
Nvidia GeForce GTX 1070 8 ГБ 256-битной GDDR5 PCI-E Reference card Nvidia GeForce GTX 970

Как в свое время GTX 970 получился из GTX 980, внешне по сути ничем не отличаясь (кроме урезанного по частотам и блокам ядра, плюс небольшое упрощение системы питания), точно также GTX 1070 получился из GTX 1080, о котором мы уже писали ранее. Еще раз отметим, что PCB видеокарт GTX 970/980/1070/1080 очень похожи. Вероятно они даже выпускаются на одном заводе. Расположение микросхем памяти идентичное. Схема питания получила 4+1 фаз, управляется цифровым контроллером NCP81022 производства On Semiconductor. На момент написания материала разгон ускорителя был невозможен (имеющиеся в открытом доступе утилиты не могли регулировать частоты).

Система охлаждения
Референсная СО Nvidia имеет традиционную закрытую форму с цилиндрическим вентилятором на конце. Радиатор, прижимающийся к ядру, выполнен из алюминиевого сплава и усилен медными тепловыми трубками, помогающими равномерно распределять тепло по ребрам радиатора. В этом отличие данной СО от той, что используется в референс-картах GTX 1080 (там применен метод испарительной камеры).

Вентилятор гонит воздух через вышеупомянутый радиатор и имеет особую форму крыльчатки, дающую пониженный уровень шума.

Микросхемы памяти и силовые транзисторы охлаждаются с помощью специальной пластины у кулера. На оборотной стороне PCB установлена пластина, которая через термоинтерфейс прижимается к печатной плате, помогая охлаждению. Впрочем, в большей степени эта пластина установлена в качестве декорации и служит ребром жесткости.

После 6-часового прогона под нагрузкой максимальная температура GPU не превысила 77 градусов, что является очень хорошим результатом для такого рода ускорителей!
Мониторинг температурного режима с помощью MSI Afterburner (автор А. Николайчук AKA Unwinder)

Методика измерения шума

  • Помещение шумоизолировано и заглушено, снижены реверберации.
  • Системный блок, в котором исследовался шум видеокарт, не имеет вентиляторов, не является источником механического шума.
  • Фоновый уровень 20 дБА — это уровень шума в комнате и уровень шумов собственно шумомера.
  • Измерения проводились на расстоянии 50 см от видеокарты на уровне системы охлаждения.
  • Режимы измерения:
    1. Режим простоя в 2D: загружен интернет-браузер с сайтом iXBT.com, окно Microsoft Word, ряд интернет-коммуникаторов.
    2. Режим 2D с просмотром фильмов: используется SmoothVideo Project (SVP) — аппаратное декодирование со вставкой промежуточных кадров.
    3. Режим 3D с максимальной нагрузкой на ускоритель: используется тест FurMark.

В режиме простоя в 2D вентилятор работал на частоте 1000 оборотов в минуту, при этом температура графического ядра не поднималась выше 30 градусов, а уровень шума был равен фоновому и составлял 20,5 дБА.

При просмотре фильма с аппаратным декодированием температура графического ядра медленно вырастала до 42 градусов, вентилятор работал на частоте вращения 1325 оборотов в минуту, уровень шума не менялся.

В режиме максимальной нагрузки в 3D температура достигала уровня 77 °C, частота вращения вентилятора поднималась до 1985 оборотов в минуту, шум вырастал до 25,5 дБА. В результате мы смело можем говорить о тихой СО. Стоит напомнить, что референсные кулеры будут встречаться на практике только в первых партиях, пока партнеры Nvidia будут продавать именно референсные карты, а не продукты собственного производства.

Комплектация
Карта к нам попала c референс-комплектом (фирменная упаковка Nvidia без дополнений).

Упаковка

Установка и драйверы

Конфигурация тестового стенда

  • Компьютер на базе процессора Intel Core i7-5960X (Socket 2011):
    • процессор Intel Core i7-5960X (o/c 4 ГГц);
    • СО Intel Thermal Solution RTS2011LC;
    • системная плата ASRock Fatal1ty X99X Killer на чипсете Intel X99;
    • оперативная память 16 ГБ DDR4 G.Skill Ripjaws4 F4-2800C16Q-16GRK 2800 МГц;
    • жесткий диск Seagate Barracuda 7200.14 3 ТБ SATA2;
    • 2 SSD Corsair Neutron SSD CSSD-N120GB3-BK;
    • блок питания Thermaltake Toughpower DPS G 1050W (1050 Вт);
    • корпус Corsair Obsidian 800D Full Tower.
  • операционная система Windows 10 Pro 64-битная; DirectX 12;
  • монитор Samsung U28D590D (28″);
  • клавиатура Cougar 700K;
  • драйверы AMD версии Crimson Edition 16.5.2;
  • драйверы Nvidia версии 365.18 (для GTX 1070 — 368.19);
  • VSync отключен.


Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

В качестве синтетических тестов DirectX 11 мы использовали примеры из пакетов SDK компаний Microsoft и AMD, а также демонстрационную программу NVIDIA. Во-первых, это HDRToneMappingCS11.exe и NBodyGravityCS11.exe из комплекта DirectX SDK (February 2010). Мы взяли и приложения обоих производителей видеочипов: NVIDIA и AMD. Из ATI Radeon SDK были взяты примеры DetailTessellation11 и PNTriangles11 (они также есть и в DirectX SDK). Дополнительно использовалась демонстрационная программа компании NVIDIA — Realistic Water Terrain, также известная как Island11.

Синтетические тесты проводились на следующих видеокартах:

  • GeForce GTX 1070 со стандартными параметрами (сокращенно GTX 1070)
  • GeForce GTX 1080 со стандартными параметрами (сокращенно GTX 1080)
  • GeForce GTX 970 со стандартными параметрами (сокращенно GTX 970)
  • Radeon R9 Fury X со стандартными параметрами (сокращенно R9 Fury X)
  • Radeon R9 390X со стандартными параметрами (сокращенно R9 390X)

Для проведения анализа производительности новой модели видеокарты GeForce GTX 1070 в синтетических тестах, мы выбрали эти решения по следующим причинам. GeForce GTX 970 является прямым предшественником новинки, основанном на аналогичном по сложности урезанном графическом процессоре из предыдущего поколения Maxwell. Видеокарта GeForce GTX 1080 взята как решение уже нынешнего поколения с максимальной производительностью, основанное на полноценном чипе GP104 — это сравнение покажет, насколько GTX 1070 медленнее GTX 1080.

От конкурирующей компании AMD для нашего сравнения мы снова выбрали две видеокарты разных поколений и семейств. Младшая из видеоплат Radeon R9 390X хоть и основана на довольно старом графическом процессоре Hawaii, но она до сих пор составляет неплохую конкуренцию во многих синтетических тестах. А заодно является самым близким по цене соперником для новинки. Также мы взяли Radeon R9 Fury X — в качестве самого производительного решения от AMD.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

От DirectX 9 тестов мы давно отказались, а во вторую версию RightMark3D вошли два ранее знакомых теста PS 3.0 под Direct3D 9, которые были переписаны под DirectX 10, а также еще два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Эти тесты измеряют производительность выполнения пиксельных шейдеров с циклами при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нем используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40—80, включение «шейдерного» суперсэмплинга — до 60—120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

В этом тесте производительность больше зависит от количества и эффективности блоков TMU, но на результат обычно влияет также и эффективность выполнения сложных программ. А в варианте без суперсэмплинга дополнительное влияние на производительность оказывает еще и эффективный филлрейт и пропускная способность памяти. Результаты при детализации уровня «High» получаются несколько ниже, чем при детализации «Low».

В задачах процедурной визуализации меха с большим количеством текстурных выборок, решения компании AMD лидируют еще со времени выпуска первых видеочипов на базе архитектуры GCN. И именно платы Radeon до сих пор являются лучшими в этих сравнениях, что говорит о высокой эффективности выполнения ими этих программ. Вывод подтверждается и сегодняшним сравнением — выпущенная сегодня видеокарта NVIDIA проиграла решениям конкурента, включая своего прямого соперника Radeon R9 390X, основанного на устаревшем графическом процессоре Hawaii.

В первом Direct3D 10 тесте новая видеоплата модели GeForce GTX 1070 до 20% уступила топовой модели нового поколения в виде GTX 1080, что соответствует теории. Удивительно, но вот свою предшественницу на чипе GM204 она обогнала совсем немного. Похоже, что видеокарты NVIDIA в этом тесте во что-то упираются. Посмотрим на результат в этой же задаче, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза: в такой ситуации что-то должно измениться, и ПСП с филлрейтом будут влиять меньше:

В усложненных условиях результаты теста традиционно получились более интересными. Новая видеокарта модели GeForce GTX 1070 опережает аналогичную по позиционированию модель из прошлого поколения GTX 970 чуть ли не вдвое, что уже ближе к той разнице, что мы от неё ожидали, да и к теоретическим показателям. Сегодняшняя новинка уступила старшей модификации GTX 1080 чуть больше 20%, что также полностью соответствует теоретическим данным. Отставание от конкурентов в виде Radeon R9 Fury X и R9 390X серьёзно сократилось, хотя даже младшую модель Radeon новинка обойти так и не смогла.

Следующий DX10-тест измеряет производительность исполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок и называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Второй пиксель-шейдерный тест Direct3D 10 интереснее с практической точки зрения, так как разновидности parallax mapping широко применяются в играх, а тяжелые варианты, вроде steep parallax mapping, давно используются во многих проектах, например в играх серий Crysis, Lost Planet и многих других. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип еще примерно в два раза — такой режим называется «High».

Диаграмма в целом очень похожа на предыдущую (также без включения суперсэмплинга), и в этом тесте новая модель видеокарты GeForce GTX 1070 оказалась лишь немного быстрее GTX 970, и уступила почти 20% старшей GeForce GTX 1080, что близко к теории. Если же сравнивать новинку с видеокартами AMD, то и в этом случае новинка заметно уступает обеим платам Radeon. Посмотрим, что изменит включение суперсэмплинга:

При включении суперсэмплинга и самозатенения задача становится тяжелее, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьезное падение производительности. Разница между скоростными показателями протестированных видеокарт немного изменилась, хотя включение суперсэмплинга сказывается меньше, чем в предыдущем случае.

Такие условия полностью изменили соотношение сил в сравнении. Хотя графические решения AMD Radeon и в этом D3D10-тесте пиксельных шейдеров всегда работали эффективнее конкурирующих плат GeForce, но именно новые модели GeForce GTX 1080 и GTX 1070, основанные на первом чипе архитектуры Pascal смогли наконец-то поспорить с ними. Старшая плата показала результат на уровне Radeon R9 Fury X во всех условиях, а рассматриваемая сегодня GTX 1070 оказалась почти точно на уровне R9 390X. По сравнению с другими GeForce, новинка показала скорость ощутимо быстрее GeForce GTX 970 из предыдущего семейства и уступила старшей GTX 1080 примерно 18-23%, что близко к теории.

Direct3D 10: тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

Результаты предельных математических тестов чаще всего лишь примерно соответствуют разнице по частотам и количеству вычислительных блоков, на результаты влияет и разная эффективность их использования в конкретных задачах, и оптимизация драйверов, и новейшие системы управления частотами и питанием, и даже упор в ПСП. В случае нашего теста Mineral, все видеокарты сравнения показали слишком близкие результаты, разница между которыми незначительна — похоже, что тест не отражает реальной разницы в производительности.

Увы, но в этом тесте именно GeForce GTX 1070 оказалась худшей в нашем сравнении, проиграв вообще всем — и платам от компании AMD и своей предшественнице на базе чипа архитектуры Maxwell, и GTX 1080, что хотя бы логично. Так что можно не принимать эти результаты всерьёз, они явно аномальны. Рассмотрим второй тест шейдерных вычислений, который носит название Fire. Он тяжелее для ALU, и текстурная выборка в нем только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Вот во втором математическом тесте из нашего RigthMark мы видим что-то хотя бы отдалённо похожее на реальное положение дел, и результаты видеокарт относительно друг друга близки к истинным. Так, новая модель GeForce GTX 1070 в этот раз уже опережает GTX 970, хотя и совсем незначительно. Разница должна быть большей. Старшей модели GTX 1080 новинка уступила порядка 19%, что примерно соответствует теоретическим пиковым параметрам.

Если сравнивать новую видеокарты на GPU архитектуры Pascal с Radeon, то обе видеокарты на чипах компании AMD показали лучшие результаты, хотя разница между GeForce GTX 1070 и Radeon R9 390X невелика, так как графический процессор Hawaii хоть и старый, но до сих пор весьма силён в математических тестах.

Direct3D 10: тесты геометрических шейдеров

В составе пакета RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующие частицу. Аналогичные алгоритмы должны получить широкое использование в будущих играх под DirectX 10.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трех уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаково для всех решений, производительность соответствует количеству точек, с каждым шагом падение FPS близкое к двукратному. Задача эта для мощных современных видеокарт довольно простая, и производительность в ней ограничена скоростью обработки геометрии, а иногда и пропускной способностью памяти и/или филлрейтом.

Разница между результатами видеокарт от NVIDIA и AMD в этот раз явно в пользу решений первой. Скорее всего, это обусловлено отличиями в геометрических конвейерах чипов этих компаний. В тестах геометрии платы GeForce всегда были конкурентоспособнее Radeon. И в данном случае хорошо заметно, что топовые видеочипы NVIDIA выигрывают с заметным преимуществом, имея большее количество блоков по обработке геометрии.

Новая модель GeForce GTX 1070 уступила старшей модификации лишь 11-15%, а плата прошлого поколения в лице GTX 970 так и вовсе осталась далеко позади (хотя даже её производительность лучше, чем у Radeon). Видеокарты на чипах AMD показывают очень низкие результаты в этом тесте, Radeon R9 390X стала худшим решением сравнения, да и Fury X проиграла всем видеокартам NVIDIA, не говоря уже о GTX 1070. Посмотрим, как изменится ситуация при переносе части вычислений в геометрический шейдер:

При изменении нагрузки в этом тесте цифры изменились незначительно для плат AMD и для решений NVIDIA. И это ничего особенно не меняет. Видеокарты в этом тесте геометрических шейдеров слабо реагируют на изменение параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, поэтому и наши выводы остаются неизменными. GeForce GTX 1070 и в этом подтесте показала отличный результат, обогнав видеокарты, кроме одной — GTX 1080 на основе такого же чипа, но не урезанного, где-то на 10-13% быстрее. А вот отставание Radeon в сложных условиях доходит до двукратного.

К сожалению, «Hyperlight» — второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load, в котором используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output, на всех современных видеокартах компании AMD не работает. Этот тест давно перестал запускаться на платах этой компании, и ошибка не исправлена вот уже несколько лет. Так что рассматриваем в этом тесте только результаты видеокарт NVIDIA:

На этой диаграмме мы видим примерно то же самое, что и в тесте Galaxy, хотя есть и некоторые отличия. Вторая модель видеоплаты на базе чипа GP104 оказалась заметно быстрее прошлого решения GeForce GTX 970 в сложных условиях, и уступила старшей плате нынешнего поколения 13-17%, что близко к теории. Возможно, в более сложном режиме тестирования что-то изменится:

В таких условиях результаты видеокарт компании NVIDIA серьезно изменились, но результаты довольно странные — GTX 970 стала лучшей в самых простых условиях, хотя в остальных режимах выигрывает уже нынешняя топовая карта GTX 1080. Ну а новая GTX 1070 проигрывает ей снова всё те же 14-17% в этом подтесте. Так что на фоне GeForce GTX 1080 в тестах геометрических шейдеров младшая модель показала себя неплохо.

Direct3D 10: скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи, по сути, так что соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Наши предыдущие исследования показали, что на результаты этого теста может влиять и филлрейт и пропускная способность памяти, ограничивающая производительность, что хорошо заметно по результатам плат NVIDIA, которые в простых режимах не сильно быстрее себя же в более тяжёлом. Новая видеокарта GeForce GTX 1070 в этом тесте показывает скорость явно очень низкую — этот тест не очень хорошо исполняется вообще на всех платах GeForce, которые оказались примерно на одном уровне, но именно новинка стала худшей по непонятным причинам.

Ну а лидером в этом тесте традиционно является уже очень старая плата компании AMD на базе видеочипа Hawaii — в этот раз она оказалась сильнее всех плат от NVIDIA и Radeon R9 Fury X. Посмотрим на производительность представленных в сравнении видеокарт в этом же тесте, но с увеличенным количеством текстурных выборок:

Ситуация на диаграмме несколько изменилась, и решения компании AMD в тяжелых режимах потеряли значительно больше плат GeForce. Впрочем, в самом легком они всё равно продолжают лидировать. Новая модель GeForce GTX 1070 в сложных условиях показала скорость, близкую к GTX 970, но всё же уступает ей. Старшей видеокарте на GP104 новинка проиграла ожидаемые 17-21%. Если сравнивать её результаты с Radeon, то она выиграла у обеих плат AMD в самом сложном режиме, проиграв в более лёгких.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нем используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты во втором тесте вершинного текстурирования «Waves» во многом похожи на то, что мы видели на предыдущих диаграммах — решения NVIDIA всё так же упираются во что-то в лёгких режимах. Скоростные показатели всех GeForce в этом тесте уступают производительности решений конкурента, вот и новая модель GeForce GTX 1070 показывает скорость ниже их уровня. Если сравнивать три рассмотренные в сравнении GeForce, то в тяжелых режимах GTX 1070 обгоняет GTX 970, хотя в лёгком уступает. Отставание от старшей GTX 1080 чуть меньше ожидаемого. Рассмотрим второй вариант этой же задачи:

С усложнением задачи во втором тесте текстурных выборок скорость всех решений стала ниже, и видеокарты NVIDIA пострадали несколько больше. Но в выводах ничего не меняется, по сути, разве что можно отметить куда более серьёзное отставание GTX 970 от новой модели GeForce GTX 1070. Рассматриваемая сегодня плата лишь на 6-14% медленнее старшего решения на том же чипе нового семейства. Впрочем, если сравнивать их с Radeon, оба решения уступают конкурирующим, особенно самой старой модели R9 390X.

3DMark Vantage: тесты Feature

Синтетические тесты из пакета 3DMark Vantage могут показать нам то, что мы ранее упустили. Feature тесты из этого тестового пакета обладают поддержкой DirectX 10, до сих пор актуальны и интересны тем, что отличаются от наших. При анализе результатов новейшей видеокарты GeForce GTX 1070 в этом пакете мы наверняка сделаем какие-то новые и полезные выводы, ускользнувшие от нас в тестах из пакетов семейства RightMark.

Feature Test 1: Texture Fill

Первый тест измеряет производительность блоков текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.

Эффективность видеокарт AMD и NVIDIA в текстурном тесте компании Futuremark достаточно высока и итоговые цифры разных моделей близки к соответствующим теоретическим параметрам. Разница в скорости между GeForce GTX 970 и GTX 1070 оказалась более чем полуторакратной в пользу новой модели видеокарты на основе архитектуры Pascal, что близко к теоретической разнице. От GTX 1080 новинка отстала на четверть, что также было ожидаемо.

Что касается сравнения скорости текстурирования новой видеоплаты от NVIDIA с имеющимися на рынке решениями конкурента, то новинка показала почти точно такой же результат, что и Radeon R9 390X, хотя обе они уступили текущей видеокарте верхнего ценового диапазона R9 Fury X, имеющей очень большое количество блоков текстурирования.

Feature Test 2: Color Fill

Вторая задача — тест скорости заполнения. В нем используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR-рендеринг, поэтому такой тест является вполне своевременным.

Цифры второго подтеста 3DMark Vantage показывают производительность блоков ROP, без учета величины пропускной способности видеопамяти (т. н. «эффективный филлрейт»), и тест измеряет именно производительность ROP. Рассматриваемая нами сегодня плата GeForce опередила свою предшественницу снова более чем в полтора раза, уступив старшей модели GTX 1080 те же 25%. Всё это вполне объяснимо теорией.

Если сравнивать скорость заполнения сцены новой видеокартой GeForce GTX 1070 с результатами решений компании AMD в этом же тесте, то рассматриваемая сегодня плата показала более чем вдвое большую скорость заполнения сцены по сравнению с Radeon R9 390X, и уступила 14% текущему топовому решению в виде Radeon R9 Fury X. У лучших видеокарт AMD и NVIDIA сейчас достаточно большое количество блоков ROP, есть также весьма эффективные оптимизации для сжатия данных.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature-тестов, так как подобная техника давно используется в играх. В нем рисуется один четырехугольник (точнее, два треугольника) с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоемкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжелого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчеты освещения по Strauss.

Этот тест из пакета 3DMark Vantage отличается от проведенных нами ранее тем, что результаты в нем зависят не исключительно от скорости математических вычислений, эффективности исполнения ветвлений или скорости текстурных выборок, а от нескольких параметров одновременно. Для достижения высокой скорости в этой задаче важен верный баланс GPU, а также эффективность выполнения сложных шейдеров.

В данном случае, важны и математическая и текстурная производительность, и в этой «синтетике» из 3DMark Vantage новая плата GeForce GTX 1070 показала хороший результат, оказавшись более чем в полтора раза быстрее аналогичной по позиционированию модели предыдущего поколения GTX 970. Старшая модель текущего поколения, конечно же, оказалась быстрее — снова где-то на четверть, как и должно быть по теории. GeForce GTX 1070 в этом тесте показала результат получше, чем Radeon R9 390X, но примерно столько же уступила Radeon R9 Fury X.

Feature Test 4: GPU Cloth

Четвертый тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров и скорость stream out.

Скорость рендеринга в этом тесте также зависит сразу от нескольких параметров, и основными факторами влияния должны являться производительность обработки геометрии и эффективность выполнения геометрических шейдеров. То есть, сильные стороны чипов NVIDIA должны проявляться, но увы — в очередной раз отмечаем странные результаты плат GeForce. В этом тесте новая видеокарта NVIDIA показала низкую скорость, уступив в нем не только топовому решению на таком же чипе, но и своей прямой предшественнице GTX 970.

Понятно, что в таких условиях сравнение с платами Radeon в этом тесте для новинки будет печальным. Несмотря на теоретически меньшее количество геометрических исполнительных блоков и отставание по геометрической производительности у чипов AMD, по сравнению с конкурирующими решениями, платы Radeon в этом тесте работают весьма и весьма эффективно, обгоняя абсолютно все видеокарты GeForce, представленные в сравнении. Непонятно, чем ограничена скорость решений NVIDIA, показавших очень близкие результаты.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот.

Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующие частицу. Но тест больше всего загружает шейдерные блоки вершинными расчетами, также тестируется stream out.

Во втором «геометрическом» тесте из 3DMark Vantage ситуация серьёзно изменилась. В этот раз новая GeForce GTX 1070 уже показывает очень высокий результат, обогнав обе платы соперника и решение на чипе архитектуры Maxwell. Новая плата GeForce GTX 1070 в этот раз уступила только лидеру сравнения в виде GTX 1080, её отставание от старшей модели составило всего лишь около 15%. Сравнение новинки от NVIDIA с конкурирующими видеокартами компании AMD в этот раз позитивное — вторая плата семейства Pascal показала результат лучше обеих видеокарт Radeon.

Feature Test 6: Perlin Noise

Последний feature-тест пакета Vantage является математически-интенсивным тестом для GPU, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто применяемый в процедурном текстурировании, он использует много математических вычислений.

Вот теперь мы видим математический тест, в котором производительность решений хоть и не полностью соответствует теории, но близка к тому, что должно быть, исходя из пиковых показателей. В математическом тесте из пакета компании Futuremark, показывающем пиковую производительность видеочипов в предельных задачах, мы видим распределение результатов, сильно отличающееся по сравнению со схожими тестами из нашего тестового пакета.

Видеочипы компании AMD с архитектурой GCN до сих пор справляются с подобными задачами лучше решений конкурента в случаях, когда выполняется интенсивная «математика», но новые модели видеокарт от компании NVIDIA, основанные на первом игровом чипе Pascal, тоже показали высокую скорость. Если топовая GTX 1080 почти достала Radeon R9 Fury X, то младшая GTX 1070 обогнала Radeon R9 390X, в свою очередь. И это — очень хороший результат, подтверждающий успешность архитектуры Pascal с точки зрения вычислений.

Если же сравнивать скорость плат GeForce друг с другом, то предыдущая модель компании из семейства GeForce GTX 900 в этом тесте почти в полтора раза уступила сегодняшней новинке, а отставание GeForce GTX 1070 от GTX 1080 составило привычные чуть более, чем 25%. Так что тесты пакета 3DMark Vantage подтверждают, что GTX 1070 будет отставать от GTX 1080 в играх где-то на 20-25% в среднем.

Direct3D 11: Вычислительные шейдеры и производительность тесселяции

Как обычно, для тестов нового решения компании NVIDIA в задачах, использующих такие возможности DirectX 11, как тесселяция и вычислительные шейдеры, мы хотели воспользоваться примерами из пакетов для разработчиков (SDK) и демонстрационными программами компаний Microsoft, NVIDIA и AMD. Но увы, все наши привычные тесты, использующие вычислительные шейдеры и тесселяцию, на тестовой системе с DirectX 12 под управлением операционной системы Windows 10 работают некорректно. Они толком не работают ни в оконном режиме, ни в полноэкранном. И разрешение менять не дают, аварийно завершая работу.

Если на системе с GeForce GTX 1080 в прошлый раз запустить пару из них всё же удалось, то в этот раз заставить их работать не получилось вовсе. Времени на исправление ошибок и введение новой методики для тестирования не было, и сегодня нам придётся обойтись вовсе без тестов вычислительных шейдеров и тесселяции. Для будущих же материалов планируется разработать новую методику с актуальными тестами DirectX 11/12 и OpenCL — к слову, в комментариях к статье на нашем форуме мы принимаем пожелания наших читателей по их набору.

***

Судя по результатам синтетических тестов новой видеокарты NVIDIA GeForce GTX 1070, основанной на урезанной версии нового графического процессора GP104, а также результатам других моделей видеокарт от обоих производителей дискретных видеочипов, мы делаем такой вывод, что рассматриваемая сегодня видеокарта станет отличным приобретением — одним из наиболее производительных решений на рынке, уступающим старшей модели GTX 1080 всего лишь около 20-25%.

Новая видеокарта от компании NVIDIA показала неплохие результаты в наших синтетических тестах, во многих из них опередив конкурирующие решения. Впрочем, в других тестах были и проигрыши, по сравнению с имеющимися на рынке платами Radeon в частности, но на результаты в реальных играх они практически не повлияют, ведь далеко не каждый синтетический тест можно перенести на игры. Решения компании AMD традиционно отличаются весьма эффективным исполнением простых и интенсивных вычислительных задач, а графические процессоры NVIDIA отыгрываются в геометрических тестах с применением тесселяции и тестах с более сложными вычислениями.

И в реальных игровых приложениях новая модель GeForce GTX 1070 должна показать в играх скорость до 25% хуже, чем у GTX 1080, судя по опыту, и это — чуть выше уровня GeForce GTX 980 Ti по нашим предварительным оценкам. Ну и Radeon R9 Fury X в среднем должен остаться позади, не говоря уже о Radeon R9 390X. В следующей части нашего материала мы рассмотрим производительность новинки по сравнению с конкурентами в играх, протестировав GeForce GTX 1070 в наборе актуальных игровых приложений.



Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты Конкуренты
GTX 1070 — 29400 руб. (на 04.12.17) GTX 980 Ti — 32 000  (на 22.06.17)
GTX 1070 — 29400 руб. (на 04.12.17) GTX 980 — 22000 руб. (на 04.12.17)
GTX 1070 — 29400 руб. (на 04.12.17) R9 Fury — 27 000  (на 08.09.17)


Благодарим компанию Nvidia Russia
и лично Ирину Шеховцову
за предоставленную на тестирование видеокарту

Блок питания Thermaltake DPS G 1050W для тестового стенда предоставлены компанией Thermaltake

Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair

Модули памяти G.Skill Ripjaws4 F4-2800C16Q-16GRK для тестового стенда предоставлены компанией G.Skill

Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair

Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт

Системная плата ASRock Fatal1ty X99X Killer для тестового стенда предоставлена компанией ASRock

Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate

2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair




Дополнительно