Семейства видеокарт Nvidia GeForce Справочная информация

Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт GT2XX
Справочная информация о семействе видеокарт GF1XX
Справочная информация о семействе видеокарт GK1XX/GM1XX
Справочная информация о семействе видеокарт GM2XX

Спецификации чипов семейства GM2XX

кодовое имя	GM200	GM204	GM206
базовая статья	здесь	здесь	здесь
технология, нм	28
транзисторов, млрд	8,0	5,2	2,94
универсальных процессоров	3072	2048	1024
текстурных блоков	192	128	64
блоков блендинга	96	64	32
шина памяти	384	256	128
типы памяти	DDR3, GDDR5
системная шина	PCI Express 3.0
интерфейсы	DVI Dual Link HDMI 2.0 DisplayPort 1.2
D3D feature level	12_1
точность вычислений	FP32/FP64
Сглаживание	MSAA CSAA FXAA TXAA MFAA

Спецификации референсных карт на базе семейства GM2XX

карта	чип	блоков ALU/TMU/ROP	частота ядра, МГц	частота памяти, МГц	объем памяти, ГБ	ПСП, ГБ/c (бит)	текстури- рование, Гтекс	филлрейт, Гпикс	TDP, Вт
GeForce GTX Titan X	GM200	3072/192/96	1000(1075)	1750(7000)	12 GDDR5	337 (384)	192	96	250
GeForce GTX 980 Ti	GM200	2816/176/96	1000(1075)	1750(7000)	6 GDDR5	337 (384)	176	96	250
GeForce GTX 980	GM204	2048/128/64	1126(1216)	1750(7000)	4 GDDR5	224 (256)	144,1	72,1	165
GeForce GTX 970	GM204	1664/104/56	1050(1178)	1750(7000)	4 GDDR5	224 (256)	109,2	58,8	145
GeForce GTX 960	GM206	1024/64/32	1126(1178)	1750(7000)	2 GDDR5	112 (128)	72,1	36,0	120
GeForce GTX 950	GM206	768/48/32	1024(1188)	1650(6600)	2 GDDR5	106 (128)	49,2	32,8	90

Подробности: GeForce GTX Titan X

Параметр	Значение
Кодовое имя чипа	GM200
Технология производства	28 нм
Количество транзисторов	около 8 млрд.
Площадь ядра	около 600 мм²
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12, с поддержкой уровня возможностей Feature Level 12.1
Шина памяти	384-битная: шесть независимых контроллеров памяти шириной по 64 бита с поддержкой GDDR5-памяти
Частота графического процессора	1000 (1075) МГц
Вычислительные блоки	24 потоковых мультипроцессора, включающих 3072 скалярных ALU для расчетов с плавающей запятой одинарной и двойной точности (с темпом 1/32 от FP32) в рамках стандарта IEEE 754-2008;
Блоки текстурирования	192 блока текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	6 широких блоков ROP (96 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов	Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты GeForce GTX Titan X

Параметр	Значение
Частота ядра	1000 (1075) МГц
Количество универсальных процессоров	3072
Количество текстурных блоков	192
Количество блоков блендинга	96
Эффективная частота памяти	7000 (4×1750) МГц
Тип памяти	GDDR5
Шина памяти	384-бит
Объем памяти	12 ГБ
Пропускная способность памяти	336,5 ГБ/с
Вычислительная производительность (FP32)	до 7 терафлопс
Теоретическая максимальная скорость закраски	96 гигапикселей/с
Теоретическая скорость выборки текстур	192 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 250 Вт
Дополнительное питание	Один 8-контактный и один 6-контактный разъемы
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$999 (США), 74990 руб (Россия)

Модель GeForce GTX Titan X получила наименование, продолжающее линейку премиальных решений Nvidia специфического позиционирования — к нему добавили букву X. Новинка пришла на замену модели GeForce GTX Titan Black, и в текущей продуктовой линейке компании располагается на самом верху. Выше её остаётся разве что двухчиповая GeForce GTX Titan Z, а ниже — одночиповые модели GTX 980 и GTX 970. Рекомендованная цена на новую плату составляет $999, и это ожидаемо для платы линейки Titan, так как она является лучшим по производительности решением на рынке одночиповых видеокарт.

Рассматриваемая модель компании Nvidia сделана на базе чипа GM200, имеющего 384-битную шину памяти, а память работает на частоте 7 ГГц, что даёт пиковую пропускную способность в 336,5 ГБ/с — в полтора раза больше, чем в GTX 980. Это весьма впечатляющее значение, особенно если вспомнить новые методы внутричипового сжатия информации, используемые в Maxwell второго поколения, помогающие использовать имеющуюся ПСП куда эффективнее, чем GPU конкурента.

С такой шиной памяти, объём установленной на видеокарту видеопамяти мог быть 6 или 12 ГБ, но в случае элитной модели было принято решение по установке 12 ГБ, чтобы продолжить тренд, заданный первыми моделями GTX Titan. Этого более чем достаточно для запуска любых 3D-приложений без оглядки на параметры качества — такого объёма видеопамяти хватит абсолютно для любой существующей игры в любом разрешении экрана и при любых настройках качества, что делает видеокарту GeForce GTX Titan X особенно заманчивой с видом на перспективу — её владелец никогда не столкнётся с нехваткой видеопамяти.

Официальная цифра энергопотребления для GeForce GTX Titan X составляет 250 Вт — столько же, что и у других одночиповых решений элитной серии Titan. Интересно, что 250 Вт примерно на 50% больше по сравнению с GTX 980, на столько же выросло и количество основных функциональных блоков. Никаких проблем довольно высокое потребление не приносит, референсный кулер прекрасно справляется с рассеиванием такого количества тепла, а уж системы энтузиастов после GTX Titan и GTX 780 Ti давно готовы к подобному уровню энергопотребления.

Архитектура

Модель видеокарты GeForce GTX Titan X основана на новом графическом процессоре высшего класса GM200, который включает все архитектурные возможности чипа GM204, поэтому всё сказанное в статье по GTX 980 относится в полной мере и к премиальной новинке — советуем ознакомиться сначала с тем материалом, в котором более полно рассмотрены именно архитектурные особенности Maxwell.

Графический процессор GM200 можно назвать экстремальной версией GM204, возможной в рамках технологического процесса 28 нм. Новый чип больше по размеру, значительно быстрее и более требователен к питанию. По данным компании Nvidia, «большой Maxwell» включает 8 миллиардов транзисторов, которые занимают площадь порядка 600 мм² — то есть, это самый большой графический процессор компании. «Большой Maxwell» имеет на 50% больше потоковых процессоров, на 50% больше блоков ROP и на 50% большую ПСП, поэтому и имеет почти в полтора раза большую площадь.

Архитектурно видеочип GM200 полностью соответствует младшей модели GM204, он также состоит из кластеров GPC, в которые собрано по несколько мультипроцессоров SM. Топовый графический процессор содержит шесть кластеров GPC, состоящих из 24 мультипроцессоров, всего он имеет 3072 вычислительных CUDA ядер, а текстурные операции (выборка и фильтрация) производятся при помощи 192 текстурных модулей. И при базовой частоте в 1 ГГц, производительность текстурных модулей составляет 192 гигатекселя/сек, что более чем на треть превышает аналогичную характеристику предыдущей мощнейшей видеокарты компании — GeForce GTX 980.

Мультипроцессор второго поколения Maxwell разбит на четыре блока CUDA-ядер по 32 штуки (всего 128 ядер на SMM), каждый из которых имеет собственные ресурсы для распределения команд, планирования обработки и буферизации потока инструкций. Благодаря тому, что каждый вычислительный блок имеет свои блоки диспетчера, вычислительные CUDA-ядра используются более эффективно, чем в Kepler, что также снижает и энергопотребление GPU. Сам по себе мультипроцессор по сравнению с GM204 не изменился:

Для улучшения эффективности использования кэшей в GPU, были сделаны многочисленные изменения в подсистеме памяти. Каждый из мультипроцессоров в GM200 имеет выделенные 96 КБ общей памяти, а кэши первого уровня и текстур объединены в 24 КБ блоки — по два блока в мультипроцессоре (всего 48 КБ на SMM). Графические процессоры предыдущего поколения Kepler имели лишь 64 КБ общей памяти, которая также выполняла функции кэш-памяти первого уровня. В результате всех изменений, эффективность CUDA-ядер Maxwell примерно в 1,4 раза выше, чем в аналогичном чипе Kepler, а энергоэффективность новых чипов примерно вдвое выше.

В целом, в графическом процессоре GM200 всё устроено точно так же, как и в чипе GM204. Не тронули даже вычислительные ядра, которые умеют выполнять операции с плавающей запятой двойной точности с темпом всего лишь 1/32 от скорости вычислений одинарной точности — точно как у GeForce GTX 980. Такое впечатление, что в Nvidia признали, что выпуск специализированных решений для профессионального рынка (GK210) и для игрового (GM200) вполне обоснован.

Подсистема памяти у GM200 по сравнению с GM204 усилена — она основана на шести 64-битных контроллерах памяти, что в сумме составляет 384-битную шину. Чипы памяти работают на эффективной частоте в 7 ГГц, что даёт пиковую пропускную способность в 336,5 ГБ/с, что в полтора раза выше, чем у GeForce GTX 980. Не забываем и о новых методах сжатия данных от Nvidia, которые позволяют добиться большей эффективной ПСП, по сравнению с предыдущими продуктами — на той же 384-битной шине. В обзоре GeForce GTX 980 мы тщательно рассматривали это нововведение второго поколения чипов Maxwell, которое обеспечивает им на четверть более эффективное использование видеопамяти, по сравнению с Kepler.

Как и все последние видеокарты GeForce, модель GTX Titan X имеет базовую частоту — минимальную для работы GPU в 3D-режиме, а также турбо-частоту Boost Clock. Базовая частота для новинки составляет 1000 МГц, а частота Boost Clock — 1075 МГц. Как и раньше, турбо-частота означает лишь среднюю частоту работы GPU для некоего набора игровых приложений и других 3D-задач, используемых в Nvidia, а реальная частота работы может быть и выше — она зависит от 3D-нагрузки и условий (температуры, потребления энергии и т.д.)

Получается, что частота GPU у новинки примерно на 10% выше, чем было у GTX Titan Black, но ниже, чем у GTX 980, так как большие графические процессоры всегда приходится тактовать на меньшей частоте (а GM200 по площади заметно больше, чем GM204). Поэтому общая 3D-производительность новинки будет примерно на 33% выше, чем у GTX 980, особенно если сравнивать Turbo Boost частоты.

Во всём остальном, чип GM200 ровно ничем не отличается от GM204 — по своим возможностям и поддерживаемым технологиям решения идентичны. Даже модули по работе с дисплеями и видеоданными оставили точно такими же, что и у GM204, на котором основана модель GeForce GTX 980. Соответственно, всё то, что мы писали про GTX 980 и GTX 970, в полной мере относится и к Titan X.

Поэтому по всем остальным вопросам функциональных тонкостей новинки вы можете обратиться к обзорам GeForce GTX 980 и GTX 750 Ti, в которых мы подробно писали об архитектуре Maxwell, устройстве потоковых мультипроцессоров (Streaming Multiprocessor — SMM), организации подсистемы памяти и некоторых других архитектурных отличиях. Там же вы можете ознакомиться и с функциональными возможностями, вроде аппаратной поддержки ускорения расчета глобального освещения VXGI, новых методов полноэкранного сглаживания и улучшенных возможностей графического API DirectX 12.

Решение проблем с освоением новых техпроцессов

Можно уверенно говорить о том, что на рынке видеокарт все давно устали от 28 нм техпроцесса — мы наблюдаем его использование уже больше четырёх лет, а шаг вперёд сделать сначала не получалось вовсе, а потом у TSMC вроде и получилось начать 20 нм производство, но толку от него для больших GPU не было обнаружено — выход годных довольно низкий, и преимуществ по сравнению с отработанным 28 нм просто не нашлось. Поэтому Nvidia и AMD пришлось выжимать из существующих возможностей как можно большее, и в случае чипов архитектуры Maxwell компания Nvidia явно преуспела в этом. По мощности и энергоэффективности GPU этой архитектуры стали явным шагом вперёд, на который AMD просто ничего не ответила.

Так, из GM204 инженеры Nvidia смогли выжать гораздо больше производительности по сравнению с GK104, при том же уровне энергопотребления, хотя чип увеличился на треть, а большая плотность размещения транзисторов позволила поднять их число ещё больше — с 3,5 млрд. до 5,2 млрд. Понятно, что в таких условиях в составе GM204 оказалось куда больше исполнительных блоков, что вылилось и в большую 3D-производительность.

Но в случае самого большого чипа архитектуры Maxwell, конструкторы Nvidia не могли слишком сильно увеличивать размер чипа, по сравнению с GK110, он и так имеет площадь порядка 550 мм², и увеличить его площадь на треть или хотя бы четверть не представлялось возможным — такой GPU стал бы слишком сложным и дорогим в производстве. Пришлось чем-то пожертвовать (по сравнению со старшим Kepler), и этим чем-то стала производительность вычислений с двойной точностью — её темп у GM200 точно такой же, что и у других решений Maxwell, хотя старший Kepler был универсальнее, подходя и для графических и для любых неграфических расчётов.

Такое решение далось для Kepler нелегко — уж слишком большая часть площади этого чипа была занята FP64-ядрами CUDA и другими специализированными блоками для вычислений. В случае большого Maxwell было решено обойтись графическими задачами и его сделали просто в виде укрупнённой версии GM204. Новый чип GM200 стал чисто графическим, в нём нет специальных блоков для FP64-вычислений, и их темп остался прежним — лишь 1/32 от FP32. Зато большая часть площади GK110, занятая FP64 ALU, освободилась и на их место было помещено большее количество важных для графики FP32 ALU.

Такой ход позволил заметно увеличить графическую (да и вычислительную, если брать FP32-вычисления) производительность по сравнению GK110 без роста энергопотребления и при незначительном увеличении площади кристалла — менее чем на 10%. Интересно, что Nvidia намеренно пошла на разделение графических и вычислительных чипов в этот раз. Хотя GM200 остаётся весьма производительным в FP32-вычислениях, и вполне возможен выход специализированных решений Tesla для вычислений с одинарной точностью, достаточных для многих научных задач, но Tesla K40 остаётся самой производительной для FP64-вычислений.

В этом и отличие от оригинальной Titan, кстати — первое решение линейки могло использоваться и в профессиональных целях для вычислений с двойной точностью, так как оно также имеет темп 1/3 для FP64-расчётов. И многие исследователи использовали GTX Titan в качестве начальной карты для своих CUDA-приложений и задач, при успехе переходя на решения Tesla. Вот для этого GTX Titan X уже не подойдёт, придётся ждать GPU следующих поколений. Если они не будут разделены на графические и вычислительные чипы изначально, конечно.

В картах расширения такое разделение есть уже сейчас — модель Tesla K80 содержит пару чипов GK210, не применяемых в видеокартах и отличающихся от GK110 удвоенным регистровым файлом и разделяемой памятью для большей производительности именно вычислительных задач. Получается, что GK210 можно считать исключительно «вычислительным» процессором, а GM200 — чисто «графическим» (с определённой долей условности, ведь оба GPU имеют одинаковые возможности, просто разной специализации).

Посмотрим, что получится в следующих поколениях графических архитектур компании Nvidia, производимых уже на более «тонком» техпроцессе — возможно, такое разделение в них не понадобится, по крайней мере поначалу. Или наоборот, мы сразу же увидим жёсткое разделение по моделям GPU с разной специализацией (в вычислительных моделях будет больше вычислительных возможностей, а в графических — TMU и ROP блоков, например), хотя архитектура останется единой.

Особенности конструкции видеокарты

GeForce GTX Titan X — это мощнейшая видеокарта, предназначенная для энтузиастов ПК-игр, поэтому она должна иметь и соответствующий внешний вид — оригинальный и солидный дизайн платы и кулера. Как и предыдущие решения линейки Titan, модель GeForce GTX Titan X накрыта алюминиевым корпусом, который и придаёт тот самый премиальный вид видеокарте — она действительно смотрится солидно.

Весьма впечатляюще смотрится и система охлаждения — в конструкции кулера Titan X используется испарительная камера из медного сплава — она охлаждает графический процессор GM200. Испарительная камера соединена с большим двухслотовым радиатором из алюминиевого сплава, который рассеивает тепло, переданное от видеочипа. Вентилятор выводит нагретый воздух вне корпуса ПК, что положительно сказывается на общем температурном режиме в системе. Вентилятор работает очень тихо даже при разгоне и при длительной работе под нагрузкой, и в результате, GTX Titan X с потреблением 250 Вт является одной из самых тихих видеокарт в своём классе.

В отличие от референсной платы GeForce GTX 980, новинка не содержит специальную съёмную пластину, которой прикрыта задняя поверхность платы — это сделано для обеспечения максимального притока воздуха к PCB для её охлаждения. Для питания платы используется набор из одного 8-контактного и одного 6-контактного разъёмов дополнительного питания PCI Express.

Так как GeForce GTX Titan X предназначена для энтузиастов, предпочитающих решения с максимальной производительностью, то все компоненты новой видеокарты подбирались с этим расчётом и даже с некоторым запасом по возможностям и характеристикам.

Например, для обеспечения графического процессора в составе GeForce GTX Titan X энергией, используется 6-фазная система питания с возможностью дополнительного усиления. Для обеспечения работы GDDR5-памяти дополнительно применяется ещё одна двухфазная система питания. 6+2-фазная система питания видеокарты обеспечивает рассматриваемую модель более чем достаточным количеством энергии, даже с учётом разгона. Так, референсная плата Titan X способна подвести до 275 Вт питания к GPU при условии установки максимального значения целевого питания (power target) в 110%.

Также, для дальнейшего улучшения разгонного потенциала, было улучшено охлаждение всех компонентов новинки, по сравнению с оригинальной видеокартой GeForce GTX Titan — изменённый дизайн платы и кулера привёл к улучшению оверклокерских возможностей. В итоге, почти все образцы Titan X способны работать на частоте до 1.4 ГГц и более — при референсном же воздушном кулере.

Длина референсной платы GeForce GTX Titan X составляет 267 мм, на ней установлены следующие разъёмы для вывода изображения: один Dual-Link DVI, один HDMI 2.0 и три DisplayPort. GeForce GTX Titan X поддерживает вывод изображения на дисплеи с разрешением до 5K, и является очередной видеокартой с поддержкой HDMI 2.0, чего до сих пор нет у конкурента — это позволяет подключать новинку к 4K-телевизорам, обеспечивая максимальное качество картинки при высокой частоте обновления в 60 Гц.

GTX Titan X соответствует своему высочайшему уровню по всем параметрам: мощнейший GPU семейства Maxwell, отличный дизайн видеокарт в стиле предыдущих моделей Titan, а также великолепная система охлаждения — эффективная и тихая. По скорости 3D-рендеринга это лучшая видеокарта на момент выхода, она предлагает более чем на треть большую производительность, по сравнению с лучшими моделями, вышедшими прежде — вроде GeForce GTX 980. И если не рассматривать двухчиповые видеосистемы, имеющие проблемы, присущие многочиповым конфигурациям, то Titan X можно назвать лучшим решением для богатых энтузиастов.

Подробности: GeForce GTX 980 Ti

Параметр	Значение
Кодовое имя чипа	GM200
Технология производства	28 нм
Количество транзисторов	около 8 млрд.
Площадь ядра	около 600 мм²
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12, с поддержкой уровня возможностей Feature Level 12.1
Шина памяти	384-битная: шесть независимых контроллеров памяти шириной по 64 бита с поддержкой GDDR5-памяти
Частота графического процессора	1000 (1075) МГц
Вычислительные блоки	22 активных (из 24) потоковых мультипроцессора, включающих 2816 (из 3072) скалярных ALU для расчетов с плавающей запятой одинарной и двойной точности (с темпом 1/32 от FP32) в рамках стандарта IEEE 754-2008;
Блоки текстурирования	176 активных (из 192) блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	6 широких блоков ROP (96 пикселей) с поддержкой различных режимов сглаживания, в том числе программируемых и при FP16- или FP32-формате буфера кадра. Блоки состоят из массива конфигурируемых ALU и отвечают за генерацию и сравнение глубины, мультисэмплинг и блендинг
Поддержка мониторов	Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты GeForce GTX 980 Ti

Параметр	Значение
Частота ядра	1000 (1075) МГц
Количество универсальных процессоров	2816
Количество текстурных блоков	176
Количество блоков блендинга	96
Эффективная частота памяти	7000 (4×1750) МГц
Тип памяти	GDDR5
Шина памяти	384-бит
Объем памяти	6 ГБ
Пропускная способность памяти	336,5 ГБ/с
Вычислительная производительность (FP32)	около 6 терафлопс
Теоретическая максимальная скорость закраски	96 гигапикселей/с
Теоретическая скорость выборки текстур	176 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 250 Вт
Дополнительное питание	Один 8-контактный и один 6-контактный разъемы
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$649 (США), 39990 руб (Россия)

Вторая модель на основе чипа GM200 получила уже привычное для последних серий GeForce наименование — к названию менее мощного решения просто добавили приставку Ti. Новинка не заменяет в текущей продуктовой линейке компании других решений, а наращивает её сверху, не вытесняя премиальные Titan X и двухчиповую Titan Z. Ну а ниже её располагается модель GeForce GTX 980, основанная на менее сложном чипе GM204.

Рекомендованная цена на новую плату составляет $649, и это даже ниже ожиданий рынка. Как показывает практика, от Nvidia мы редко видели цен ниже тех, что предполагались экспертами, но в случае рассматриваемой модели получилось именно так. Хотя новинка и является одним из лучших по производительности решений на рынке одночиповых видеокарт, но она стоит не запредельно дорого (если учесть, что цена ещё и включает ключ к игре Batman: Arkham Knight — по крайней мере, на западных рынках).

Похоже, что Nvidia таким образом нанесла превентивный удар по позициям конкурента, новая линейка которого появилась чуть позже, будучи дополненной только новыми топовыми решениями подсерии Fury. Естественно, изменились и цены на все остальные платы в серии GeForce GTX 900. Для GTX 980 рекомендованная цена стала равна $499, GTX 970 будет стоить от $329, а GTX 960 — от $199. Очень хорошие цены, хотя конкурент может снизить их ещё больше — им просто не остаётся ничего другого.

Рассматриваемая модель компании Nvidia основана на чипе GM200, имеющем 384-битную шину памяти, и память работает на частоте 7 ГГц, как у Titan X, что даёт такую же пиковую пропускную способность в 336,5 ГБ/с — в полтора раза больше, чем в GTX 980. С такой шиной, объём установленной на видеокарту видеопамяти мог быть 6 или 12 ГБ, и в данном случае смысла в большем значении просто нет, к тому же оно занято моделью серии Titan. А на GTX 980 Ti установлено 6 ГБ, чего вполне достаточно для запуска любых 3D-приложений с любыми настройками качества — сейчас такого объёма видеопамяти хватит для всех игр. Да и топовый конкурент от AMD с 4 ГБ памяти нового стандарта HBM остался в проигрыше.

Печатная плата GeForce GTX 980 Ti ничем особо не отличается от платы GTX Titan X, что неудивительно — они похожи по всем характеристикам. Значение типичного энергопотребления для GeForce GTX 980 Ti составляет 250 Вт — столько же, что и у Titan X. Да и в остальном платы одинаковы, длина референсной платы GeForce GTX 980 Ti составляет 267 мм, и на ней установлены такие же разъёмы для вывода изображения: один Dual-Link DVI, один HDMI 2.0 и три DisplayPort.

Архитектура

Как и видеокарта GeForce GTX Titan X, анонсированная чуть ранее, новинка основана на графическом процессоре GM200. Он включает все архитектурные возможности чипа GM204, поэтому всё сказанное в статье по GTX 980 относится в полной мере и к сегодняшней новинке — советуем сначала ознакомиться с материалом, в котором более полно рассмотрены архитектурные особенности Maxwell.

На день выхода, GM200 — самый мощный GPU как у Nvidia, так и вообще на рынке. Архитектурно видеочип GM200 полностью соответствует младшей модели GM204, он также состоит из кластеров GPC, в которые собрано по несколько мультипроцессоров SM. Графический процессор содержит шесть кластеров GPC, состоящих из 24 мультипроцессоров, но в данной модели были отключены два из них — в основном, чтобы Titan X оказалась всё же немного быстрее, оправдывая свои название и цену.

Поэтому видеочип в варианте для модели GeForce GTX 980 Ti выпускается в слегка урезанном виде, он содержит на пару потоковых мультипроцессоров меньше, чем полное ядро GM200. Из 24 мультипроцессоров этого GPU, в данном варианте активны 22 штуки. Соответственно, чип включает 2816 потоковых процессора CUDA из 3072 имеющихся физически, и 176 (из 192) блоков выборки и фильтрации текстур TMU.

А вот количество блоков ROP и присоединённая к ним кэш-память второго уровня остались нетронутыми. GPU этой модификации имеет все 96 блока ROP и 3 МБ L2-кэша, имеющихся в графическом процессоре физически. Важно отметить, что так как по количеству ROP и объёму кэш-памяти второго уровня в этой модификации ничего не урезано, то у GeForce GTX 980 Ti нет и проблем, аналогичных модели GTX 970, у которой урезаны ROP и L2-кэш, а вместе с ними и полоса пропускания для одного из сегментов видеопамяти (0.5 ГБ из имеющихся 4 ГБ в этой модели отличаются крайне медленным доступом). Nvidia не допустила подобной ситуации ещё раз и скорость чтения из всех 6 ГБ памяти тут одинаково высокая.

Базовая тактовая частота новинки равна 1000 МГц, а средняя турбо-частота Boost Clock — 1075 МГц, то есть ровно столько же, сколько было у GTX Titan X. Не забываем, что реальная частота работы GPU в играх может отличаться от этих показателей, чаще всего в большую сторону, а средняя турбо-частота соответствует определённому набору приложений и условий. Теоретически, по сравнению с GTX Titan X, чип в новой модели может работать на несколько более высокой частоте, так как часть функциональных блоков отключена, что может позволить повысить рабочую частоту. Ну и возможности разгона чуть лучше, частот порядка 1400 МГц и даже выше добиться вполне реально.

Что касается оперативной памяти, то и тут всё осталось неизменным по отношению к Titan X. Графический процессор GM200 в составе GTX 980 Ti имеет 384-битную шину памяти (шесть каналов по 64-бита), а чипы видеопамяти GDDR5 в объёме шести гигабайт работают на эффективной частоте в 7 ГГц. Что даёт те же 336,5 ГБ/с, что и у дорогой старшей модели. То есть, по ПСП новинка аж на 50% быстрее младшей модели GTX 980.

Но сравнение с младшей сестрой не так интересно, как с решением конкурента, который оснащён новым типом памяти — High Bandwidth Memory, которая обеспечивает порядка 512 ГБ/с. Само по себе преимущество в полосе пропускания памяти очень важно в графических задачах, но подсистему памяти и кэширования данных могут ограничивать и другие факторы, мешающие показать высокую эффективность и использовать все возможности GPU и видеопамяти. Так, чтобы решить эти потенциальные проблемы, в чипах второго поколения архитектуры Maxwell внедрили новое поколение подсистемы памяти, которое использует имеющуюся ПСП эффективнее.

Мы уже писали об этом более подробно ранее, все новые GPU компании Nvidia используют уже третье поколение алгоритма компрессии информации о цвете в кадровом буфере, которое поддерживает новые методы сжатия. Дополнительно к этому, каждый из мультипроцессоров SMM в чипе GM200 имеет собственную общую память объёмом в 96 КБ, тогда как кэш-память первого уровня и текстурный кэш объединены в 48 КБ область на каждый мультипроцессор. Это решение выгодно отличает новые GPU от семейства Kepler, в которых использовалась общая память объёмом в 64 КБ, которая также была и L1-кэшем. Всё это дополнено кэш-памятью второго уровня приличного объёма в 3 ГБ. В итоге даже при негативной разнице в ПСП по сравнению с конкурирующими решениями, видеокарты Nvidia обычно показывают себя не хуже.

Во всём остальном чип GM200 ничем не отличается от GM204 по своим возможностям и поддерживаемым технологиям. И всё то, что мы ранее писали про GTX 980 и GTX 970, в полной мере относится и к GTX 980 Ti. Поэтому по всем остальным вопросам функциональных тонкостей новинки вы можете обратиться к обзорам GeForce GTX 980 и GTX 750 Ti, в которых мы подробно писали об архитектуре Maxwell, устройстве потоковых мультипроцессоров (Streaming Multiprocessor — SMM), организации подсистемы памяти и некоторых других архитектурных отличиях. Там же вы можете ознакомиться и с функциональными возможностями, вроде аппаратной поддержки ускорения расчета глобального освещения VXGI, новых методов полноэкранного сглаживания и улучшенных возможностей графического API DirectX 12.

Полная поддержка возможностей DirectX 12

Компания Microsoft в своих материалах в основном рассказывает о внесённых в новую версию графического API оптимизациях производительности — Direct3D 12 позволяет меньше грузить CPU бесполезной работой, удобно контролировать использование ресурсов GPU, что раньше делалось операционной системой и видеодрайвером, а графический код можно лучше распараллелить на несколько вычислительных устройств. Всё это позволяет значительно повысить производительность, особенно в условиях, когда она ограничена большим количеством вызовов функций отрисовки (draw calls). Что даже ещё более важно, эти возможности поддерживаются на всех видеокартах GeForce, начиная с GTX 400.

Но не только оптимизации производительности отличают DirectX 12, в этом API есть ещё и новые функции, помогающие внедрению в 3D-приложения новых эффектов. Среди них отметим появление поддержки объемных тайловых ресурсов (volume tiled resources), которые можно использовать при рендеринге реалистично выглядящих огня и дыма. DirectX 12 предлагает два уровня поддержки функциональности Feature Level: 12.0 и 12.1.

Уровень 12.0 включает поддержку тайловых ресурсов (tiled resources), которые можно использовать для рендеринга теней при помощи карт теней разного разрешения, bindless-текстур, увеличивающих одновременное количество обрабатываемых текстур в одной шейдерной программе и снижающих нагрузку на CPU, а также Typed UAV (Unordered Access Views). Уровень 12.1 добавляет ко всем этим особенностям ещё и консервативную растеризацию и raster ordered view — эта функция даёт контроль над порядком операций пиксельного шейдера и позволяет использовать алгоритмы для рендеринга полупрозрачных поверхностей, не требующие предварительной сортировки, например.

Дополнительно, все графические чипы семейства GM2xx поддерживают объёмные тайловые ресурсы (volume tiled resources), схожие по типу с просто тайловыми, но в трёхмерном виде. Принцип работы тайловых ресурсов состоит в разделении текстур на тайлы, а в процессе рендеринга приложение определяет и загружает в видеопамять лишь те тайлы, которые нужны для визуализации. Эта возможность позволяет игровым разработчикам получать более разнообразные текстуры на объектах в сцене при меньшем использовании видеопамяти, а также помогает в организации текстурного стриминга.

Так вот, ранее тайловые ресурсы были доступны лишь для двумерных текстур, а объёмные тайловые текстуры переносят эту же функциональность на 3D-текстуры. Это логично, ведь множество эффектов нуждаются в объёме, чтобы выглядеть реалистично: жидкости, дым, огонь, туман — это лишь самые очевидные примеры. И рендеринг сложных сцен с содержанием подобных эффектов на GPU с поддержкой объёмных тайловых текстур позволяет использовать ресурсы видеопамяти более эффективно, и также улучшать качество имитации того или иного эффекта. К примеру, для качественной имитации дыма в играх можно использовать симуляцию жидкостей, как показывала Nvidia в нескольких демонстрационных программах:

Ну а консервативная растеризация, также поддерживаемая чипами семейства Maxwell и являющаяся обязательной возможностью Feature Level 12.1, отличается от обычной растеризации тем, что в процессе отрисовываются не только те пиксели, в центр которых попала геометрия сцены, а все пиксели, в площадь которых попал даже маленький кусочек треугольника. Эту функциональность можно использовать в процессе вокселизации (конвертации геометрии в воксели), как в алгоритме глобального освещения VXGI от Nvidia, о котором мы неоднократно писали.

Операция эта далеко не бесплатная, консервативная растеризация в любом случае медленнее привычной, но если графический процессор обеспечивает аппаратную поддержку этой возможности, то вычисления производятся в разы быстрее, что будет полезно для некоторых алгоритмов, ожидаемых в играх в ближайшем будущем. Ещё одним примером использования консервативной растеризации в играх можно считать качественный рендеринг теней, просчитанных при помощи трассировки лучей:

Как видите, такие тени выгодно отличаются от привычных теней с использованием карт теней отсутствием пиксельных «лесенок». А при обычном методе растеризации и алгоритме трассировки лучей в тенях получаются неприятные артефакты. Избавиться от них помогает включение консервативной растеризации, обеспечивающее этому алгоритму рендеринга теней идеальную пиксельную точность.

Самый важный вопрос — когда мы увидим всё это великолепие в играх? По данным компании Microsoft, около 100 игровых разработчиков уже занимаются разработкой 3D-приложений, использующих возможности новой версии их графического API, и мы уже видели несколько соответствующих демонстраций на CryENGINE, Unity и Unreal Engine, запущенных на ПК с видеокартами GeForce на различных мероприятиях. Главное, что архитектура Maxwell от Nvidia обладает полноценной поддержкой всех возможностей текущей версии DirectX 12 уровня Feature Level 12.1 — самого совершенного на данный момент.

В виде модели GeForce GTX 980 Ti компания Nvidia выпустила очередного флагмана для своей линейки, предназначенной для энтузиастов компьютерных игр. Ей нипочём любые игровые настройки, любые разрешения и уровни сглаживания, она всегда обеспечит приемлемую играбельность. Особенно выгодно она выделяется на фоне многочиповых решений, имеющих определённые недостатки, связанные с неплавной сменой кадров и увеличением задержек — одночиповое решение всегда лучше при прочих равных, да и при небольшой разнице в цене оно обеспечивает не только лучшую скорость, но и меньшие нагрев и шум.

GeForce GTX 980 Ti отличается применением самого мощного GPU компании Nvidia, лишь слегка урезанного по своей производительности и содержащего 2816 активных потоковых процессоров (по сравнению с 3072 ядер у GTX Titan X). Аналогично было уменьшено количество текстурных блоков. Зато количество блоков растеризации и каналов памяти осталось тем же, в итоге подсистема памяти новинки включает шесть 64-битных каналов (всего 384-бита), по которым подключены 6 ГБ памяти, работающей на частоте в 7 ГГц.

Тактовые частоты новинки ничуть не изменились — 1000 МГц базовой и 1075 МГц Boost-частоты. В целом, даже если GTX 980 Ti немного уступает GTX Titan X из элитной серии, но разница в производительности не больше 5-10%, а шести гигабайт видеопамяти хватит на то время, пока этот GPU не потеряет своей актуальности — то есть, на несколько лет. И данную модель GeForce смело можно назвать очень хорошим предложением, предназначенным для энтузиастов ПК-игр.

Подробности: семейство GeForce GTX 900

Кодовое имя чипа GM204;
Технология производства 28 нм;
5,2 миллиардов транзисторов;
Площадь ядра 398 мм²;
Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.;
Аппаратная поддержка DirectX 12 API, в том числе шейдерной модели Shader Model 5.0, геометрических и вычислительных шейдеров, а также тесселяции;
256-битная шина памяти, четыре независимых контроллера шириной по 64 бита каждый, с поддержкой GDDR5 памяти;
Базовая частота ядра до 1126 МГц;
Средняя турбо-частота ядра до 1216 МГц;
16 потоковых мультипроцессоров, включающих 2048 скалярных ALU для расчётов с плавающей запятой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32 и FP64 точностью);
128 блоков текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов;
4 широких блока ROP (64 пикселей) с поддержкой различных режимов сглаживания, в том числе при FP16- или FP32-формате буфера кадра;
Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты GeForce GTX 980

Базовая частота ядра 1126 МГц;
Средняя турбо-частота 1216 МГц;
Количество универсальных процессоров 2048;
Количество текстурных блоков — 128, блоков блендинга — 64;
Эффективная частота памяти 7000 (4×1750) МГц;
Тип памяти GDDR5, 256-бит шина памяти;
Объем памяти 4 ГБ;
Пропускная способность памяти 224 ГБ/с;
Теоретическая максимальная скорость закраски 72,1 гигапикселей в секунду;
Теоретическая скорость выборки текстур 144,1 гигатекселей в секунду;
Один Dual Link разъем, один HDMI 2.0, три DisplayPort 1.2;
Энергопотребление до 165 Вт;
Два 6-контактных разъёма дополнительного питания;
Двухслотовое исполнение;
Рекомендуемая цена для американского рынка $549 (для России — 23990 руб).

Спецификации референсной видеокарты GeForce GTX 970

Базовая частота ядра 1050 МГц;
Средняя турбо-частота 1178 МГц;
Количество универсальных процессоров 1664;
Количество текстурных блоков — 104, блоков блендинга — 56;
Эффективная частота памяти 7000 (4×1750) МГц;
Тип памяти GDDR5, 256-бит шина памяти;
Объем памяти 4 ГБ;
Пропускная способность памяти 224 ГБ/с;
Теоретическая максимальная скорость закраски 58,8 гигапикселей в секунду;
Теоретическая скорость выборки текстур 109,2 гигатекселей в секунду;
Один Dual Link разъем, один HDMI 2.0, три DisplayPort 1.2;
Энергопотребление до 145 Вт;
Два 6-контактных разъёма дополнительного питания;
Двухслотовое исполнение;
Рекомендуемая цена для американского рынка $329 (для России — 14990 руб).

Новые модели видеокарт GeForce GTX 980 и GTX 970 получили вполне привычные имена для решений Nvidia. Единственное, что не совсем понятен пропуск серии GTX 800, но в мобильных решениях такие модели уже были, поэтому её, наверное, и решили пропустить. Соответственно, в обновленной продуктовой линейке компании GTX 980 располагается на самом верху одночиповых игровых решений, а GTX 970 — на ступеньку ниже. Немудрено, что модели GTX 780 Ti, GTX 780 и GTX 770 с момента анонса новинок перестают выпускаться, так как в них просто не остаётся смысла (к эксклюзивным сериям типа Titan это не относится).

Рекомендованные цены на новинки составляют $549 и $329 для GTX 980 и GTX 970, соответственно. Можно было бы ожидать и меньших цен, так как и платы и GPU довольно простые, но, так как Nvidia любит зарабатывать сама и даёт это делать партнёрам, то они на это и нацелились, что вполне привычно для компании. Что касается решений от конкурента — компании AMD — то новые GeForce имеют соперников из линейки Radeon в виде моделей R9 290X и R9 290, хотя по сложности и потреблению энергии видеочип GM204 и платы серии GTX 900 скорее близки к Tonga и R9 285, соответственно.

Две новые модели Nvidia сделаны на базе чипа GM204 и обе имеют 256-битную шину памяти, поэтому объём установленной на них видеопамяти теоретически мог быть равным 2 или 4 ГБ. В случае пары топовых моделей было принято логичное решение по установке 4 ГБ памяти, и этот объём идеально подходит для современных топовых решений, которые работают в условиях сверхтребовательных 3D-приложений, максимальных настроек качества и самых высоких разрешений.

Уже после анонса, в начале 2015 года, в случае GeForce GTX 970 обнаружилась следующая любопытная деталь — пиковая пропускная способность обеспечивается только для 3,5 ГБ памяти из 4 ГБ, а к оставшимся 0,5 ГБ доступ значительно замедлен по причине специфичной организации доступа мультипроцессоров к памяти. Мультипроцессоры соединены с L2-кэшем через кроссбар, чтобы каждый мультипроцессор был соединён со всеми разделами кэша второго уровня, но у GTX 970 отключен один раздел кэш-памяти вместе с 512 МБ «некэшируемой» памяти.

Самое главное следствие для пользователя — вся память в GTX 970 разделена на два сегмента: быстрый, объёмом в 3,5 ГБ, и медленный полугигабайтный. Скорость доступа к последней в семь раз ниже, чем к «быстрому» сегменту. Так что кто-то вполне может назвать эту плату «3,5-гигабайтной», хотя в медленном сегменте можно хранить некритичные к ПСП ресурсы (ресурсы приложений Windows при работе полноэкранного 3D-приложения, редко используемые текстуры и т.д.). Как показали тесты реальных игр, практические потери производительности в случае такого решения весьма малы — не более единиц процентов.

Референсные платы GeForce GTX 980 и GTX 970 имеют стандартную длину в 10,5 дюймов (267 мм), для дополнительного питания используются два 6-контактных разъёма PCI-E. Плата дизайна Nvidia имеет три DisplayPort 1.2 разъёма, один Dual Link DVI и порт HDMI 2.0. GM204 также стал первым графическим процессором с поддержкой вывода изображения по HDMI 2.0 — новая версия стандарта позволяет выводить полноценное 4K-разрешение с частотой обновления вплоть до 60 Гц.

Из-за активного распространения устройств вывода изображения с 4K-разрешением, в первый «большой» чип Maxwell была добавлена поддержка разрешений вплоть до 5K (5120×3200 пикселей при 60 Гц), и можно подключить до четырёх дисплеев с разрешением 4K по Multi-Stream Transport (MST) — у Kepler была поддержка лишь двух таких дисплеев.

Уровень типичного энергопотребления у видеокарты GeForce GTX 980 составляет всего лишь 165 Вт (цифра, заявленная компанией Nvidia, реальная будет выше, скорее всего), а у GeForce GTX 970 и того меньше — 145 Вт, что значительно меньше даже 190 Вт у Radeon R9 285, не говоря уже о 275 Вт у ценовых конкурентов в лице Radeon R9 290(X). Для дополнительного снабжения энергией в GeForce GTX 980 и GTX 970 используется пара 6-контактных разъемов дополнительного питания.

Набор портов вывода изображения и разъемов питания справедливы лишь для видеокарт референсного дизайна. Производители выпустят и собственные варианты GeForce GTX 980 и GTX 970, отличающиеся как дизайном плат и систем охлаждения, так и системами питания и работой на повышенных частотах. К слову, чтобы обеспечить стабильную работу в режиме разгона, для старшей модели серии внедрили специальную балансирующую схему питания, которая обеспечивает GPU питанием от трёх источников: по шине PCI Express и по каждому из двух дополнительных 6-контактных разъёмов.

В нормальных условиях GPU получает энергию со всех трёх источников, но в режиме разгона может получиться так, что по одному из них потребуется больше питания, чем он способен выдать, что может вызвать проблемы со стабильностью работы. Балансирующая схема будет отбирать недостающую в таких случаях энергию от других источников. Эта возможность использовалась ранее на GeForce GTX 780 Ti и есть на GTX 980, но не на GTX 970 референсного дизайна, схема питания которой несколько проще.

Архитектура

Видеокарты семейства GeForce GTX 900 основаны на совершенно новом графическом процессоре GM204, который относится уже ко второму поколению Maxwell (в рамках первого был выпущен лишь один чип GM107). В процессе переноса архитектуры Kepler в мобильный чип Tegra K1, инженеры Nvidia научились тому, как можно снизить потребление энергии GPU и получить большую производительность из архитектуры при имеющихся ограничениях по потреблению, и этот опыт применили в Maxwell.

Инженеры компании проделали очень большую работу для увеличения эффективности всех внутренних блоков нового GPU. Большая энергоэффективность новой архитектуры достигается при помощи лучшей загрузки имеющихся вычислительных возможностей, в ней было сделано достаточно большое количество изменений, так что архитектуру вполне можно назвать абсолютно новой, хотя она явно схожа в некоторых деталях с предыдущими.

Как Fermi и Kepler, да и архитектурный первенец GM107, новый чип GM204 состоит из кластеров графической обработки Graphics Processing Cluster (GPC), которые содержат по несколько потоковых мультипроцессоров (в данном случае — SMM). Каждый кластер GPC содержит выделенный движок растеризации и по четыре мультипроцессора SMM. В свою очередь, каждый мультипроцессор состоит из 128 вычислительных блоков CUDA, блока обработки геометрии PolyMorph и восьми блоков текстурирования (TMU).

Модель GeForce GTX 980 является верхним представителем линейки, основанным на полноценном чипе GM204, содержащем четыре кластера GPC и 16 мультипроцессоров SMM. В целом это составляет 2048 потоковых процессоров CUDA и 128 блоков TMU. GeForce GTX 970 же содержит те же четыре GPC, но в которых отключены три из имеющихся шестнадцати мультипроцессоров. То есть, в итоге «урезанный» чип имеет 1664 потоковых процессора и 104 блока TMU. В будущем возможен выход и других моделей видеокарт Nvidia, основанных на этом же GPU, но с иным количеством активных исполнительных блоков.

Обе модели линейки GeForce GTX 900 имеют по четыре 64-битных контроллера памяти, что в сумме составляет 256-битную шину памяти. К каждому контроллеру памяти «привязаны» по 16 блоков ROP и 512 КБ кэш-памяти второго уровня, что в целом составляет 64 блока ROP и 2048 КБ кэша для GTX 980 (сравните с 32 блоками ROP и 512 КБ кэш-памяти у аналогичного чипа GK104 предыдущего поколения — разница налицо). Но у GTX 970 восемь блоков ROP и часть L2-кэша отключены аппаратно, и их осталось 56 штук и 1,7 МБ, соответственно.

В архитектуре Maxwell применяются абсолютно новые потоковые мультипроцессоры (Streaming Multiprocessor — SM), которые имеют как лучшую энергоэффективность, так и производительность по отношению к площади чипа. Несмотря на то, что дизайн мультипроцессоров SMX в Kepler и так был достаточно эффективным, при разработке нового GPU архитекторы увидели возможности для улучшения и серьёзно модифицировали мультипроцессоры в Maxwell. В SMM были улучшены блоки управления и планирования, распределение загрузки между блоками, количество выдаваемых на исполнение инструкций за такт и многое другое.

Организация мультипроцессоров серьёзно изменилась. Каждый мультипроцессор GM204 разделён ещё на четыре отдельных логических вычислительных раздела, каждый из которых имеет свой буфер инструкций, планировщик варпов и состоит из 32 вычислительных ядер. В чипах архитектуры Kepler каждый мультипроцессор SMX содержит управляющую логику, которая распределяет и планирует работу и обмен данными для 192 вычислительных ядер, поэтому управляющий блок довольно сложен сам по себе. В архитектуре Maxwell было принято решение разделить мультипроцессор SMM на вычислительные блоки, каждый из которых содержит собственный блок управления, обслуживающий лишь 32 ядра и поэтому более простой.

Таким образом, проектировщики Maxwell добились разделения одной сложной задачи планирования и управления на несколько значительно более простых, а часть управляющей блоками работы при этом делается программно, при помощи компилятора. Разделение вычислительных блоков упростило общий дизайн и управляющую логику чипа, снизило задержки, площадь чипа и потребляемую им энергию.

Количество ALU на планировщик, кратное степени двойки, упрощает задачу, так как каждый из планировщиков варпов отправляет инструкции на исполнение выделенному набору ALU, равному размеру варпа (32). Каждый планировщик варпов также умеет выдавать по две инструкции, вроде отправки на исполнение математической операции в ALU и операции с памятью в блок load/store unit (LSU) за один такт — dual-issue. Впрочем, даже отправка одной команды достаточна для полной загрузки работой всех вычислительных ядер, в отличие от Kepler, где использование вычислительных ресурсов при одинарной точности вычислений было недостаточно эффективным из-за некоторых ограничений в блоках планирования.

Общими в SMM остались лишь текстурные модули и FP64-блоки, а FP32-блоки, блоки специальных инструкций (special function unit — SFU) и блоки загрузки-сохранения (load/store unit — LSU) выделены для каждого раздела. Такое решение хорошо с точки зрения эффективности, ведь общие ресурсы хороши только тогда, когда они загружены работой, а при её (частичном) отсутствии они просто занимают место на чипе и потребляют энергию. Не говоря о том, что соединения между ними также дорого обходятся с точки зрения площади чипа и потребления, так как требуется дополнительная работа по планированию и координации работы всех блоков.

По сравнению с Kepler изменилась и организация подсистемы памяти и кэширования данных. SMM содержат по 96 КБ собственной общей памяти, а L1-кэш перенесён в общее пользование вместе с текстурным кэшем. В результате всех этих изменений, каждое CUDA-ядро в новом чипе примерно на 40% быстрее и вдвое энергоэффективнее, по сравнению с аналогом из Kepler. А более эффективное использование площади чипа привело к тому, что архитектура Maxwell позволила значительно увеличить количество потоковых ядер в GM204.

Если сравнить GeForce GTX 980 (GM204) и GTX 680 (GK104), то видно, что новинка имеет вдвое большее количество мультипроцессоров из-за нового их дизайна в рамках архитектуры Maxwell. А так как каждый из мультипроцессоров содержит собственные движки обработки геометрии PolyMorph, то GTX 980 также и вдвое быстрее обрабатывает геометрические данные.

Тесселяция является одной из самых важных особенностей DirectX 11 и геометрическая производительность будет играть важную роль в будущих игровых проектах, изначально предназначенных для консолей текущего поколения и современных ПК. В самых простых условиях новый GM204 обрабатывает геометрию вдвое быстрее, чем GK104, а в сложных его преимущество доходит до трёхкратного:

А вот количество текстурных блоков осталось неизменным — у обоих чипов их по 128 в целом. Для Maxwell было выбрано количество TMU на мультипроцессор, равное 8 штукам. И лишь из-за повышенной частоты GPU, новинка по текстурной производительности на 12% быстрее своего предшественника — к слову, это самый слабый параметр нового GPU. Зато было удвоено количество блоков ROP: от 32 до 64 штук, что очень важно в условиях высоких разрешений и включенного полноэкранного сглаживания. Вместе с повышенной тактовой частотой, это привело к более чем удвоенной производительности соответствующих блоков: 72 гигапикселей/с против 32 гигапикселей/с.

Чтобы подкрепить возросшую мощь блоков ROP, была улучшена и подсистема хранения данных. Во-первых, частота GDDR5-памяти выросла более чем на 15%, во-вторых, GM204 имеет заметно большую по объёму и более эффективную кэш-память, помогающую экономить полосу пропускания, и, в-третьих, Maxwell отличается новым методом сжатия данных в кадровом буфере, что дополнительно увеличивает эффективную ПСП.

При записи данных в память в GM204 используется новый метод сжатия данных без потерь, а при их чтении экономится полоса пропускания, что особенно важно при таком мощном GPU и лишь 256-битной шине. Новый движок сжатия может использовать несколько методов для разных данных. Каждый блок из 8×8 пикселей сначала исследуется на предмет возможности сжатия без потерь, если он содержит одноцветные блоки по 4×2 пикселя, тогда для таких блоков достигается степень сжатия 8:1. Затем проверяется возможность сжатия блоками 2×2 (степень сжатия 4:1) и так далее.

Такие методы весьма эффективны при использовании сглаживания, но есть и метод delta color compression, когда исследуется разница в цвете соседних пикселей, также позволяющая сжать данные, пусть и менее эффективно. Ну а если блок не может быть сжат вовсе, то данные записываются в память в обычном виде, но такое бывает в реальных сценах не так уж и часто.

Эффективность сжатия оценить непросто, но в среднем новый GPU позволяет заметно сэкономить ПСП, по сравнению с аналогичным Kepler. Разница между GPU старого и нового поколений по эффективности использования ПСП в среднем составляет 25% — примерно столько ПСП экономит GM204, по сравнению с GK104. Nvidia делает вывод об эффективной частоте памяти в 9.3 ГГц, по сравнению с 7 ГГц реальной. Хотя такое сравнение и не совсем корректно, но Maxwell действительно будет эффективнее использовать видеопамять, что важно при вдвое большем количестве блоков ROP и высоких разрешениях со сглаживанием.

Естественно, что GM204 поддерживает последнюю версию технологии динамического изменения тактовой частоты и напряжения GPU Boost, обеспечивающую максимально возможную 3D-производительность в определённых условиях (напряжение, температура, потребление) при сохранении минимального уровня частоты, который гарантируется при любых номинальных условиях.

Базовая тактовая частота для видеочипа GeForce GTX 980 равна 1126 МГц, а турбо-частота (средняя повышенная частота в нескольких играх и приложениях) достигла значения 1216 МГц — это максимальная частота для видеочипов Nvidia за всё время. Тактовая частота для видеочипа в GeForce GTX 970 равна 1050 МГц, а турбо-частота (средняя повышенная частота в нескольких играх и приложениях) достигла значения 1178 МГц — это близко к частоте видеочипа в GeForce GTX 980. Турбо-частота, как обычно, является лишь усреднённым значением для нескольких игр, используемых компанией Nvidia в своих тестах. В реальности она может изменяться, и может быть как выше, так и ниже.

Аппаратно-ускоренный расчёт глобального освещения VXGI

Одним из важных нововведений второго поколения Maxwell можно считать аппаратное ускорение одного из самых многообещающих методов глобального освещения сцены (Global Illumination — GI). Реалистичное освещение является одной из важнейших задач компьютерной графики для достижения максимального фотореализма. Сложные модели и качественные текстуры давно научились делать, с анимацией справляются при захвате данных с людей (motion capture), а вот освещение в компьютерной графике реального времени до сих пор весьма далеко от реализма.

В реальном мире освещение объектов складывается из прямого освещения от источников света и непрямого — лучей, отражённых от других объектов. Без учёта непрямого освещения объекты выглядят плоско и нереалистично. В давние времена, чтобы не было черных провалов при отсутствии непрямого освещения, придумали ambient-составляющую, которая просто добавляется к цвету объекта, но не добавляет ему объёма (сверху — только прямое освещение, снизу — прямое и отражённое):

Полноценный расчёт глобального освещения позволяет физически корректно просчитать освещение сцены, приблизиться к фотореалистичности и часто используется в кино и других системах 3D-графики, не требующих просчёта в реальном времени. Увы, но процесс этот весьма трудозатратный и он оставался недостижимым для реального времени.

Некое подобие расчёта глобального освещения уже давно используется в играх, вроде Ambient Occlusion (HDAO, HBAO и т.п.), но эти методы лишь поверхностно имитируют GI, используя лишь данные экранного буфера, а реальный расчёт глобального освещения оставался слишком «дорогим». Имитация GI — это лучше, чем ничего, но только полноценная трассировка позволит добиться максимального реализма.

Ещё в 2011 году Nvidia предложила один из алгоритмов расчёта глобального освещения под названием Voxel Global Illumination (VXGI), использующего специальное 3D-представление сцены в виде вокселей для захвата информации об освещении в каждой точке сцены — эти данные затем трассируются для расчёта эффекта отражённого света.

Трассировка сцены осуществляется конусами — роль лучей выполняют конические области. Не будем вдаваться в технические подробности слишком глубоко, все (немногочисленные) желающие могут ознакомиться с методом самостоятельно, но можно сказать, что он позволяет весьма реалистично рассчитать глобальное освещение сцены на GPU в реальном времени.

На иллюстрациях представлена отрисованная в реальном времени на Maxwell известная сцена высадки американских астронавтов на Луне, и она же, но уже в воксельном представлении. Хотя отличить рендер от фотографии можно, но всё же выглядит он весьма неплохо, особенно для сцены, рассчитанной в реальном времени.

Оригинальный алгоритм основывался на вокселях, хранящихся в структуре октодерева (octree), и он вполне работоспособен, но имеет некоторые ограничения в виде неудобства работы GPU с ней — так как это нестандартная структура для графического процессора. К слову, схожий алгоритм использовался и в нашумевшей демонстрационной версии Elemental на движке Unreal Engine 4 от компании Epic, но от него в итоге решили отказаться именно из-за крайне высокой ресурсоёмкости.

И вот, после трёх лет разработок, Nvidia представила улучшенный алгоритм VXGI, который можно ускорить на новых графических процессорах, начиная с Maxwell. Применение VXGI способно обеспечить лучшую производительность при расчёте глобального освещения, а значит и его качество, ведь метод отлично масштабируется при помощи изменения плотности воксельной сетки, и на разных по мощности системах можно просто использовать разную точность GI-расчётов.

GeForce GTX 980 и GTX 970 являются первыми решениями, которые способны ускорить алгоритм VXGI, позволяющий добиться потрясающе реалистичного освещения. Метод работает на любых современных GPU без использования аппаратной поддержки, но делает это медленнее, а на GM204 и других последующих чипах архитектуры Maxwell, алгоритм ускоряется аппаратно. Для этого на этапе вокселизации сцены используется такая возможность, как мультипроецирование (multi-projection) — графический процессор Maxwell умеет одновременно проецировать геометрию на несколько проекций, что используется в алгоритме VXGI. Без мульипроецирования приходится повторять работу шесть раз подряд — для каждой грани вокселя отдельно.

Ещё одна важная возможность, которая появится в Direct3D 12, это консервативная растеризация, которая также используется в процессе вокселизации (конвертации геометрии в воксели). Основным её отличием от обычной растеризации является то, что в процессе отрисовываются не только те пиксели, в центр которых попала геометрия сцены, но все пиксели, в площадь которых попал даже маленький кусочек треугольника. Проще всего это понять по следующей иллюстрации:

Аппаратная поддержка консервативной растеризации также очень важна в фазе вокселизации, так как на этом этапе методики расчёта глобального освещения нужно максимально точно оценить покрытие при переводе 3D-сцены из треугольников в воксели. В принципе, тут тоже можно обойтись программными методами, но они будут работать медленнее. А аппаратное ускорение VXGI на Maxwell работает весьма эффективно:

Разница в производительности неоптимизированного для Maxwell алгоритма и аппаратно-ускоренного метода на чипе GM204 превышает три раза. Иными словами, графический процессор GM204 способен обеспечить значительный прирост скорости рендеринга при использовании аппаратно-ускоренного метода VXGI при расчёте глобального освещения. Трёхкратный прирост скорости означает возможность применения расчёта GI во многих сценах, что просто не было доступно ранее.

Поддержка VXGI уже есть в Unreal Engine 4. И так как продвижение новых возможностей от компании Nvidia всегда было достаточно эффективным, можно не сомневаться, что вскоре она будет внедрена и в другие известные игровые движки, а затем появится и в будущих играх. Возможен даже выпуск ремейков игр прошлого с внедрением расчёта освещения по методу VXGI — при помощи заинтересованных энтузиастов или игровых разработчиков.

Новые методы полноэкранного сглаживания

Изменения в чипе GM204 привели и к поддержке новых методов полноэкранного сглаживания. Nvidia решила придерживаться интересного подхода, улучшая качество картинки как в нетребовательных играх, вроде Dark Souls II, которые отрисовываются при высокой кадровой частоте, так и в проектах вроде Crysis 3 и Battlefield 4, которые не отличаются большим запасом по FPS.

Для первого типа игровых проектов была внедрена технология Dynamic Super Resolution (DSR), которая весьма схожа с распространённым (и весьма требовательным к производительности) методом полноэкранного сглаживания методом суперсэмплинга. По сути, сцена рендерится при более высоком разрешении (для FullHD это будет, к примеру, UltraHD), и затем масштабируется к разрешению экрана при помощи хитрого фильтра, усредняющего результат.

В итоге пользователь получает картинку с более высоким качеством, близким к UltraHD, но на FullHD-устройстве, более сглаженную и красивую. Это особенно заметно на сценах с большим количеством узких полупрозрачных объектов, вроде травы (слева — обычный MSAA, справа — с включенным DSR):

В чём отличие от привычного суперсэмплинга и зачем нужно было давать методу новое имя? Во-первых — маркетинг. Во-вторых — DSR всё-таки использует более сложный фильтр Гаусса с 13-ю выборками, что позволяет заметно снизить количество артефактов алиасинга при приведении изображения от большего разрешения к меньшему, по сравнению с обычным суперсэмплингом.

Кроме этого, DSR удобно включать из панели GeForce Experience, при этом не нужно создавать «виртуальных» разрешений экрана, получая артефакты. Кстати, для тех, кому покажется, что DSR слишком сильно «замыливает» картинку, можно выбрать уровень «DSR-сглаживания» (DSR Smoothness), который по умолчанию установлен для фильтра Гаусса в 33%. Также можно задавать DSR-фактор для кратного увеличения разрешения рендеринга от 1.2x до 4.0x, а не довольствоваться выбранным за вас разрешением рендеринга.

Чтобы читателям было проще оценить вносимые при включении DSR изменения в качество картинки, предлагаем посмотреть на полноразмерные скриншоты из Assassin's Creed, с включенным сглаживанием методами FXAA и MSAA, а также совместно с DSR:

FXAA	FXAA+DSR

MSAA	MSAA+DSR

Налицо — явное улучшение качества сглаживания, самая лучшая картинка получилась у MSAA+DSR, что понятно. Новый метод поддерживается и на других GPU компании, но именно на GM204 он будет работать эффективнее из-за большей производительности этого чипа в высоких разрешениях.

Итак, понятно, что DSR позволяет заметно улучшить качество итоговой картинки в нетребовательных играх, особенно при использовании мониторов с низким разрешением. Но что можно сделать в сверхтребовательных играх, производительности в которых категорически не хватает, особенно при использовании полноэкранного сглаживания?

Для таких проектов в Nvidia придумали новый метод сглаживания — Multi-Frame antialiasing (MFAA), позволяющий добиться большей производительности при сохранении высокого качества. Для этого потребовалось повысить гибкость методов выборки сэмплов, внедрив полностью программируемый мультисэмплинг, чтобы можно было добиться необходимого расположения выборок. До выхода графического процессора GM204 использовались фиксированные позиции для выборок, хранящиеся в ПЗУ, а теперь их можно перепрограммировать.

Поэтому Maxwell умеет располагать субпиксели как угодно. Используется сетка 16×16 в пределах пикселя, то есть существует 256 позиций, которые можно выбирать как угодно. С такими возможностями можно изменять позиции выборок хоть каждый кадр, чем в Nvidia и воспользовались для реализации MFAA.

Новый метод похож на наиболее распространённый сейчас MSAA, но позволяет получить лучшую производительность, так как MSAA не подходит для самых требовательных проектов с 4xMSAA в высоких разрешениях даже на мощных видеокартах из-за большого падения производительности при его включении.

MFAA же использует программируемые позиции MSAA-выборок, меняя их каждый кадр так, чтобы расположение выборок из соседних двух кадров соответствовало позициям выборок одного кадра при методе 4xMSAA, а затем смешивает их при помощи специального фильтра:

В результате получается изображение, практически идентичное для глаза тому, что мы видим с 4xMSAA, но на заметно более высокой производительности (по оценке Nvidia, разница по скорости в среднем составляет около 30%). Пока что этот метод не используется в играх и недоступен в текущей версии драйверов, но он появится там в ближайшем будущем и позволит получить качественную сглаженную картинку с приемлемой скоростью даже в требовательных проектах — ощутимо быстрее, чем с MSAA:

Вполне естественно, что графический процессор GM204 поддерживает и технологию G-Sync. Это — одна из базовых технологий компании, которая призвана обеспечивать плавный игровой процесс, без рывков и задержек, что даёт больший комфорт при игре.

Кроме этого, G-Sync будет полезна и при включенной функции DSR, которая не только улучшает качество картинки, но и снижает производительность. А в этом случае применение G-Sync будет весьма полезным, так как повысит плавность видеоряда. Мы уже неоднократно писали об этой технологии в теоретических материалах, а детальное изучение на практике планируем сделать в материале по модели GeForce GTX 970, который выйдет несколько позже.

Улучшенные возможности DirectX

Очень похоже, что GM204 стал первым графическим процессором с полной поддержкой всех возможностей DirectX 12, хотя об этом пока что нельзя сказать на 100% точно до выхода новой версии API. Но все необходимые возможности новым графическим процессором Nvidia поддерживаются. Следующая версия DirectX должна стать новой вехой в истории этого графического API. Главной его целью является возможность дать разработчикам большее управление всеми аппаратными особенностями GPU и CPU, но и новые возможности также добавятся.

Хотя драйвер Nvidia сам по себе неплохо справляется с управлением ресурсами в DirectX 11 приложениях, следующая версия этого графического API даст ещё больше гибкости разработчикам игр, отдав часть задач в их руки. Так, что они смогут оптимизировать код игры так, как это нужно именно их игре или игровому движку, поэтому использующие DirectX 12 3D-приложения должны стать более эффективными.

Кроме этого, в новой версии появится как несколько новых возможностей, долгожданных для 3D-разработчиков, так и толком не используемая функциональность предыдущих версий. К примеру, ещё в DirectX 11.2 появилась поддержка тайловых ресурсов (tiled resources), которые можно использовать для рендеринга теней при помощи карт теней разного разрешения (multi-resolution) вместо одного фиксированного.

Как видите, результат получается намного приятнее зубастых теней, привычных по текущим играм. Но почему просто не сделать карты теней выше разрешением? Тогда они займут в памяти много места и будут требовать больше ресурсов на обработку. С тайловыми ресурсами можно использовать высокое разрешение только для ближайших к камере участков, а на дальних — снижать разрешение без потери в качестве итоговой картинки. Также тайловые ресурсы можно использовать и в упомянутом выше алгоритме VXGI — для снижения количества памяти, необходимого для хранения вокселей.

Ещё одной поддерживаемой Maxwell возможностью является Raster Ordered View, которая появится в DirectX 12 и которая даёт контроль над порядком операций пиксельного шейдера. Это позволит использовать, к примеру, алгоритмы для рендеринга полупрозрачных поверхностей, не требующие предварительной сортировки. Или можно будет использовать какие-то более хитрые возможности для смешивания значений пикселей (blending) при отложенном затенении (deffered shading) или других алгоритмах.

Новый графический процессор Nvidia поддерживает все вышеперечисленные особенности DirectX 12, равно как и все возможности предыдущих версий этого API. Чтобы внедрить все новые возможности, методы и алгоритмы, в том числе входящие в GameWorks, компания Nvidia совместно работает с создателями игровых проектов. Мы уже писали ранее, что над GameWorks работают более 300 инженеров компании, обеспечивающих обновление и внедрение новых графических функций в современные игры. Nvidia не просто обеспечивает разработчиков игр SDK, утилитами и технологиями, но и помогает внедрить их в игровой код при помощи своих специалистов.

К примеру, из ожидаемых игр с применением технологий Nvidia можно выделить следующие проекты:

Assasin's Creed: Unity — в игре используется имитация глобального освещения HBAO+, сглаживание методом TXAA, размытые тени PCSS и тесселяция
Batman: Arkham Knight — продвинутые физические эффекты PhysX, в том числе турбулентность, объёмное освещение, FaceWorks (все же помнят демонстрацию человеческого лица Ira?), эффекты дождя и мокрых поверхностей
Borderlands: The Pre-Sequel — эффекты частиц PhysX
Far Cry 4 — HBAO+, PCSS, TXAA, объёмные лучи света God Rays, имитация шерсти
Project CARS — частицы и турбулентность PhysX, некоторые эффекты DirectX 11
Strife — частицы PhysX, имитация волос HairWorks
The Crew — HBAO+, TXAA
The Witcher 3: Wild Hunt — HairWorks, HBAO+, эффекты PhysX, в том числе разрушения, имитация тканей
Warface — частицы и турбулентность PhysX
War Thunder — имитация водной поверхности WaveWorks, разрушения PhysX

Оценка производительности

В этой части материала мы лишь предварительно оцениваем производительность новых решений GeForce GTX 980 и GTX 970, исходя из теоретических данных и тестирования, проведённого самой компанией Nvidia. Модели GeForce GTX 980 и GTX 970 основаны на одинаковом GPU с разным количеством активных исполнительных блоков, и оценивать производительность мы будем по старшему решению.

GeForce GTX 980 основан на новом GPU архитектуры Maxwell, которая оптимизирована для лучшей энергоэффективности. По сравнению с GTX 680 на базе близкого по духу чипа GK104, новый GTX 980 имеет на треть больше вычислительных ядер и более высокие тактовые частоты, но при этом потребляет на 30 Вт меньше энергии в среднем!

Судя по теоретическим цифрам, GeForce GTX 980 должна опережать и GTX 680 и GTX 780, имея больше видеопамяти, лучшую математическую производительность и филлрейт. При этом новинка потребляет заметно меньше энергии, что приводит к вдвое лучшему показателю энергоэффективности — потрясающий результат!

Дизайн графического процессора Maxwell хоть и основан на предыдущих разработках Kepler, но чип полностью перепроектирован, и вычислительные ядра используются чаще и эффективнее. Кроме этого, была вчетверо увеличена кэш-память второго уровня, и GM204 имеет 2 мегабайта L2-кэша, который позволяет снизить количество обращений к основной памяти, что также экономит энергию и улучшает производительность.

Кстати, о внешней памяти. GeForce GTX 980 имеет 4 ГБ GDDR5-памяти, работающей на эффективной частоте в 7 ГГц, что даёт полосу пропускания в 224 ГБ/с. В сочетании с новым методом сжатия информации кадрового буфера, это также улучшает показатели производительности. Более того, это позволило вдвое увеличить количество блоков ROP (с 32 до 64), и по показателю скорости заполнения GeForce GTX 980 более чем вдвое быстрее GTX 680, да и все остальные решения Nvidia также опережает.

В общем, наши предварительные ожидания от GeForce GTX 980 довольно высоки. Давайте посмотрим на усреднённые результаты тестов в играх, проведённые самой компанией Nvidia:

Даже без учёта нового метода полноэкранного сглаживания MFAA, который даёт качество MSAA при большей производительности, новинка быстрее чем GeForce GTX 680 более чем в полтора раза при низких и средних разрешениях, и более чем вдвое превосходит старую модель в самом высоком разрешении при включенном сглаживании (правда, частота кадров при этом, скорее всего, становится слишком низкой для комфортной игры). В любом случае, это очень неплохой прирост для чипа, произведённого по тому же техпроцессу.

GeForce GTX 970 же, в свою очередь, основана на том же GPU, и поддерживает ровно те же технологии, что и старшее решение: MFAA, DSR, VXGI и др., но урезан по производительности. Так, в видеочипе остались активными лишь 13 блоков SMM и 1664 вычислительных ядер CUDA и 104 блока TMU. Естественно, что и частота работы GPU в этом варианте понижена до 1050 МГц базовой и 1178 МГц турбо-частоты. А вот подсистему памяти не тронули вовсе. Никаких урезаний тут нет, модель снабжена теми же 4 ГБ GDDR5-памяти, работающими на частоте в 7 ГГц по 256-битной шине.

Понятно, что снижение производительности сказывается и на потреблении энергии. GTX 970 требует ещё меньше энергии, чем старшая модель — всего лишь 145 Вт. При этом мощности видеокарты вполне достаточно даже для сверхсовременных и будущих игр, работающих в самых высоких разрешениях, а ведь GTX 970 будет стоить заметно меньше старшей модели. Кроме этого, партнёры компании Nvidia предложат и фабрично разогнанные варианты этой модели. Что весьма важно, так как при достижении не таких уж далёких 1400 МГц, новинка может поспорить с лучшей одночиповой платой конкурента.

Но сравниваем мы её пока что на номинальных частотах и лишь с GeForce GTX 670:

По сравнению с GeForce GTX 670, которая является одной из самых популярных топовых видеокарт в современных ПК-системах, новая модель этого же уровня обеспечивает приличный прирост производительности около полутора раз, а в сверхвысоких разрешениях и того больше. А уж если учитывать новый алгоритм полноэкранного сглаживания MFAA, то она и вовсе минимум вдвое лучше, если верить графикам Nvidia.

Конкурентом для GeForce GTX 970 компания видит AMD Radeon R9 290. В среднем, по их собственным данным, новинка калифорнийцев на 5-10% быстрее соперника. Впрочем, у нас в материале по этой видеокарте есть собственные игровые тесты и соответствующие выводы, исходя из производительности в играх. В любом случае, мощности рассматриваемых моделей должно быть вполне достаточно для всех самых современных игр и даже проектов, которые выйдут в последующие годы, при работе в самых высоких разрешениях. Кроме этого, партнеры компании Nvidia уже предложили фабрично разогнанные варианты выпущенных моделей, а при достижении вполне реалистичных 1400 МГц, даже GTX 970 может поспорить даже и с лучшей одночиповой платой конкурента — Radeon R9 290X.

Выводы по теоретической части

С архитектурной точки зрения, топовый GPU второго поколения архитектуры Maxwell весьма сильно изменён, по сравнению с Kepler. В новую архитектуру внесены значительные модификации, направленные на улучшение функциональности и повышение энергоэффективности. Архитектура была полностью переработана, хотя и имеет корни Kepler. Пусть это и не революционный чип, но он взял всё лучшее от прошлых архитектур и получил дополнительные модификации, практически лишившие его слабых мест.

Количество блоков ROP было удвоено, геометрия теперь рассчитывается более чем вдвое быстрее, а новые методы сглаживания вместе с более эффективным сжатием содержимого буфера кадра приносят заметно улучшенную производительность в условиях высоких разрешений. Эти методы сглаживания позволяют или улучшить качество картинки при избытке производительности (DSR) или повысить производительность при сохранении того же качества (MFAA). Пока что даже не говорим о полной поддержке возможностей DirectX 12, так как эта версия графического API ещё не вышла.

А уж аппаратная поддержка ускорения одного из самых эффективных алгоритмов глобального освещения VXGI и вовсе может серьёзно изменить качество освещения в будущих играх, приблизив нас к фотореалистичности. До сих пор все аналогичные методы были или недостаточно качественными, или на них не хватало производительности — как у аналогичного метода из ранних версий Unreal Engine 4, не имеющего аппаратной поддержки. VXGI же ускоряется на новых графических процессорах компании Nvidia, и GeForce GTX 980 — первая видеокарта, способная в реальном времени рассчитывать GI в приличном качестве и с приемлемой скоростью.

И с вычислительной точки зрения изменения в архитектуре есть. По CUDA-возможностям новое решение не уступает чипу GK110, поддерживает такие техники как динамический параллелизм и HyperQ. Также увеличилось и количество одновременно исполняемых команд, количество доступных регистров на поток, были серьёзно модифицированы блоки планировщиков, появилась отдельная общая память в мультипроцессорах SMM и т.д. и т.п.

В итоге, по общей эффективности новое решение намного лучше предыдущих, и это касается как энергетической эффективности, так и плотности размещения транзисторов на чипе и вычислительной эффективности. При помощи глубокой модернизации блоков предыдущих архитектур и прочих нововведений, Nvidia добилась удвоения показателя соотношения производительности к потреблению энергии, и это очень важно в наше время, когда энергоэффективность является главным параметром для любых устройств.

При разработке архитектуры Maxwell и графического процессора GM204 инженеры Nvidia нашли множество возможностей по увеличению производительности в рамках уже давно освоенной технологии производства с нормами 28 нм. Улучшение энергоэффективности в Maxwell позволило добиться значительно лучшего соотношения производительности и потребления, по сравнению с предыдущими моделями на чипах архитектуры Kepler.

Для этого был серьёзно изменён дизайн мультипроцессоров SMM в составе нового графического процессора. В мультипроцессорах были выделены четыре вычислительных раздела, имеющие собственные выделенные блоки планирования и управления, также были изменены и планировщики в самих мультипроцессорах и связи между всеми блоками. Все эти изменения позволили обеспечить более эффективное использование возможностей аппаратных блоков чипа, что и повысило его энергоэффективность.

Чтобы повысить эффективность работы с видеопамятью, шина которой всего лишь 256-битная, был значительно увеличен объём кэш-памяти второго уровня, которая обеспечивает дополнительную буферизацию различных данных и снижает требования к ПСП, что позволяет обеспечить высокую итоговую производительность при сравнительно узкой шине видеопамяти. С этой же целью был внедрён новый метод сжатия данных кадрового буфера, который даёт ещё на 25% увеличенную эффективную ПСП.

В итоге, видеокарты GeForce GTX 980 и GTX 970 на базе чипа GM204 выглядят лучшими по энергоэффективности в своём классе. Похоже, что самой впечатляющей характеристикой новинок является соотношение их производительности и энергопотребления. При производительности видеоплаты на базе GM204, близкой к лучшим моделям на GK110, GeForce GTX 980 потребляет всего лишь 165 Вт энергии, что значительно меньше 250 Вт у GeForce GTX 780 (Ti), с которыми она готова поспорить по скорости. Не говоря уже о конкурирующей с новинкой AMD Radeon R9 290X, которая имеет ещё большее энергопотребление. Так что по энергоэффективности модели GeForce GTX 980 и GTX 970 точно являются лучшими топовыми видеокартами. Хотя чип GM204 произведён по тому же 28 нм техпроцессу, что и предыдущие чипы, его производительность и эффективность должна удивить нас в практических частях статьи.

Что касается соотношения производительности и площади разных чипов, то тут можно сравнить новое решение Nvidia с недавно вышедшим чипом конкурента — Tonga. GM204 имеет площадь чипа в 398 мм² при сложности в 5.2 млрд. транзисторов, а Tonga имеет площадь 359 мм² при сложности в 5.0 млрд. транзисторов. При этом, оба чипа включают близкое количество потоковых процессоров и текстурных модулей, и оба имеют 256-битную шину (по крайней мере, в вышедшем Radeon R9 285). Цифры довольно близкие, но решение Nvidia имеет вдвое больше блоков ROP и должно быть заметно быстрее, так как конкурирует с Radeon R9 290X, а вовсе не с R9 285. А главное — цифра среднего потребления энергии при этом отличается совсем в другую сторону: 165 Вт у GTX 980 и 145 Вт у GTX 970, сравните это с 190 Вт у R9 285!

С точки зрения сочетания производительности, энергопотребления и тепловыделения у GeForce GTX 980 и GTX 970 есть явное преимущество перед конкурентами от AMD. А вот цены на новинки Nvidia могли бы быть и ниже, так как их конкурент обычно предлагает весьма неплохое соотношение цены и производительности, даже серьёзно проигрывая по энергоэффективности. Рекомендованная цена на GeForce GTX 980 составляет $549, поэтому конкурентом для неё будет Radeon R9 290X, хотя по сложности печатная плата и чип GM204 скорее близки к Radeon R9 285 и Tonga, соответственно.

Несмотря на преимущество в энергоэффективности, Nvidia в очередной раз выставила такую цену на свои новинки, чтобы заработать больше денег, а не вытеснить соперника с рынка. Себестоимость новых плат серии GeForce GTX 900 должна быть значительно ниже, чем у конкурирующих с ними Radeon R9 290(X), поэтому и прибыли должно получиться больше. А пользователям остаётся радоваться энергоэффективности и низкому потреблению энергии, но не низкой цене. Впрочем, не нужно забывать и то, что Nvidia нужно ещё отбить затраты на разработку архитектуры Maxwell.

В любом случае, GeForce GTX 980 и GTX 970 являются отличными вариантами для обновления видеоподсистемы для тех пользователей, которые не успели приобрести топовые модели линейки GeForce GTX 700 и GTX 600. Все владельцы GeForce GTX 680 (GTX 670) и ниже, при смене видеокарты на GTX 970 или GTX 980 получат заметный прирост производительности и функциональности, да ещё и при значительно меньшем энергопотреблении.

Подробности: модель GeForce GTX 960

Кодовое имя чипа GM206;
Технология производства 28 нм;
2,94 миллиардов транзисторов;
Площадь ядра 227 мм²;
Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.;
Аппаратная поддержка DirectX 12 API, в том числе шейдерной модели Shader Model 5.0, геометрических и вычислительных шейдеров, а также тесселяции;
128-битная шина памяти, два независимых контроллера шириной по 64 бита каждый, с поддержкой GDDR5 памяти;
Базовая частота ядра до 1126 МГц;
Средняя турбо-частота ядра до 1178 МГц;
8 потоковых мультипроцессоров, включающих 1024 скалярных ALU для расчётов с плавающей запятой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32 и FP64 точностью);
64 блока текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов;
2 широких блока ROP (32 пикселя) с поддержкой различных режимов сглаживания, в том числе при FP16- или FP32-формате буфера кадра;
Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты GeForce GTX 960

Базовая частота ядра 1126 МГц;
Средняя турбо-частота 1178 МГц;
Количество универсальных процессоров 1024;
Количество текстурных блоков — 64, блоков блендинга — 32;
Эффективная частота памяти 7000 (4×1750) МГц;
Тип памяти GDDR5, 128-бит шина памяти;
Объем памяти 2 ГБ;
Пропускная способность памяти 112,2 ГБ/с;
Теоретическая максимальная скорость закраски 36,0 гигапикселей в секунду;
Теоретическая скорость выборки текстур 72,1 гигатекселей в секунду;
Один Dual Link разъем, один HDMI 2.0, три DisplayPort 1.2;
Энергопотребление до 120 Вт;
Один 6-контактный разъём дополнительного питания;
Двухслотовое исполнение;
Рекомендуемая цена для американского рынка $199 (для России — 13990 руб).

Новая модель GeForce GTX 960 получила типичное наименование для решений Nvidia такого позиционирования. Она заместила на рынке модель GeForce GTX 760, и в текущей продуктовой линейке компании GTX 960 располагается ниже топовой модели GTX 970. Еще ниже нее стоит GTX 750 Ti — видеокарта номинально из предыдущего поколения, но реально — также основанная на чипе архитектуры Maxwell, хотя и первого поколения. По сути, в линейке Nvidia остались двухчиповая Titan Z, топовые одночиповые модели GTX 980 и GTX 970, дальше идет GTX 960, а за ней — GTX 750 Ti и GTX 750.

Рекомендованная цена на новую плату составляет $199, и это ожидаемо для платы с таким наименованием, но спорно для уровня ее производительности. Ведь, несмотря на то, что плата носит наименование GTX 960, по некоторым характеристикам она уступает своей прямой предшественнице — GTX 760, не говоря уже о прямых конкурентах по цене у компании AMD. Мало того, что GTX 960 имеет меньшую скорость текстурирования, но самым главным недостатком является низкая пропускная способность видеопамяти относительно предшественниц и конкурентов.

Рассматриваемая модель компании Nvidia сделана на базе чипа GM206, имеющего лишь 128-битную шину памяти (по сравнению с 256-битной у GTX 760 или 192-битной у GTX 660). Новинка по ПСП уступает не только GTX 760, но даже и GTX 660. Впрочем, Nvidia уверяет, что частично потери скорости доступа к видеопамяти будут скомпенсированы оптимизациями и новыми методами сжатия информации. Вероятно, так действительно происходит, но никакие методы компрессии не могут полностью заменить широкую шину памяти. Поэтому весьма вероятно, что при высоком разрешении рендеринга и применении требовательных методов полноэкранного сглаживания, вроде MSAA, производительность GTX 960 будет серьезно снижена.

Более того, объем установленной на видеокарту видеопамяти мог быть 2 или 4 ГБ, но в случае не самой дорогой модели было принято решение устанавливать 2 ГБ, чего также может быть недостаточно для некоторых требовательных 3D-игр при максимальных настройках качества и высоких разрешениях. С другой стороны, установка 4 ГБ быстрой GDDR5-памяти обошлась бы слишком дорого для платы за $200. На наш взгляд, идеальными характеристиками для видеокарты с такой ценой в текущих условиях были бы 192-битная шина и 3 ГБ видеопамяти, ну а подобный GTX 960 вариант должен стоить около $150.

Референсных плат для GeForce GTX 960 на рынке практически нет, производители выпускают свои собственные дизайны, заметно отличающиеся друг от друга и по PCB и по разъемам дополнительного питания, и по системе охлаждения. Важно отметить, что чипу GM206 и набору микросхем памяти для дополнительного питания достаточно одного 6-контактного разъема PCI-E, но партнеры Nvidia могут изменять это решение по собственным соображениям. Предполагается, что плата дизайна Nvidia имеет три DisplayPort 1.2 разъема, один Dual Link DVI и порт HDMI 2.0, так как GM206 аналогично GM204 поддерживает вывод изображения по HDMI 2.0 — эта версия стандарта позволяет выводить полноценное 4K-разрешение с частотой обновления вплоть до 60 Гц. Также есть поддержка разрешений до 5K (5120×3200 пикселей при 60 Гц) и HDCP 2.2.

Уровень типичного энергопотребления для видеокарты GeForce GTX 960 составляет около 120 Вт (средняя цифра, заявленная компанией Nvidia), что не так уж сильно меньше, чем 145 Вт у старшего решения GTX 970 с куда более высокой производительностью. Впрочем, сравнивать новинку нужно скорее с Radeon R9 285 с ее 190 Вт потреблением. Еще раз оговоримся, что указанный набор портов вывода изображения и один разъем питания справедливы лишь для видеокарт Nvidia, а производители видеокарт выпустили собственные варианты GeForce GTX 960, отличающиеся дизайном печатных плат, систем охлаждения и питания, а также повышенной частотой работы для GPU и видеопамяти.

GeForce GTX 960 имеет очень высокий потенциал для повышения тактовых частот, и партнеры Nvidia по выпуску видеокарт уже со дня анонса предложили фабрично разогнанные варианты GeForce GTX 960. Новая видеокарта потребляет сравнительно мало энергии, а соответственно имеет и низкое тепловыделение, и некоторые из моделей видеокарт смогут полностью отключать вентиляторы своих кулеров в определенных условиях, в том числе и при невысокой 3D-нагрузке (видеокарты от ASUS, Gainward и Gigabyte уже умеют это). К примеру, GeForce GTX 960 потребляет и выделяет всего лишь 30 Вт при игре в League of Legends в разрешении 1920×1080 и максимальных настройках качества.

Архитектура

В отличие от вышедших ранее видеокарт на чипах архитектуры Maxwell, GeForce GTX 960 основана на абсолютно новом графическом процессоре GM206. Этот GPU включает все архитектурные возможности GM204, на котором основана топовая модель, поэтому все сказанное в статье по GTX 980 относится в полной мере и к среднебюджетной новинке. В частности, инженеры компании Nvidia проделали очень большую работу для увеличения эффективности всех блоков новых GPU второго поколения архитектуры Maxwell и достигли превосходной энергоэффективности.

Графический процессор GM206 состоит из пары кластеров графической обработки Graphics Processing Cluster (GPC), которые содержат по несколько потоковых мультипроцессоров (SMM). Каждый кластер GPC содержит выделенный движок растеризации и по четыре мультипроцессора SMM. В свою очередь, каждый мультипроцессор состоит из 128 вычислительных блоков CUDA, блока обработки геометрии PolyMorph и восьми блоков текстурирования (TMU).

Модель GeForce GTX 960 основана она на полном чипе GM206, содержащем два кластера GPC и 8 мультипроцессоров SMM. В целом новый GPU содержит 1024 потоковых процессоров CUDA и 64 блока TMU, по сравнению с 2048 ALU и 128 TMU у топового GM204 — то есть, он ровно вдвое меньше по функциональным блокам, относительно более дорогого чипа.

Для улучшения эффективности использования кэшей в GPU были сделаны многочисленные изменения в подсистеме памяти. Каждый из мультипроцессоров в GM206 имеет выделенные 96 КБ общей памяти, а кэши первого уровня и текстур объединены в 24 КБ блоки — по два блока в мультипроцессоре (всего 48 КБ на SMM). Графические процессоры предыдущего поколения Kepler имели лишь 64 КБ общей памяти, которая также выполняла функции кэш-памяти первого уровня. В результате всех изменений эффективность CUDA-ядер Maxwell примерно в 1,4 раза выше, чем в аналогичном чипе Kepler (GM206 по сравнению с GK106), а энергоэффективность нового GPU оказалась выше уже вдвое.

Самым спорным решением, которое приняли при проектировании GM206, пожалуй, стало включение лишь двух 64-битных контроллеров памяти в новый чип, что в сумме составляет всего лишь 128-битную шину памяти. К каждому контроллеру памяти «привязаны» по 16 блоков ROP и 512 КБ кэш-памяти второго уровня, поэтому в целом чип содержит 32 блока ROP и 1024 КБ кэш-памяти. Эти цифры также вдвое меньше, чем у GM204, но если при переходе от GTX 780 (Ti) к GTX 980 шина уменьшилась в полтора раза — с 384-битной до 256-битной, а если мы сравним GTX 760 и GTX 960, то получим урезанную вдвое шину: с 256-бит до 128-бит.

А самое интересное в том, что даже печатные платы у большинства производителей рассчитаны на 192-битную шину — с возможностью установки шести микросхем памяти, хотя на них установлено по четыре микросхемы. То ли сам GM206 имеет 192-битный интерфейс памяти, то ли просто платы заранее ориентируются на какое-то более мощное решение с 192-битной шиной (GTX 960 Ti?) на базе другого графического процессора (еще более урезанный GM204?).

Понятно, что новый графический процессор GM206 поддерживает последнюю версию технологии динамического изменения тактовой частоты и напряжения GPU Boost, обеспечивающую максимально возможную 3D-производительность в определенных условиях (напряжение, температура, потребление) при сохранении минимального уровня частоты, который гарантируется при любых номинальных условиях. Базовая тактовая частота для видеочипа в GeForce GTX 960 равна 1126 МГц, а турбо-частота (средняя повышенная частота в нескольких играх и приложениях) чуть выше — 1178 МГц. Эта частота, как обычно, является лишь усредненным значением для нескольких игр, используемых компанией Nvidia в своих тестах. В реальности же она будет изменяться, и может быть как выше, так и ниже этого значения.

У GTX 960 есть еще приличный потенциал для разгона — лучший, чем у многих видеокарт предыдущих поколений. Благодаря эффективности и низкому потреблению графического процессора GM206, видеокарта GeForce GTX 960 может работать на куда более высоких частотах. Так, при номинальной частоте GPU в 1126(1178) МГц, данные видеокарты легко разгоняются до 1400-1450 МГц и выше, при неизменных системах охлаждения и напряжении. А фабрично разогнанные варианты имеют тактовую частоту GPU порядка 1300 МГц.

Частота работы видеопамяти у GeForce GTX 960 составляет 7010 МГц. С одной стороны, это немало — выше частот для GDDR5 практически и нет. С другой — с учетом 128-битной шины, получается пропускная способность всего лишь 112 ГБ/с, что меньше, чем у GTX 760 и даже GTX 660. Да, Nvidia утверждает, что недостаток ПСП частично компенсируется более эффективным сжатием информации, и это действительно так — в обзоре GeForce GTX 980 мы тщательно рассматривали это нововведение во втором поколении Maxwell.

Сжатие информации, находящейся в буфере кадра, позволяет графическому процессору более эффективно использовать имеющиеся возможности. Вместе с улучшением системы кэширования, о которой мы писали выше, новая схема сжатия обеспечивает новому GM206 на четверть более эффективное использование видеопамяти, по сравнению с любыми видеочипами Kepler. То есть, как отмечают в Nvidia, можно говорить об эффективной частоте видеопамяти в 9,3 ГГц, а не 7,0 ГГц. Только с учетом такого «хитрого» подсчета, GTX 960 по ПСП опережает GTX 660 (но не GTX 760!), обеспечивая 148,8 ГБ/с эффективной ПСП, по сравнению с 144,2 ГБ/с у GTX 660.

Это прекрасно, но даже «эффективная» цифра ПСП говорит о том, что полосы пропускания может и не хватать в высоких разрешениях и при включенном полноэкранном сглаживании. Именно ПСП во многих играх при высоком разрешении рендеринга ограничивает общую производительность, и есть вероятность того, что даже этого «эффективного» значения не хватит GTX 960, чтобы обогнать GTX 760 во многих играх. Хотя это и относится только к условиям высоких разрешений и/или включенного сглаживания методом MSAA и весьма требовательным к ПСП играм.

Новые возможности

Аналогично старшим моделям GeForce GTX 980 и GTX 970, новый GTX 960 поддерживает HDMI 2.0 и вывод изображения до 5K до четырех дисплеев одновременно. А с распространением видеоконтента в разрешении 4K становится важной поддержка HDCP 2.2 по HDMI. Но среди всех возможностей анонсированного решения можно особо выделить улучшенный блок работы с видеоданными, что особенно важно потому, что из-за невысокого потребления энергии некоторые пользователи захотят использовать GeForce GTX 960 в составе систем домашних кинотеатров.

Чтобы удовлетворить потребности этой публики, в GM206 добавили поддержку кодирования и декодирования видеоданных в формате H.265 (известном также как HEVC). В то время, как старшие модели на базе чипа GM204 имеют полноценную аппаратную поддержку только для кодирования видео в этот формат, новый графический процессор GM206 также умеет и аппаратно декодировать видеоданные в формате H.265.

Других аппаратных изменений в новой модели относительно GeForce GTX 980 нет, поэтому расскажем о том, что относится ко всем свежим решениям компании. Так, в компании продолжают улучшать взаимодействие с игровыми разработчиками, постоянно развивая свою инициативу под названием GameWorks, о которой мы уже не раз писали. Nvidia GameWorks предлагает множество библиотек и утилит, облегчающих игровым разработчикам внедрение новых графических эффектов в их проекты. В результате и время экономится, и игры становятся красивее.

За прошедший год Nvidia добавила в GameWorks много новых возможностей и эффектов. Например, Turf Effects позволяет имитировать большие объемы растительности с полноценным физическим взаимодействием с другими объектами. А в самом конце года было представлено последнее добавление к PhysX под названием FleX. Движок PhysX и так известен поддержкой физической имитации поведения тканей, разрушаемых объектов и систем частиц, а FleX использует унифицированный подход к частицам и более удобное их взаимодействие друг с другом и окружающими объектами.

В наступившем 2015 году компания Nvidia ожидает, что множество эффектов и технологий из GameWorks будут применяться в широком наборе будущих игр, включая такие проекты как Batman: Arkham Night, Dying Light, Evolve и Witcher 3. Пока что точно неизвестно, какие из них найдут свое применение в каждой игре, так как их разработка продолжается.

Еще одной важной технологией Nvidia считает G-Sync, подробный обзор которой мы недавно сделали. Если вкратце, то вместе с применением специализированного монитора с поддержкой этой технологии современные видеокарты Nvidia обеспечивают максимально плавную смену кадров, что недостижимо при использовании устаревших методов вывода изображения на экран. При включенной вертикальной синхронизации игроки получают увеличенные задержки и нестабильность частоты кадров с неприятными рывками, а при выключении синхронизации на экране появляются раздражающие артефакты разрыва картинки. А технология G-Sync обеспечивает идеально плавную смену кадров без разрывов изображения и увеличения лагов.

Подобный комфорт доступен пользователям решений Nvidia уже много месяцев. С момента анонса технологии G-Sync партнеры компании по выпуску мониторов анонсировали и вывели на рынок несколько моделей дисплеев с TN-матрицами и разрешением от 1920×1080 до 3840×2160 (4K), и в своем обзоре мы отмечали, что рынку не хватает мониторов с более качественными IPS-матрицами. И вот, в самом начале года на рынок выходят G-Sync-мониторы с жидкокристаллическими панелями этого типа.

Первым IPS-монитором с поддержкой G-Sync стала модель Acer XB270HU — она обеспечивает родное разрешение в 2560×1440 пикселей при частоте обновления в 144 Гц, а также поддерживает технологию Nvidia Ultra Low Motion Blur (ULMB). Почему применение IPS так желанно? ЖК-матрицы, произведенные по этой технологии, обеспечивают лучшую цветопередачу и максимально широкие углы обзора по сравнению с TN. Ранее они были ограничены частотой обновления 60 Гц, и лишь недавно стало возможным обновление изображения на них с частотой до 144 Гц.

Это не единственная модель монитора с поддержкой G-Sync, которая выйдет в ближайшее время. На выставке Consumer Electronics Show 2015, компания ASUS анонсировала монитор модели ROG PG27AQ — первый монитор компании с 4K-разрешением, поддержкой G-Sync и IPS-матрицей (хоть и не 144 Гц). Требовательные к качеству изображения игроки по достоинству оценят обе новинки в работе и играх, особенно с включенной технологией G-Sync, которая смогла нас впечатлить. А в течение года ожидается выпуск и других G-Sync-мониторов с различными характеристиками.

GeForce GTX 960 не только быстрее и заметно энергоэффективнее своих предшественниц, но еще она дает и новые возможности. Видеокарты такого уровня весьма популярны в играх жанра многопользовательской онлайновой боевой арены (MOBA — Multiplayer Online Battle Arena), вроде League of Legends и Dota 2, которые сейчас весьма популярны в мире. И для таких игр GeForce GTX 960 предлагает несколько новых возможностей. К примеру, включение Dynamic Super Resolution (DSR) даст пользователю сглаженную картинку с более высоким качеством на мониторе со сравнительно низким разрешением. Действие DSR аналогично методу полноэкранного сглаживания методом суперсэмплинга, когда сцена отрисовывается в более высоком разрешении, а затем масштабируется к разрешению экрана при помощи специального фильтра.

И хотя видеокарты вроде GeForce GTX 660 также поддерживают DSR, их мощности явно не хватит, чтобы играть даже в не слишком требовательные игры в таком режиме. Nvidia приводит пример, когда одна и та же игра League of Legends выводится на экран с разрешением 1080p на системе с GTX 660 при включении 8x MSAA, и на GTX 960 с включенным режимом DSR, в котором более качественная картинка рендерится в 4K-разрешении — и частота кадров при этом получается схожая.

А для требовательных игровых приложений пригодится поддержка видеокартой GeForce GTX 960 нового метода полноэкранного сглаживания Multi-Frame antialiasing (MFAA), позволяющего добиться большей производительности при сохранении высокого качества. Новый метод похож на распространенный MSAA, но позволяет получить большую скорость рендеринга, используя программируемые позиции MSAA-выборок и меняя их каждый кадр так, чтобы расположение выборок из соседних двух кадров соответствовало позициям выборок одного кадра при методе 4x MSAA, смешивая результаты при помощи специального фильтра.

Мощности GeForce GTX 960 хватает для большинства игр, запускаемых в разрешении 1080p с включенным MFAA при средней частоте кадров 60 FPS и выше. Изначально поддержка MFAA была заявлена для 20 игр, но в дальнейшем число игр с такой поддержкой заметно возросло. На данный момент, этот метод поддерживается во всех DirectX 10 и DirectX 11 играх, также поддерживающих и сглаживание методом MSAA, кроме трех приложений: Dead Rising 3, Dragon Age 2 и Max Payne 3. Зато все новые проекты отлично работают с MFAA:

Поддержка MFAA весьма важна именно для решений среднего уровня, вроде GeForce GTX 960, так как новый метод обеспечивает заметный рост производительности при включенном сглаживании и сохранении качества сглаживания метода 4x MSAA. Даже самые требовательные и «тяжелые» игры, которые слишком медленно работают при включении 4x MSAA на GTX 960, зачастую дают вполне комфортную производительность при включении MFAA. Неудивительно, что поддержку MFAA теперь встроили в GeForce Experience, и при оптимизации настроек для какой-либо игры из панели GFE, за включение MFAA будет отвечать эта программа.

По всем остальным вопросам архитектурных и функциональных тонкостей новинки вы можете обратиться к обзорам GeForce GTX 980 и GTX 750 Ti, в которых мы подробно писали об архитектуре Maxwell, устройстве потоковых мультипроцессоров (Streaming Multiprocessor — SM), организации подсистемы памяти и некоторых других архитектурных отличиях. Там же вы можете внимательно ознакомиться и с новыми функциональными возможностями, вроде аппаратной поддержки ускорения расчета глобального освещения VXGI, новыми методами полноэкранного сглаживания и улучшенными возможностями графического API DirectX 12.

В общем, видеокарта модели GeForce GTX 960 предназначена для обычных пользователей — не энтузиастов и любителей всего экстремального, а тех, кому вполне достаточно игры на типичных мониторах с разрешением 1920×1080 пикселей. Зато с максимальными игровыми настройками, а также включенным полноэкранным сглаживанием всех известных методов: FXAA, MFAA, MSAA и др. Даже в условиях требовательных игр всегда можно подобрать такой метод сглаживания, при котором GeForce GTX 960 обеспечит приемлемую частоту кадров, а в массовых играх вроде League of Legends можно дополнительно улучшить картинку при помощи режима DSR.

С архитектурной точки зрения, новый среднебюджетный GPU второго поколения архитектуры Maxwell получился неплохим, но и не идеальным. Как и его старший собрат, GM206 взял все самое лучшее из прошлых архитектур, получив дополнительную функциональность и улучшения второго поколения Maxwell. Новые методы сглаживания вкупе с эффективным сжатием содержимого буфера кадра должны принести сравнительно высокую производительность в условиях высоких разрешений, позволяя или улучшить качество изображения при избытке производительности или повысить производительность при сохранении высокого качества.

Функционально новинка выглядит просто отлично, ничем не уступая старшим GeForce GTX 980 и GTX 970, а кое в чем даже опережая (аппаратные возможности по декодированию видеоданных в формате H.265). При помощи глубокой модернизации блоков предыдущих архитектур, инженеры компании Nvidia добились удвоения показателя соотношения производительности к потреблению энергии, прибавив при этом в функциональности — чего стоит только поддержка ускорения одного из методов глобального освещения VXGI, а также графического API DirectX 12.

Что касается рыночных перспектив, то рассматриваемая сегодня модель GeForce GTX 960 на базе чипа GM206 станет неплохой заменой для аналогичных решений на базе чипов семейства Fermi и Kepler, а заодно и лучшим решением по энергоэффективности среди видеокарт среднего ценового диапазона. Соотношение производительности и энергопотребления у новинки должно быть действительно неплохим, но и потенциальный недостаток есть. Это всего лишь 128-битная шина памяти и объем видеопамяти в 2 ГБ. Да, для большинства игр и разрешений не выше 1080p без сглаживания этого должно хватить, но не всегда — в некоторых случаях явно будет наблюдаться нехватка и того и другого, что скажется на итоговой скорости.

Это особенно обидно с учетом того, что и GTX 760 и GTX 660 имели более широкую шину памяти. Да, Nvidia придумала специальную хитрость в виде эффективного сжатия данных в буфере, но даже если это действительно экономит 25% полосы пропускания, для такого мощного чипа этого все равно маловато. Не критично мало, но хотелось бы большего. На наш взгляд, 192-битная шина и 3 ГБ видеопамяти были бы просто идеальными характеристиками для видеокарты с ценой около $200 в текущих условиях. А подобный вариант можно было бы оставить для ценовой ниши порядка $150. Да и слишком большая дыра по производительности между GTX 960 и GTX 970 получается, куда явно напрашивается еще одна (GTX 960 Ti?) модель.

И для AMD выход такой GeForce GTX 960 не таит слишком большой рыночной опасности — им достаточно ещё немного снизить цены на конкурирующие модели Radeon, и те запросто смогут поспорить с новинкой, хоть и не по функциональности и энергопотреблению, но точно по производительности. Впрочем, Nvidia при этом может получать больше прибыли с продаж, так как 128-битная видеокарта на чипе GM206 меньшей сложности явно обойдется дешевле конкурирующих Radeon с 256-битной шиной памяти — с более сложными GPU, печатными платами и системами питания.

Если оценивать GeForce GTX 960 в целом, то новая модель является неплохим вариантом для обновления видеоподсистемы для тех пользователей, которые еще не приобрели аналогичные модели из линеек GeForce GTX 600 и 700. Все владельцы устаревших видеокарт моделей GeForce GTX 660 и ниже при смене видеокарты на GTX 960 получат заметный прирост производительности и функциональности, а значительно меньшее энергопотребление и тепловыделение будет дополнительным приятным бонусом. Еще одним важным фактором является то, что видеокарты GeForce GTX 960 стали доступны в продаже прямо в день анонса.

Подробности: модель GeForce GTX 950

Параметр	Значение
Кодовое имя чипа	GM206-250
Технология производства	28 нм
Количество транзисторов	2,94 млрд.
Площадь ядра	227 мм²
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	DirectX 12, с поддержкой уровня возможностей Feature Level 12.1
Шина памяти	128-битная, два независимых контроллера памяти шириной по 64 бита с поддержкой GDDR5-памяти
Частота графического процессора	1024 (1188) МГц
Вычислительные блоки	6 (из 8 в чипе) потоковых мультипроцессоров, включающих 768 (из 1024) скалярных ALU для расчетов с плавающей запятой одинарной и двойной точности в рамках стандарта IEEE 754-2008;
Блоки текстурирования	48 (из 64) блоков текстурной адресации и фильтрации с поддержкой FP16- и FP32-компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	2 широких блока ROP (32 пикселя) с поддержкой различных режимов сглаживания, в том числе при FP16- или FP32-формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг
Поддержка мониторов	Интегрированная поддержка до четырех мониторов, подключенных по интерфейсам Dual Link DVI, HDMI 2.0 и DisplayPort 1.2

Спецификации референсной видеокарты GeForce GTX 950

Параметр	Значение
Частота ядра	1024 (1188) МГц
Количество универсальных процессоров	768
Количество текстурных блоков	48
Количество блоков блендинга	32
Эффективная частота памяти	6600 (4×1650) МГц
Тип памяти	GDDR5
Шина памяти	128 бит
Объем памяти	2 ГБ
Пропускная способность памяти	105,6 ГБ/с
Вычислительная производительность (FP32)	1,6 терафлопс
Теоретическая максимальная скорость закраски	32,8 гигапикселей/с
Теоретическая скорость выборки текстур	49,2 гигатекселей/с
Шина	PCI Express 3.0
Разъемы	Один разъем Dual Link DVI, один HDMI 2.0 и три DisplayPort 1.2
Энергопотребление	до 90 Вт
Дополнительное питание	Один 6-контактный разъем
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	$159 (США), 12 490 руб. (Россия)

Модель GeForce GTX 950 получила типичное наименование для решений Nvidia. После выхода рассматриваемой модели, текущая продуктовая линейка GeForce GTX компании Nvidia стала состоять из следующих игровых видеокарт: GeForce GTX Titan X, GeForce GTX 980 Ti, GeForce GTX 980, GeForce GTX 970, GeForce GTX 960, GeForce GTX 950 и GeForce GTX 750 Ti. Выше новинки располагается модель GTX 960 на том же чипе, а ниже стоит GTX 750 Ti — видеокарта из предыдущего поколения, основанная также на чипе архитектуры Maxwell, но ещё первого поколения.

Для GeForce GTX 950 компания Nvidia выставила рекомендованную цену для рынка США в $159 — пожалуй, чуть выше типичной цены для видеокарты подобного уровня. Но они следуют своей линейке, чуть дороже продаётся уже GeForce GTX 960, а дешевле — GTX 750 Ti. Как ни странно, последнюю всё-таки оставили в линейке, снизив её цену. Ну а прямым соперником новинки является модель Radeon R7 370, основанная на урезанном чипе Pitcairn, которую компания AMD запустила в продажу в июне 2015 года по цене $149. Решение компании AMD не может соперничать с новинкой Nvidia по возможностям, так как оно изрядно устарело, но AMD традиционно играет на привычной для них струне, предлагая более низкую цену за примерно ту же производительность и достаточную функциональность.

Рассматриваемая модель компании Nvidia выполнена на базе чипа GM206, имеющего 128-битную шину памяти, но сравнительно низкая ПСП тут скомпенсирована оптимизациями и новыми методами сжатия информации. Объем установленной на видеокарту видеопамяти мог быть 2 или 4 ГБ, но в случае бюджетной модели совершенно логично решение поставить 2 ГБ, чего может быть недостаточно в наиболее требовательных 3D-играх при максимальных настройках качества, высоких разрешениях и сглаживании. В любом случае, установка 4 ГБ памяти стандарта GDDR5 обошлась бы слишком дорого для платы за $159.

Производители выпустили свои собственные дизайны для GeForce GTX 950, отличающиеся друг от друга и по печатным платам и по системе охлаждения. Референсная карта для дополнительного питания использует один 6-контактный разъем PCI-E, партнёры могут изменять это решение по собственным соображениям, но оно и так подобрано с запасом, ведь одной из самых интересных характеристик GeForce GTX 950 являются требования к питанию — эта плата экономичнее старшей модели в линейке. Типичное энергопотребление GeForce GTX 950 составляет 90 Вт, что на целых 30 Вт ниже, чем у GTX 960, и на столько же больше, чем у заметно менее производительной GTX 750 Ti.

Подобное снижение TDP по сравнению с полноценным GPU в составе GTX 960 объясняется не только уменьшенным количеством функциональных блоков, но и пониженной базовой частотой GPU. Впрочем, новая модель GeForce GTX 950 всё так же требует подключения дополнительного питания по 6-контактному разъёму, а сниженное потребление особенно важно разве что для применения в домашних кинотеатрах и других подобных применениях.

Референсная плата GeForce GTX 950 похожа на PCB от GTX 750 Ti. Новинка двухслотовая, она имеет воздушный кулер обычного типа, отличающийся от того, что Nvidia сделала для GTX 960. Но даже при этом, GeForce GTX 950 очень хорошо разгоняется до частот порядка 1,4 ГГц, пусть и при повышении энергопотребления. И с самого начала партнеры Nvidia воспользовались этой возможностью, создав собственные модели на основе этого GPU, с иными печатными платами, системами питания и охлаждения, многие из которых отличаются фабричным разгоном.

Референсная плата дизайна Nvidia имеет три DisplayPort 1.2 разъема, один Dual Link DVI и порт HDMI 2.0 — эта версия стандарта позволяет выводить изображение в 4K-разрешении с частотой обновления вплоть до 60 Гц. Решение поддерживает разрешения до 5K (5120×3200 пикселей при 60 Гц) и HDCP 2.2. Указанный набор портов вывода изображения и разъем питания справедливы лишь для видеокарт Nvidia, а производители видеокарт выпускают собственные варианты Geforce GTX 950, отличающиеся дизайном печатных плат, систем охлаждения и питания.

GeForce GTX 950 имеет неплохие способности для разгона. При базовой частоте в 1024 МГц и турбо-частоте в 1188 МГц, многие видеокарты этой модели легко работают в разгоне на частотах порядка 1400 МГц — и это без каких-то модификаций систем питания и охлаждения. При этом температура графического процессора на референсной видеокарте остаётся в пределах 80 градусов. Неудивительно, что партнёры компании сразу предложили несколько вариантов фабрично разогнанных GeForce GTX 950 прямо со дня анонса.

Архитектура

GeForce GTX 950 основана на графическом процессоре GM206, также применяемом в видеокарте GeForce GTX 960. Этот GPU включает все архитектурные возможности GM204 и GM200, на которых основаны топовые модели, поэтому все сказанное в статье по GTX 980 относится в полной мере и к бюджетной новинке. Основной отличительной особенностью всех графических процессоров архитектуры Maxwell является потрясающая энергоэффективность. Мультипроцессоры этой архитектуры были тщательно переработаны для того, чтобы потоковые CUDA ядра были задействованы в работе как можно чаще, что снижает пустые траты энергии.

Была переделана и подсистема памяти. Каждый мультипроцессор Maxwell имеет выделенную общую память объёмом 96 КБ, а кэш-память первого уровня и текстурный кэш имеют объём 48 КБ на каждый SMM. Также GM206 имеет довольно приличный объём кэш-памяти второго уровня в 1 МБ, что снижает количество обращений к сравнительно медленной GDDR5-памяти и экономит энергию. Ну и не забываем про новые методы сжатия цветовой информации во фреймбуфере, позволяющие всем GPU семейства Maxwell ещё эффективнее использовать имеющуюся пропускную способность — в частности, GM206 использует в среднем на четверть меньший объём памяти и её ПСП, по сравнению с предыдущими решениями на чипах Kepler.

В модели GeForce GTX 950 используется упрощённая модификация чипа GM206-250. По сравнению с GTX 960, новинка потеряла четверть своих мультипроцессоров (SMM) — из восьми физически имеющихся их осталось лишь шесть. Соответственно снизилось и количество потоковых CUDA-процессоров: с 1024 до 768, а также и число текстурных блоков: 48 вместо 64 штук. А вот система памяти GeForce GTX 950 изменилась мало — это всё те же 2 ГБ GDDR5-памяти, присоединённые по 128-битной шине. Да и количество блоков ROP осталось нетронутым — в чипе всё так же 32 ROP, как и в старшей модели.

Графический процессор GM206 поддерживает последнюю версию технологии динамического изменения тактовой частоты и напряжения GPU Boost, обеспечивающую максимально возможную 3D-производительность в определенных условиях (напряжение, температура, потребление) при сохранении минимального уровня частоты, который гарантируется при любых номинальных условиях.

Что касается конкретной тактовой частоты, то GTX 950 в референсном виде имеет довольно большую разницу между базовой частотой и турбо-частотой, по сравнению с GTX 960, а именно 1024 и 1188 МГц, соответственно. Турбо-частота, как обычно, является лишь усредненным значением для нескольких игр, используемых компанией Nvidia в своих тестах. В реальности же она будет изменяться, и может быть как выше, так и ниже этого значения.

Столь большая разница между значениями и довольно высокая турбо-частота, вероятно, были сделаны из-за заметно меньшего уровня энергопотребления — ведь нижняя граница частоты всегда должна обеспечивать стабильную работу при более жёстком ограничении TDP, а максимум частоты будет ограничен конкретными условиями. То есть, видеочип GeForce GTX 950 при достаточном питании может разгоняться почти как GTX 960, но в жёстких условиях стрессовой загрузки может сбросить частоту больше, чем старшее решение.

Интересно, что частота работы видеопамяти была снижена с 7,0 ГГц до 6,6 ГГц. Это уже никак не спишешь на требовательность по питанию, скорее всего, такой ход сделали просто для того, чтобы чуть больше разделить два решения по производительности.

Новые возможности и выводы

Аналогично старшим моделям вроде GeForce GTX 980, новая плата поддерживает HDMI 2.0 и вывод изображения до 5K до четырех дисплеев одновременно. А с распространением видеоконтента в разрешении 4K становится важной поддержка HDCP 2.2 по HDMI. Среди новых возможностей свежего решения можно отдельно выделить улучшенный блок работы с видеоданными, особенно важный потому, что из-за невысокого потребления энергии некоторые пользователи могут захотеть использовать GeForce GTX 950 в составе систем домашних кинотеатров.

Чтобы удовлетворить их потребности, в графический процессор GM206 была добавлена поддержка аппаратного кодирования и декодирования видеоданных в формате H.265 (известном также как HEVC). В то время, как старшие модели на базе чипа GM204 имеют аппаратную поддержку только для кодирования видео в этот формат, бюджетный графический процессор GM206 также умеет и аппаратно декодировать видеоданные в формате H.265.

По остальным вопросам архитектурных и функциональных тонкостей новинки вы можете обратиться к обзорам GeForce GTX 980 и GTX 750 Ti, в которых мы подробно писали об архитектуре Maxwell, устройстве потоковых мультипроцессоров (Streaming Multiprocessor — SM), организации подсистемы памяти и некоторых других архитектурных отличиях. Там же вы можете ознакомиться и с новыми функциональными возможностями, вроде аппаратной поддержки ускорения расчета глобального освещения VXGI, новыми методами полноэкранного сглаживания и улучшенными возможностями графического API DirectX 12.

Видеокарта модели GeForce GTX 950 предназначена для обычных пользователей, планирующих потратить минимальное количество денег, но всё же играющих при достаточно высоких настройках в разрешении не выше 1920×1080 и при выборочном включении полноэкранного сглаживания методами FXAA и MFAA. Даже в условиях требовательных игр можно подобрать такой метод сглаживания, при котором GeForce GTX 950 обеспечит приемлемую частоту кадров с отличным качеством изображения.

Функционально новая плата выглядит отлично, не уступая старшему решению линейки, а по аппаратным возможностям декодирования видеоданных даже опережая его. Если сравнивать новинку Nvidia с её главным ценовым соперником в лице AMD Radeon R7 370, то GeForce имеет явное преимущество по энергоэффективности. Так как графический процессор основан на архитектуре Maxwell, он потребляет значительно меньше энергии при выполнении той же работы, что и предыдущие чипы Nvidia и решения конкурирующей компании AMD. Это означает и возможность установки простого кулера или системы охлаждения с лучшими акустическими характеристиками.

А ещё новая плата Nvidia обладает поддержкой версии HDMI 2.0, что позволяет выводить изображение в разрешении 4K на телевизоры с частотой обновления в 60 Гц, чем не может похвастать конкурент, поддерживающий лишь HDMI 1.4 и 30 Гц. Среди других преимуществ GeForce GTX 950 выделим поддержку некоторых возможностей DirectX 12, которые объединены в уровень Feature Level 12.1, тогда как Radeon R7 370 поддерживает лишь Feature Level 11.1. На данный момент эта разница не слишком важна, но в будущих игровых проектах может повлиять на производительность и возможность включения некоторых эффектов.

Из потенциальных недостатков можно выделить разве что лишь 128-битную шину памяти и объем видеопамяти в 2 ГБ, чего достаточно для большинства игр и разрешений не выше 1080p, но в некоторых случаях будет наблюдаться нехватка ПСП или памяти, что скажется на итоговой скорости. Будем надеяться, что новые методы сжатия данных в буфере будут работать эффективно и сэкономят 25% полосы пропускания. Но это придирки, так как видеокарта относится к бюджетным.

У новинки есть явное преимущество по энергоэффективности перед конкурентами, и с потреблением в 90 Вт GeForce GTX 950 довольствуется скромной и тихой системой охлаждения. Некоторые модели от партнёров умеют даже выключать вентилятор СО в режиме простоя, что может быть весьма востребовано в домашних ПК и системах домашних кинотеатров. Там же будет полезна и поддержка всех последних стандартов вывода визуальной информации, включая HDMI 2.0. GeForce GTX 950 является неплохим вариантом для обновления видеоподсистемы для тех пользователей, которые не приобрели аналогичные модели из линеек GeForce GTX 600, 700 и 900. А владельцы устаревших видеокарт при смене видеокарты на GTX 950 получат приличный прирост в производительности и функциональности, а также значительно меньшее энергопотребление и тепловыделение.

Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт GT2XX
Справочная информация о семействе видеокарт GF1XX
Справочная информация о семействе видеокарт GK1XX/GM1XX
Справочная информация о семействе видеокарт GM2XX