Nvidia Geforce GTX 460:

распространение новой архитектуры GF1xx на средний ценовой диапазон

СОДЕРЖАНИЕ

Уже традиционно после выхода флагмана новой архитектуры через какое-то время выходят в свет продолжатели нового веяния, только менее мощные. Флагманы всегда получаются очень мощными и при этом чрезвычайно дорогими, и потому далеко не каждый желающий обновить видеокарту может себе позволить выложить 500 и более долларов США за новый продукт. И поэтому большинство пользователей ждет выхода продуктов уже среднего ценового уровня на основе той же архитектуры.

Всегда это выглядит как урезанное в каких-то блоках ядро, выполненное в виде соверщенно нового кристалла. Так было всегда с тех пор, как чипмейкеры ATI (AMD) и Nvidia стали выпускать не одиночные продукты новой архитектуры, а целую линейку.

То есть в нашем случае, мы имеем дело не с физически урезанным тем же GF100 (GTX 480), а с совершенно новым чипом GF104. О его особенностях в плане архитектуры расскажет Алексей Берилло.

Часть 1: Теория и архитектура

Наконец-то мы дождались и решений среднего уровня от компании Nvidia, основанных на последней графической архитектуре Geforce GTX 400, с которой мы познакомились ещё в начале года. Наиболее мощный её представитель был анонсирован позднее — лишь в марте, и вот теперь пришло время и для менее дорогого GPU и видеокарт на его основе.

Понятно, что Nvidia очень заинтересована именно в не слишком дорогих решениях на основе новой архитектуры, так как топовые решения хоть и выгодны, но не имеют таких массовых продаж на рынке, как решения среднего ценового диапазона. До определённой поры, представленные в нём Geforce GTX 260 были вполне достаточны для большинства пользователей. Однако в 2010 году уже весьма желательно было побыстрее обновить графическую архитектуру и в недорогих решениях, ведь предыдущие GPU поддерживают только возможности DirectX 10, а главный конкурент уже давно предлагает решения с поддержкой DirectX 11 во всех ценовых диапазонах.

Причиной столь неторопливого выхода на рынок как GF100 так и GF104 стали всё те же проблемы с выпуском настолько мощных GPU на основе 40-нм технологического процесса фабрик тайваньской компании TSMC. Длительное освоение техпроцесса началось ещё давно, сначала были выпущены мобильные графические чипы AMD и Nvidia, затем настольное решение RV740 от конкурента, при выпуске которого компания AMD получила важный опыт, а также — с решений промежуточной архитектуры GT21x компании Nvidia.

Нужно признать, что решения конкурента, основанные на этом техпроцессе, ранее выходили на рынок быстрее, и с освоением техпроцесса компания AMD справилась несколько лучше. Это касается и топового RV870, и последующих чипов, предназначенных для среднего и нижнего ценовых диапазонов. Это объясняется в том числе тем, что GPU этой компании всё же несколько проще (по количеству транзисторов в чипах) и тем, что GF100/GF104 у Nvidia — это полностью новая архитектура, а не переработанная старая.

Но и сейчас время выхода GTX 460 может стать вполне приемлемым, да и само решение грозит быть весьма удачным, как нам кажется. По исследованиям Nvidia, типичный покупатель меняет видеокарту (или всю систему) раз в три года, и тратит на неё порядка $200-250. По данным статистики Steam Hardware Survey, 31% пользователей имеют видеокарты этого ценового диапазона (55% ещё дешевле, и менее 15% — более дорогие).

По мнению Nvidia, именно таким решением осенью 2007 года был Geforce 8800 GT, он и стоил столько же, и также был предназначен для верхнего среднего ценового диапазона и предлагал отличную DX10 производительность за не слишком большие деньги. Geforce GTX 460 вполне может повторить успех этого бестселлера, но уже для современного DirectX 11 API. Но это всё пока лишь предположения, давайте уже перейдём ближе к теме.

Собственно, теоретическая часть статьи не будет слишком большой, потому что GF104 (и основанный на нём GTX 460) во многом повторяют GF100 (GTX 470 и GTX 480), отличаясь, в основном, лишь количественно. Тем более что вычислительную архитектуру «Fermi» анонсировали ещё осенью прошлого года, и большинство технических данных было раскрыто ещё в январе. Поэтому, перед прочтением этого материала, будет полезно убедиться, что специальный обзор архитектуры GF100 и обзор Geforce GTX 470 и GTX 480 были внимательно прочитаны.

Полезно будет прочитать и остальные предшествующие материалы, если вы ещё не знакомы с архитектурами компании Nvidia, Geforce GTX 200 (GT200) и Geforce GTX 400 (GF100):

Будем считать, что со всеми архитектурами видеочипов Nvidia читатели хорошо знакомы, и рассмотрим подробные характеристики нового графического процессора этой компании и новой модели видеокарт серии Geforce GTX 400, основанных на GF104.

Графические ускорители серии Geforce GTX 460

Кодовое имя чипа GF104;
Технология производства 40 нм;
1.95 миллиарда транзисторов;
Унифицированная архитектура с массивом процессоров для потоковой обработки различных видов данных: вершин, пикселей и др.;
Аппаратная поддержка DirectX 11 API, в том числе шейдерной модели Shader Model 5.0, геометрических (geometry) и вычислительных (compute) шейдеров, а также тесселяции;
256-битная шина памяти, четыре независимых контроллера шириной по 64 бита каждый, с поддержкой GDDR5 памяти;
Частота ядра 675 МГц;
Удвоенная частота ALU 1350 МГц;
8 потоковых мультипроцессоров, включающих 384 скалярных ALU для расчётов с плавающей точкой (поддержка вычислений в целочисленном формате, с плавающей запятой, с FP32 и FP64 точностью в рамках стандарта IEEE 754-2008);
64 блока текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов;
4 широких блока ROP (32 пикселя) с поддержкой режимов антиалиасинга до 32 выборок на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг;
Запись результатов до 8 буферов кадра одновременно (MRT);
Интегрированная поддержка RAMDAC, двух портов Dual Link DVI, а также HDMI и DisplayPort.

Спецификации референсной видеокарты Geforce GTX 460

Частота ядра 675 МГц;
Частота универсальных процессоров 1350 МГц;
Количество универсальных процессоров 336;
Количество текстурных блоков — 56, блоков блендинга — 24/32;
Эффективная частота памяти 3600 (900*4) МГц;
Тип памяти GDDR5, 192/256-бит шина памяти;
Объем памяти 768/1024 МБ;
Пропускная способность памяти 86.4/115.2 ГБ/с;
Теоретическая максимальная скорость закраски 16.2/21.6 гигапикселей в секунду;
Теоретическая скорость выборки текстур 37.8 гигатекселей в секунду;
Два Dual Link DVI-I разъема, один Mini HDMI, поддерживается вывод в разрешениях до 2560х1600;
Двойной SLI разъем;
Шина PCI Express 2.0;
Поддержка HDCP, HDMI, DisplayPort;
Энергопотребление до 150/160 Вт (два 6-штырьковых разъёма);
Двухслотовое исполнение;
Рекомендуемая цена для американского рынка $199/229 (в России — 7999/8999 руб).

Новый графический процессор GF104, предназначенный для среднего ценового диапазона, также выполнен по 40 нм технологическим нормам, как и предшествующий ему топовый видеочип. Только на основе таких технологий и можно выпустить столь мощный GPU, состоящий почти из 2 млрд. транзисторов, при цене готового решения около $200.

Принцип наименования видеокарт Nvidia не изменился, по сравнению с верхними моделями поменялась лишь средняя цифра в индексе. Новое решение получило наименование GTX 460, то есть, это тот же уровень, что и GTX 260 из предыдущего поколения. О пропущенном поколении «3» мы уже писали в прошлый раз, в линейке компании под именем третьей серии ранее появились карты, основанные ещё на старых GPU, предназначенные для OEM-сборщиков.

На основе GF104 пока что была выпущена только одна модель — Geforce GTX 460, которая приходит на смену всех решений от GTX 260 до GTX 285. Впрочем, как хорошо видно по приведённым выше характеристикам, реально под именем GTX 460 будут выпускаться две разные модели видеокарт. На первый взгляд, они отличаются только объёмом видеопамяти, а остальные характеристики у них идентичны, но это не совсем так.

Модели с разным объёмом памяти, хоть и не отличаются тактовыми частотами видеочипа и памяти, и имеют равное количество исполнительных блоков ALU и TMU, но GTX 460 с 768 МБ памяти имеет 192-битную шину памяти, 24 блока ROP и 384 КБ кэш-памяти второго уровня, а модель с 1024 МБ памяти отличается 256-битной шиной, 32 блоками ROP и 512 КБ кэша. Соответственно различна и пропускная способность видеопамяти.

Все эти отличия связаны с количеством активных 64-битных каналов памяти. У 768-мегабайтной версии их три, а у 1024-мегабайтной — четыре. Соответственно, отличается и количество установленных на PCB микросхем памяти. Не совсем понятно, зачем в Nvidia решили сделать две модели под одним и тем же названием, отличающиеся таким образом. К слову, немного отличается и потребление энергии: 150 Вт у младшей версии, и 160 Вт у старшей.

В остальном, кроме указанных отличий, решения одинаковы. Обе модели с разным объёмом памяти имеют по 336 активных вычислительных процессоров (из 384 ALU, физически присутствующих в GPU) и по 56 TMU (из 64 в чипе). И снова мы видим, что решений с полностью рабочим чипом (пока?) не существует, обе GTX 460 урезаны, одна чуть больше, другая чуть меньше. Разница в производительности между моделями вряд ли составит более чем 10-15%, если не брать случаи с нехваткой 768 МБ видеопамяти, но для одного наименования и это слишком много, на наш взгляд.

По мере улучшения выхода годных чипов GF104 и продажи запасов видеокарт Geforce GTX 470, весьма вероятен выход как минимум ещё одной модели видеокарты на основе этого графического процессора. Можно предположить, что это будет некая замена для GTX 465 или даже GTX 470 со всеми активными 384 ALU и 64 TMU, а также более высокими частотами работы как GPU, так и GDDR5 видеопамяти. Скажем, если GPU будет работать на частоте 750 МГц, а видеопамять на 1200(4800) МГц, то такое решение уже вполне способно будет поспорить по производительности и с Geforce GTX 470. Тем более что Nvidia уже сейчас заявляет об отличном разгонном потенциале чипа GF104.

Архитектура графического процессора GF104

Кодовое обозначение GF104 означает, что это графический чип, основанный на вычислительной архитектуре «Fermi», а число «104» — принятое для продуктов Nvidia наименование видеочипа архитектуры, нацеленного на средний ценовой диапазон рынка. Напомним, что новая архитектура Nvidia поддерживает все нововведения современного DirectX 11 API, такие как аппаратная тесселяция и вычислительные возможности DirectCompute. В целом, GF104 очень похож на GF100, и отличия в основном количественные.

В GF104 используются такие же потоковые мультипроцессоры (Streaming Multiprocessor) с ещё большим количеством вычислительных ядер (CUDA cores) в каждом, по сравнению с предыдущей архитектурой и даже топовым GF100. Хотя наиболее важным отличием архитектуры является значительная переработка геометрического конвейера во всех новых GPU. Чтобы соответствовать новым возможностям DirectX 11, в современной архитектуре Nvidia значительно увеличена пиковая производительность обработки геометрии.

Графический конвейер GF104 способен обеспечить высокую производительность в приложениях с использованием тесселяции и обработки больших объёмов геометрических данных. Новая архитектура геометрической обработки использует несколько полиморфных движков (PolyMorph Engines) и блоков растеризации (Raster Engines), работающих параллельно. Также никуда не делась и новая архитектура подсистемы памяти в виде полноценных кэшей первого и второго уровней, которые обеспечивают быстрый доступ к данным.

Как и вышедший ранее топовый чип, GF104 состоит из кластеров графической обработки (Graphics Processing Clusters), каждый из которых содержит несколько потоковых мультипроцессоров (Streaming Multiprocessors), которые, в свою очередь, имеют в своём составе по несколько потоковых процессоров.

GF104 содержит два кластера GPC, восемь мультипроцессоров SM и четыре 64-битных контроллера памяти, сблокированных с кэш-памятью второго уровня и 8 блоками ROP в каждом. Пока что Nvidia выпустила только одну модель видеокарты на основе GF104, но с разным количеством активных контроллеров памяти и её объёмов: GTX 460 с 768 МБ и 1024 МБ.

Всего в состав GF104 входит 384 потоковых процессора, собранных в 8 мультипроцессоров по 48 штук в каждом. В выпущенной на данный момент модели GTX 460 их количество снижено до 336, то есть, один из мультипроцессоров отключен. На схеме чипа он выделен цветом сниженной насыщенности.

Новый GPU в своем полном представлении (которое пока что не вышло на рынок, т.к. GTX 460 урезан по количеству ALU и TMU) содержит внешний интерфейс PCI Express, движок GigaThread, два GPC, по четыре контроллера памяти и укрупненных блоков ROP, а также 384 или 512 КБ (в зависимости от ширины шины и объёма видеопамяти) кэш-памяти второго уровня, присоединённые к блокам ROP.

В отличие от топового чипа, имеющего шесть контроллеров памяти по 64 бита, в составе GF104 есть лишь четыре таких контроллеров, что в сумме составляет 256-бит. Но применение GDDR5 памяти даёт достаточно высокую пропускную способность для решения такого уровня. Младшая модель GTX 460 с 768 МБ памяти отличается одним отключенным укрупнённым блоком ROP и имеет лишь 192-битную шину памяти и 24 блока ROP, которые объединены с контроллерами.

Оба кластера Graphics Processing Clusters содержат по четыре мультипроцессора и по отдельному движку растеризации (Raster Engine). В каждом из GPC есть свой масштабируемый движок растеризации, выполняющий установку треугольников, растеризацию и отбрасывание невидимых поверхностей. Также, оба GPC содержат и отдельные движки PolyMorph, выполняющие выборку вершинных атрибутов и тесселяцию, привязанные к каждому из мультипроцессоров SM в кластере. Всего движков PolyMorph в чипе GF104 — восемь штук, но активных в вариантах GTX 460 — лишь семь, по количеству мультипроцессоров.

Каждый из мультипроцессоров SM теперь содержит по 48 потоковых CUDA ядра, что в полтора раза больше, чем в GF100. Потоковые процессоры имеют в своём составе исполнительное устройство для целочисленных вычислений (INT) и исполнительное устройство для вычислений с плавающей запятой (FPU). Каждый из мультипроцессоров имеет 16 блоков загрузки и сохранения данных (load/store unit, LD/ST или LSU), позволяющих вычислять адреса источника и назначения для 16 потоков за такт.

Изменилось в большую сторону и количество блоков для выполнения специальных функций (Special Function Units, SFU), которые вычисляют сложные операции, такие как синус, косинус, квадратный корень и т.п. Их в GF104 стало восемь, а не четыре, как было в GF100, что теоретически может повысить производительность в некоторых случаях.

Чтобы «прокормить» данными увеличенное количество потоковых процессоров, для каждого мультипроцессора было удвоено количество управляющих блоков — диспетчеров (Dispatch Unit). Каждый мультипроцессор содержит по два планировщика варпов (Warp Scheduler), но по четыре диспетчера инструкций. Это решение позволяет на каждом из SM одновременно запускать по две инструкции за такт на каждый из двух варпов, а всего на SM — по четыре инструкции за такт. Это решение теоретически должно повысить эффективность использования потоковых процессоров (повысить их КПД).

Для графического чипа чуть ли не важнее всего количество и эффективность текстурных модулей. Как видно на схеме мультипроцессора, в каждый из SM поместили уже по восемь текстурных блоков, в отличие от четырёх TMU, имеющихся в каждом мультипроцессоре GF100. Каждый из этих блоков вычисляет адрес и выбирает данные для четырёх текстурных выборок за такт.

В остальном, в TMU по сравнению с GF100 ничего не изменилось, но их общее количество осталось тем же, что и в топовом чипе, при меньшем числе других блоков. Это говорит об ином балансе чипа и вполне вероятно не совсем верном решении Nvidia по включению в состав GF100 лишь 64 TMU. Далее мы проверим, как скажется на результатах GTX 460 такое количество текстурных блоков.

Подсистема памяти в целом осталась той же, как и ожидалось. Каждый мультипроцессор в GF104 имеет 64 килобайта начиповой памяти, которая может быть сконфигурирована в двух разных вариантах: 48 килобайт общей памяти и 16 килобайт L1 кэш-памяти, и наоборот — 16 КБ общей памяти и 48 КБ кэша. Кроме этого, GF104 имеет 512 КБ унифицированной кэш-памяти второго уровня, которая обслуживает все запросы по загрузке и сохранению данных, а также текстурные выборки.

Другие нововведения в GF104

Об остальных изменениях в новом Geforce GTX 460 мы расскажем очень кратко. По заявлениям Nvidia, их новый чип среднего уровня поддерживает битстриминг аудиопотоков форматов Dolby True HD и DTS-HD при передаче сигнала по HDMI на внешние ресиверы, что может быть полезно для HTPC применений. То есть, инженеры Nvidia наконец-то устранили один из недостатков, за которые некоторые пользователи ругали предыдущие чипы, сравнивая их с конкурирующими.

Из наиболее важных изменений для пользователей изменений можно отметить улучшенное управление питанием power gating, позволяющее отключать неиспользуемые функциональные устройства. Никаких дополнительных подробностей пока что неизвестно, но мы уверены, что в этом смысле у GF104 всё сделано лучше, чем у GF100. Решения на основе нового чипа потребляют энергии гораздо меньше.

Ну и последнюю технологию, которую можно упомянуть в этом разделе — это 3D Vision Surround. Если кто ещё не знает, это технология, позволяющая выводить стереоизображение сразу на три монитора. Нет-нет, ничего нового в GF104 в этом смысле нет, он ровно так же программно поддерживает данную технологию при помощи драйверов, просто ранее вышедший драйвер с поддержкой этой технологии существовал лишь в виде бета-версии, а с момента анонса Geforce GTX 460 был выпущен полноценный релиз.

Теоретические выводы

Очевидно, что GF104 основан на улучшенной и доработанной архитектуре Nvidia, впервые увидевшей свет в GF100. Новый GPU среднего ценового диапазона отличается улучшениями, направленными именно на графические расчёты, прежде всего. Взять хотя бы то же увеличенное количество текстурных блоков в мультипроцессорах. Но и улучшения, предназначенные для неграфических расчётов тоже есть — удвоенное количество запускаемых одновременно инструкций за такт на каждый мультипроцессор, увеличенное количество блоков ALU в мультипроцессорах.

Все преимущества графической архитектуры Fermi есть и в GF104. Особенно важны изменения в графическом конвейере — в состав нового GPU входит восемь движков тесселяции (но в GTX 460 активны лишь семь из них) и два блока растеризации, что будет крайне полезно для современных DirectX 11 приложений. По сравнению с предыдущими решениями, GTX 460 должен обеспечить высокую производительность при обработке геометрии, это мы проверим в следующей части материала.

Важно, что в новом чипе было устранено потенциально слабое место топового GPU, основанного на этой архитектуре. В соответствующем материале мы писали, что количество блоков TMU в GF100 в некоторых случаях недостаточно, что вызвало отставание в определённых тестах, ограниченных именно текстурной производительностью. Несмотря на уменьшенное количество потоковых процессоров и блоков ROP, в GF104 оставили такое же число текстурных блоков, что и в топовом чипе. Это должно положительно сказаться на текстурной производительности и скорости рендеринга во многих играх.

Что касается конкретных моделей видеокарт под индексом GTX 460, то они вполне способны завоевать хороший кусок рыночного пирога, так как они отличаются сбалансированными характеристиками и невысокой ценой. Особенно привлекательным выглядит вариант с 1024 МБ видеопамяти, который обладает полноценной 256-битной шиной памяти и большим числом активных блоков ROP. А вот 768 МБ вариант явно будет ограничен в некоторых случаях как более низкой ПСП видеопамяти, так и может отставать в условиях высоких разрешений и включенного полноэкранного сглаживания из-за меньшего филлрейта.

Стоит ли это экономии в тысячу рублей (12.5% от цены)? Решать, конечно же, покупателю, но нам не совсем понятно, зачем вообще понадобилось выпускать 768 МБ и 1024 МБ варианты под одним наименованием, путая потребителя. Ведь решения с одним названием будут обладать разным (до 10-20%, а в тяжелых режимах даже больше) уровнем производительности, что явно вполне способно запутать обычных покупателей, не вдающихся в такие подробности, как число блоков ROP.

Ну и будем ждать следующего решения, имеющего в своей основе полноценный чип GF104, со всеми активными потоковыми процессорами, текстурными блоками, движками тесселяции, контроллерами памяти и блоками ROP. Такое решение, при условии повышения тактовых частот как GPU (способного работать на более высоких частотах, чем 675/1350 МГц, по мнению Nvidia) так и видеопамяти, вполне сможет конкурировать с моделью Geforce GTX 470, основанной на урезанном GF100. Вероятно, именно поэтому появление такой модели откладывается, так как остатки чипов GF100, годных для GTX 470, ещё нужно как-то продавать.

Итак, в первой части мы познакомились с теоретическими особенностями нового чипа GF104 и пары моделей видеокарт на его основе, отличающихся друг от друга объёмом и ПСП видеопамяти. Следующая часть статьи посвящена практической части исследования в синтетических тестах, в которой мы сравним производительность нового решения GTX 460 со скоростью предыдущих решений компании и конкурирующих видеокарт AMD.