Семейства видеокарт NVIDIA GeForce

Справочная информация


Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт GT2XX
Справочная информация о семействе видеокарт GF1XX
Справочная информация о семействе видеокарт GK1XX/GM1XX
Справочная информация о семействе видеокарт GM2XX

Спецификации чипов семейства GT2XX

кодовое имя GT200GT200bGT215GT216GT218
базовая статья здесьздесьздесь
технология (нм) 655540
транзисторов (М) ~1400727486260
универсальных процессоров240964816
текстурных блоков8032168
блоков блендинга32884
шина памяти 51212864
типы памятиDDR, GDDR2, GDDR3, GDDR4DDR, GDDR2, GDDR3, GDDR4, GDDR5
системная шина чипаPCI-Express 2.0 16х
RAMDAC2 х 400МГц
интерфейсыTV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link
HDTV-Out
HDMI
DisplayPort
вершинные шейдеры 4.04.1
пиксельные шейдеры 4.04.1
точность пиксельных вычислений FP32/FP64FP32
точность вершинных вычислений FP32/FP64FP32
форматы текстур FP32
FP16
I8
DXTC, S3TC
3Dc
другие
форматы рендеринга FP32
FP16
I8
10
другие
MRTесть
АнтиалиасингTAA (AA прозрачных полигонов)
CSAA 2x-16x
генерация Z 2х в режиме без цвета


Спецификации референсных карт на базе семейства GT2XX

картачипблоков ALU/TMU/ROPчастота ядра (МГц)частота памяти (МГц)объем памяти (МБ)ПСП (ГБ/c)
бит
тексту-
рирование (Гтекс)
филлрейт (Гпикс)
GeForce GTX 260GT200
PEG16х
192/645761000(2000)896 GDDR3112.0
(448)
36.916.1
GeForce GTX 260 (216 sp)GT200
PEG16х
216/725761000(2000)896 GDDR3112.0
(448)
41.516.1
GeForce GTX 280GT200
PEG16х
240/806021100(2200)1024 GDDR3140.8
(512)
48.119.3
GeForce GTX 275GT200b
PEG16х
240/806331134(2268)896 GDDR3127
(448)
50.617.7
GeForce GTX 285GT200b
PEG16х
240/806481242(2484)1024 GDDR3159
(512)
51.820.7
GeForce GTX 2952xGT200b
PEG16х
2x(240/80)5761000(2000)2x896 GDDR32x112.0
(2x512)
92.232.2
GeForce 210GT21816/8/4589/1402500(1000)512 DDR28.0
(64)
4.72.4
GeForce GT 220GT21648/16/8625/1360800(1600)512/1024 DDR325.3
(128)
10.05.0
GeForce GT 240 (GDDR3)GT21596/32/8550/13601000(2000)512/1024 GDDR332.0
(128)
17.64.4
GeForce GT 240 (GDDR5)GT21596/32/8550/1360850(3400)512/1024 GDDR554.4
(128)
17.64.4
картачипблоков ALU/TMU/ROPчастота ядра (МГц)частота памяти (МГц)объем памяти (МБ)ПСП (ГБ/c)
бит
тексту-
рирование (Гтекс)
филлрейт (Гпикс)


Подробности: GT200, семейство GeForce GTX 200

Спецификации GT200

  • кодовое имя чипа GT200;
  • технология 65 нм;
  • 1,4 миллиарда транзисторов;
  • унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных;
  • аппаратная поддержка DirectX 10, в том числе шейдерной модели — Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output);
  • 512-битная шина памяти, восемь независимых контроллеров шириной по 64 бита;
  • частота ядра 602 МГц (GeForce GTX 280);
  • ALU работают на более чем удвоенной частоте 1,296 ГГц (GeForce GTX 280);
  • 240 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP 32-бит и 64-бит точности в рамках стандарта IEEE 754(R), выполнение двух операций MAD+MUL за такт — подробности см. далее);
  • 80 блоков текстурной адресации и фильтрации (как и в G84/G86 и G92) с поддержкой FP16 и FP32 компонент в текстурах;
  • возможность динамических ветвлений в пиксельных и вершинных шейдерах;
  • 8 широких блоков ROP (32 пикселя) с поддержкой режимов антиалиасинга до 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность всей подсистемы до 128 MSAA отсчетов (+ 128 Z) за такт, в режиме без цвета (Z only) — 256 отсчетов за такт;
  • запись результатов до 8 буферов кадра одновременно (MRT);
  • все интерфейсы (два RAMDAC, два Dual DVI, HDMI, DisplayPort, HDTV) интегрированы на отдельный чип.

Спецификации референсной видеокарты GeForce GTX 280

  • частота ядра 602 МГц;
  • частота универсальных процессоров 1296 МГц;
  • количество универсальных процессоров 240;
  • количество текстурных блоков — 80, блоков блендинга — 32;
  • эффективная частота памяти 2,2 ГГц (2*1100 МГц);
  • тип памяти GDDR3;
  • объем памяти 1024 МБ;
  • пропускная способность памяти 141,7 ГБ/с;
  • теоретическая максимальная скорость закраски 19.3 гигапикселей в с;
  • теоретическая скорость выборки текстур до 48.2 гигатекселя в с;
  • два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600;
  • двойной SLI разъем;
  • шина PCI Express 2.0;
  • TV-Out, HDTV-Out, DisplayPort (опционально);
  • энергопотребление до 236 Вт;
  • двухслотовое исполнение;
  • рекомендуемая цена $649.

Спецификации референсной видеокарты GeForce GTX 260

  • частота ядра 576 МГц;
  • частота универсальных процессоров 1242 МГц;
  • количество универсальных процессоров 192;
  • количество текстурных блоков — 64, блоков блендинга — 28;
  • эффективная частота памяти 2,0 ГГц (2*1000 МГц);
  • тип памяти GDDR3;
  • объем памяти 896 МБ;
  • пропускная способность памяти 111,9 ГБ/с;
  • теоретическая максимальная скорость закраски 16,1 гигапикселей в с;
  • теоретическая скорость выборки текстур до 36,9 гигатекселя в с;
  • два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600;
  • двойной SLI-разъем;
  • шина PCI Express 2.0;
  • TV-Out, HDTV-Out, DisplayPort (опционально);
  • энергопотребление до 182 Вт;
  • двухслотовое исполнение;
  • рекомендуемая цена $399;

Архитектура

Ещё первое поколение унифицированных чипов NVIDIA (серии GeForce 8 и 9) имело в своей основе масштабируемый массив процессоров. Второе поколение унифицированной архитектуры, которое мы сегодня рассматриваем, также имеет подобную основу, но улучшенную и переработанную. Массив содержит определённое количество блоков TPC (Texture Processing Clusters), каждый из которых включает несколько потоковых мультипроцессоров (streaming multiprocessors — SM). А каждый из SM, в свою очередь, состоит из нескольких потоковых процессоров (SP), которые чаще всего считаются и сравниваются в маркетинговых материалах. Потоковые мультипроцессоры также содержат блоки выборки и фильтрации текстурных данных, используемых как в графических задачах, так и в некоторых расчётных.

Новое поколение архитектуры графических чипов NVIDIA увеличило свою вычислительную производительность по сравнению с предыдущими чипами G80 и G92. Во-первых, число потоковых мультипроцессоров SM на каждый блок TPC возросло и стало равным трём, в отличие от двух в предыдущем поколении. Во-вторых, число блоков TPC в чипе было увеличено с 8 штук до 10. В итоге мы получили 10 * 3 * 8 = 240 потоковых процессоров в одном GPU. Приведём основную диаграмму чипа GT200:



Всё то же, что и у G80, особенных изменений нет, разве что диаграмма ярче стала. В верхней части диаграммы виден диспетчер — логика, которая управляет выполнением многочисленных шейдеров. Также там расположены и блоки triangle setup, и другие. Далее, идут уже десять блоков TPC, каждый из которых включает по 24 потоковых процессора и по 8 блоков текстурной выборки, и фильтрации. Блоки ROP, связанные с интерфейсом обмена с памятью, расположены в нижней части диаграммы. А   подробная диаграмма блока TCP:



Ничего особенно нового, очевидны только количественные изменения и добавленный FP64. К слову, каждый TCP содержит локальную память объёмом 16 Кб, которая разделяется между всеми потоковыми процессорами в блоке.

Чтобы было понятнее, какую часть чипа занимают те или иные блоки в GPU, приведем фотографию чипа GT200 с указанными площадями соответствующих исполнительных блоков.



В центре, вероятно, расположена управляющая логика. Кэши в видеочипах небольшие, по сравнению с процессорными, и на схеме они отдельно не выделены, хотя они там есть. Как видите, больше всего места занимают потоковые процессоры, но довольно велики и блоки TMU и ROP, первые мало уступают по занимаемой площади шейдерным процессорам. Понятно, почему транзисторный бюджет и общая площадь чипа так сильно выросли, ведь в GT200, по сравнению с G80 и G92 выросло количество всех блоков, без исключения.

В результате всех количественных и качественных изменений, эффективность новой архитектуры значительно увеличена, по сравнению с предыдущим поколением. Сейчас мы подробно остановимся на каждой модификации в новом поколении GPU. Увеличенное количество одновременно исполняющихся потоков

Одной из важнейших отличительных особенностей GT200 является поддержка более чем 30000 потоков. Управляющая потоками логика следит за тем, чтобы все потоковые процессоры были заняты работой на 100%, чтобы их мощности не простаивали. Каждым блоком SM поддерживается одновременное выполнение до 1024 потоков, что для 30 подобных блоков на чип составляет целых 30720 потоков, одновременно исполняемых GT200. Сравните с 768 потоками на SM и 12288 потоков на GPU для предыдущих решений на основе чипов G80 и G92.

Это изменение должно вызвать прирост производительности и гибкости, как параллельных вычислений, так и сложных графических расчётов. К сожалению, NVIDIA не приводит  статистики, поэтому судить о реальных приростах сложно. Увеличенный размер файла регистров

По сравнению с G80 и G92, был удвоен размер локального регистрового файла в каждом блоке SM. Предыдущие решения иногда сталкивались с ситуациями, когда сложные и длинные шейдеры упирались в нехватку места для регистров, и их значения перебрасывались в память, что снижало производительность. Увеличенный размер файла регистров на GT200 позволяет осуществлять выполнение сложных и длинных шейдеров с большей эффективностью и производительностью.

Конечно, это вызвало определённое усложнение чипа и увеличение его площади, но регистровый файл занимает незначительную часть площади блоков SM. Зато увеличивающаяся сложность шейдеров в играх и приложениях приведет к увеличению производительности в случаях, когда им требуется много регистров. Так, по данным самой NVIDIA, увеличенный вдвое регистровый файл даёт прирост скорости в 3DMark Vantage на 10-15%. Это очень хорошая цифра для подобной экстенсивной модификации в чипе. Улучшенные возможности по одновременному исполнению двух инструкций (Dual Issue)

Dual Issue — это способность выполнения сразу двух инструкций за такт в одном шейдере (MAD+MUL в данном случае). В каждом блоке SM содержатся специальные исполнительные блоки (special function unit — SFU), они вычисляют сложные функции, интерполируют атрибуты, а также выполняют операции умножения (MUL). С их помощью каждый потоковый процессор чипа GT200 способен исполнять не только одну операцию умножения со сложением (multiply-add — MAD), но одновременно ещё и MUL.

Для выполнения MAD используются возможности самих потоковых процессоров, а SFU в то же время выполняет ещё одну операцию умножения. Специально оптимизированные тесты используют эту возможность с близкой к 100% эффективностью, и именно благодаря этой особенности, анонсированные компанией NVIDIA видеокарты достигают пиковой теоретической производительности почти в гигафлоп для вычислений с плавающей точкой одинарной точности. Поддержка вычислений двойной точности

Но не одной одинарной точностью может похвалиться рассматриваемый видеочип. Очень важным для вычислительных задач (CUDA и т.п.) добавлением в GT200 является поддержка вычислений с плавающей точкой двойной точности (64-бит). Это необходимо для целого ряда научных, инженерных и финансовых задач, требующих очень высокой точности расчётов. Для этих расчётов каждый SM содержит блок для математических вычислений с двойной точностью, и всего в чипе получается 30 таких блоков.

Каждый из этих блоков выполняет операцию MAD с более высокой точностью, в соответствии со спецификациями стандарта IEEE 754R. Общая производительность вычислений с двойной точностью у всех десяти блоков TPC в GeForce GTX 200 доходит до 90 гигафлопс в пике, что примерно равно мощности восьмиядерного центрального процессора Xeon. Увеличенная скорость текстурирования

Предыдущий топовый чип NVIDIA, известный под кодовым названием G80, содержал восемь блоков TPC, в каждом из которых было по восемь блоков текстурной фильтрации (64 пикселя за такт) и по четыре блока текстурной адресации (32 пикселя за такт). Они могли выбирать 32 пикселя 8-битных значений за такт, в том числе 2x анизотропно отфильтрованные, или столько же билинейно отфильтрованных 8-битных или 16-битных значений.

В G92 баланс был изменён в сторону большего количества блоков адресации, этот чип может выбирать и билинейно фильтровать 64 пикселя за такт для текстур с 8 бит на канал и 32 пикселя 16-битных значений с плавающей точкой. Новый чип также содержит аналогичное количество блоков адресации и фильтрации на один TPC. Каждый из них включает восемь текстурных блоков, способных выбирать и фильтровать восемь пикселей за такт или четыре с анизотропной фильтрацией, или четыре в формате FP16.

Для GT200 получается 80 или 40 пикселей за такт, соответственно. Так что, по сути, эффективность текстурирования со времени G92 увеличилась только из-за большего количества соответствующих блоков. Но NVIDIA говорит о том, что GT200 содержит более эффективную управляющую логику, которая позволяет добиться практической скорости выборок более близкой к теоретической, чем предыдущие чипы (имеется в виду G92, у которого с этим были некоторые проблемы, отмечаемые в наших статьях). По их собственным измерениям, новый чип на 22% эффективнее в текстурировании, по сравнению с G92, мы проверим это в следующей части статьи. Изменённое соотношение количества исполнительных блоков

Это лишь следствие внесённых в архитектуру изменений. Количество текстурных блоков увеличилось в меньшее количество раз, по сравнению с ростом числа вычислительных блоков, и их соотношение изменилось. Это стало полезным, так как игры и другие приложения используют всё более сложные и длинные шейдеры, и больший упор идёт в вычисления, а не в текстурные выборки. Поэтому в GeForce GTX 200 сдвинули баланс к большему соотношению числа SP и TMU.

К каждому TPC добавили по одному SM, оставив неизменным количество блоков адресации и фильтрации текстурных данных, поэтому это соотношение выросло в полтора раза по сравнению с G92. Такое решение было принято на основе анализа производительности современных игр и приложений ближайшего будущего (ведь NVIDIA тесно работает с разработчиками игр). Улучшения в блоках ROP

Предыдущее поколение чипов G80 использовало новые на то время блоки ROP с улучшенными возможностями, а в GT200 подсистема ROP была дополнительно переработана. Все базовые возможности остались прежними, но производительность блоков увеличилась за счет экстенсивного роста. Теперь поддерживается вывод до 32 пикселей за такт, по 4 пикселя на каждый широкий блок ROP (всего их восемь).

То же и с одновременной записью цвета и значения Z — до 32 пикселей. Пиксели, использующие 8-битный формат, могут быть выведены с использованием блендинга на удвоенной частоте по сравнению с предыдущим поколением чипов. Старые GPU имеют по шесть широких блоков ROP и могут выводить 24 пикселя за такт и блендить 12 пикселей. GT200 в этих условиях способен выводить 32 пикселя за такт с блендингом. Модифицированные блоки геометрических шейдеров и потокового вывода (stream out)

Предыдущие поколения унифицированных чипов NVIDIA в некоторых условиях показывали слабую производительность геометрических шейдеров и stream out. В частности, это было видно в одном из тестов геометрических шейдеров во второй версии нашего синтетического теста RightMark.

Чтобы исправить ситуацию, внутренние буферы чипа GT200 были значительно увеличены — в несколько раз, по сравнению с G80 и G92. Это позволяет новому чипу показывать значительный прирост скорости в таких задачах с активным использованием геометрических шейдеров и stream out. По данным NVIDIA, в нашем RightMark 3D 2.0 их новая видеокарта GeForce GTX 280 показывает результат в несколько раз выше, чем у GeForce 9800 GTX и оказывается быстрее некоторые из конкурирующих продуктов. Проверим и это. Другие усовершенствования в архитектуре

Судя по данным компании, были сделаны и другие изменения для увеличения производительности и эффективности новой архитектуры. Так, был оптимизирован интерфейс памяти между блоком data assembler и блоками по работе с буфером кадра, что позволило GT200 получить более быстрый доступ к проиндексированным примитивам. В таких условиях у предыдущего поколения были некоторые проблемы.

Был увеличен и размер кэшей, что снизило количество простоев конвейера и ускорило связь между его геометрической и вершинной стадиями с viewport clip и cull. Также увеличилась производительность Z-Culling, что должно быть особенно хорошо заметно по скорости в высоких разрешениях рендеринга. А про улучшения в блоках ROP мы написали выше.

Были проведены некоторые модификации и улучшения в микроархитектуре, связанные с регистрами, логикой управления потоками и инструкциями. Видеочип GT200, по сравнению со старыми чипами, эффективнее «кормит» данными разнообразные исполнительные блоки. Эти изменения, в том числе, позволили реализовать возможность одновременного исполнения двух операций за один такт шейдерными блоками, о которой мы писали чуть выше. Объём видеопамяти — 1 гигабайт

Строго говоря, это не совсем улучшения видеочипа, ведь и на предыдущие решения можно было установить 1 ГБ памяти, и даже более. Но, тем не менее, чем современнее игра, тем более требовательна она к объему установленной видеопамяти. И геометрии больше используют, и текстуры с картами нормалей более высокого разрешения, карты теней и карты среды в 16-битных форматах, и по несколько буферов высокого разрешения (для постобработки и отложенного рендеринга, например)...

Многие современные техники требовательны к объёмам видеопамяти и пропускной её способности. Не говоря о мультисэмплинге, который также сильно влияет на соответствующие требования. Новые видеокарты GeForce GTX 280 поддерживают объём памяти в 1 ГБ, что позволяет увеличить производительность в условиях нехватки видеопамяти, в высоких разрешениях с включенным антиалиасингом. 512-битная шина видеопамяти

А это — очевидное улучшение по сравнению и с G80 и с G92. В GT200 используется 512-битный доступ к локальной памяти, в отличие от 384-битного у G80 и 256-битного у G92. Как и в предыдущих чипах, применяются 64-битные блоки обмена с памятью, только теперь их не четыре и не шесть, а восемь. Соответственно увеличилась ширина шины и пропускная способность памяти.

Изменилась в лучшую сторону в новых решениях и эффективность использования видеопамяти. Блоки по работе с фреймбуфером были переработаны с учётом более высокой частоты памяти, внесены изменения в алгоритмы кэширования и доступа к банкам памяти. А технологии сжатия информации в GT200 получили дальнейшие усовершенствования со времён G92, что усилило позиции решения в тяжёлых режимах. Отсутствие поддержки DirectX 10.1

Несмотря на ожидания некоторых пользователей, новейшим видеочипом GT200 не поддерживаются все возможности DirectX 10.1. Отсутствие этой поддержки NVIDIA объясняет тем, что эта версия API включает некритичное дополнение DirectX 10, некоторые из его возможностей доступны и на картах GeForce, начиная с восьмой серии, например, чтение данных из мультисэмплингового буфера.

По словам компании, их консультации с разработчиками программного обеспечения показали, что поддержка DirectX 10.1 для последних не так важна, поэтому компания решила не вносить изменений в свои чипы, а сосредоточиться на скорости имеющихся возможностей и увеличения эффективности существующих блоков. Подход нельзя назвать приемлемым во всех случаях, но он полностью объясняет позицию NVIDIA по данному вопросу.

CUDA

Видеочип GT200 разрабатывался с прицелом на его активное использование в вычислительных задачах при помощи технологии CUDA. В так называемом расчётном режиме, новый видеочип можно представить как программируемый мультипроцессор с 240 вычислительными ядрами, встроенной памятью, возможностью случайной записи и чтения и гигабайтом выделенной памяти с большой ПСП. Как говорят в NVIDIA, в таком режиме GeForce GTX 280 превращает обычный ПК в маленький суперкомпьютер, обеспечивающий скорость почти в терафлоп, что полезно для многочисленных научных и прикладных задач.

Несколько ключевых факторов делают GeForce GTX 200 отличным параллельным процессором. Во-первых, это CUDA. Ведь важнейшей частью параллельных вычислений всегда является программное обеспечение. А CUDA — это простой и мощный метод для переноса вычислений с CPU на GPU. Также очень важно, что GT200 проектировался специально с учётом его использования для неграфических вычислений, в него добавили такие возможности, как общая память и поддержка вычислений двойной точности.

В итоге, GeForce GTX 280, со своими 240 ядрами, работающими на частоте 1.3 ГГц, является одним из наиболее мощных процессоров по расчётам с плавающей точкой. В этом ему помогает и очень высокая пропускная способность доступа к памяти, которая обеспечивается 512-битной шиной обмена с локальной памятью и быстрая GDDR3 видеопамять.

Довольно большое количество наиболее требовательных задач могут быть перенесены с CPU на GPU при помощи CUDA, и при этом получить прирост производительности при переносе части расчётов на видеочип. На картинке показаны примеры применения CUDA в реальных задачах, приведены цифры, показывающие кратность прироста производительности GPU по сравнению с CPU.



Как видите, задачи самые разнообразные: перекодирование видеоданных, молекулярная динамика, астрофизические симуляции, финансовые симуляции, обработка изображений в медицине и т.п. Причём, приросты от переноса расчётов на видеочип получились порядка 20-140-кратных. Таким образом, новый видеочип поможет ускорить множество разных алгоритмов, если их перенести на CUDA.

Одним из бытовых применений расчётов на GPU можно считать перекодирование видеороликов из одного формата в другой, а также кодирование видеоданных в соответствующих приложениях по их редактированию. Компания Elemental выполнила задачу переноса кодирования на GPU в своём приложении RapidHD, получив следующие цифры:



Мощнейший GPU GeForce GTX 280 отлично показывает себя в этой задаче, прирост скорости по сравнению с быстрейшим центральным процессором составляет более 10 раз. Кодирование двухминутного видеоролика заняло 231 секунду на CPU и всего лишь 21 секунду на GT200. Важно, что применение GPU позволило добиться выполнения данной задачи не просто в реальном времени, но даже и ещё быстрее!

Ещё одной задачей, в которой уже сейчас можно получить огромный прирост производительности, является Folding@Home — распределённые вычисления по симуляции свёртывания молекул белка, целью которого является получение лучшего понимания причин возникновения некоторых болезней, вызываемых дефектными белками. Процесс таких вычислений идёт на видеочипах в десятки и даже сотни раз быстрее, чем на CPU.



Скорость симуляции измеряется в наносекундах в день, число показывает, сколько наносекунд жизни протеина может быть имитировано за один день компьютерных расчётов. Если центральный процессор может симулировать лишь 4 нс/день, PlayStation 3 — около 100 нс/день, то производительность GeForce GTX 280 достигает 590 нс/день, что более чем в сотню раз быстрее, чем CPU, и в три раза быстрее топового одночипового решения конкурента.

Ещё одним важным фактом для подобных распределённых вычислений является то, что в мире есть более 70 миллионов видеокарт NVIDIA с поддержкой CUDA, со средней производительностью около 100 гигафлопов каждая. А теперь представьте, если хотя бы 1% из этих видеокарт будет использоваться в той Folding@Home, это добавит сразу 70 петафлопов потенциальной производительности к проекту! Мощности видеочипов открывают поистине потрясающие возможности, дело лишь в их раскрытии...

По теме CUDA у нас на сайте планируется выход отдельного материала, более подробно раскрывающего аспекты его использования и описание примеров реального применения в различных задачах. А одним из примеров применения, которые полезен для всех пользователей сейчас, служит ускорение физических расчётов на GPU.

NVIDIA PhysX

В современных играх грамотно реализованные физические взаимодействия играют важную роль, они делают игры более интересными. Почти все физические расчёты требовательны к производительности, и соответствующие алгоритмы требуют больших объемов вычислений. До определённого времени эти расчёты выполнялись только на центральных процессорах, потом появились физические ускорители компании Ageia, которые хоть и не получили широкого распространения, но заметно оживили активность на этом рынке.

Производители видеочипов всерьёз взялись за перенос выполнения физических расчётов на GPU. Но изначально они больше работали с Havok, которую затем купила компания Intel. В последующем, NVIDIA пришлось приобрести другую компанию — Ageia, у которой для них был интересен больше всего сам по себе PhysX SDK, а не аппаратные физические ускорители, роль которых теперь отдана видеокартам.

Итак, NVIDIA PhysX является мощным физическим движком реального времени, который используется в большом количестве известных игровых приложений на ПК и игровых консолях. Список игр с поддержкой PhysX содержит более 150 игр, которые выпущены или разрабатываются для нескольких платформ: персонального компьютера, Sony Playstation 3, Microsoft Xbox 360 и Nintendo Wii.

PhysX API изначально использовал возможности центральных процессоров и специализированных ускорителей физики Ageia, но после его портирования на CUDA, расчёты ускоряются на любой видеокарте компании NVIDIA с поддержкой CUDA. То есть, начиная с GeForce 8 и заканчивая свежими GeForce GTX 260 и 280. То есть, все 70 миллионов видеокарт GeForce 8 и 9 серий в скором времени получат поддержку PhysX, в том числе и в ранее вышедших проектах.

При работе с мощным видеочипом, PhysX может предложить много новых эффектов, таких как: динамические эффекты дыма и пыли, симуляция тканей, симуляция жидкостей и газов, погодные эффекты и т.п. Но это всё принципиально возможно и на CPU. Что даёт игрокам перенос физических расчётов на GPU? NVIDIA даёт такую диаграмму, показывающую относительную производительность наиболее распространенных физических алгоритмов на PhysX.



Это такие типы задач, как имитация тканей, частиц, жидкостей и гибких (мягких) тел. В среднем, видеочип оказывается в 11 раз быстрее, чем четырехъядерный центральный процессор, пусть и не самый быстрый. Неплохо, если перенос физики на GPU не снизит общую производительность в случае её упора в возможности видеокарты.

Улучшенная технология управления питанием

Новый видеочип использует улучшенное управление питанием, по сравнению с предыдущим поколением чипов NVIDIA. Он динамически изменяет частоты и напряжения блоков GPU, основываясь на величине их загрузки, и способен частично отключать некоторые из блоков. В итоге, GT200 значительно снижает энергопотребление в моменты простоя, потребляя около 25 ватт, что очень мало для GPU такого уровня. Решение поддерживает четыре режима работы:

  • режим простоя или 2D (около 25 ватт);
  • режим просмотра HD/DVD видео (около 35 ватт);
  • полноценный 3D режим (до 236 ватт);
  • режим HybridPower (около 0 ватт);

Для определения загрузки, в GT200 используются специальные блоки, анализирующие потоки данных внутри GPU. На основе данных от них, драйвер динамически устанавливает подходящий режим производительности, выбирает частоту и напряжение. Это оптимизирует потребление электроэнергии и тепловыделение от карты.

Есть возможность частичного отключения некоторых из блоков GPU, которые не используются в данный момент, что ещё эффективнее работает в целях улучшения энергетической эффективности. Всё это обеспечивает почти 10-кратную разницу в потреблении между режимом простоя и 3D-режимом (25 ватт и 236 ватт, соответственно).

Поддерживается технология HybridPower, о которой мы рассказывали в предыдущих материалах, так что видеочип в GeForce GTX 280 может быть и   отключен, если в качестве платформы используется системная плата на основе интегрированного чипсета nForce, обладающая соответствующей поддержкой (например, nForce 780a и nForce 750a). А в случае запуска требовательных 3D-приложений, драйвер переключает использование интегрированного ядра на внешнюю видеокарту.

Другие особенности новых решений NVIDIA

Не обошлось без поддержки технологии NVIDIA SLI. GeForce GTX 280 поддерживает как обычный SLI режим из двух видеокарт, который увеличивает производительность на 50-80%, и так называемый 3-way SLI, который увеличивает скорость ещё, что позволяет использовать самые высокие разрешения и максимальные настройки качества во всех приложениях. Конечно же, для этого нужна соответствующая системная плата на основе чипсета nForce. Для поддержки этих возможностей на каждой видеокарте установлено по два SLI-разъёма, при помощи которых карты соединяются между собой специальной планкой.



Как и все видеокарты на чипах G9x, GeForce GTX 280 поддерживает и второе поколение PureVideo HD, которое мы знаем по предыдущим чипам серии GeForce 8 и 9. Поддерживаются следующие возможности: аппаратное декодирование видео форматов H.264, VC-1 и MPEG2, улучшенная постобработка, динамическая подстройка контраста и цветовых тонов, двухпоточное декодирование HD видео, одновременная работа интерфейса Windows Vista Aero и декодирование HD видео.

На референсных видеокартах GeForce GTX 260 и 280 установлены по два Dual Link DVI выхода с поддержкой HDCP, а также один HDTV выход. HDMI и DisplayPort выводы можно реализовать при помощи переходников с DVI на HDMI или DisplayPort, также вероятен выпуск видеокарт от партнёров компании NVIDIA с установленными на них соответствующими разъемами.

Подробности: GT200b, семейство GeForce GTX 200

Спецификации GT200b

  • Кодовое имя чипа GT200b
  • Технология производства 55 нм
  • 1,4 миллиарда транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10, в том числе шейдерной модели — Shader Model 4.0, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 512-битная шина памяти, восемь независимых контроллеров шириной по 64 бита каждый
  • Частота ядра 648 МГц
  • Более чем удвоенная частота ALU 1476 МГц
  • 240 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754(R), выполнение двух операций MAD+MUL за такт
  • 80 блоков текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 8 широких блоков ROP (32 пикселя) с поддержкой режимов антиалиасинга до 16 выборок на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность подсистемы до 128 MSAA отсчетов (+ 128 Z) за такт, в режиме без цвета (Z only) — 256 отсчетов за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT);
  • Интерфейсы (два RAMDAC, два Dual Link DVI, HDMI, DisplayPort, HDTV) интегрированы на отдельный чип.

Спецификации референсной видеокарты GeForce GTX 285

  • Частота ядра 648 МГц
  • Частота универсальных процессоров 1476 МГц
  • Количество универсальных процессоров 240
  • Количество текстурных блоков — 80, блоков блендинга — 32
  • Эффективная частота памяти 2484 (2*1242) МГц
  • Тип памяти GDDR3
  • Объем памяти 1024 МБ
  • Пропускная способность памяти 159 ГБ/с
  • Теоретическая максимальная скорость закраски 20.7 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 51.8 гигатекселей в сек.
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • Двойной SLI разъем
  • Шина PCI Express 2.0
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 183 Вт (два 6-штырьковых разъёма)
  • Двухслотовое исполнение
  • Рекомендуемая цена $349

Производство видеочипов GT200b по 55 нм технологическим нормам позволило компании NVIDIA не просто тихо сменить в GeForce GTX 280 чипы на новые, но выпустить обновленное решение со своим именем и улучшенными скоростными характеристиками. Кроме повышенной скорости, решение потребляет значительно меньше энергии, по сравнению со своим предшественником GTX 280.

Обновленная видеокарта NVIDIA обеспечивает примерно такую же высокую производительность при более низком энергопотреблении. Мы уже говорили ранее о том, что хотя видеочипы GT200b сделаны при помощи того же 55 нм техпроцесса, что и RV770, они имеют значительно большую площадь и количество транзисторов, но решения на их основе потребляют энергии даже меньше, чем конкурирующие.

Кроме чипа и нового дизайна платы, и вызванных этим небольшим улучшением характеристик, с пользовательской точки зрения в GTX 285 ничего не изменилось по сравнению с GTX 280. Но помимо небольшого повышения тактовых частот, GTX 285 отличается значительно сниженным энергопотреблением. Видеокарта GeForce GTX 280, основанная на чипе GT200, изготовленном с применением 65 нм техпроцесса, потребляет до 236 Вт. Перевод производства GT200 на 55 нм технологические нормы позволил снизить эту цифру максимального энергопотребления до 183 Вт, что почти на треть меньше.

В следствиях этого не только снижение требований к блоку питания системы, но и изменения в конфигурации дополнительных разъёмов питания. Сравнительно низкое потребление позволило установить не 8-штырьковый и 6-штырьковый разъёмы питания, а два 6-штырьковых. Которые распространены гораздо шире, особенно на блоках питания.

Спецификации референсной видеокарты GeForce GTX 275

  • Частота ядра 633 МГц
  • Частота универсальных процессоров 1404 МГц
  • Количество универсальных процессоров 240
  • Количество текстурных блоков — 80, блоков блендинга — 28
  • Эффективная частота памяти 2268 (2*1134) МГц
  • Тип памяти GDDR3
  • Объем памяти 896 МБ
  • Пропускная способность памяти 127 ГБ/с
  • Теоретическая максимальная скорость закраски 17.7 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 50.6 гигатекселей в сек.
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • Двойной SLI разъем
  • Шина PCI Express 2.0
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Максимальное энергопотребление до 219 Вт (два 6-штырьковых разъёма)
  • Двухслотовое исполнение
  • Рекомендуемая цена $259

Как уже было упомянуто выше, производство видеочипов GT200b по 55 нм технологическим нормам позволило компании NVIDIA сменить старые модели GeForce GTX 260 и GTX 280 на новые, со своими именами и улучшенными скоростными характеристиками. Но была выпущена и новая модель GTX 275, призванная конкурировать с RADEON HD 4890. Кроме повышенной производительности, решение потребляет меньше энергии, по сравнению со своими предшественниками.

Обратим внимание на объём памяти и название модели. Именно такое количество видеопамяти продиктовано выбором PCB от обновленной GTX 260, имеющей 448-битную шину памяти. Поэтому и установка 896 МБ вполне логична. Этого достаточно для подавляющего большинства применений, как показывает практика.

В NVIDIA поступили совершенно логично и выпустили слегка ускоренную по сравнению с GTX 260 карту под именем GTX 275. Это изменение номера модели вполне понятно покупателям, и говорит о том, что карта является промежуточной между GTX 260 и GTX 285. Пятёрка в окончании означает использование 55 нм видеочипа, а соответственно и улучшенные эксплуатационные характеристики (энергопотребление и нагрев).

Спецификации референсной видеокарты GeForce GTX 295

  • Частота ядер 576 МГц
  • Частота универсальных процессоров 1242 МГц
  • Количество универсальных процессоров 480 (2 x 240)
  • Количество текстурных блоков — 160 (2 x 80), блоков блендинга — 56 (2 x 28)
  • Эффективная частота памяти 2000 (2*1000) МГц
  • Тип памяти GDDR3
  • Объем памяти 1792 (896 x 2) мегабайт
  • Пропускная способность памяти 2 x 112 ГБ/с
  • Теоретическая максимальная скорость закраски 2 x 16.1 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 2 x 46.1 гигатекселей в сек.
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • Одинарный SLI разъем
  • Шина PCI Express 2.0
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 289 Вт (8-штырьковый и 6-штырьковый разъёмы)
  • Двухслотовое исполнение
  • Рекомендуемая цена $499

Производство GT200b по 55 нм технологическим нормам позволило компании NVIDIA выпустить очень мощное двухчиповое решение. Новая видеокарта NVIDIA обеспечивает высокую производительность при сравнимом с HD 4870 X2 энергопотреблении. Это тем более неожиданно, ведь видеочипы GT200b, даже будучи сделаны при помощи того же 55 нм техпроцесса, что и RV770, имеют значительно бОльшую площадь и сложность (количествово транзисторов).

Почему-то в NVIDIA решили выпустить двухчиповую карту под тем же суффиксом-префиксом GTX, изменив только номер модели. Решать, конечно же, им, однако более логичным нам видится выпуск такой модели под каким-то другим названием, вроде GX2 290, или G2X 290. Да пусть даже SLI 290, и то людям было бы понятнее. А выбранное компанией название не говорит о том, что карта двухчиповая, и не делает на этом отличии акцента. Что может запутать покупателя.

Решение ограничиться 448-битной шиной и объёмом памяти по 896 МБ на каждый видеочип, по всей видимости, было вызвано необходимостью сделать разводку PCB более-менее простой. В следствиях — не совсем обычный объём памяти, и что ещё более важно — он меньше, чем у конкурирующей RADEON HD 4870 X2. И хотя разница между 896 и 1024 совсем невелика, и на практике не слишком сильно скажется на производительности, с точки зрения маркетинга это тоже не очень хорошо — пусть и номинально, но по одной из цифр (очень любимой в маркетинге!) решение оказывается «хуже» конкурирующего.

Особенности двухчипового решения

Чипы GT200b — это те же известные нам GT200, просто меньшей площади и более эффективные с точки зрения потребления энергии. Архитектура GT200 была анонсирована ещё прошедшим летом, а если учесть, что это улучшенная архитектура G8x/G9x, то и того раньше — в 2006 году. Основным отличием чипа G92 от G80 была технология производства 65 нм, нововведения GT200 в основном количественные, а GT200b — это тот же GT200. Обо всём этом подробно написано выше по тексту.

NVIDIA решила устанавливать на GTX 295 полноценные чипы GT200 с 240 ALU каждый, а также 80 текстурными блоками. Однако, конфигурацию памяти оставили от GTX 260, то есть 448-битная шина и 896 МБ GDDR3 памяти на чип. Точно как и GTX 260, каждый из двух чипов в GTX 295 использует лишь семь широких блоков ROP из восьми имеющихся в чипе, что даёт 56 блоков ROP в сумме.

Тактовые частоты чипа полностью соответствуют частотам одиночных GeForce GTX 260. Частота GPU, блоков TMU и ROP, равна 576 МГц, а потоковые вычислительные процессоры работают на частоте в 1242 МГц. GDDR3 память тактуется на частоте 1000(2000) МГц.

Между двумя GPU, как и в случае всех предыдущих решений на основе пары видеочипов, установлен чип-коммутатор, который связывает между собой графические процессоры. В данном случае применён чип nForce 200 (BR-04), поддерживающий нужное количество линий на три порта PCI-E с поддержкой версии 2.0. Для связи с каждым чипом отводится по 16 линий PCI-E 2.0, и столько же — для передачи данных между системной платой и видеокартой.

Такой PCI-E мост устанавливался на предыдущее двухчиповое решение компании. Также nForce 200 хорошо известен тем, что предлагался в качестве альтернативного решения для поддержки технологии SLI системными платами на основе чипсета Intel X58.

Аналогично предыдущему двухчиповому решению NVIDIA — GeForce 9800 GX2, новая модель GeForce GTX 295 использует двухплатную конструкцию. Такой дизайн предполагает монтаж двух GPU, каждый из которых имеет свою PCB. Это даёт некоторые преимущества: каждый чип выделяет тепло, нагревая только одну из PCB; кулер охлаждает оба чипа одновременно, в отличие от GeForce 7950 GX2, использующего два устройства охлаждения. Хотя уже совсем скоро NVIDIA должна перевести модель GTX 295 на одноплатную конструкцию.

Максимальное потребление энергии GeForce GTX 295 составляет 289 Вт, что вполне сравнимо с показателем конкурирующей RADEON HD 4870 X2, равным 286 Вт. Карта требует подключения двух разъемов питания: 6-штырькового и 8-штырькового, а рекомендуемым минимумом мощности системного блока питания для одиночной GeForce GTX 295 является значение 680 Вт.

Подробности: GT215/GT216/GT218, семейство GeForce 200

Спецификации GT215/GT216/GT218

  • Кодовые имена чипов GT215/GT216/GT218
  • Технология производства 40 нм
  • 727/486/260 миллиона транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе шейдерной модели — Shader Model 4.1
  • 128/64-битная шина памяти
  • Частота ядра 550-625 МГц
  • Более чем удвоенная частота ALU 1360-1402 МГц
  • 96/48/16 скалярных ALU с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 точности в рамках стандарта IEEE 754
  • 32/16/8 блоков текстурной адресации и фильтрации с поддержкой FP16 и FP32 компонент в текстурах
  • 2 или 1 широких блоков ROP (8/4 пикселей) с поддержкой режимов антиалиасинга до 16 выборок на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Каждый блок состоит из массива гибко конфигурируемых ALU и отвечает за генерацию и сравнение Z, MSAA, блендинг. Пиковая производительность подсистемы до 16-32 MSAA отсчетов (+ 16-32 Z) за такт, в режиме без цвета (Z only) — 32-64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT);
  • Интерфейсы (два RAMDAC, Dual Link DVI, HDMI, DisplayPort) интегрированы в чипе

Спецификации референсной видеокарты GeForce GT 240

  • Частота ядра 550 МГц
  • Частота универсальных процессоров 1360 МГц
  • Количество универсальных процессоров 96
  • Количество текстурных блоков — 32, блоков блендинга — 8
  • Эффективная частота памяти 1000(2000) или 850(3400) МГц
  • Тип памяти GDDR3 или GDDR5
  • Объем памяти 512/1024 МБ
  • Пропускная способность памяти 32.0-54.4 ГБ/с
  • Теоретическая максимальная скорость закраски 4.4 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 17.6 гигатекселей в сек.
  • Шина PCI Express 2.0
  • поддержка DVI, HDMI, DisplayPort
  • Энергопотребление до 69 Вт
  • Однослотовое исполнение
  • Рекомендуемая цена на начало продаж $99

Спецификации референсной видеокарты GeForce GT 220

  • Частота ядра 625 МГц
  • Частота универсальных процессоров 1360 МГц
  • Количество универсальных процессоров 48
  • Количество текстурных блоков — 16, блоков блендинга — 8
  • Эффективная частота памяти 800(1600) МГц
  • Тип памяти DDR3
  • Объем памяти 512/1024 МБ
  • Пропускная способность памяти 25.3 ГБ/с
  • Теоретическая максимальная скорость закраски 5.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 10.0 гигатекселей в сек.
  • Шина PCI Express 2.0
  • поддержка DVI, HDMI, DisplayPort
  • Энергопотребление до 58 Вт
  • Однослотовое исполнение
  • Рекомендуемая цена на начало продаж $69

Спецификации референсной видеокарты GeForce 210

  • Частота ядра 589 МГц
  • Частота универсальных процессоров 1402 МГц
  • Количество универсальных процессоров 16
  • Количество текстурных блоков — 8, блоков блендинга — 4
  • Эффективная частота памяти 500(1000) МГц
  • Тип памяти DDR2
  • Объем памяти 512 МБ
  • Пропускная способность памяти 8.0 ГБ/с
  • Теоретическая максимальная скорость закраски 2.4 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 4.7 гигатекселей в сек.
  • Шина PCI Express 2.0
  • поддержка DVI, HDMI, DisplayPort
  • Энергопотребление до 31 Вт
  • Однослотовое исполнение
  • Рекомендуемая цена на начало продаж $49

С большим опозданием относительно ожидаемого рынком срока, компанией NVIDIA были выпущены обновленные решения для нижнего ценового диапазона, с ценами ниже $100. Их официальные названия: GeForce GT 240, GeForce GT 220 и GeForce 210, по мере снижения производительности. Эти видеокарты основаны на новом семействе GPU: GT215, GT216 и GT218 соответственно.

Эти чипы основаны на модифицированной архитектуре GT200, и изготовлены с применением 40 нм техпроцесса на фабриках TSMC, который попил немало крови у обоих производителей видеочипов (достаточно вспомнить уже почивший RV740 в виде RADEON HD 4770). Ядра получились очень небольших размеров, и соответственно низким энергопотреблением. Впрочем, потребление сравнительно низкое, ведь мощность решений также невысока.

Новые GPU повторяют характеристики некоторых предыдущих чипов линейки G9x (например, GT 240 - GeForce 9600 GSO), но только по количеству потоковых процессоров (96). Число текстурных модулей и модулей растеризации (ROP) было уменьшено. Также были изменены контроллеры памяти, чипами поддерживается 64- и 128-битная шина, но вместе с GDDR5 памятью, которая устанавливается только на старшее решение. Комплектация другими типами памяти также возможна.

Поговорим об отличиях от родительской архитектуры GT200. Старшее решение GeForce GTX 285 имеет 10 кластера (TPC - texture-processing cluster) с 24-ю потоковыми процессорами и 8-ю текстурными блоками в каждом. Также чип GT200 обладает восемью укрупнёнными блоками ROP, каждый из которых выполняет по четыре операции за такт. В результате, считается, что GeForce GTX 285 содержит 240 потоковых процессоров, 80 текстурных модулей, и 32 блока ROP, подключённых к 512-битной шине.

Новые чипы сильно отличаются от прародителя, так как они предназначены для нижнего ценового диапазона. Так, GT215 (GeForce GT 240) имеет четыре TPC кластера с 24 потоковыми процессорами в каждом (всего 96) и по восемь блоков TMU (всего 32). А количество укрупнённых блоков блендинга уменьшилось до двух (всего 8 ROP). Два 64-битных контроллера памяти в итоге дают чипу 128-битный интерфейс памяти.

У GT216 (GeForce GT 220) количество исполнительных блоков ещё меньше - всего два TPC, в каждом по 24 ALU (всего 48), и 16 TMU. А вот шину памяти оставили такую же, что и у старшего (если можно так выразиться) решения. Два 64-битных контроллера дают 128-битную шину.

Понятно, что GT218 урезали, как могли, и этот GPU отличается лишь одним TPC с 16-ю потоковыми процессорами и восемью текстурными модулями. Блоки блендинга (ROP) и контроллеры памяти урезаны вдвое по сравнению со старшими собратьями. Шина памяти 64-битная, и блоков ROP всего четыре.

Переход на 40 нм техпроцесс был нужен компании NVIDIA для того, чтобы снизить себестоимость решений, и повысить прибыль. Но не только переходом на 40 нм отличаются новые low-end чипы. Все они поддерживают DirectX 10.1 и Shader Model 4.1. Да-да, тот самый DX 10.1, поддержкой которого уже давно отличаются решения конкурента. К сожалению, выход сразу с DirectX 11 решениями, которые задерживаются ещё больше, был невозможен. Зато сейчас у NVIDIA в нижнем ценовом диапазоне есть чипы, более функциональные по сравнению с топовыми GPU.

Ещё одним интересным нововведением в GT215 является поддержка нового типа памяти. На GeForce 210 и GeForce GT 220 устанавливают только DDR2, DDR3 и GDDR3, а GeForce GT 240 может комплектоваться и DDR3 и GDDR5 (снова наконец-то догнали AMD). Это важно для производительности, ведь GDDR5 память обеспечивает вдвое большую пропускную способность. Получается, что у GeForce GT 240 ПСП почти соответствует той, что мы видели у 256-битной GeForce 9600 GT с GDDR3 памятью.

Интересно, что GeForce GT 240 - это не только первая видеокарта NVIDIA с поддержкой GDDR5, но и вообще первая видеокарта с этим типом локальной памяти в low-end сегменте. К сожалению, по некоторым данным, в первое время будут продаваться только модели с GDDR3 памятью со сниженной ПСП, так как у партнеров NVIDIA возникли какие-то проблемы с GDDR5 моделями. Поэтому такие видеокарты в продаже появятся позднее.

Итак, новые карты не только энергоэффективны, но и обладают новыми функциональными возможностями: поддержкой DirectX 10.1, технологий CUDA, PhysX и 3D Vision, а также содержат в себе встроенный аудиокодек, который позволяет выводить звук на устройства по HDMI без лишних проводов внутри корпуса. Последнее очень важно для видеокарт такого ценового уровня, в отличие от PhysX и DirectX 10.1.

Но самое важное в выходе low-end решений линейки GeForce 200 о, что на смену снятых с производства решений вроде GeForce 9600 GT в ту же ценовую нишу пришли современные решения. К сожалению, без поддержки DirectX 11 и на основе уже довольно старой архитектуры GT200. И при выходе новых решений от конкурента, основанных на архитектуре RV8xx новым платам NVIDIA будет очень непросто конкурировать с ними, особенно при этом уровне цен.

Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт GT2XX
Справочная информация о семействе видеокарт GF1XX
Справочная информация о семействе видеокарт GK1XX




30 октября 2008 Г.

NVIDIA GeForce -

NVIDIA GeForce



NV4X
G7X
G8X/G9X
Tesla (GT2XX)
Fermi (GF1XX)
Kepler (GK1XX/GM1XX)
Maxwell (GM2XX)
Pascal (GP1XX)

GT2XX

GT200 GT200b GT215 GT216 GT218
() 65 55 40
() ~1400 727 486 260
240 96 48 16
80 32 16 8
32 8 8 4
512 128 64
DDR, GDDR2, GDDR3, GDDR4 DDR, GDDR2, GDDR3, GDDR4, GDDR5
PCI-Express 2.0 16
RAMDAC 2 400
TV-Out
TV-In ( )
2 x DVI Dual Link
HDTV-Out
HDMI
DisplayPort
4.0 4.1
4.0 4.1
FP32/FP64 FP32
FP32/FP64 FP32
FP32
FP16
I8
DXTC, S3TC
3Dc
FP32
FP16
I8
10
MRT
TAA (AA )
CSAA 2x-16x
Z 2


GT2XX

ALU/TMU/ROP () () () (/c)
-
()
()
GeForce GTX 260 GT200
PEG16
192/64 576 1000(2000) 896 GDDR3 112.0
(448)
36.9 16.1
GeForce GTX 260 (216 sp) GT200
PEG16
216/72 576 1000(2000) 896 GDDR3 112.0
(448)
41.5 16.1
GeForce GTX 280 GT200
PEG16
240/80 602 1100(2200) 1024 GDDR3 140.8
(512)
48.1 19.3
GeForce GTX 275 GT200b
PEG16
240/80 633 1134(2268) 896 GDDR3 127
(448)
50.6 17.7
GeForce GTX 285 GT200b
PEG16
240/80 648 1242(2484) 1024 GDDR3 159
(512)
51.8 20.7
GeForce GTX 295 2xGT200b
PEG16
2x(240/80) 576 1000(2000) 2x896 GDDR3 2x112.0
(2x512)
92.2 32.2
GeForce 210 GT218 16/8/4 589/1402 500(1000) 512 DDR2 8.0
(64)
4.7 2.4
GeForce GT 220 GT216 48/16/8 625/1360 800(1600) 512/1024 DDR3 25.3
(128)
10.0 5.0
GeForce GT 240 (GDDR3) GT215 96/32/8 550/1360 1000(2000) 512/1024 GDDR3 32.0
(128)
17.6 4.4
GeForce GT 240 (GDDR5) GT215 96/32/8 550/1360 850(3400) 512/1024 GDDR5 54.4
(128)
17.6 4.4
ALU/TMU/ROP () () () (/c)
-
()
()


: GT200, GeForce GTX 200

GT200

  • GT200;
  • 65 ;
  • 1,4 ;
  • , ;
  • DirectX 10, — Shader Model 4.0, (stream output);
  • 512- , 64 ;
  • 602 (GeForce GTX 280);
  • ALU 1,296 (GeForce GTX 280);
  • 240 ALU ( , FP 32- 64- IEEE 754(R), MAD+MUL — . );
  • 80 ( G84/G86 G92) FP16 FP32 ;
  • ;
  • 8 ROP (32 ) 16 , FP16 FP32 . ALU Z, MSAA, . 128 MSAA (+ 128 Z) , (Z only) — 256 ;
  • 8 (MRT);
  • ( RAMDAC, Dual DVI, HDMI, DisplayPort, HDTV) .

GeForce GTX 280

  • 602 ;
  • 1296 ;
  • 240;
  • — 80, — 32;
  • 2,2 (2*1100 );
  • GDDR3;
  • 1024 ;
  • 141,7 /;
  • 19.3 ;
  • 48.2 ;
  • DVI-I Dual Link , 25601600;
  • SLI ;
  • PCI Express 2.0;
  • TV-Out, HDTV-Out, DisplayPort ();
  • 236 ;
  • ;
  • $649.

GeForce GTX 260

  • 576 ;
  • 1242 ;
  • 192;
  • — 64, — 28;
  • 2,0 (2*1000 );
  • GDDR3;
  • 896 ;
  • 111,9 /;
  • 16,1 ;
  • 36,9 ;
  • DVI-I Dual Link , 25601600;
  • SLI-;
  • PCI Express 2.0;
  • TV-Out, HDTV-Out, DisplayPort ();
  • 182 ;
  • ;
  • $399;

NVIDIA ( GeForce 8 9) . , , , . TPC (Texture Processing Clusters), (streaming multiprocessors — SM). SM, , (SP), . , , .

NVIDIA G80 G92. -, SM TPC , . -, TPC 8 10. 10 * 3 * 8 = 240 GPU. GT200:



, G80, , . — , . triangle setup, . , TPC, 24 8 , . ROP, , . TCP:



, FP64. , TCP 16 , .

, GPU, GT200 .



, , . , , , . , , TMU ROP, . , , GT200, G80 G92 , .

, , . GPU.

GT200 30000 . , 100%, . SM 1024 , 30 30720 , GT200. 768 SM 12288 GPU G80 G92.

, , . , NVIDIA , .

G80 G92, SM. , , , . GT200 .

, , SM. , . , NVIDIA, 3DMark Vantage 10-15%. .

(Dual Issue)

Dual Issue — (MAD+MUL ). SM (special function unit — SFU), , , (MUL). GT200 (multiply-add — MAD), MUL.

MAD , SFU . 100% , , NVIDIA .

. (CUDA ..) GT200 (64-). , , . SM , 30 .

MAD , IEEE 754R. TPC GeForce GTX 200 90 , Xeon.

NVIDIA, G80, TPC, (64 ) (32 ). 32 8- , 2x , 8- 16- .

G92 , 64 8 32 16- . TPC. , , FP16.

GT200 80 40 , . , , G92 - . NVIDIA , GT200 , , ( G92, , ). , 22% , G92, .

. , , . , , , . GeForce GTX 200 SP TMU.

TPC SM, , G92. ( NVIDIA ).

ROP

G80 ROP , GT200 ROP . , . 32 , 4 ROP ( ).

Z — 32 . , 8- , . GPU ROP 24 12 . GT200 32 .

(stream out)

NVIDIA stream out. , RightMark.

, GT200 — , G80 G92. stream out. NVIDIA, RightMark 3D 2.0 GeForce GTX 280 , GeForce 9800 GTX . .

, . , data assembler , GT200 . .

, viewport clip cull. Z-Culling, . ROP .

, , . GT200, , . , , , .

— 1

, , 1 , . , , , . , , 16- , ( , )...

. , . GeForce GTX 280 1 , , .

512-

— G80 G92. GT200 512- , 384- G80 256- G92. , 64- , , . .

. , . GT200 G92, .

DirectX 10.1

, GT200 DirectX 10.1. NVIDIA , API DirectX 10, GeForce, , , .

, , DirectX 10.1 , , . , NVIDIA .

CUDA

GT200 CUDA. , 240 , , . NVIDIA, GeForce GTX 280 , , .

GeForce GTX 200 . -, CUDA. . CUDA — CPU GPU. , GT200 , , .

, GeForce GTX 280, 240 , 1.3 , . , 512- GDDR3 .

CPU GPU CUDA, . CUDA , , GPU CPU.



, : , , , , .. , 20-140-. , , CUDA.

GPU , . Elemental GPU RapidHD, :



GPU GeForce GTX 280 , 10 . 231 CPU 21 GT200. , GPU , !

, , Folding@Home — , , . , CPU.



, , . 4 /, PlayStation 3 — 100 /, GeForce GTX 280 590 /, , CPU, .

, 70 NVIDIA CUDA, 100 . , 1% Folding@Home, 70 ! , ...

CUDA , . , , GPU.

NVIDIA PhysX

, . , . , Ageia, , .

GPU. Havok, Intel. , NVIDIA — Ageia, PhysX SDK, , .

, NVIDIA PhysX , . PhysX 150 , : , Sony Playstation 3, Microsoft Xbox 360 Nintendo Wii.

PhysX API Ageia, CUDA, NVIDIA CUDA. , GeForce 8 GeForce GTX 260 280. , 70 GeForce 8 9 PhysX, .

, PhysX , : , , , .. CPU. GPU? NVIDIA , PhysX.



, , , () . , 11 , , . , GPU .

, NVIDIA. GPU, , . , GT200 , 25 , GPU . :

  • 2D ( 25 );
  • HD/DVD ( 35 );
  • 3D ( 236 );
  • HybridPower ( 0 );

, GT200 , GPU. , , . .

GPU, , . 10- 3D- (25 236 , ).

HybridPower, , GeForce GTX 280 , nForce, (, nForce 780a nForce 750a). 3D-, .

NVIDIA

NVIDIA SLI. GeForce GTX 280 SLI , 50-80%, 3-way SLI, , . , nForce. SLI-, .



G9x, GeForce GTX 280 PureVideo HD, GeForce 8 9. : H.264, VC-1 MPEG2, , , HD , Windows Vista Aero HD .

GeForce GTX 260 280 Dual Link DVI HDCP, HDTV . HDMI DisplayPort DVI HDMI DisplayPort, NVIDIA .

: GT200b, GeForce GTX 200

GT200b

  • GT200b
  • 55
  • 1,4
  • ,
  • DirectX 10, — Shader Model 4.0, (stream output)
  • 512- , 64
  • 648
  • ALU 1476
  • 240 ALU ( , FP32 FP64 IEEE 754(R), MAD+MUL
  • 80 FP16 FP32
  • 8 ROP (32 ) 16 , FP16 FP32 . ALU Z, MSAA, . 128 MSAA (+ 128 Z) , (Z only) — 256
  • 8 (MRT);
  • ( RAMDAC, Dual Link DVI, HDMI, DisplayPort, HDTV) .

GeForce GTX 285

  • 648
  • 1476
  • 240
  • — 80, — 32
  • 2484 (2*1242)
  • GDDR3
  • 1024
  • 159 /
  • 20.7 .
  • 51.8 .
  • DVI-I Dual Link , 25601600
  • SLI
  • PCI Express 2.0
  • TV-Out, HDTV-Out, HDCP, HDMI, DisplayPort
  • 183 ( 6- )
  • $349

GT200b 55 NVIDIA GeForce GTX 280 , . , , GTX 280.

NVIDIA . , GT200b 55 , RV770, , , .

, , GTX 285 GTX 280. , GTX 285 . GeForce GTX 280, GT200, 65 , 236 . GT200 55 183 , .

, . 8- 6- , 6-. , .

GeForce GTX 275

  • 633
  • 1404
  • 240
  • — 80, — 28
  • 2268 (2*1134)
  • GDDR3
  • 896
  • 127 /
  • 17.7 .
  • 50.6 .
  • DVI-I Dual Link , 25601600
  • SLI
  • PCI Express 2.0
  • TV-Out, HDTV-Out, HDCP, HDMI, DisplayPort
  • 219 ( 6- )
  • $259

, GT200b 55 NVIDIA GeForce GTX 260 GTX 280 , . GTX 275, RADEON HD 4890. , , .

. PCB GTX 260, 448- . 896 . , .

NVIDIA GTX 260 GTX 275. , , GTX 260 GTX 285. 55 , ( ).

GeForce GTX 295

  • 576
  • 1242
  • 480 (2 x 240)
  • — 160 (2 x 80), — 56 (2 x 28)
  • 2000 (2*1000)
  • GDDR3
  • 1792 (896 x 2)
  • 2 x 112 /
  • 2 x 16.1 .
  • 2 x 46.1 .
  • DVI-I Dual Link , 25601600
  • SLI
  • PCI Express 2.0
  • TV-Out, HDTV-Out, HDCP, HDMI, DisplayPort
  • 289 (8- 6- )
  • $499

GT200b 55 NVIDIA . NVIDIA HD 4870 X2 . , GT200b, 55 , RV770, ( ).

- NVIDIA - GTX, . , , , - , GX2 290, G2X 290. SLI 290, . , , . .

448- 896 , , PCB - . — , — , RADEON HD 4870 X2. 896 1024 , , — , ( !) «» .

GT200b — GT200, . GT200 , , G8x/G9x, — 2006 . G92 G80 65 , GT200 , GT200b — GT200. .

NVIDIA GTX 295 GT200 240 ALU , 80 . , GTX 260, 448- 896 GDDR3 . GTX 260, GTX 295 ROP , 56 ROP .

GeForce GTX 260. GPU, TMU ROP, 576 , 1242 . GDDR3 1000(2000) .

GPU, , -, . nForce 200 (BR-04), PCI-E 2.0. 16 PCI-E 2.0, — .

PCI-E . nForce 200 , SLI Intel X58.

NVIDIA — GeForce 9800 GX2, GeForce GTX 295 . GPU, PCB. : , PCB; , GeForce 7950 GX2, . NVIDIA GTX 295 .

GeForce GTX 295 289 , RADEON HD 4870 X2, 286 . : 6- 8-, GeForce GTX 295 680 .

: GT215/GT216/GT218, GeForce 200

GT215/GT216/GT218

  • GT215/GT216/GT218
  • 40
  • 727/486/260
  • ,
  • DirectX 10.1, — Shader Model 4.1
  • 128/64-
  • 550-625
  • ALU 1360-1402
  • 96/48/16 ALU ( , FP32 IEEE 754
  • 32/16/8 FP16 FP32
  • 2 1 ROP (8/4 ) 16 , FP16 FP32 . ALU Z, MSAA, . 16-32 MSAA (+ 16-32 Z) , (Z only) — 32-64
  • 8 (MRT);
  • ( RAMDAC, Dual Link DVI, HDMI, DisplayPort)

GeForce GT 240

  • 550
  • 1360
  • 96
  • — 32, — 8
  • 1000(2000) 850(3400)
  • GDDR3 GDDR5
  • 512/1024
  • 32.0-54.4 /
  • 4.4 .
  • 17.6 .
  • PCI Express 2.0
  • DVI, HDMI, DisplayPort
  • 69
  • $99

GeForce GT 220

  • 625
  • 1360
  • 48
  • — 16, — 8
  • 800(1600)
  • DDR3
  • 512/1024
  • 25.3 /
  • 5.0 .
  • 10.0 .
  • PCI Express 2.0
  • DVI, HDMI, DisplayPort
  • 58
  • $69

GeForce 210

  • 589
  • 1402
  • 16
  • — 8, — 4
  • 500(1000)
  • DDR2
  • 512
  • 8.0 /
  • 2.4 .
  • 4.7 .
  • PCI Express 2.0
  • DVI, HDMI, DisplayPort
  • 31
  • $49

, NVIDIA , $100. : GeForce GT 240, GeForce GT 220 GeForce 210, . GPU: GT215, GT216 GT218 .

GT200, 40 TSMC, ( RV740 RADEON HD 4770). , . , , .

GPU G9x (, GT 240 - GeForce 9600 GSO), (96). (ROP) . , 64- 128- , GDDR5 , . .

GT200. GeForce GTX 285 10 (TPC - texture-processing cluster) 24- 8- . GT200 ROP, . , , GeForce GTX 285 240 , 80 , 32 ROP, 512- .

, . , GT215 (GeForce GT 240) TPC 24 ( 96) TMU ( 32). ( 8 ROP). 64- 128- .

GT216 (GeForce GT 220) - TPC, 24 ALU ( 48), 16 TMU. , ( ) . 64- 128- .

, GT218 , , GPU TPC 16- . (ROP) . 64-, ROP .

40 NVIDIA , , . 40 low-end . DirectX 10.1 Shader Model 4.1. -, DX 10.1, . , DirectX 11 , , . NVIDIA , GPU.

GT215 . GeForce 210 GeForce GT 220 DDR2, DDR3 GDDR3, GeForce GT 240 DDR3 GDDR5 ( - AMD). , GDDR5 . , GeForce GT 240 , 256- GeForce 9600 GT GDDR3 .

, GeForce GT 240 - NVIDIA GDDR5, low-end . , , GDDR3 , NVIDIA - GDDR5 . .

, , : DirectX 10.1, CUDA, PhysX 3D Vision, , HDMI . , PhysX DirectX 10.1.

low-end GeForce 200 , GeForce 9600 GT . , DirectX 11 GT200. , RV8xx NVIDIA , .



NV4X
G7X
G8X/G9X
Tesla (GT2XX)
Fermi (GF1XX)
Kepler (GK1XX/GM1XX)
Maxwell (GM2XX)
Pascal (GP1XX)