Семейства видеокарт NVIDIA GeForce
Справочная информация




Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт Tesla (GT2XX)
Справочная информация о семействе видеокарт Fermi (GF1XX)
Справочная информация о семействе видеокарт Kepler (GK1XX/GM1XX)
Справочная информация о семействе видеокарт Maxwell (GM2XX)
Справочная информация о семействе видеокарт Pascal (GP1XX)

Спецификации чипов семейства G7X

кодовое имя G71 G73 G72 G70
базовая статья здесь здесь здесь
технология (нм) 90 110
транзисторов (М) 279 178 112 302
пиксельных процессоров 24 12 4 24
текстурных блоков 24 12 4 24
блоков блендинга 16 8 2 16
вершинных процессоров 8 5 3 8
шина памяти 256 (64х4) 128 (64х2) 64 (32х2) 256 (64х4)
типы памяти DDR, GDDR2, GDDR3
системная шина чипа PCI-Express 16х
RAMDAC 2 х 400МГц
интерфейсы TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link (у младших - один)
HDTV-Out
вершинные шейдеры 3.0
пиксельные шейдеры 3.0
точность пиксельных вычислений FP16
FP32
точность вершинных вычислений FP32
форматы текстур FP32 (без фильтрации)
FP16
I8
DXTC, S3TC
3Dc (эмуляция)
форматы рендеринга FP32 (без блендинга и MSAA)
FP16 (без MSАА)
I8
MRT есть
Антиалиасинг TAA (AA прозрачных полигонов)
2х и 4x RGMS
SS (в гибридных режимах)
генерация Z 2х в режиме без цвета
буфер шаблонов двусторонний
технологии теней аппаратные карты теней
оптимизации геометрических теней


Спецификации референсных карт на базе семейства G7X

карта чип
шина
блоков PS/TMU/VS частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт) тексель рэйт (Мтекс) филл
рэйт (Мпикс)
GeForce 7800 GTX G70
PEG16х
24/24/8 430 600(1200) 256 GDDR3 38.4
(256)
10320 6880
GeForce 7800 GTX 512Mb G70
PEG16х
24/24/8 550 850(1700) 512 GDDR3 54.4
(256)
13200 8800
GeForce 7800 GT G70
PEG16х
20/20/7 400 500(1000) 256 GDDR3 32.0
(256)
8000 6400
GeForce 7800 GS G70
AGP
16/16/6 375 600(1200) 256 GDDR3 38.4
(256)
6000 6000
GeForce 7300 LE G72
PEG16x
4/4/3 450 300(600) 128 GDDR2 4.8
(64)
1800 900
GeForce 7300 GS G72
PEG16х
4/4/3 550 350(700) 256 GDDR2/GDDR3 5.6
(64)
2200 1100
GeForce 7300 GT G73
PEG16х
8/8/4 350 333(667) 128-256 GDDR3 10.7
(128)
2800 1400
GeForce 7600 GS G73
PEG16х
12/12/5 400 400(800) 256 GDDR2 12.8
(128)
4800 3200
GeForce 7600 GT G73
PEG16х
12/12/5 560 700(1400) 256 GDDR3 22.4
(128)
6720 4480
GeForce 7900 GTX G71
PEG16х
24/24/8 650 800(1600) 512 GDDR3 51.2
(256)
15600 10400
GeForce 7900 GT G71
PEG16х
24/24/8 450 660(1320) 256 GDDR3 42.2
(256)
10800 7200
GeForce 7900 GS G71
PEG16х
20/20/7 450 660(1320) 256 GDDR3 42.2
(256)
9000 7200
GeForce 7950 GX2 2xG71
PEG16х
2x(24/24/8) 500 600(1200) 2x512 GDDR3 2x38.4
(2x256)
2x12000 2x8000
карта чип
шина
блоков PS/TMU/VS частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт) тексель рэйт (Мтекс) филл
рэйт (Мпикс)


Подробности: G70, GeForce 7800 GTX

Спецификации G70

  • Кодовое имя чипа G70 (был ранее известен как NV47)
  • Технология 110 нм (предполагаемый производитель TSMC)
  • 302 миллиона транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 256 бит интерфейс памяти
  • До 1 гигабайта GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 24 Пиксельных процессора, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов. Пиксельные процессоры улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции.
  • 8 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2x RAMDAC 400 МГц
  • 2x DVI интерфейса (требуются внешние интерфейсные чипы)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью достаточной для качественного деинтерлейсинга HDTV
  • 2D ускоритель с поддержкой всех функций GDI+
  • Поддержка технологии SLI

Спецификации референсной карты GeForce 7800 GTX

  • Частота ядра 430 МГц
  • Эффективная частота памяти 1.2 ГГц (2*600 МГц)
  • Тип памяти GDDR3, 1.6 нс
  • Объем памяти 256 мегабайт (есть более поздний вариант с 512 мегабайт и повышенными рабочими частотами)
  • Пропускная способность памяти 38.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 6.9 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.4 гигатекселя в сек.
  • Два DVI-I разъема
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет до 110 Ватт энергии (типовое потребление не превышает 100 Ватт, на карте один стандартный для PCI Express разъема дополнительного питания, рекомендуются источники питания суммарной мощностью 350 Ватт, для SLI режима — 500 Ватт).

Заметна некая преемственность по отношению к предыдущим флагманам на базе NV40 и NV45. Сразу отметим ключевые отличия в сравнении с ними:

  • Более тонкая технология производства чипа, большее число транзисторов, меньшее энергопотребление карты (несмотря на большее число конвейеров и большую частоту).
  • Пиксельных процессоров не 16, а 24 (точнее, 6 процессоров квадов, вместо 4)
  • Пиксельные процессоры стали производительнее — увеличено число ALU, ускорена работа со скалярными величинами и скалярным произведением/MAD.
  • Вершинных процессоров стало 8 вместо 6, и судя по всему, они не изменились.
  • Появилась производительная аппаратная поддержка для воспроизведения видео в формате HDTV и HDTV выход, совмещенный с TV-выходом.

Итак, очевидно, что при создании нового ускорителя преследовались две основные цели — снижение энергопотребления и существенное увеличение производительности. Так как шейдерная модель 3.0 была реализована уже в предыдущем поколении ускорителей NVIDIA, а следующая модель рендеринга (WGF 2.0) еще не детализирована окончательно, то картина выглядит вполне логичной и ожидаемой. Радует не просто увеличение числа пиксельных процессоров, но и увеличение их производительности. Единственный вопрос — почему не была реализована фильтрация при выборке значений текстур вершинными процессорами? Этот шаг казался нам вполне логичным, но, видимо, это решение забрало бы на себя слишком много ресурсов и инженеры NVIDIA решили направить их на другие цели — на усиление пиксельных процессоров и увеличение их числа. Следующее поколение ускорителей станет соответствовать WGF 2.0 и будет, наконец-то, лишено такой досадной асимметрии в возможностях текстурных блоков вершинных и пиксельных шейдеров.

Архитектура чипа G70

Основные отличия от NV45 — наличие 8 вершинных процессоров и 6 процессоров квадов (всего, таким образом, обрабатывается 4*6=24 пикселя) вместо 4 с большим числом ALU для каждого процессора. Обратите внимание на вынесенный на схеме за пределы процессора квадов блок AA, блендинга и записи результатов. Дело в том, что, несмотря на увеличенное в полтора раза число пиксельных процессоров, число модулей отвечающих за запись результатов осталось прежним — их 16. То есть новый чип может существенно быстрее рассчитывать шейдеры, причем у 24 пикселей параллельно, но по-прежнему записывает не более 16 полноценных пикселей за такт. Что, впрочем, вполне достаточно — большее число пикселей за такт не пропустит память, да и современные приложения тратят несколько десятков команд, прежде чем вычислить и записать одно результирующее значение пикселя, поэтому рост числа пиксельных процессоров без роста числа модулей записи видится вполне сбалансированным и логичным решением. Такие решения применялись и ранее в бюджетных чипах NVIDIA (GeForce 6200, например), которые имели полноценный процессор квадов, но обрезанные модули записи (по числу блоков и по отсутствию FP16 блендинга).

Архитектура пиксельного конвейера:

Посмотрим на желтый блок пиксельного процессора (процессора квадов). Можно сказать, что было произведено ускорение существовавшей ранее в NV40/45 схемы — к двум полным векторным ALU, способным исполнять две разные операции над четырьмя компонентами были добавлены два скалярных mini ALU для параллельного исполнения простых операций. Теперь ALU умеют выполнить MAD операцию (одновременное умножение и сложение) без какого-либо пенальти.

Добавление небольших упрощенных и специализированных ALU — старый прием NVIDIA, уже не один раз позволявший компании малым числом транзисторов заметно увеличить производительность пиксельных блоков. Например, еще NV4X имели специальный блок для нормализации FP16[4] векторов (на схеме он пристыкован ко второму основному ALU и назван FP16 NORM), и в G70 эта традиция была продолжена — такой блок позволяет существенно увеличить производительность пиксельных шейдеров благодаря возможности бесплатной нормализации векторов на каждом проходе квада через конвейер процессора. Интересно, что операция нормализации кодируется в шейдерах в виде последовательности нескольких команд, и драйвер должен распознавать это действие, и подменять на одно обращение к этому специальному блоку. Однако на практике это распознавание происходит достаточно эффективно, особенно если шейдер был скомпилирован из HLSL, и таким образом пиксельные процессоры NVIDIA не тратят на нормализацию векторов несколько тактов как в случае ATI (важно не забывать об ограничении на формат — FP16).

Что касается текстурных модулей, тут все осталось прежним — по одному модулю на пиксель (то есть четыре модуля в процессоре квадов), собственный кэш первого уровня у каждого процессора квадов, фильтрация текстур с целочисленным или FP16 форматом компонент, до 4-х компонент включительно (FP16[4]). Выборка значений из текстур с форматом компонент FP32 возможна, но без аппаратной фильтрации — оную придется или не делать, или запрограммировать в пиксельном шейдере, потратив на это десяток и более инструкций. Впрочем, так было и раньше — полноценная поддержка FP32 компонент будет, видимо, только в следующем поколении архитектур.

За массивом из 6 процессоров квадов следует коммутатор, который перераспределяет рассчитанные квады по 16 блокам генерации глубины, AA и блендинга (а точнее по 4 связкам из 4-х блоков, обрабатывающим целый квад, так как геометрическая связанность не должна быть потеряна, так как понадобится при записи и сжатии цвета и буфера глубины). Каждый блок за один такт может сгенерировать, проверить и записать 2 значения глубины, или одно значение глубины и одно значение цвета. Обеспечивается работа с двусторонним буфером шаблонов. Кроме того, один такой блок бесплатно выполняет 2х мультисэмплинг, для 4х режима требуется уже два прохода данных через блок, то есть два такта. Суммируем набор возможностей таких блоков:

  • Запись цвета — FP32[4], FP16[4], INT8[4] за такт, в том числе в разные буфера (MRT).
  • Сравнение и блендинг цвета — FP16[4], INT8[4], для формата компонент FP32 не поддерживается
  • Сравнение, генерация и запись глубины (Z) — все режимы, при отсутствии цвета — два значения за такт (режим Z-only). В режиме MSAA — также, два значения за такт.
  • MSAA — INT8[4], для плавающих форматов не поддерживается.

Столько условий возникает в результате достаточно большого количества аппаратных ALU необходимых для операций MSAA, генерации значений глубины, сравнения и блендинга цвета. NVIDIA пытается оптимизировать расход транзисторов и использует одни и те же ALU в разных целях в зависимости от задачи, вот почему плавающий формат делает невозможным MSAA, а формат FP32 и блендинг. Большой расход транзисторов является и одной из причин к тому, чтобы оставить 16 модулей, а не сделать их 24 в соответствии с числом пиксельных процессоров. Ведь в таком варианте большинство транзисторов этих блоков может (и будет) простаивать в современных приложениях с длинными шейдерами, даже в режиме 4хAA, а память, пропускная полоса которой практически не увеличилась по сравнению с GeForce 6800 Ultra, все равно не даст записать даже 16 полноценных пикселей за такт в буфер кадра. Так как эти модули работают асинхронно с пиксельными процессорами (рассчитывают значения глубины и делают блендинг, в то время как уже идет расчет цвета следующих пикселей в шейдере), наличие 16 блоков можно считать не просто обоснованным, а очевидным решением. А вот некоторые ограничения, связанные с FP форматами, досадны, но характерны для нашего переходного периода, на пути к симметричным архитектурам, которые будут позволять производить все операции со всеми доступными форматами данных без какой-либо потери скорости, как это в большинстве случаев позволяют гибкие современные CPU.

Архитектура вершинного конвейера:

Все хорошо знакомо нам по семейству NV4x, только число вершинных процессоров увеличилось с 6 до 8.

Подробности: G71, GeForce 7900 GT/GeForce 7900 GTX/GeForce 7950 GX2

Спецификации G71

  • Кодовое имя чипа G71
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 279 миллионов транзисторов (то есть меньше чем у G70)
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 256 бит интерфейс памяти, четырехканальный контроллер
  • До 1 гигабайта GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 24 Пиксельных процессора, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 8 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса (оба Dual Link до 2560х1600, интерфейсы интегрированы в G71 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7900 GTX

  • Частота ядра 650 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 700 МГц
  • Эффективная частота памяти 1.6 ГГц (2*800 МГц)
  • Тип памяти GDDR3, 1.1 нс (штатная частота до 2*900 МГц)
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 51.2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 10.4 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 15.6 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо, около 70-80 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7900 GT

  • Частота ядра 450 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 470 МГц
  • Эффективная частота памяти 1.32 ГГц (2*660 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 42.2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 7.2 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.8 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо около 50-60 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7950 GX2

  • Частота ядер 2 x 500 МГц (пиксельные процессоры и блендинг)
  • Частота вершинных блоков 2 x 500 МГц
  • Эффективная частота памяти 1.2 ГГц (2*600 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 2 x 512 мегабайт
  • Пропускная способность памяти 2 x 38.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 2 x 8 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 2 x 12 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет очень много энергии, больше чем GeForce 7800 и 7900 (вероятно более 100 Ватт, точные данные неизвестны).

Очевидно, что это та же самая архитектура, что была реализована в G70, просто переведенная на технологию 90 нм с небольшими изменениями. Количество транзисторов почему-то стало заметно меньше, но на производительности это не сказалось. Возможно, в G70 было зарезервировано какое-то число блоков (например, было не 6 квадов пиксельных процессоров, а 7 или 8 и не 8 вершинных, а 9 или 10) для повышения выхода годных чипов или даже возможности выпуска потенциальной Ultra версии, если бы конкуренты в свое время выпустили нечто более производительное.

В новом G71 количество блоков, судя по всему, стало под завязку - то ли выход годных на 90нм производстве так хорош, то ли NVIDIA может позволить себе больше брака (так как себестоимость чипа упала из-за существенно меньшей площади). Еще один вариант ответа на этот вопрос - значительная оптимизация - тоже вероятен, но менее, так как сократить число транзисторов на 25 миллионов, без какой-либо потери в скорости при совершенно такой же архитектуре сложно. Но, может быть и возможно, не будем отвергать такую версию сразу. Итак, косвенные причины показывают на высокий выход годных и отсутствие проблем с производством, а также на заметно меньшую себестоимость нового чипа по сравнению с G70. Таким образом, становится и понятен его кодовый номер - G71, этот чип и правда проще по транзисторам по сравнению с G70. С точки зрения архитектуры, в наличии все те же возможности и такое же число активных блоков. Все определяет тактовая частота, которая заметно выше.

Обратим внимание на два интегрированных Dual Link DVI интерфейса - время внешних интерфейсных чипов ушло в небытие и все ту же спецификацию 400 МГц на RAMDAC - а зачем больше, ведь аналоговые мониторы уже давно прекратили развитие. Декларируется аппаратная поддержка H.264 и других стандартов видеосжатия последних поколений. Интересно, что эта поддержка была и в семействе NV4X, но в результате ошибки она не доступна у NV40 и NV45, а у более новых чипов - NV43 и т.д. она также задействована в новых драйверах. Кроме декодирования обещают в очередной раз улучшенный алгоритм деинтерлейсинга и новый постпроцессинг с повышенной четкостью и улучшенной цветопередачей.

Весьма любопытен двухчиповый вариант на базе G71 - GeForce 7950 GX2, появившийся гораздо позже одночиповых карт. По сути, это два GeForce 7900 GTX, работающих на пониженных частотах, объединенных в один ускоритель по методу SLI. То есть, в одном слоте работают два акселератора G71. Платой за компактность относительно двух 7900 GTX служат пониженные частоты работы, как памяти, так и чипов. Расположение памяти привычным полукругом вокруг ядра невозможно, расстояния от микросхем памяти до процессора будут разными, это приводит к определенным ограничениям. Разработчики двухчиповой карты были вынуждены использовать очень тонкие кулеры, это накладывает ограничения на частоту работы видеочипов, она была резко снижена с 650 до 500 МГц. Только низкое энергопотребление и тепловыделение G71 сделали возможным выпуск подобной двухчиповой флагманской карты. Так как ни G70, ни R580 не позволили бы физически создать подобную карту в рамках современных спецификаций PC на потребление энергии и выделение тепла.

Интересно, что для установки такой карты не нужна поддержка SLI от системной платы, всё, что нужно для работы уже стоит на ней. Карта состоит из базовой и дочерней плат, занимает ширину двух слотов и при работе в Quad-SLI режиме связывается двумя линками с соседней двухчиповой картой. За организацию SLI на плате отвечают два компонента: чип на второй плате - модифицированный мост HSI (PCIE-to-PCIE) и адаптер, вставляемый в специальные разъемы на двух частях платы. В результате получилось компактное решение, которое может быть установлено в любой современный корпус нормального размера.

Если производительности даже от одиночной GeForce 7950 GX2 не хватает, две такие карты можно объединить в Quad-SLI систему при помощи системной платы с поддержкой SLI и очень мощного блока питания (поддержка в драйверах появилась начиная с версии 91.37). Таким образом, NVIDIA предлагает одиночное SLI решение на одной карте, а также возможность нарастить его до Quad-SLI путем установки второй подобной карты.

Работа построена по-прежнему - есть три режима совместной работы - AFR (чередование расчета кадров между ускорителями), зональный рендеринг (разделение экрана теперь уже на 4 зоны) и SLI-AA - использование ускорителей для расчета разных AA сэмплов в пределах одного пикселя. Кроме того, логичным становится комбинирование режимов - например, 2хAFR от двух двухзональных кадров (чередование кадров, каждый из которых построен SLI методом разделения зон) или зональное разделение 2х SLI-AA и т.д. Комбинаций может быть много, никаких новых архитектурных изменений для этого не нужно, в SLI уже заложены различные возможности, а сочетанием управляет драйвер.

Подробности: G73, GeForce 7600 GT/GeForce 7600 GS

Спецификации G73

  • Кодовое имя чипа G73
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 178 миллионов транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 128 бит интерфейс памяти (двухканальный контроллер)
  • До 512 мегабайт GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 12 Пиксельных процессоров, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 5 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 8 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 16 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса (оба Dual Link до 2560х1600, интерфейсы интегрированы в G73 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7600 GT

  • Частота ядра 560 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 560 МГц
  • Эффективная частота памяти 1.4 ГГц (2*700 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 22.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 4.48 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 6.72 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет очень мало энергии (видимо, около 40-60 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7600 GS

  • Частота ядра 400 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 400 МГц
  • Эффективная частота памяти 0.8 ГГц (2*400 МГц)
  • Тип памяти DDR2, 2.5 нс (штатная частота до 2*400 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 12.8 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 3.2 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 4.8 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребление энергии еще меньше, чем у GeForce 7600 GT

Очевидно, что G73 это практически ровная (если не считать 5 вершинных блоков вместо 4) половина G71. Как с точки зрения контроллера памяти, так и пиксельной части. Однако и тут необходимо оговорить некоторую поправку - по нашим исследованиям, физически у G73 присутствует 16 пиксельных процессоров, а не 12 (то есть в наличии 4 квада). Один квад оставлен для борьбы за выход годных чипов или (чем не шутит рынок) для будущего выпуска решения с 16 пиксельными блоками, способного отреагировать на новую конкуренцию в нише. Чип меньше по площади, чем NV43, но значительно производительнее.

Кодовое имя G74 пока не задействовано - судя по всему, при необходимости под этим названием может выйти еще более недорогая реинкарнация G71, и она также может быть нацелена на 20 или 16 пиксельных конвейеров.

Подробности: G72, GeForce 7300 GS

Спецификации G72

  • Кодовое имя чипа G72
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 112 миллионов транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 64 бит интерфейс памяти (двухканальный контроллер)
  • До 512 мегабайт DDR2/GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 4 Пиксельных процессоров, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 3 Вершинных процессора, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 2 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 4 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • DVI интерфейс Dual Link до 2560х1600, интерфейс интегрирован в чип и внешний интерфейсный чип не нужен)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7300 GS

  • Частота ядра 550 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 550 МГц
  • Эффективная частота памяти 0.7 ГГц (2*350 МГц)
  • Тип памяти DDR2, 2.8 нс (штатная частота до 2*350 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 5.6 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 1.1 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 2.2 гигатекселя в сек.
  • Поддержка DVI-I разъема Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребление энергии очень низкое

Это еще более урезанная версия в семействе G7x, в которой оставили лишь по четыре пиксельных процессора и текстурных блока, три вершинных процессора и два блока ROP. В остальном, все такое же, что и у карт семейства из других ценовых диапазонов, архитектура осталась практически неизменной. Вероятны некоторые изменения в размере кэшей и прочего, но ничего конкретного тут сказать нельзя, можно лишь строить предположения.

Интересно, что в последующем был выпущен GeForce 7300 GT, который основан не на чипе G72, как можно было бы предположить, а на основе урезанного и приторможенного G73, то есть на чипе, который стоит в основе серии GeForce 7600. Но возможности чипа урезали с двенадцати пиксельных блоков до восьми. И сделали на один активный вершинный блок меньше. Странно, что эту карту не назвали GeForce 7600 LE или XT, например, это название ей подошло бы больше.



Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт Tesla (GT2XX)
Справочная информация о семействе видеокарт Fermi (GF1XX)
Справочная информация о семействе видеокарт Kepler (GK1XX/GM1XX)
Справочная информация о семействе видеокарт Maxwell (GM2XX)
Справочная информация о семействе видеокарт Pascal (GP1XX)




Дополнительно

Семейства видеокарт NVIDIA GeForce - справочная информация

Семейства видеокарт NVIDIA GeForce
Справочная информация



Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт Tesla (GT2XX)
Справочная информация о семействе видеокарт Fermi (GF1XX)
Справочная информация о семействе видеокарт Kepler (GK1XX/GM1XX)
Справочная информация о семействе видеокарт Maxwell (GM2XX)
Справочная информация о семействе видеокарт Pascal (GP1XX)

Спецификации чипов семейства G7X

кодовое имя G71 G73 G72 G70
базовая статья здесь здесь здесь
технология (нм) 90 110
транзисторов (М) 279 178 112 302
пиксельных процессоров 24 12 4 24
текстурных блоков 24 12 4 24
блоков блендинга 16 8 2 16
вершинных процессоров 8 5 3 8
шина памяти 256 (64х4) 128 (64х2) 64 (32х2) 256 (64х4)
типы памяти DDR, GDDR2, GDDR3
системная шина чипа PCI-Express 16х
RAMDAC 2 х 400МГц
интерфейсы TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link (у младших - один)
HDTV-Out
вершинные шейдеры 3.0
пиксельные шейдеры 3.0
точность пиксельных вычислений FP16
FP32
точность вершинных вычислений FP32
форматы текстур FP32 (без фильтрации)
FP16
I8
DXTC, S3TC
3Dc (эмуляция)
форматы рендеринга FP32 (без блендинга и MSAA)
FP16 (без MSАА)
I8
MRT есть
Антиалиасинг TAA (AA прозрачных полигонов)
2х и 4x RGMS
SS (в гибридных режимах)
генерация Z 2х в режиме без цвета
буфер шаблонов двусторонний
технологии теней аппаратные карты теней
оптимизации геометрических теней


Спецификации референсных карт на базе семейства G7X

карта чип
шина
блоков PS/TMU/VS частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт) тексель рэйт (Мтекс) филл
рэйт (Мпикс)
GeForce 7800 GTX G70
PEG16х
24/24/8 430 600(1200) 256 GDDR3 38.4
(256)
10320 6880
GeForce 7800 GTX 512Mb G70
PEG16х
24/24/8 550 850(1700) 512 GDDR3 54.4
(256)
13200 8800
GeForce 7800 GT G70
PEG16х
20/20/7 400 500(1000) 256 GDDR3 32.0
(256)
8000 6400
GeForce 7800 GS G70
AGP
16/16/6 375 600(1200) 256 GDDR3 38.4
(256)
6000 6000
GeForce 7300 LE G72
PEG16x
4/4/3 450 300(600) 128 GDDR2 4.8
(64)
1800 900
GeForce 7300 GS G72
PEG16х
4/4/3 550 350(700) 256 GDDR2/GDDR3 5.6
(64)
2200 1100
GeForce 7300 GT G73
PEG16х
8/8/4 350 333(667) 128-256 GDDR3 10.7
(128)
2800 1400
GeForce 7600 GS G73
PEG16х
12/12/5 400 400(800) 256 GDDR2 12.8
(128)
4800 3200
GeForce 7600 GT G73
PEG16х
12/12/5 560 700(1400) 256 GDDR3 22.4
(128)
6720 4480
GeForce 7900 GTX G71
PEG16х
24/24/8 650 800(1600) 512 GDDR3 51.2
(256)
15600 10400
GeForce 7900 GT G71
PEG16х
24/24/8 450 660(1320) 256 GDDR3 42.2
(256)
10800 7200
GeForce 7900 GS G71
PEG16х
20/20/7 450 660(1320) 256 GDDR3 42.2
(256)
9000 7200
GeForce 7950 GX2 2xG71
PEG16х
2x(24/24/8) 500 600(1200) 2x512 GDDR3 2x38.4
(2x256)
2x12000 2x8000
карта чип
шина
блоков PS/TMU/VS частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт) тексель рэйт (Мтекс) филл
рэйт (Мпикс)


Подробности: G70, GeForce 7800 GTX

Спецификации G70

  • Кодовое имя чипа G70 (был ранее известен как NV47)
  • Технология 110 нм (предполагаемый производитель TSMC)
  • 302 миллиона транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 256 бит интерфейс памяти
  • До 1 гигабайта GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 24 Пиксельных процессора, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов. Пиксельные процессоры улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции.
  • 8 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2x RAMDAC 400 МГц
  • 2x DVI интерфейса (требуются внешние интерфейсные чипы)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью достаточной для качественного деинтерлейсинга HDTV
  • 2D ускоритель с поддержкой всех функций GDI+
  • Поддержка технологии SLI

Спецификации референсной карты GeForce 7800 GTX

  • Частота ядра 430 МГц
  • Эффективная частота памяти 1.2 ГГц (2*600 МГц)
  • Тип памяти GDDR3, 1.6 нс
  • Объем памяти 256 мегабайт (есть более поздний вариант с 512 мегабайт и повышенными рабочими частотами)
  • Пропускная способность памяти 38.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 6.9 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.4 гигатекселя в сек.
  • Два DVI-I разъема
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет до 110 Ватт энергии (типовое потребление не превышает 100 Ватт, на карте один стандартный для PCI Express разъема дополнительного питания, рекомендуются источники питания суммарной мощностью 350 Ватт, для SLI режима — 500 Ватт).

Заметна некая преемственность по отношению к предыдущим флагманам на базе NV40 и NV45. Сразу отметим ключевые отличия в сравнении с ними:

  • Более тонкая технология производства чипа, большее число транзисторов, меньшее энергопотребление карты (несмотря на большее число конвейеров и большую частоту).
  • Пиксельных процессоров не 16, а 24 (точнее, 6 процессоров квадов, вместо 4)
  • Пиксельные процессоры стали производительнее — увеличено число ALU, ускорена работа со скалярными величинами и скалярным произведением/MAD.
  • Вершинных процессоров стало 8 вместо 6, и судя по всему, они не изменились.
  • Появилась производительная аппаратная поддержка для воспроизведения видео в формате HDTV и HDTV выход, совмещенный с TV-выходом.

Итак, очевидно, что при создании нового ускорителя преследовались две основные цели — снижение энергопотребления и существенное увеличение производительности. Так как шейдерная модель 3.0 была реализована уже в предыдущем поколении ускорителей NVIDIA, а следующая модель рендеринга (WGF 2.0) еще не детализирована окончательно, то картина выглядит вполне логичной и ожидаемой. Радует не просто увеличение числа пиксельных процессоров, но и увеличение их производительности. Единственный вопрос — почему не была реализована фильтрация при выборке значений текстур вершинными процессорами? Этот шаг казался нам вполне логичным, но, видимо, это решение забрало бы на себя слишком много ресурсов и инженеры NVIDIA решили направить их на другие цели — на усиление пиксельных процессоров и увеличение их числа. Следующее поколение ускорителей станет соответствовать WGF 2.0 и будет, наконец-то, лишено такой досадной асимметрии в возможностях текстурных блоков вершинных и пиксельных шейдеров.

Архитектура чипа G70

Основные отличия от NV45 — наличие 8 вершинных процессоров и 6 процессоров квадов (всего, таким образом, обрабатывается 4*6=24 пикселя) вместо 4 с большим числом ALU для каждого процессора. Обратите внимание на вынесенный на схеме за пределы процессора квадов блок AA, блендинга и записи результатов. Дело в том, что, несмотря на увеличенное в полтора раза число пиксельных процессоров, число модулей отвечающих за запись результатов осталось прежним — их 16. То есть новый чип может существенно быстрее рассчитывать шейдеры, причем у 24 пикселей параллельно, но по-прежнему записывает не более 16 полноценных пикселей за такт. Что, впрочем, вполне достаточно — большее число пикселей за такт не пропустит память, да и современные приложения тратят несколько десятков команд, прежде чем вычислить и записать одно результирующее значение пикселя, поэтому рост числа пиксельных процессоров без роста числа модулей записи видится вполне сбалансированным и логичным решением. Такие решения применялись и ранее в бюджетных чипах NVIDIA (GeForce 6200, например), которые имели полноценный процессор квадов, но обрезанные модули записи (по числу блоков и по отсутствию FP16 блендинга).

Архитектура пиксельного конвейера:

Посмотрим на желтый блок пиксельного процессора (процессора квадов). Можно сказать, что было произведено ускорение существовавшей ранее в NV40/45 схемы — к двум полным векторным ALU, способным исполнять две разные операции над четырьмя компонентами были добавлены два скалярных mini ALU для параллельного исполнения простых операций. Теперь ALU умеют выполнить MAD операцию (одновременное умножение и сложение) без какого-либо пенальти.

Добавление небольших упрощенных и специализированных ALU — старый прием NVIDIA, уже не один раз позволявший компании малым числом транзисторов заметно увеличить производительность пиксельных блоков. Например, еще NV4X имели специальный блок для нормализации FP16[4] векторов (на схеме он пристыкован ко второму основному ALU и назван FP16 NORM), и в G70 эта традиция была продолжена — такой блок позволяет существенно увеличить производительность пиксельных шейдеров благодаря возможности бесплатной нормализации векторов на каждом проходе квада через конвейер процессора. Интересно, что операция нормализации кодируется в шейдерах в виде последовательности нескольких команд, и драйвер должен распознавать это действие, и подменять на одно обращение к этому специальному блоку. Однако на практике это распознавание происходит достаточно эффективно, особенно если шейдер был скомпилирован из HLSL, и таким образом пиксельные процессоры NVIDIA не тратят на нормализацию векторов несколько тактов как в случае ATI (важно не забывать об ограничении на формат — FP16).

Что касается текстурных модулей, тут все осталось прежним — по одному модулю на пиксель (то есть четыре модуля в процессоре квадов), собственный кэш первого уровня у каждого процессора квадов, фильтрация текстур с целочисленным или FP16 форматом компонент, до 4-х компонент включительно (FP16[4]). Выборка значений из текстур с форматом компонент FP32 возможна, но без аппаратной фильтрации — оную придется или не делать, или запрограммировать в пиксельном шейдере, потратив на это десяток и более инструкций. Впрочем, так было и раньше — полноценная поддержка FP32 компонент будет, видимо, только в следующем поколении архитектур.

За массивом из 6 процессоров квадов следует коммутатор, который перераспределяет рассчитанные квады по 16 блокам генерации глубины, AA и блендинга (а точнее по 4 связкам из 4-х блоков, обрабатывающим целый квад, так как геометрическая связанность не должна быть потеряна, так как понадобится при записи и сжатии цвета и буфера глубины). Каждый блок за один такт может сгенерировать, проверить и записать 2 значения глубины, или одно значение глубины и одно значение цвета. Обеспечивается работа с двусторонним буфером шаблонов. Кроме того, один такой блок бесплатно выполняет 2х мультисэмплинг, для 4х режима требуется уже два прохода данных через блок, то есть два такта. Суммируем набор возможностей таких блоков:

  • Запись цвета — FP32[4], FP16[4], INT8[4] за такт, в том числе в разные буфера (MRT).
  • Сравнение и блендинг цвета — FP16[4], INT8[4], для формата компонент FP32 не поддерживается
  • Сравнение, генерация и запись глубины (Z) — все режимы, при отсутствии цвета — два значения за такт (режим Z-only). В режиме MSAA — также, два значения за такт.
  • MSAA — INT8[4], для плавающих форматов не поддерживается.

Столько условий возникает в результате достаточно большого количества аппаратных ALU необходимых для операций MSAA, генерации значений глубины, сравнения и блендинга цвета. NVIDIA пытается оптимизировать расход транзисторов и использует одни и те же ALU в разных целях в зависимости от задачи, вот почему плавающий формат делает невозможным MSAA, а формат FP32 и блендинг. Большой расход транзисторов является и одной из причин к тому, чтобы оставить 16 модулей, а не сделать их 24 в соответствии с числом пиксельных процессоров. Ведь в таком варианте большинство транзисторов этих блоков может (и будет) простаивать в современных приложениях с длинными шейдерами, даже в режиме 4хAA, а память, пропускная полоса которой практически не увеличилась по сравнению с GeForce 6800 Ultra, все равно не даст записать даже 16 полноценных пикселей за такт в буфер кадра. Так как эти модули работают асинхронно с пиксельными процессорами (рассчитывают значения глубины и делают блендинг, в то время как уже идет расчет цвета следующих пикселей в шейдере), наличие 16 блоков можно считать не просто обоснованным, а очевидным решением. А вот некоторые ограничения, связанные с FP форматами, досадны, но характерны для нашего переходного периода, на пути к симметричным архитектурам, которые будут позволять производить все операции со всеми доступными форматами данных без какой-либо потери скорости, как это в большинстве случаев позволяют гибкие современные CPU.

Архитектура вершинного конвейера:

Все хорошо знакомо нам по семейству NV4x, только число вершинных процессоров увеличилось с 6 до 8.

Подробности: G71, GeForce 7900 GT/GeForce 7900 GTX/GeForce 7950 GX2

Спецификации G71

  • Кодовое имя чипа G71
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 279 миллионов транзисторов (то есть меньше чем у G70)
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 256 бит интерфейс памяти, четырехканальный контроллер
  • До 1 гигабайта GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 24 Пиксельных процессора, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 8 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса (оба Dual Link до 2560х1600, интерфейсы интегрированы в G71 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7900 GTX

  • Частота ядра 650 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 700 МГц
  • Эффективная частота памяти 1.6 ГГц (2*800 МГц)
  • Тип памяти GDDR3, 1.1 нс (штатная частота до 2*900 МГц)
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 51.2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 10.4 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 15.6 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо, около 70-80 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7900 GT

  • Частота ядра 450 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 470 МГц
  • Эффективная частота памяти 1.32 ГГц (2*660 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 42.2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 7.2 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.8 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо около 50-60 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7950 GX2

  • Частота ядер 2 x 500 МГц (пиксельные процессоры и блендинг)
  • Частота вершинных блоков 2 x 500 МГц
  • Эффективная частота памяти 1.2 ГГц (2*600 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 2 x 512 мегабайт
  • Пропускная способность памяти 2 x 38.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 2 x 8 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 2 x 12 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет очень много энергии, больше чем GeForce 7800 и 7900 (вероятно более 100 Ватт, точные данные неизвестны).

Очевидно, что это та же самая архитектура, что была реализована в G70, просто переведенная на технологию 90 нм с небольшими изменениями. Количество транзисторов почему-то стало заметно меньше, но на производительности это не сказалось. Возможно, в G70 было зарезервировано какое-то число блоков (например, было не 6 квадов пиксельных процессоров, а 7 или 8 и не 8 вершинных, а 9 или 10) для повышения выхода годных чипов или даже возможности выпуска потенциальной Ultra версии, если бы конкуренты в свое время выпустили нечто более производительное.

В новом G71 количество блоков, судя по всему, стало под завязку - то ли выход годных на 90нм производстве так хорош, то ли NVIDIA может позволить себе больше брака (так как себестоимость чипа упала из-за существенно меньшей площади). Еще один вариант ответа на этот вопрос - значительная оптимизация - тоже вероятен, но менее, так как сократить число транзисторов на 25 миллионов, без какой-либо потери в скорости при совершенно такой же архитектуре сложно. Но, может быть и возможно, не будем отвергать такую версию сразу. Итак, косвенные причины показывают на высокий выход годных и отсутствие проблем с производством, а также на заметно меньшую себестоимость нового чипа по сравнению с G70. Таким образом, становится и понятен его кодовый номер - G71, этот чип и правда проще по транзисторам по сравнению с G70. С точки зрения архитектуры, в наличии все те же возможности и такое же число активных блоков. Все определяет тактовая частота, которая заметно выше.

Обратим внимание на два интегрированных Dual Link DVI интерфейса - время внешних интерфейсных чипов ушло в небытие и все ту же спецификацию 400 МГц на RAMDAC - а зачем больше, ведь аналоговые мониторы уже давно прекратили развитие. Декларируется аппаратная поддержка H.264 и других стандартов видеосжатия последних поколений. Интересно, что эта поддержка была и в семействе NV4X, но в результате ошибки она не доступна у NV40 и NV45, а у более новых чипов - NV43 и т.д. она также задействована в новых драйверах. Кроме декодирования обещают в очередной раз улучшенный алгоритм деинтерлейсинга и новый постпроцессинг с повышенной четкостью и улучшенной цветопередачей.

Весьма любопытен двухчиповый вариант на базе G71 - GeForce 7950 GX2, появившийся гораздо позже одночиповых карт. По сути, это два GeForce 7900 GTX, работающих на пониженных частотах, объединенных в один ускоритель по методу SLI. То есть, в одном слоте работают два акселератора G71. Платой за компактность относительно двух 7900 GTX служат пониженные частоты работы, как памяти, так и чипов. Расположение памяти привычным полукругом вокруг ядра невозможно, расстояния от микросхем памяти до процессора будут разными, это приводит к определенным ограничениям. Разработчики двухчиповой карты были вынуждены использовать очень тонкие кулеры, это накладывает ограничения на частоту работы видеочипов, она была резко снижена с 650 до 500 МГц. Только низкое энергопотребление и тепловыделение G71 сделали возможным выпуск подобной двухчиповой флагманской карты. Так как ни G70, ни R580 не позволили бы физически создать подобную карту в рамках современных спецификаций PC на потребление энергии и выделение тепла.

Интересно, что для установки такой карты не нужна поддержка SLI от системной платы, всё, что нужно для работы уже стоит на ней. Карта состоит из базовой и дочерней плат, занимает ширину двух слотов и при работе в Quad-SLI режиме связывается двумя линками с соседней двухчиповой картой. За организацию SLI на плате отвечают два компонента: чип на второй плате - модифицированный мост HSI (PCIE-to-PCIE) и адаптер, вставляемый в специальные разъемы на двух частях платы. В результате получилось компактное решение, которое может быть установлено в любой современный корпус нормального размера.

Если производительности даже от одиночной GeForce 7950 GX2 не хватает, две такие карты можно объединить в Quad-SLI систему при помощи системной платы с поддержкой SLI и очень мощного блока питания (поддержка в драйверах появилась начиная с версии 91.37). Таким образом, NVIDIA предлагает одиночное SLI решение на одной карте, а также возможность нарастить его до Quad-SLI путем установки второй подобной карты.

Работа построена по-прежнему - есть три режима совместной работы - AFR (чередование расчета кадров между ускорителями), зональный рендеринг (разделение экрана теперь уже на 4 зоны) и SLI-AA - использование ускорителей для расчета разных AA сэмплов в пределах одного пикселя. Кроме того, логичным становится комбинирование режимов - например, 2хAFR от двух двухзональных кадров (чередование кадров, каждый из которых построен SLI методом разделения зон) или зональное разделение 2х SLI-AA и т.д. Комбинаций может быть много, никаких новых архитектурных изменений для этого не нужно, в SLI уже заложены различные возможности, а сочетанием управляет драйвер.

Подробности: G73, GeForce 7600 GT/GeForce 7600 GS

Спецификации G73

  • Кодовое имя чипа G73
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 178 миллионов транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 128 бит интерфейс памяти (двухканальный контроллер)
  • До 512 мегабайт GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 12 Пиксельных процессоров, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 5 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 8 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 16 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса (оба Dual Link до 2560х1600, интерфейсы интегрированы в G73 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7600 GT

  • Частота ядра 560 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 560 МГц
  • Эффективная частота памяти 1.4 ГГц (2*700 МГц)
  • Тип памяти GDDR3, 1.4 нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 22.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 4.48 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 6.72 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет очень мало энергии (видимо, около 40-60 Ватт, но точные данные не декларированы).

Спецификации референсной карты GeForce 7600 GS

  • Частота ядра 400 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 400 МГц
  • Эффективная частота памяти 0.8 ГГц (2*400 МГц)
  • Тип памяти DDR2, 2.5 нс (штатная частота до 2*400 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 12.8 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 3.2 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 4.8 гигатекселя в сек.
  • Два DVI-I разъема (Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребление энергии еще меньше, чем у GeForce 7600 GT

Очевидно, что G73 это практически ровная (если не считать 5 вершинных блоков вместо 4) половина G71. Как с точки зрения контроллера памяти, так и пиксельной части. Однако и тут необходимо оговорить некоторую поправку - по нашим исследованиям, физически у G73 присутствует 16 пиксельных процессоров, а не 12 (то есть в наличии 4 квада). Один квад оставлен для борьбы за выход годных чипов или (чем не шутит рынок) для будущего выпуска решения с 16 пиксельными блоками, способного отреагировать на новую конкуренцию в нише. Чип меньше по площади, чем NV43, но значительно производительнее.

Кодовое имя G74 пока не задействовано - судя по всему, при необходимости под этим названием может выйти еще более недорогая реинкарнация G71, и она также может быть нацелена на 20 или 16 пиксельных конвейеров.

Подробности: G72, GeForce 7300 GS

Спецификации G72

  • Кодовое имя чипа G72
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 112 миллионов транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 64 бит интерфейс памяти (двухканальный контроллер)
  • До 512 мегабайт DDR2/GDDR3 памяти
  • PCI-Express 16х шинный интерфейс
  • 4 Пиксельных процессоров, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 3 Вершинных процессора, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 2 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 4 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выборку значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • DVI интерфейс Dual Link до 2560х1600, интерфейс интегрирован в чип и внешний интерфейсный чип не нужен)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264, WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+

Спецификации референсной карты GeForce 7300 GS

  • Частота ядра 550 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 550 МГц
  • Эффективная частота памяти 0.7 ГГц (2*350 МГц)
  • Тип памяти DDR2, 2.8 нс (штатная частота до 2*350 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 5.6 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 1.1 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 2.2 гигатекселя в сек.
  • Поддержка DVI-I разъема Dual Link, поддерживается вывод в разрешениях до 2560х1600)
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребление энергии очень низкое

Это еще более урезанная версия в семействе G7x, в которой оставили лишь по четыре пиксельных процессора и текстурных блока, три вершинных процессора и два блока ROP. В остальном, все такое же, что и у карт семейства из других ценовых диапазонов, архитектура осталась практически неизменной. Вероятны некоторые изменения в размере кэшей и прочего, но ничего конкретного тут сказать нельзя, можно лишь строить предположения.

Интересно, что в последующем был выпущен GeForce 7300 GT, который основан не на чипе G72, как можно было бы предположить, а на основе урезанного и приторможенного G73, то есть на чипе, который стоит в основе серии GeForce 7600. Но возможности чипа урезали с двенадцати пиксельных блоков до восьми. И сделали на один активный вершинный блок меньше. Странно, что эту карту не назвали GeForce 7600 LE или XT, например, это название ей подошло бы больше.



Справочная информация о семействе видеокарт NV4X
Справочная информация о семействе видеокарт G7X
Справочная информация о семействе видеокарт G8X/G9X
Справочная информация о семействе видеокарт Tesla (GT2XX)
Справочная информация о семействе видеокарт Fermi (GF1XX)
Справочная информация о семействе видеокарт Kepler (GK1XX/GM1XX)
Справочная информация о семействе видеокарт Maxwell (GM2XX)
Справочная информация о семействе видеокарт Pascal (GP1XX)