В тонкости — сила!Калибр 0.09, залп из Калифорнии:NVIDIA GeForce 7900 GTX/GT (G71),GeForce 7600 GT (G73)

Часть 1: Теория и архитектура
Чем больше транзисторов на рисуемый пиксель –
Тем более он анизотропный и антиалиасинговый

(почти рэп)

G71 — все то же самое, только заметно лучше
(фраза, подлежащая проверке по ходу статьи).




Не за горами Microsoft Windows Vista, а с ней и новые технологии в 3D. Но до этого момента еще более полугода, и компании продолжают осваивать новые техпроцессы, уменьшать, утончать и оптимизировать свои прибыли. Быстрее, лучше, дешевле — чем не олимпийский лозунг?

Если в свое время с переходом с 0.15 мкм на 0.13 low-k техпроцесс у ATI все получилось весьма неплохо, и новые продукты (RADEON X800 (R420)) обладали очень хорошими характеристиками, прежде всего, по энергопотреблению относительно конкурентов, то начиная с 0.11 мкм у канадской компании дела не заладились. R430 оказался неудачным и был снят с производства (если говорить о топовых продуктах). Топ по 0.11 у ATI так и не получился, а переход на 0.09 мкм был еще более болезненным. R520 задержался с выходом на несколько месяцев, что позволило легко перешедшей на тот же 0.11 мкм техпроцесс NVIDIA обогнать своего соперника, выпустив G70 (7800 GTX).

Как мы видели ранее, вышедший не так давно самый мощный ускоритель ATI X1900 XTX, несмотря на то, что ядро выполнено по 0.09 мкм техпроцессу, очень сильно греется и обладает рекордным энергопотреблением. Уже стало привычным, что переход на новые техпроцессы даётся канадцам более болезненно, и приводит в итоге к очень высокой себестоимости графических ядер, а значит, и к существенному снижению прибыли или снижает гибкость при выводе и/или позиционировании продуктов на рынке.

Борясь с избыточным транзисторным весом и уменьшая свой техпроцесс, NVIDIA, как показало предлагаемое ниже расследование, легко справляется как с энергопотреблением, так и с тепловыделением, не забывая при этом выдавать на-гора прекрасную производительность. Да, в наше время эта весьма изящная дама обладает весьма завидными силовыми качествами. Вон она, серьезная соперница против RUBY.

Никто не спорит с тем, что RADEON X1900 XTX — это колоссальная мощь, 48 пиксельных конвейеров — это вам не детские шалости. И очень может быть, что в скором времени нас ждут игры, где этот вычислительный потенциал станет востребованным. Тогда уже никто не догонит RUBY в ее стремительном прыжке. Но, кто знает, что лучше: завидный потенциал, вместе с огромным тепловыделением и энергопотреблением, или продукт с менее скромным потенциалом, но тихий и намного менее требовательный к мощности блока питания… А самое главное — гораздо более дешевый в плане стоимости. Да и как сравнить потенциалы: никто не знает, что будет наиболее востребовано через полгода и тем более через год. Цифры, вокруг одни цифры и догадки: 48 и 16 или 24 и 24… Что лучше?

Наш материал поможет вам немного разобраться (для себя) в этом противостоянии. RADEON X1900/1800 XT/XTX мы уже изучили, сегодня вышла в свет новая гвардия от NVIDIA. Она тоже обещает показать интересные моменты, и даже рекорды.



Передаем слово коллеге, Александру Медведеву, он расскажет о новинках:

Прошло совсем немного времени после анонса RADEON X1900 (R580), решения не такого спорного, как R520, и даже претендующего на лидерство, как NVIDIA решила вогнать еще один гвоздик в дело туманности рыночных перспектив ATI в этом сезоне. Никто не спорит, что технологически ATI находится сейчас на передовой ускорения графики, но будут ли её шаги успешными в плане коммерческой отдачи и признания у широких масс покупателей?

Сегодня NVIDIA анонсировала два новых чипа. Основной момент — технология 90нм (=0.09мкм) — и теперь она не является прерогативой ATI. Один из чипов — решение верхнего уровня, хотя и называется G71, но реально позиционируется как более сильное, чем G70 решение (под маркой GeForce 7900). Далее мы подробно обсудим этот факт. Второй новый чип — G73 (под маркой GeForce 7600) — обрезанная версия G71, призванная серьёзно подвинуть всех конкурентов в среднем ценовом сегменте, особенно по соотношению цена-производительность. Итак, без промедлений перейдем к спецификациям:

Спецификации семейств
GeForce 7900 (кодовое название G71)
и GeForce 7600 (G73)

Перед прочтением рекомендуем внимательно ознакомиться с базовыми материалами DX Current, DX Next и Longhorn, описывающими различные аспекты современных аппаратных ускорителей графики вообще, и архитектурные особенности продукции NVIDIA и ATI в частности. Информацию о флагманской архитектуре NVIDIA и предыдущем чипе G70 можно почерпнуть из соответствующей статьи:
NVIDIA GeForce 7800 GTX (G70).

А теперь, спецификации новинки:

Официальные спецификации GeForce 7900



  • Кодовое имя чипа G71
  • Технология 90 нм (предполагаемый производитель TSMC)
  • 279 миллионов транзисторов (внимание, меньше чем у G70!)
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 256 бит интерфейс памяти (4-х канальный контроллер)
  • До 1 гигабайта GDDR-3 памяти
  • PCI Express 16х шинный интерфейс
  • 24 Пиксельных процессора, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 8 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выбор значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16.
  • В вершинных шейдерах аппаратная фильтрация текстур не поддерживается, доступна только выборка значений без фильтрации.
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 × RAMDAC 400 МГц
  • 2 × DVI интерфейса (оба DualLink до 2560х1600, интерфейсы интегрированы в G71 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264 (!), WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+
  • Поддержка важных специальных возможностей графической драйверной модели Longhorn (степень поддержки пока неизвестна)
  • Поддержка технологии SLI и Quad-SLI

Спецификации референсной карты GeForce 7900 GTX

  • Частота ядра 650 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 700 МГц
  • Эффективная частота памяти 1,6 ГГц (2*800 МГц)
  • Тип памяти GDDR-3, 1,1 нс (штатная частота до 2*900 МГц)
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 51,2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 10,4 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 15,6 гигатекселя в сек.
  • Два DVI-I разъема (DualLink — поддержка 1920х1200 и 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо, около 70-80 Ватт, но точные данные не декларированы).
  • Прогнозируемый диапазон цен $649-$499
  • Конкуренты: RADEON X1900 XTX и XT

Спецификации референсной карты GeForce 7900 GT

  • Частота ядра 450 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 470 МГц
  • Эффективная частота памяти 1,32 ГГц (2*660 МГц)
  • Тип памяти GDDR-3, 1.4нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 42,2 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 7,2 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 10.8 гигатекселя в сек.
  • Два DVI-I разъема (DualLink — поддержка 1920х1200 и 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет энергии заметно меньше GeForce 7800 (видимо около 50-60 Ватт, но точные данные не декларированы).
  • Прогнозируемый диапазон цен $399-$249
  • Конкуренты: RADEON X1800 XL и GTO

Очевидно, что это та же самая архитектура, что была реализована в G70, просто переведенная на технологию 90нм и с минорными изменениями (выделены синим). Хотя, постойте — как же с минорными? — Почему транзисторов стало заметно меньше? Скажется ли это на скорости?

Забегая вперед, отметим, что не скажется. Возможно, в G70 было зарезервировано какое-то число блоков (например, было не 6 квадов пиксельных процессоров, а 7 или 8 и не 8 вершинных, а 9 или 10) для повышения выхода годных чипов или, даже, потенциальной Ultra версии, если бы ATI в свое время выпустили нечто подавляющее по производительности.

В новом G71 блоков, судя по всему, стало под завязку — то ли выход годных на 90нм производстве так хорош, то ли NVIDIA может позволить себе больше брака (так как себестоимость чипа упала из за существенно меньшей площади). Еще один вариант ответа на этот вопрос — значительная оптимизация — тоже вероятен, но менее, так как сократить число транзисторов на 25 миллионов, без какой-либо потери в скорости при совершенно такой же архитектуре сложно. Но, может быть и возможно, не будем отвергать такую версию сразу. Итак, косвенные причины показывают на высокий выход годных и отсутствие проблем с производством, а также на заметно меньшую себестоимость нового чипа по сравнению с G70. Таким образом, становится и понятен его кодовый номер — G71 — чип и правда проще по транзисторам, хотя в итоге и быстрее благодаря более высокой частоте — парадокс.

Итак, с точки зрения архитектуры, в наличии все те же возможности и все тоже число активных блоков. То есть все определит тактовая частота, которая заметно выше, и цена, которая, благодаря более тонкой технологии и меньшему числу транзисторов может потенциально опуститься заметно ниже, чем в случае с G70.

Типовое потребление GeForce 7800 было, как известно, меньше 100 Ватт, а новая карта нагревается существенно меньше. Для сравнения — потребление X1900 XT порядка 120 Ватт, что практически вдвое выше. Это заметно и на практике — достаточно потрогать карты (не во время работы, это опасно, а через небольшое время после отключения системы). Площадь чипа заметно меньше конкурента от ATI (R580) и предыдущего флагмана NVIDIA (G70):



Обратим внимание на два интегрированных DualLink DVI интерфейса — время внешних интерфейсных чипов ушло в небытие и все ту же спецификацию 400 МГц на RAMDAC — а зачем больше, ведь аналоговые мониторы уже давно прекратили развитие.

Еще одно интересное новшество — технология Quad-SLI. О ее назначении проницательный читатель догадается по названию, а подробнее мы ее обсудим далее.

Декларируется аппаратная поддержка H.264 и других стандартов видеосжатия последних поколений, рассчитанных на HD, голубой луч и иже — интересно, что эта поддержка была и в семействе NV4X, но в результате ошибки она не доступна у NV40 и NV45, а у более новых чипов — NV42, 43 и т.д. она также будет задействована в новых драйверах. Кроме декодирования обещают в очередной раз улучшенный алгоритм деинтерлейсинга и новый постпроцессинг с повышенной четкостью и улучшенной цветопередачей. Поживем, увидим — еще бы больше производилось материалов в HD качестве, уже есть, на чем проиграть, а вот что…

Официальные спецификации GeForce 7600


  • Кодовое имя чипа G73
  • Технология 90 нм (предполагаемый производитель TSMC)
  • ~150 миллионов транзисторов
  • FС корпус (flip-chip, перевернутый чип без металлической крышки)
  • 128 бит интерфейс памяти (двухканальный контроллер)
  • До 512 мегабайт GDDR-3 памяти
  • PCI Express 16х шинный интерфейс
  • 12 Пиксельных процессоров, по одному текстурному блоку на каждом, с произвольной фильтрацией целочисленных и плавающих FP16 текстур (в том числе анизотропия, степени до 16х включительно) и бесплатной нормализацией FP16 векторов (улучшены по сравнению с NV4X — увеличено число ALU, возможно эффективное выполнение MAD операции).
  • 5 Вершинных процессоров, по одному текстурному блоку на каждом, без фильтрации выбираемых значений (дискретная выборка).
  • Вычисление, блендинг и запись до 8 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 16 значений глубины и буфера шаблонов за такт (если не производятся операции с цветом)
  • Поддержка «двустороннего» буфера шаблонов
  • Поддержка специальных оптимизаций прорисовки геометрии для ускорения алгоритмов теней на основе буфера шаблонов и аппаратные карты теней (так называемая технология Ultra Shadow II)
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 3.0, включая динамические ветвления в пиксельных и вершинных процессорах, выбор значений текстур из вершинных процессоров и т.д.
  • Фильтрация текстур в плавающем формате FP16.
  • В вершинных шейдерах аппаратная фильтрация текстур не поддерживается, доступна только выборка значений без фильтрации.
  • Поддерживается буфер кадра в плавающем формате (включая операции блендинга в формате компонент FP16 и только запись в формате FP32)
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 × RAMDAC 400 МГц
  • 2 × DVI интерфейса (оба DualLink до 2560х1600, интерфейсы интегрированы в G73 и внешние интерфейсные чипы не нужны)
  • TV-Out и HDTV-Out интерфейсы встроены в чип ускорителя
  • TV-In интерфейс (требуется отдельный интерфейсный чип для видеозахвата)
  • Программируемый аппаратный потоковый видеопроцессор (для задач компрессии, декомпрессии и постобработки видео), новое поколение, с производительностью, достаточной для качественного деинтерлейсинга HDTV. Полноценное аппаратное ускорение H.264 (!), WMV-HD и т.д.
  • 2D ускоритель с поддержкой всех функций GDI+
  • Поддержка важных специальных возможностей графической драйверной модели Longhorn (степень поддержки пока неизвестна)
  • Поддержка технологии SLI и Quad-SLI

Спецификации референсной карты GeForce 7600 GT

  • Частота ядра 560 МГц (пиксельные процессоры и блендинг)
  • Частота вершинного блока 560 МГц
  • Эффективная частота памяти 1.4 ГГц (2*700 МГц)
  • Тип памяти GDDR-3, 1.4нс (штатная частота до 2*700 МГц)
  • Объем памяти 256 мегабайт
  • Пропускная способность памяти 22.4 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 4.48 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 6.72 гигатекселя в сек.
  • Два DVI-I разъема (DualLink — поддержка 1920х1200 и 2560х1600)
  • SLI разъем
  • Шина PCI-Express 16х
  • TV-Out, HDTV-Out, поддержка HDCP
  • Потребляет очень мало энергии (видимо, около 40-60 Ватт, но точные данные не декларированы).
  • Прогнозируемый диапазон цен $229-$179
  • Конкуренты: RADEON X1600 XT

Синим цветом отмечены отличия от G71. Итак, очевидно, что G73 это практически ровная (если не считать 5 вершинных блоков вместо 4) половина G71. Как с точки зрения контроллера памяти, так и пиксельной части. Однако и тут необходимо оговорить некоторую поправку — по нашим исследованиям, физически у G73 присутствует 16 пиксельных процессоров, а не 12 (то есть в наличии 4 квада). Один квад оставлен для борьбы за выход годных чипов или (чем не шутит рынок) для выпуска решения с 16 пиксельными блоками, способного отреагировать на новую конкуренцию в нише. Чип меньше по площади, чем NV43 — но во много раз производительнее!!! (слева NV43 справа G73)



Кодовое имя G74 пока не задействовано — судя по всему, под этим названием может выйти при необходимости еще более недорогая реинкарнация G71, и она также может быть нацелена на 20 или 16 пиксельных конвейеров. Поживем, увидим, забегая вперед — пока NVIDIA не о чем беспокоиться в этой области и G73 в его нынешней 12 конвейерной ипостаси более чем достаточен.

В сухом остатке G73 выглядит ОЧЕНЬ привлекательно, и его конкурентоспособность, вне всяких сомнений, уже здесь и сейчас, после прочтения спецификации и до каких-либо практических тестов. Далее мы найдем многочисленные практические подтверждения этим словам.

Quad-SLI — внедорожник маркетинговых полей

Итак, новая старая технология — SLI для четырех чипов. Разумеется, такие решения существовали и раньше, например, в промышленных симуляторах для обучения пилотов или, возможно, в игровых автоматах. Однако впервые мы имеем дело с такой технологией на обычном потребительском PC. А также, со вставляемой в один слот двухчиповой картой на базе GeForce от NVIDIA. Эти карты будут иметь специальный суффикс "GT2".

<


Разумеется, не было смысла делать Quad-SLI решением для четырех полноценных PCI-E 16х слотов — подобные материнские платы были бы слишком экзотичными, а покупка четырех одинаковых карт выглядит неоправданной даже в случае линейного роста производительности. Решение NVIDIA выглядит более разумным — выпустить карты с двумя чипами, которая сама по себе представляет SLI решение, и позволить устанавливать две такие двучиповые карты в поддерживающую SLI материнскую плату. Таким образом, NVIDIA убивает двух зайцев — предлагает одиночное SLI решение на одной карте, а также возможность нарастить его до Quad-SLI путем установки второй подобной карты. Нет сомнений, что производительность будет высока, а порой и рекордна. В будущем мы посвятим Quad-SLI отдельный материал и подробно исследуем его скорость в различных приложениях. Пока же отметим, что только низкое энергопотребление и тепловыделение G71 (а также и низкая себестоимость, не будем забывать и об этом факторе) сделали возможным выпуск подобной двучиповой флагманской карты. Так как ни G70, ни R580 не позволили бы физически создать подобную карту в рамках современных спецификаций PC на потребление энергии и выделение тепла.

Карта состоит из базовой и дочерней плат, занимает ширину двух слотов и при работе в Quad-SLI режиме связывается двумя линками с соседней двучиповой картой. Таким образом, мы получаем топологию квадрата — оба чипа карты связаны друг с другом и каждый связан с еще одним чипом соседней карты.

       



Кроме того, на каждой двучиповой карте установлен PCI-E x16 мост, осуществляющий арбитраж и доступ к обоим ускорителям со стороны системы.

Работа построена по-прежнему — есть три режима совместной работы — AFR (чередование расчета кадров между ускорителями), зональный рендеринг (разделение экрана теперь уже на 4 зоны) и SLI-AA — использование ускорителей для расчета разных AA семплов в пределах одного пикселя. Кроме того, логичным становится комбинирование режимов — например, 2хAFR от двух двузональных кадров (чередование кадров, каждый из которых построен SLI методом разделения зон) или зональное разделение 2х SLI-AA и т.д. Комбинаций может быть много, никаких новых архитектурных изменений для этого не нужно, в SLI уже заложены различные возможности, а сочетанием управляет драйвер. Как и ранее могут быть выбраны оптимальные настройки для приложений, как пользователем, так и заданные заранее. В очередной раз NVIDIA подчеркивает, что число таких распознаваемых SLI приложений заметно выше, чем в случае ATI CrossFire и что в отличие от ATI не требуется специальной мастер карты — все карты NVIDIA с поддержкой SLI готовы работать вместе, и все GT2 (Quad-SLI) карты могут работать друг с другом.

Мобильные вопросы

Интересно, что низкое энергопотребление G71 сделало оправданным широкое мобильное применение этого чипа, и более того — открыло дорогу таким экзотическим решениям как SLI ноутбуки! Фотография материнской платы такого ноутбука, на ней видны два ускорителя на базе мобильного G71 (GeForce Go 7900):



В скором времени нас ждут анонсы различных решений на базе G7900 Go, от ведущих производителей ноутбуков, в том числе, SLI решений. Разумеется, что тактовая частота чипа будет ниже, чем в настольных вариантах, особенно при автономном питании, но даже в самых компактных ноутбуках, где впервые появится столь мощная графика, она будет составлять для ядра порядка 375 (GeForce Go 7900 GS) и 500 (GeForce Go 7900 GTX) МГц. Что сравнимо по производительности с современными настольными решениями на базе GeForce 7800, то есть отстает от настольных ПК только на полгода.

Да, очевидный запас очевиден — нет сомнений, что если NVIDIA будет необходимо, то появятся еще более производительные настольные решения.

Как считать ALU или немного мыслей про R580

В последнее время происходит много путаницы, связанной со сменой подходов к построению пиксельных процессоров. Если раньше все было достаточно просто и обособлено — вот конвейер, один на квад (четыре пикселя), в нем есть TMU и затем, скажем, два ALU подряд:

4 *( TMU -> VecALU -> VecALU )

и таким образом за такт для четырех пикселей он может сделать одну выборку текстур и две векторные математические операции (в лучшем случае) то сейчас эта схема описания еще применима к G7X, но уже не применима к R5XX семейству.

Ибо теперь текстурные модули вынесены в сторону, а вычислительные ALU существуют отдельно. Можно заявить, что число пиксельных процессоров — суть число текстурных модулей. Можно — и так будет выгоднее производителю — что это число арифметических ALU. Хотя по честному, это, скорее, число квадов, которые самостоятельно обрабатываются разными операциями в один момент времени, а если еще точнее — то процессор теперь ОДИН, а его ширина (возможность выполнить некое число операций единовременно) и есть характеристика, которой надо оперировать.

Понятие традиционного пиксельного конвейера раздробилось на части, и теряет свой единый смысл, единственное, за что можно зацепиться для адекватного сравнения — число текстурных и арифметических операций за такт, с одной стороны, и число пикселей которые могут быть записаны на выходе пиксельной части — с другой. При этом, как и в CPU появляется понятие эффективности — ведь не всегда все блоки будут загружены на 100% и, скажем, зачастую ALU в R580 будут простаивать в ожидании данных от текстурных блоков.

Теперь конкретнее — трудно сказать, реально ли в R580 есть возможность обработать вычислительно 12 независимых квадов, то есть имеет место конфигурация:

4 * TMU -> [дириджер] <-> 12 * ( 4*VecALU ),

как это заявлено, или там более разумная с точки зрения конструкции чипа конфигурация:

4 * TMU -> [дириджер] <-> 4 * ( VecALU -> VecALU -> VecALU )

то есть три ALU в каскаде, способные выполнять только последовательные мат операции (также как 2 ALU в G7X)?

Проверить этот факт сложно, но в будущем мы постараемся это сделать. Пока отметим, что NVIDIA имеет в такой нотации схему:

6 * ( 4*TMU -> VecALU -> VecALU )

и если судить по-хорошему, соотношение операций в шейдере, оптимальное для чипа, отличается не втрое, а так:

  • 1 TEX к 2 MATH для NVIDIA G7X
  • 1 TEX к 3 MATH для R580

При этом эффективность ATI гораздо меньше зависит от условий и переходов, так как латентные текстурные блоки там вынесены в сторону и могут работать независимо, но заметно сильнее зависит от кода шейдера! А точнее от того, как эффективно он компилируется и того, насколько хорошо в нем математические инструкции отделены от текстурных. Если наше предположение о 16 реальных блоках с тремя каскадными ALU верно, то этот факт только усилится.

Кроме того, не забываем о побочном факте — для NVIDIA критичны временные регистры, чем их больше, тем ниже эффективность, а для ATI нет.

В наше время нет смысла говорить о числе пиксельных процессоров, также как в случае CPU нет смысла говорить о числе команд за такт — есть только максимальные ограничения (N текстурных выборок и M ALU операций). Но, кроме того, играет роль и эффективность загрузки этих блоков, которая зависит от шейдера и архитектуры управляющей логики пиксельной части. Кроме того, есть еще ограничение сверху — число пикселей, которые могут быть записаны за один такт в буфер кадра.

В финале: c этой точки зрения оптимальное соотношение операций выглядит, как 1:2 для G7X и 1:3 для ATI. Кроме того, мы знаем, что ATI более требовательная к коду шейдеров с точки зрения их сложности (не любит простые шейдеры), но менее зависит от переходов и ветвлений. Также мы знаем, что конвейеров у ATI 16 а у NVIDIA 24, что во многом уравнивает их шансы на средних по сложности шейдерах и делает NVIDIA фаворитом на простых. Все остальное покажут тесты.

Архитектура G71 и G73

Ввиду отсутствия изменений опускаем эту часть, в силе остается все сказанное в обзоре GeForce 7800. Для наглядности приведем несколько слайдов из материалов NVIDIA, посвященных архитектурным спецификациям новых чипов:













А теперь перейдем к долгожданной практической части!NVIDIA GeForce 7900 GTX/GT (G71), GeForce 7600 GT (G73) — Часть 2: Особенности видеокарт и синтетические тесты




9 марта 2006 Г.

- ! 0.09, : NVIDIA GeForce 7900 GTX/GT (G71), GeForce 7600 GT (G73)

— !
0.09, :
NVIDIA GeForce 7900 GTX/GT (G71),
GeForce 7600 GT (G73)

1:




( )

G71 — ,
(, ).




Microsoft Windows Vista, 3D. , , , . , , — ?

0.15 0.13 low-k ATI , (RADEON X800 (R420)) , , , 0.11 . R430 ( ). 0.11 ATI , 0.09 . R520 , 0.11 NVIDIA , G70 (7800 GTX).

, ATI X1900 XTX, , 0.09 , . , , , , / .

, NVIDIA, , , , - . , . , RUBY.

, RADEON X1900 XTX — , 48 — . , , . RUBY . , , : , , , … — . : , . , : 48 16 24 24… ?

( ) . RADEON X1900/1800 XT/XTX , NVIDIA. , .



, , :

RADEON X1900 (R580), , R520, , NVIDIA ATI . , ATI , ?

NVIDIA . — 90 (=0.09) — ATI. — , G71, , G70 ( GeForce 7900). . — G73 ( GeForce 7600) — G71, , -. , :


GeForce 7900 ( G71)
GeForce 7600 (G73)

DX Current, DX Next Longhorn, , NVIDIA ATI . NVIDIA G70 :
NVIDIA GeForce 7800 GTX (G70).

, :

GeForce 7900



  • G71
  • 90 ( TSMC)
  • 279 (, G70!)
  • F (flip-chip, )
  • 256 (4- )
  • 1 GDDR-3
  • PCI Express 16
  • 24 , , FP16 ( , 16 ) FP16 ( NV4X — ALU, MAD ).
  • 8 , , ( ).
  • , 16 (, , )
  • 32 ( )
  • «»
  • ( Ultra Shadow II)
  • 3.0, , ..
  • FP16.
  • , .
  • ( FP16 FP32)
  • MRT (Multiple Render Targets — )
  • 2 × RAMDAC 400
  • 2 × DVI ( DualLink 25601600, G71 )
  • TV-Out HDTV-Out
  • TV-In ( )
  • ( , ), , , HDTV. H.264 (!), WMV-HD ..
  • 2D GDI+
  • Longhorn ( )
  • SLI Quad-SLI

GeForce 7900 GTX

  • 650 ( )
  • 700
  • 1,6 (2*800 )
  • GDDR-3, 1,1 ( 2*900 )
  • 512
  • 51,2 .
  • 10,4 .
  • 15,6 .
  • DVI-I (DualLink — 19201200 25601600)
  • SLI
  • PCI-Express 16
  • TV-Out, HDTV-Out, HDCP
  • GeForce 7800 (, 70-80 , ).
  • $649-$499
  • : RADEON X1900 XTX XT

GeForce 7900 GT

  • 450 ( )
  • 470
  • 1,32 (2*660 )
  • GDDR-3, 1.4 ( 2*700 )
  • 256
  • 42,2 .
  • 7,2 .
  • 10.8 .
  • DVI-I (DualLink — 19201200 25601600)
  • SLI
  • PCI-Express 16
  • TV-Out, HDTV-Out, HDCP
  • GeForce 7800 ( 50-60 , ).
  • $399-$249
  • : RADEON X1800 XL GTO

, , G70, 90 ( ). , — ? — ? ?

, , . , G70 - (, 6 , 7 8 8 , 9 10) , , Ultra , ATI .

G71 , , — 90 , NVIDIA ( ). — — , , 25 , - . , , . , , G70. , — G71 — , — .

, , . , , , , , G70.

GeForce 7800 , , 100 , . — X1900 XT 120 , . — ( , , ). ATI (R580) NVIDIA (G70):





DualLink DVI — 400 RAMDAC — , .

— Quad-SLI. , .

H.264 , HD, — , NV4X, NV40 NV45, — NV42, 43 .. . . , — HD , , , …

GeForce 7600


  • G73
  • 90 ( TSMC)
  • ~150
  • F (flip-chip, )
  • 128 ( )
  • 512 GDDR-3
  • PCI Express 16
  • 12 , , FP16 ( , 16 ) FP16 ( NV4X — ALU, MAD ).
  • 5 , , ( ).
  • , 8 (, , )
  • 16 ( )
  • «»
  • ( Ultra Shadow II)
  • 3.0, , ..
  • FP16.
  • , .
  • ( FP16 FP32)
  • MRT (Multiple Render Targets — )
  • 2 × RAMDAC 400
  • 2 × DVI ( DualLink 25601600, G73 )
  • TV-Out HDTV-Out
  • TV-In ( )
  • ( , ), , , HDTV. H.264 (!), WMV-HD ..
  • 2D GDI+
  • Longhorn ( )
  • SLI Quad-SLI

GeForce 7600 GT

  • 560 ( )
  • 560
  • 1.4 (2*700 )
  • GDDR-3, 1.4 ( 2*700 )
  • 256
  • 22.4 .
  • 4.48 .
  • 6.72 .
  • DVI-I (DualLink — 19201200 25601600)
  • SLI
  • PCI-Express 16
  • TV-Out, HDTV-Out, HDCP
  • (, 40-60 , ).
  • $229-$179
  • : RADEON X1600 XT

G71. , , G73 ( 5 4) G71. , . — , G73 16 , 12 ( 4 ). ( ) 16 , . , NV43 — !!! ( NV43 G73)





G74 — , G71, 20 16 . , , — NVIDIA G73 12 .

G73 , , , , - . .

Quad-SLI —

, — SLI . , , , , , . PC. , GeForce NVIDIA. "GT2".

<


, Quad-SLI PCI-E 16 — , . NVIDIA — , SLI , SLI . , NVIDIA — SLI , Quad-SLI . , , . Quad-SLI . , G71 ( , ) . G70, R580 PC .

, Quad-SLI . , — .

       



, PCI-E x16 , .

- — — AFR ( ), ( 4 ) SLI-AA — AA . , — , 2AFR ( , SLI ) 2 SLI-AA .. , , SLI , . , , . NVIDIA , SLI , ATI CrossFire ATI — NVIDIA SLI , GT2 (Quad-SLI) .

, G71 , — SLI ! , G71 (GeForce Go 7900):



G7900 Go, , , SLI . , , , , , , 375 (GeForce Go 7900 GS) 500 (GeForce Go 7900 GTX) . GeForce 7800, .

, — , NVIDIA , .

ALU R580

, . — , ( ), TMU , , ALU :

4 *( TMU -> VecALU -> VecALU )

( ) G7X, R5XX .

, ALU . , — . — — ALU. , , , , , — , ( ) , .

, , , — , , — . , CPU — 100% , , ALU R580 .

— , R580 12 , :

4 * TMU -> [] <-> 12 * ( 4*VecALU ),

, :

4 * TMU -> [] <-> 4 * ( VecALU -> VecALU -> VecALU )

ALU , ( 2 ALU G7X)?

, . , NVIDIA :

6 * ( 4*TMU -> VecALU -> VecALU )

-, , , , :

  • 1 TEX 2 MATH NVIDIA G7X
  • 1 TEX 3 MATH R580

ATI , , ! , , . 16 ALU , .

, — NVIDIA , , , ATI .

, CPU — (N M ALU ). , , , . , — , .

: c , 1:2 G7X 1:3 ATI. , , ATI ( ), . , ATI 16 NVIDIA 24, NVIDIA . .

G71 G73

, GeForce 7800. NVIDIA, :













!

NVIDIA GeForce 7900 GTX/GT (G71), GeForce 7600 GT (G73) — 2: