DirectX 10 на пороге или 128 калифорнийских стрелков в действии:

NVIDIA GeForce 8800 GTX (G80)


Часть 2: Особенности видеокарт (в том числе от BFG), синтетические тесты


Коэффициент гламурности синтетики:
Число транзисторов в GPU поделить на номер версии DX.
С каждым разом он выше и выше…





СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)
  7. NVIDIA Editor's Day


NVIDIA GeForce 8800 GTX (G80): Часть 1: Теоретические сведения


NVIDIA GeForce 8800 GTX (G80): Часть 2: Особенности видеокарты и синтетические тесты







Итак, все подробности об особенностях архитектуры новинок уже освещены Александром Медведевым в первой части материала.

Мы знаем, что новая линейка NVIDIA на сегодня состоит из следующих карт:

  • NVIDIA GeForce 8800 GTX (G80) 768MB GDDR3, 575/1350/1800 MHz, 128 unified processors/32 TMUs/24 ROPs — $599;
  • NVIDIA GeForce 8800 GTS (G80) 640MB GDDR3, 500/1200/1600 MHz, 96 unified processors/24 TMUs/20 ROPs — $449;

На NVIDIA Editor's Day (о нем будет рассказано в четвертой части нашего повествования) мы получили GeForce 8800 GTX. А затем подоспела карта от BFG.

Поэтому мы смогли установить режим SLI:



Платы



NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E
GPU: GeForce 8800 GTX (G80)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders): 575/1350 MHz (номинал — 575/1350 МГц)

Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)

Ширина шины обмена с памятью: 384bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 128

Число текстурных процессоров: 32

Число ROPs: 24

Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: черный.

RAMDACs/TMDS: вынесены в отдельную микросхему.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

BFG GeForce 8800 GTX 768MB PCI-E
GPU: GeForce 8800 GTX (G80)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders): 575/1350 MHz (номинал — 575/1350 МГц)

Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)

Ширина шины обмена с памятью: 384bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 128

Число текстурных процессоров: 32

Число ROPs: 24

Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: черный.

RAMDACs/TMDS: вынесены в отдельную микросхему.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).



NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E; BFG GeForce 8800 GTX 768MB PCI-E
Карта имеет 768 МБ памяти GDDR3 SDRAM, размещенной в 12-ти микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.1ns, что соответствует частоте работы 900 (1800) МГц.



Сравнение с эталонным дизайном, вид спереди
NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E Reference card NVIDIA GeForce 7900 GTX 512MB PCI-E
BFG GeForce 8800 GTX 768MB PCI-E


Сравнение с эталонным дизайном, вид сзади
NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E Reference card NVIDIA GeForce 7900 GTX 512MB PCI-E
BFG GeForce 8800 GTX 768MB PCI-E


Прекрасно видно, что новый дизайн у 8800-карт кардинально отличается от предшественника. Прежде всего, из-за увеличения количества микросхем памяти разработчики были вынуждены отказаться от полукруглого расположения чипов вокруг ядра, что давало возможность иметь примерно равные расстояния от микросхем до GPU. И потому мы видим ранее используемое в старых решениях прямоугольное расположение микросхем памяти. Подобное мы могли видеть лишь в 7950GX2, однако там, во-первых, сложный дизайн двойной карты накладывал свои ограничения, во-вторых, частоты работы памяти были сильно снижены относительно, например, 7900 GTX. А здесь частота работы памяти весьма высока, поэтому над дизайном PCB пришлось изрядно потрудиться. Почему не перешли на двустороннее расположение микросхем памяти с размещением дополнительных четырех на обороте PCB? Полагаю, что виной тому потребность упомянутых модулей в хорошем охлаждении, чего получить на обороте карты без использования всякого рода сложных кулеров с тепловыми трубками, нереально. Проще установить все на лицевой стороне, и накрыть единым радиатором.

Обратим внимание на длину PCB — 270 мм, когда как привычно максимальный размер был до сего времени — 220 мм, то есть карта выросла по длине на 5 см, что накладывает определенные ограничения на использование ее в ряде корпусов даже современного уровня. Например, в корпус стендового компьютера от компании ChiefTec такая плата влезла с трудом, от ее конца до корзин с HDD осталось не более 5 мм. Очень правильно, что разъемы дополнительного питания выведены к верхней кромке карты, а не на торец, как ранее.

Кстати, о питании. На фотографиях четко видно, что плата требует ДВА шестипиновых PCI-E хвоста от БП. Поэтому и это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 450Вт (честных!) с поддержкой токов по 12В каналу не менее 20А. Это такие требования со стороны GeForce 8800 GTX. Кстати, сама карта потребляет примерно 150Вт под нагрузкой в 3D, и около 100Вт без нее.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Отдельно надо сказать насчет частот ядер. Ранее у почти всех ранее нами исследуемых GT/GTX все частоты ядра выставлялись с шагом 27 МГц, и частота геометрического блока была выше остальных на 40 МГц. Об этом подробно мы писали ранее. Однако в случае G71 шаг в 27 МГц был убран. У 7900-го семейства все три частоты могут меняться, как угодно, с шагом до 1-2 МГц. У 7900 GTX разница между частотой геометрического блока и остальными частотами блоков ядра выросла до 50 МГц. У 7900 GT разница — 20 МГц, и шага в 27 МГц также нет.

Мы видим, что доступные нам две частоты работы ядра G80 — 575 и 1350 МГц имеют между собой огромную разницу. Разгон показал, что при установке частоты работы ROPs в 625 МГц (то есть при росте в 50 МГц) частота работы шейдерной части вырастает НЕ НА 50 МГц, а пропорционально! То есть:

(625-575)/575=8.7%. Получаем: 1350 МГц * 1,087 = 1468 МГц.

Да, именно так! Частота работы шейдерного блока стала равна 1468 МГц и выросла на 118 Мгц относительно номинала. Поэтому теперь разгон ПРЕДПОЛОЖИТЕЛЬНО будет давать БОЛЬШЕ ОТДАЧИ. Что не может не радовать оверклокеров.

Что касается продукта от BFG, то он полностью аналогичен, отличается лишь наклейкой на кулере. Кстати о последнем.

NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E; BFG GeForce 8800 GTX 768MB PCI-E

Система охлаждения полностью изменена. Если ранее в 7900 GTX мы видели систему с центральным огромным вентилятором, работающим на медленных оборотах, то есть он прогоняет воздух через левый и правый радиаторы, к которым подведены тепловые трубки, несущие тепло от платформы, прижимающейся к ядру и микросхемам памяти; то теперь произошел возврат к старой турбинной конструкции, когда на одном конце закрытого радиатора устанавливается турбина, прогоняющая воздух сквозь радиатор.

Но не надо расстраиваться, вспоминая ужасный кулер от X1900 XTX. Несмотря на схожесть в конструктиве, есть и отличия.

Во-первых, устройство выводит ПОЛНОСТЬЮ горячий воздух за пределы системного блока.

Во-вторых, турбина очень больших размеров и работает на медленных оборотах, и потому кулер очень тихий, даже при сильной нагрузке.

В-третьих, эффективность системы охлаждения увеличивают тепловые трубки, расположенные по бокам радиатора.

Кулер не тяжелый, так как медь использована только для пластины, которая соприкасается с ядром. Все остальное — из алюминиевого сплава. Конструкция в целом немного напоминает устройства от Arctic Cooling.



Теперь посмотрим на сами процессоры.

8800 GTX — G80 изготовлен на 38-й неделе 2006 года, это в сентябре, то есть, чипу всего 2 месяца



NVIDIA NVIO



Я такие громадные GPU еще не встречал! Не зря ядро защищено от повреждений доступными средствами: и имеется крышка, и даже вокруг чипа есть защитная рамка. Впрочем, крышку могли одеть не только ради спасения целостности кристалла. Она поможет равномерному теплоотводу, поскольку блоки у чипа работают на очень разных частотах.

Далее. Внимательные читатели еще с самого начала увидели наличие некоего чипа слева от основного процессора. В форумах было гадание — что это могло быть, кто-то даже высказывал мнение, что это второй GPU, и G80 состоит из двух ядер (одно более мощное с 256-битной шиной, а второе менее мощное с 128-битной шиной, а потом в маркетинговых целях NVIDIA суммировала разные шины и получила 384 бит).

Разумеется, это не так. Всю работу по 3D выполняет единственный и именно являющийся G80 — чип с огромной крышкой. А вспомогательная микросхема слева — это NVIDIA NVIO. Не «NV10», как могло бы показаться с первого взгляда на чип, а именно IO (Input-Output). Странно было бы видеть NV10 — GeForce 256 в новой инкарнации и по новому техпроцессу в данном случае. :)

NVIO — это особая микросхема, куда собраны RAMDAC и TMDS. То есть блоки, ответственные за вывод графики на мониторы или ТВ, были изъяты из самого G80 и вынесены в отдельный чип. Это весьма разумное решение, поскольку на RAMDAC не будут влиять наводки от шейдерного блока, работающего на огромной частоте. В этот же чип вынесена и поддержка HDCP.

Если референс-карта, понятно, имеет ни комплектации, ни упаковки, то продукт от BFG оснащен и тем, и другим.

Комплектация.

BFG GeForce 8800 GTX 768MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub и S-Video-to-RCA, TV-кабели, адаптер для композитного вывода. А также бонус: фирменная майка от BFG размера XL и не менее фирменные наклейки с тефлоновым покрытием для компьютерной мыши (чтобы бегала более резво). Я ранее высказывал свое восхищение подобным комплектом. Даром, что игр нет — и ладно, все равно устаревшее что-нибудь положили бы в коробку.



Упаковка.

BFG GeForce 8800 GTX 768MB PCI-E

Большой бокс, вставленный в суперобложку фирменного дизайна (на сей раз дизайн несколько изменен, но что означает выражение лица у данного существа — малопонятно: то ли жаба задушила по поводу такой траты денег, то ли это менеджер по продажам охает после общения с руководством BFG, то ли еще что).

Все компоненты тщательно разложены по отсекам, а видеокарта кроме антистатического пакета помещена еще в мягкую упаковку, оберегающую от любых сотрясений.



Здесь уместно кратко описать новый блок питания, который мы получили также от NVIDIA в комплекте с 30-дюймовым монитором для полноценного тестирования супермощных ускорителей последнего поколения. Блок питания компании TAGAN, выходная мощность 1100Вт.







Полные характеристики указаны на самом БП (приведены выше), поэтому нет смысла их повторять в тексте.

БП снабжен уже ЧЕТЫРЬМЯ (!) разъемами PCI-E-питания (как раз для тестирования 8800 GTX SLI!), имеет все нужные разъемы питания (24 пин, 8 пин, 4 пин), но, к сожалению, всего один хвост с разъемом Molex, когда как под SATA хвостов очень много. Надо учитывать, что еще много системных плат, где дополнительные требования к питанию в виде Molex, а также никто не отменял оптические устройства с таким разъемом. Поэтому без дополнительных Molex-разветвителей не обойтись.

Все кабели-хвосты тщательно экранированы, поэтому в целом жгут кабелей очень тугой.

При работе даже с GeForce 8800 GTX на вышеуказанной конфигурации стенда вентиляторы БП работают на малых оборотах, и потому шума почти нет. При работе 8800 GTX SLI обороты растут, однако шумным БП все равно не назовешь. Очень удачное в целом решение. И на перспективу.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете NVIDIA nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • RADEON X1950 XTX (reference, PCI-E, 512MB GDDR4, 650/2000 MHz);
  • GeForce 7900 GTX (ASUS EN7900GTX, PCI-E, 512MB GDDR3, 650/1600 MHz);
  • GeForce 7950 GX2 (BFG, PCI-E, 2x512MB GDDR3, 2x500/1200 MHz);
  • операционная система Windows XP SP2; DirectX 9.0c;
  • монитор Dell 3007WFP (30") (и Mitsubishi Diamond Pro 2070sb (21")).
  • драйверы ATI версии CATALYST 6.10; NVIDIA версии 96.94.

VSync отключен.

Надо сказать, что после некоторой доработки автором Алексеем Николайчуком последняя бета-версия RivaTuner стала поддерживать и этот ускоритель.

NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E







Первый скриншот показывает работу карты на штатных частотах. Мы видим, что максимальная температура ядра не выходит за пределы нормы, при этом кулер остается тихим.

Второй скриншот показал работу ускорителя при повышенных частотах, карта слегка обдувалась вентилятором сбоку, поэтому максимальная температура ядра получилась чуть ниже предыдущей.



Синтетические тесты

Также мы использовали новые, усложненные и перекликающиеся с адекватными сейчас задачами тесты пиксельных шейдеров версии 2.0 — D3D RightMark Pixel Shading 2 и нацеленные на будущее тесты D3D RightMark Pixel Shading 3. Сейчас эти тесты находятся в стадии бета-тестирования и уже доступны для скачивания здесь:

В тестах принимали участие:

  • GeForce 8800 GTX 768MB (далее 8800GTX);
  • GeForce 7950 GX2 512MB (далее 7950GX2);
  • RADEON X1950 XTX 512MB (далее X1959XTX);
  • GeForce 7900 GTX 512MB (далее 7900GTX);

Тест Pixel Filling

Пиковая производительность выборки текстур (texelrate), режим FFP, для разного числа текстур, накладываемых на один пиксель:





Хорошо видно, что 32 текстурных модуля G80 — это значительная сила. А широкая шина памяти позволяет им развернуться и с хорошим КПД приблизится к теоретическому максимуму. Также очевидно, что текстурные блоки чипа работают на базовой, а не удвоенной, как ALU, частоте. Впрочем, что вполне логично, в отличие от коротких конвейеров ALU, текстурный модуль, выполняющий преобразование текстурных координат, выборку и фильтрацию значений — пожалуй, самый сложный и самый длинный по числу стадий конвейер чипа.

Если сравнить результаты с GX2 — формально на оба чипа там 48 текстурных модулей, что больше, но эффективность оных в синтетических тестах ниже — не только по причине накладных расходов SLI но, судя по всему, и по причине существенной переработки модулей в G80 — они стали заметно эффективнее. Здесь может сказываться и унификация архитектуры чипа — например, потенциально, ALU G80 в этом тесте могут быть полностью направлены на задачи генерации текстурных координат.

Итак, как бы там ни было — новый лидер очевиден, и даже удвоенный GX2 не смог ему противостоять. Посмотрим на скорость записи в буфер кадра:







Та же самая картина, но уже в координатах количества записанных в буфер кадра пикселей. В пиковых случаях – 0, 1 и 2 текстуры — G80 впереди.

Проверим ту же задачу, но в исполнении PS 2.0 шейдера:





Как мы и ожидали — ничего не изменилось — как FFP, так и шейдеры работают совершенно одинаково (с точки зрения железа, FFP эмулируется шейдером) и показывают одинаковые результаты. Более высокая эффективность G80 в этом тесте позволяет ему доминировать над GX2.

Важно понимать, что синтетические тесты на унифицированной архитектуре, как бритва, — пользоваться ими надо очень аккуратно. Ведь синтетика нагружает чип однобоко, а реальные приложения будут делить его ресурсы между разными задачами. И если чип со старой архитектурой при хорошем балансе игры по прежнему сможет выдать близкие к пиковым значения, то унифицированный чип в сложном и разнообразном приложении может заметно сбавить обороты по сравнению с синтетическими результатами. Поэтому, будет особенно интересно сверить полученные нами синтетические результаты с игровыми (далее).

Тест Geometry Processing Speed

Самый простой шейдер — предельная пропускная способность по треугольникам:



G80 лидер и тут, впрочем, чуть-чуть — так как здесь все упирается скорее в API и платформу, нежели в ускоритель. С выходом DX10 результаты подобных пиковых тестов имеют шанс существенно вырасти.



Картина закономерностей прежняя, но теперь, разница становится более заметной. Усложняем задачу далее:



Картина окончательно оформилась, и лидер не вызывает сомнения. Унифицированная архитектура развернула свои крылья, в то время как накладные расходы SLI не дали GX2 показать действительно удвоенный результат. На смешанном источнике света проявляется наличие оптимизированной эмуляции FFP – она, так или иначе, есть у всех игроков этого теста.

Еще более сложная задача, включая переходы:



Здесь мы опять получаем доказательство очевидного факта — архитектура G80 — архитектура будущего. Чем сложнее задача, чем более гибкие шейдеры — тем лучше ощущает себя этот чип, все сильнее и сильнее отрываясь от конкурентов предыдущего поколения. Как обычно — переходы – слабое место вершинного блока ATI, надеемся, что R600 будет истинно унифицированным чипом в этом смысле и картина изменится. Как и в случае G7X, для G80 динамические переходы предпочтительнее статических.

Выводы по геометрическим тестам: очевидный лидер G80. Лишенный накладных расходов SLI, и способный направить все свои 128 ALU (работающие на удвоенной частоте) на решение геометрических задач этот чип демонстрирует прекрасную гибкость унифицированной архитектуры, и отличную способность работать со сложным, динамическим кодом вершинных шейдеров. Более чем двукратное преимущество — браво! Посмотрим, что нас ждет в реальных приложениях и, конечно, с нетерпением ждем выхода DX10, способного еще сильнее раскрыть потенциал этого чипа.

Тест Pixel Shaders

Первая группа шейдеров — достаточно простых для исполнения в реальном времени, 1.1, 1.4 и 2.0:



Судя по всему, эти тесты не дают развернуться G80 — они, парадокс, слишком простые для него. GX2 демонстрирует лучшие результаты в самых простых тестах и даже 7900GTX смотрится неплохо на фоне G80. В чем дело? Пока все упирается в API и платформу, для чипов нашего тестирования подобные шейдеры — вчерашний день.

Посмотрим далее, более длинные шейдеры:



Тут есть пища для размышлений. Во-первых, унифицированная архитектура G80 НЕ зависит от точности вычислений и хранения промежуточных результатов. Наконец-то не надо экономить на качестве — можно все время использовать 32-битные вычисления с плавающей запятой, гарантирующие отличный результат без каких-либо артефактов округлений. Так же, как и в случае ATI, результаты совершенно одинаковы для любой точности. Кроме того, если в более зависимом от текстурирования тесте Water GX2 даже чуть опережает G80 (вспоминаем — 48 блоков против 32 и 512 бит шины в сумме SLI против 348), правда, ненамного, и можно говорить о паритете, то в более вычислительно интенсивном тесте на освещение G80 уже четкий лидер. Прекрасные вычислительные способности, ALU, ALU и еще раз ALU :-).

Расстановка сил в области пиксельных шейдеров может измениться в реальных приложениях, но общие тенденции уже вполне очевидны.  

Наши новые шейдерные тесты

Новые тесты, на которые мы будем постепенно переходить в будущих обзорах, доступны для скачивания (см. выше) в составе архива бета-версии D3D RightMark. В будущем мы откажемся от синтетических тестов с более ранними версиями и полностью сосредоточимся на HLSL шейдерах для SM 2.0 и 3.0. Более ранние шейдеры можно будет проверить на примере существующих приложений, а синтетические тесты, нацеленные на текущий момент и даже далее, в будущее, требуют корректировки в соответствии с веяниями времени, что и было проделано.

Начнем с более простых шейдеров PS 2.0. Доступны два новых теста, реализующих актуальные для современных приложений эффекты:

  • Parallax Mapping;
  • Сложную процедурную текстуру замороженного стекла Frozen Glass с управляемыми извне параметрами.

Оба шейдера мы тестируем в двух исполнениях: максимально ориентированном на вычисления и на выборку текстур. Кроме того, мы проверяем результаты для FP16 и для FP32 точности вычислений.

Итак, сперва вычислительно интенсивные варианты решения задачи:



Как мы видим, на первом месте стабильно идет G80 (особенно ему удается тест Frozen-Glass), затем GX2 c заметным отставанием, вызванным накладными расходами SLI и менее гибкой архитектурой. Производительность G80 не зависит от точности. Теперь те же самые тесты в варианте с предпочтением выборки текстур:



Здесь, как мы видим, преимущество G80 менее выражено, в том числе и в абсолютных цифрах. Этот чип, без сомнения, любит вычисления больше, чем текстурирование, и 32 текстурных модуля не были случайностью — это необходимость. Если бы шина могла дать больше — их могло бы быть и 48, но пока в некоторых тестах GX2 впереди. Здесь слишком много зависит от контекста и предпочтения программистов, очевидно, что чтобы полностью раскрыть потенциал G80 им будет необходимо выбрать (создать) вычислительно ориентированные варианты своих алгоритмов — в таком случае G80 будет способен «на ровном месте» добавить еще 50% скорости.

А теперь, самый гибкий тест — PS3. Тест содержит интенсивные динамические ветвления в пиксельных шейдерах:





Нет сомнений, какая архитектура на сегодня самая передовая и лучше всего работает с динамическими переходами в пиксельных шейдерах. Это G80. На втором месте RADEON, а далее идет GX2 (даже SLI не особо помогло в этом случае старой неунифицированной архитектуре).

Выводы: G80 — без сомнений, новая, мощная вычислительная архитектура, прекрасно приспособленная к выполнению самых сложных пиксельных шейдеров. Чем сложнее задача, чем больше в ней вычислений, тем дальше G80 отрывается от своих соперников. В некоторых случаях программисты могут получить заметный прирост, ориентировав чип на вычислительные версии алгоритмов, а не на выборку текстур. Можно предсказать существование игровых приложений, в которых чип получил бы заметное преимущество от 48 текстурных блоков и 512 бит шины памяти. Но здесь компания идет на компромисс — выбирая гибкость и вычислительные возможности для будущих приложений.

Пока можно назвать G80 эталонной платформой для шейдеров с динамическими переходами. Посмотрим, что принесет нам DX10. Также посмотрим, насколько изменится расклад в реальных приложениях, особенно сегодняшних и вчерашних.

Тест HSR

Пиковая эффективность (без текстур и с текстурами), в зависимости от сложности геометрии:









Как мы видим, никаких особых положительных изменений в раскладе не произошло. По сравнению с предыдущим поколением, NVIDIA стала чуть лучше работать со сложными сценами и чуть хуже с простыми (то есть, имеет место легкий тюнинг баланса в соответствии с современными реалиями). Иерархический HSR в исполнении ATI по-прежнему выглядит более успешным, чем одноуровневый в случае NVIDIA, особенно на сложных и средних сценах. Если в случае текстурирования абсолютные результаты G80 по-прежнему самые сильные — в максимально выгодном для тестирования ATI режиме (нет текстурирования, в котором сказываются 16 блоков, максимальная сложность сцены благоволит иерархическому HSR) старый чип ATI выглядит очень выгодно. Но, только в такой искусственной ситуации. В реальных приложения G80 будет впереди, несмотря на то, что в отдельности его HSR нельзя назвать самым эффективным.

Возможно, это вполне осознанный ход — инженеры NVIDIA потратили транзисторы с большей отдачей, с точки зрения реальных приложений. Чем лучше оптимизирована отрисовка приложения, тем больше будет заметно преимущество NVIDIA в совокупности.

Тест Point Sprites





Все, как обычно – этот тест давно упирается (на разумных размерах спрайтов) только в скорость закраски. А здесь — лидеры GX2 под руку с G80.

Выводы по синтетическим тестам

Итак, новое топовое решение NVIDIA, новая архитектура, новые инновации. Все на лицо — и результаты синтетических тестов подтверждают наши теоретические предположения. NVIDIA сделала действительно гибкий чип, нацеленный на сложные динамические шейдеры и вычисления. SLI предыдущего поколения проигрывает ему во многих случаях, а конкретно на шейдерных тестах G80 просто вне конкуренции. Потенциальные проблемные места — выборка текстур и ширина шины, не всегда достаточные для такого вычислительного монстра. У NVIDIA есть очевидный простор для роста в будущем.

Интересно, как изменится расстановка сил (и изменится ли) в реальных приложениях.

Кроме того, ждем DX10 — только он, судя по всему, способен полностью и до конца раскрыть потенциал этого чипа в некоторых областях.

С точки зрения архитектуры,- работу NVIDIA можно оценить на твердую пятерку. Нет сомнений и в прекрасной масштабируемости решения как в одну, так и в другую сторону, а значит, в среднем сегменте и в будущих топовых решениях сделан хороший залог для лидерства. Интересно, каков будет ответ в лице R600 и сможет ли он обойти G80 или речь будет идти только о запоздалом паритете.

Впереди — самая главная часть по тестам в играх. Оставайтесь с нами!

NVIDIA GeForce 8800 GTX (G80) — Часть 3: Игровые тесты (производительность) и исследование качества анизотропии



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией NVIDIA




Дополнительно

DirectX 10 на пороге или 128 калифорнийских стрелков в действии: NVIDIA GeForce 8800 GTX (G80)

DirectX 10 на пороге или 128 калифорнийских стрелков в действии:

NVIDIA GeForce 8800 GTX (G80)

Часть 2: Особенности видеокарт (в том числе от BFG), синтетические тесты


Коэффициент гламурности синтетики:
Число транзисторов в GPU поделить на номер версии DX.
С каждым разом он выше и выше…





СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)
  7. NVIDIA Editor's Day


NVIDIA GeForce 8800 GTX (G80): Часть 1: Теоретические сведения


NVIDIA GeForce 8800 GTX (G80): Часть 2: Особенности видеокарты и синтетические тесты







Итак, все подробности об особенностях архитектуры новинок уже освещены Александром Медведевым в первой части материала.

Мы знаем, что новая линейка NVIDIA на сегодня состоит из следующих карт:

  • NVIDIA GeForce 8800 GTX (G80) 768MB GDDR3, 575/1350/1800 MHz, 128 unified processors/32 TMUs/24 ROPs — $599;
  • NVIDIA GeForce 8800 GTS (G80) 640MB GDDR3, 500/1200/1600 MHz, 96 unified processors/24 TMUs/20 ROPs — $449;

На NVIDIA Editor's Day (о нем будет рассказано в четвертой части нашего повествования) мы получили GeForce 8800 GTX. А затем подоспела карта от BFG.

Поэтому мы смогли установить режим SLI:



Платы



NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E
GPU: GeForce 8800 GTX (G80)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders): 575/1350 MHz (номинал — 575/1350 МГц)

Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)

Ширина шины обмена с памятью: 384bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 128

Число текстурных процессоров: 32

Число ROPs: 24

Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: черный.

RAMDACs/TMDS: вынесены в отдельную микросхему.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

BFG GeForce 8800 GTX 768MB PCI-E
GPU: GeForce 8800 GTX (G80)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders): 575/1350 MHz (номинал — 575/1350 МГц)

Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 900 (1800) МГц)

Ширина шины обмена с памятью: 384bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 128

Число текстурных процессоров: 32

Число ROPs: 24

Размеры: 270x100x32 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: черный.

RAMDACs/TMDS: вынесены в отдельную микросхему.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).



NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E; BFG GeForce 8800 GTX 768MB PCI-E
Карта имеет 768 МБ памяти GDDR3 SDRAM, размещенной в 12-ти микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.1ns, что соответствует частоте работы 900 (1800) МГц.



Сравнение с эталонным дизайном, вид спереди
NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E Reference card NVIDIA GeForce 7900 GTX 512MB PCI-E
BFG GeForce 8800 GTX 768MB PCI-E


Сравнение с эталонным дизайном, вид сзади
NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E Reference card NVIDIA GeForce 7900 GTX 512MB PCI-E
BFG GeForce 8800 GTX 768MB PCI-E


Прекрасно видно, что новый дизайн у 8800-карт кардинально отличается от предшественника. Прежде всего, из-за увеличения количества микросхем памяти разработчики были вынуждены отказаться от полукруглого расположения чипов вокруг ядра, что давало возможность иметь примерно равные расстояния от микросхем до GPU. И потому мы видим ранее используемое в старых решениях прямоугольное расположение микросхем памяти. Подобное мы могли видеть лишь в 7950GX2, однако там, во-первых, сложный дизайн двойной карты накладывал свои ограничения, во-вторых, частоты работы памяти были сильно снижены относительно, например, 7900 GTX. А здесь частота работы памяти весьма высока, поэтому над дизайном PCB пришлось изрядно потрудиться. Почему не перешли на двустороннее расположение микросхем памяти с размещением дополнительных четырех на обороте PCB? Полагаю, что виной тому потребность упомянутых модулей в хорошем охлаждении, чего получить на обороте карты без использования всякого рода сложных кулеров с тепловыми трубками, нереально. Проще установить все на лицевой стороне, и накрыть единым радиатором.

Обратим внимание на длину PCB — 270 мм, когда как привычно максимальный размер был до сего времени — 220 мм, то есть карта выросла по длине на 5 см, что накладывает определенные ограничения на использование ее в ряде корпусов даже современного уровня. Например, в корпус стендового компьютера от компании ChiefTec такая плата влезла с трудом, от ее конца до корзин с HDD осталось не более 5 мм. Очень правильно, что разъемы дополнительного питания выведены к верхней кромке карты, а не на торец, как ранее.

Кстати, о питании. На фотографиях четко видно, что плата требует ДВА шестипиновых PCI-E хвоста от БП. Поэтому и это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 450Вт (честных!) с поддержкой токов по 12В каналу не менее 20А. Это такие требования со стороны GeForce 8800 GTX. Кстати, сама карта потребляет примерно 150Вт под нагрузкой в 3D, и около 100Вт без нее.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Отдельно надо сказать насчет частот ядер. Ранее у почти всех ранее нами исследуемых GT/GTX все частоты ядра выставлялись с шагом 27 МГц, и частота геометрического блока была выше остальных на 40 МГц. Об этом подробно мы писали ранее. Однако в случае G71 шаг в 27 МГц был убран. У 7900-го семейства все три частоты могут меняться, как угодно, с шагом до 1-2 МГц. У 7900 GTX разница между частотой геометрического блока и остальными частотами блоков ядра выросла до 50 МГц. У 7900 GT разница — 20 МГц, и шага в 27 МГц также нет.

Мы видим, что доступные нам две частоты работы ядра G80 — 575 и 1350 МГц имеют между собой огромную разницу. Разгон показал, что при установке частоты работы ROPs в 625 МГц (то есть при росте в 50 МГц) частота работы шейдерной части вырастает НЕ НА 50 МГц, а пропорционально! То есть:

(625-575)/575=8.7%. Получаем: 1350 МГц * 1,087 = 1468 МГц.

Да, именно так! Частота работы шейдерного блока стала равна 1468 МГц и выросла на 118 Мгц относительно номинала. Поэтому теперь разгон ПРЕДПОЛОЖИТЕЛЬНО будет давать БОЛЬШЕ ОТДАЧИ. Что не может не радовать оверклокеров.

Что касается продукта от BFG, то он полностью аналогичен, отличается лишь наклейкой на кулере. Кстати о последнем.

NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E; BFG GeForce 8800 GTX 768MB PCI-E

Система охлаждения полностью изменена. Если ранее в 7900 GTX мы видели систему с центральным огромным вентилятором, работающим на медленных оборотах, то есть он прогоняет воздух через левый и правый радиаторы, к которым подведены тепловые трубки, несущие тепло от платформы, прижимающейся к ядру и микросхемам памяти; то теперь произошел возврат к старой турбинной конструкции, когда на одном конце закрытого радиатора устанавливается турбина, прогоняющая воздух сквозь радиатор.

Но не надо расстраиваться, вспоминая ужасный кулер от X1900 XTX. Несмотря на схожесть в конструктиве, есть и отличия.

Во-первых, устройство выводит ПОЛНОСТЬЮ горячий воздух за пределы системного блока.

Во-вторых, турбина очень больших размеров и работает на медленных оборотах, и потому кулер очень тихий, даже при сильной нагрузке.

В-третьих, эффективность системы охлаждения увеличивают тепловые трубки, расположенные по бокам радиатора.

Кулер не тяжелый, так как медь использована только для пластины, которая соприкасается с ядром. Все остальное — из алюминиевого сплава. Конструкция в целом немного напоминает устройства от Arctic Cooling.



Теперь посмотрим на сами процессоры.

8800 GTX — G80 изготовлен на 38-й неделе 2006 года, это в сентябре, то есть, чипу всего 2 месяца



NVIDIA NVIO



Я такие громадные GPU еще не встречал! Не зря ядро защищено от повреждений доступными средствами: и имеется крышка, и даже вокруг чипа есть защитная рамка. Впрочем, крышку могли одеть не только ради спасения целостности кристалла. Она поможет равномерному теплоотводу, поскольку блоки у чипа работают на очень разных частотах.

Далее. Внимательные читатели еще с самого начала увидели наличие некоего чипа слева от основного процессора. В форумах было гадание — что это могло быть, кто-то даже высказывал мнение, что это второй GPU, и G80 состоит из двух ядер (одно более мощное с 256-битной шиной, а второе менее мощное с 128-битной шиной, а потом в маркетинговых целях NVIDIA суммировала разные шины и получила 384 бит).

Разумеется, это не так. Всю работу по 3D выполняет единственный и именно являющийся G80 — чип с огромной крышкой. А вспомогательная микросхема слева — это NVIDIA NVIO. Не «NV10», как могло бы показаться с первого взгляда на чип, а именно IO (Input-Output). Странно было бы видеть NV10 — GeForce 256 в новой инкарнации и по новому техпроцессу в данном случае. :)

NVIO — это особая микросхема, куда собраны RAMDAC и TMDS. То есть блоки, ответственные за вывод графики на мониторы или ТВ, были изъяты из самого G80 и вынесены в отдельный чип. Это весьма разумное решение, поскольку на RAMDAC не будут влиять наводки от шейдерного блока, работающего на огромной частоте. В этот же чип вынесена и поддержка HDCP.

Если референс-карта, понятно, имеет ни комплектации, ни упаковки, то продукт от BFG оснащен и тем, и другим.

Комплектация.

BFG GeForce 8800 GTX 768MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub и S-Video-to-RCA, TV-кабели, адаптер для композитного вывода. А также бонус: фирменная майка от BFG размера XL и не менее фирменные наклейки с тефлоновым покрытием для компьютерной мыши (чтобы бегала более резво). Я ранее высказывал свое восхищение подобным комплектом. Даром, что игр нет — и ладно, все равно устаревшее что-нибудь положили бы в коробку.



Упаковка.

BFG GeForce 8800 GTX 768MB PCI-E

Большой бокс, вставленный в суперобложку фирменного дизайна (на сей раз дизайн несколько изменен, но что означает выражение лица у данного существа — малопонятно: то ли жаба задушила по поводу такой траты денег, то ли это менеджер по продажам охает после общения с руководством BFG, то ли еще что).

Все компоненты тщательно разложены по отсекам, а видеокарта кроме антистатического пакета помещена еще в мягкую упаковку, оберегающую от любых сотрясений.



Здесь уместно кратко описать новый блок питания, который мы получили также от NVIDIA в комплекте с 30-дюймовым монитором для полноценного тестирования супермощных ускорителей последнего поколения. Блок питания компании TAGAN, выходная мощность 1100Вт.







Полные характеристики указаны на самом БП (приведены выше), поэтому нет смысла их повторять в тексте.

БП снабжен уже ЧЕТЫРЬМЯ (!) разъемами PCI-E-питания (как раз для тестирования 8800 GTX SLI!), имеет все нужные разъемы питания (24 пин, 8 пин, 4 пин), но, к сожалению, всего один хвост с разъемом Molex, когда как под SATA хвостов очень много. Надо учитывать, что еще много системных плат, где дополнительные требования к питанию в виде Molex, а также никто не отменял оптические устройства с таким разъемом. Поэтому без дополнительных Molex-разветвителей не обойтись.

Все кабели-хвосты тщательно экранированы, поэтому в целом жгут кабелей очень тугой.

При работе даже с GeForce 8800 GTX на вышеуказанной конфигурации стенда вентиляторы БП работают на малых оборотах, и потому шума почти нет. При работе 8800 GTX SLI обороты растут, однако шумным БП все равно не назовешь. Очень удачное в целом решение. И на перспективу.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете NVIDIA nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • RADEON X1950 XTX (reference, PCI-E, 512MB GDDR4, 650/2000 MHz);
  • GeForce 7900 GTX (ASUS EN7900GTX, PCI-E, 512MB GDDR3, 650/1600 MHz);
  • GeForce 7950 GX2 (BFG, PCI-E, 2x512MB GDDR3, 2x500/1200 MHz);
  • операционная система Windows XP SP2; DirectX 9.0c;
  • монитор Dell 3007WFP (30") (и Mitsubishi Diamond Pro 2070sb (21")).
  • драйверы ATI версии CATALYST 6.10; NVIDIA версии 96.94.

VSync отключен.

Надо сказать, что после некоторой доработки автором Алексеем Николайчуком последняя бета-версия RivaTuner стала поддерживать и этот ускоритель.

NVIDIA GeForce 8800 GTX (G80) 768MB PCI-E







Первый скриншот показывает работу карты на штатных частотах. Мы видим, что максимальная температура ядра не выходит за пределы нормы, при этом кулер остается тихим.

Второй скриншот показал работу ускорителя при повышенных частотах, карта слегка обдувалась вентилятором сбоку, поэтому максимальная температура ядра получилась чуть ниже предыдущей.



Синтетические тесты

Также мы использовали новые, усложненные и перекликающиеся с адекватными сейчас задачами тесты пиксельных шейдеров версии 2.0 — D3D RightMark Pixel Shading 2 и нацеленные на будущее тесты D3D RightMark Pixel Shading 3. Сейчас эти тесты находятся в стадии бета-тестирования и уже доступны для скачивания здесь:

В тестах принимали участие:

  • GeForce 8800 GTX 768MB (далее 8800GTX);
  • GeForce 7950 GX2 512MB (далее 7950GX2);
  • RADEON X1950 XTX 512MB (далее X1959XTX);
  • GeForce 7900 GTX 512MB (далее 7900GTX);

Тест Pixel Filling

Пиковая производительность выборки текстур (texelrate), режим FFP, для разного числа текстур, накладываемых на один пиксель:





Хорошо видно, что 32 текстурных модуля G80 — это значительная сила. А широкая шина памяти позволяет им развернуться и с хорошим КПД приблизится к теоретическому максимуму. Также очевидно, что текстурные блоки чипа работают на базовой, а не удвоенной, как ALU, частоте. Впрочем, что вполне логично, в отличие от коротких конвейеров ALU, текстурный модуль, выполняющий преобразование текстурных координат, выборку и фильтрацию значений — пожалуй, самый сложный и самый длинный по числу стадий конвейер чипа.

Если сравнить результаты с GX2 — формально на оба чипа там 48 текстурных модулей, что больше, но эффективность оных в синтетических тестах ниже — не только по причине накладных расходов SLI но, судя по всему, и по причине существенной переработки модулей в G80 — они стали заметно эффективнее. Здесь может сказываться и унификация архитектуры чипа — например, потенциально, ALU G80 в этом тесте могут быть полностью направлены на задачи генерации текстурных координат.

Итак, как бы там ни было — новый лидер очевиден, и даже удвоенный GX2 не смог ему противостоять. Посмотрим на скорость записи в буфер кадра:







Та же самая картина, но уже в координатах количества записанных в буфер кадра пикселей. В пиковых случаях – 0, 1 и 2 текстуры — G80 впереди.

Проверим ту же задачу, но в исполнении PS 2.0 шейдера:





Как мы и ожидали — ничего не изменилось — как FFP, так и шейдеры работают совершенно одинаково (с точки зрения железа, FFP эмулируется шейдером) и показывают одинаковые результаты. Более высокая эффективность G80 в этом тесте позволяет ему доминировать над GX2.

Важно понимать, что синтетические тесты на унифицированной архитектуре, как бритва, — пользоваться ими надо очень аккуратно. Ведь синтетика нагружает чип однобоко, а реальные приложения будут делить его ресурсы между разными задачами. И если чип со старой архитектурой при хорошем балансе игры по прежнему сможет выдать близкие к пиковым значения, то унифицированный чип в сложном и разнообразном приложении может заметно сбавить обороты по сравнению с синтетическими результатами. Поэтому, будет особенно интересно сверить полученные нами синтетические результаты с игровыми (далее).

Тест Geometry Processing Speed

Самый простой шейдер — предельная пропускная способность по треугольникам:



G80 лидер и тут, впрочем, чуть-чуть — так как здесь все упирается скорее в API и платформу, нежели в ускоритель. С выходом DX10 результаты подобных пиковых тестов имеют шанс существенно вырасти.



Картина закономерностей прежняя, но теперь, разница становится более заметной. Усложняем задачу далее:



Картина окончательно оформилась, и лидер не вызывает сомнения. Унифицированная архитектура развернула свои крылья, в то время как накладные расходы SLI не дали GX2 показать действительно удвоенный результат. На смешанном источнике света проявляется наличие оптимизированной эмуляции FFP – она, так или иначе, есть у всех игроков этого теста.

Еще более сложная задача, включая переходы:



Здесь мы опять получаем доказательство очевидного факта — архитектура G80 — архитектура будущего. Чем сложнее задача, чем более гибкие шейдеры — тем лучше ощущает себя этот чип, все сильнее и сильнее отрываясь от конкурентов предыдущего поколения. Как обычно — переходы – слабое место вершинного блока ATI, надеемся, что R600 будет истинно унифицированным чипом в этом смысле и картина изменится. Как и в случае G7X, для G80 динамические переходы предпочтительнее статических.

Выводы по геометрическим тестам: очевидный лидер G80. Лишенный накладных расходов SLI, и способный направить все свои 128 ALU (работающие на удвоенной частоте) на решение геометрических задач этот чип демонстрирует прекрасную гибкость унифицированной архитектуры, и отличную способность работать со сложным, динамическим кодом вершинных шейдеров. Более чем двукратное преимущество — браво! Посмотрим, что нас ждет в реальных приложениях и, конечно, с нетерпением ждем выхода DX10, способного еще сильнее раскрыть потенциал этого чипа.

Тест Pixel Shaders

Первая группа шейдеров — достаточно простых для исполнения в реальном времени, 1.1, 1.4 и 2.0:



Судя по всему, эти тесты не дают развернуться G80 — они, парадокс, слишком простые для него. GX2 демонстрирует лучшие результаты в самых простых тестах и даже 7900GTX смотрится неплохо на фоне G80. В чем дело? Пока все упирается в API и платформу, для чипов нашего тестирования подобные шейдеры — вчерашний день.

Посмотрим далее, более длинные шейдеры:



Тут есть пища для размышлений. Во-первых, унифицированная архитектура G80 НЕ зависит от точности вычислений и хранения промежуточных результатов. Наконец-то не надо экономить на качестве — можно все время использовать 32-битные вычисления с плавающей запятой, гарантирующие отличный результат без каких-либо артефактов округлений. Так же, как и в случае ATI, результаты совершенно одинаковы для любой точности. Кроме того, если в более зависимом от текстурирования тесте Water GX2 даже чуть опережает G80 (вспоминаем — 48 блоков против 32 и 512 бит шины в сумме SLI против 348), правда, ненамного, и можно говорить о паритете, то в более вычислительно интенсивном тесте на освещение G80 уже четкий лидер. Прекрасные вычислительные способности, ALU, ALU и еще раз ALU :-).

Расстановка сил в области пиксельных шейдеров может измениться в реальных приложениях, но общие тенденции уже вполне очевидны.  

Наши новые шейдерные тесты

Новые тесты, на которые мы будем постепенно переходить в будущих обзорах, доступны для скачивания (см. выше) в составе архива бета-версии D3D RightMark. В будущем мы откажемся от синтетических тестов с более ранними версиями и полностью сосредоточимся на HLSL шейдерах для SM 2.0 и 3.0. Более ранние шейдеры можно будет проверить на примере существующих приложений, а синтетические тесты, нацеленные на текущий момент и даже далее, в будущее, требуют корректировки в соответствии с веяниями времени, что и было проделано.

Начнем с более простых шейдеров PS 2.0. Доступны два новых теста, реализующих актуальные для современных приложений эффекты:

  • Parallax Mapping;
  • Сложную процедурную текстуру замороженного стекла Frozen Glass с управляемыми извне параметрами.

Оба шейдера мы тестируем в двух исполнениях: максимально ориентированном на вычисления и на выборку текстур. Кроме того, мы проверяем результаты для FP16 и для FP32 точности вычислений.

Итак, сперва вычислительно интенсивные варианты решения задачи:



Как мы видим, на первом месте стабильно идет G80 (особенно ему удается тест Frozen-Glass), затем GX2 c заметным отставанием, вызванным накладными расходами SLI и менее гибкой архитектурой. Производительность G80 не зависит от точности. Теперь те же самые тесты в варианте с предпочтением выборки текстур:



Здесь, как мы видим, преимущество G80 менее выражено, в том числе и в абсолютных цифрах. Этот чип, без сомнения, любит вычисления больше, чем текстурирование, и 32 текстурных модуля не были случайностью — это необходимость. Если бы шина могла дать больше — их могло бы быть и 48, но пока в некоторых тестах GX2 впереди. Здесь слишком много зависит от контекста и предпочтения программистов, очевидно, что чтобы полностью раскрыть потенциал G80 им будет необходимо выбрать (создать) вычислительно ориентированные варианты своих алгоритмов — в таком случае G80 будет способен «на ровном месте» добавить еще 50% скорости.

А теперь, самый гибкий тест — PS3. Тест содержит интенсивные динамические ветвления в пиксельных шейдерах:





Нет сомнений, какая архитектура на сегодня самая передовая и лучше всего работает с динамическими переходами в пиксельных шейдерах. Это G80. На втором месте RADEON, а далее идет GX2 (даже SLI не особо помогло в этом случае старой неунифицированной архитектуре).

Выводы: G80 — без сомнений, новая, мощная вычислительная архитектура, прекрасно приспособленная к выполнению самых сложных пиксельных шейдеров. Чем сложнее задача, чем больше в ней вычислений, тем дальше G80 отрывается от своих соперников. В некоторых случаях программисты могут получить заметный прирост, ориентировав чип на вычислительные версии алгоритмов, а не на выборку текстур. Можно предсказать существование игровых приложений, в которых чип получил бы заметное преимущество от 48 текстурных блоков и 512 бит шины памяти. Но здесь компания идет на компромисс — выбирая гибкость и вычислительные возможности для будущих приложений.

Пока можно назвать G80 эталонной платформой для шейдеров с динамическими переходами. Посмотрим, что принесет нам DX10. Также посмотрим, насколько изменится расклад в реальных приложениях, особенно сегодняшних и вчерашних.

Тест HSR

Пиковая эффективность (без текстур и с текстурами), в зависимости от сложности геометрии:









Как мы видим, никаких особых положительных изменений в раскладе не произошло. По сравнению с предыдущим поколением, NVIDIA стала чуть лучше работать со сложными сценами и чуть хуже с простыми (то есть, имеет место легкий тюнинг баланса в соответствии с современными реалиями). Иерархический HSR в исполнении ATI по-прежнему выглядит более успешным, чем одноуровневый в случае NVIDIA, особенно на сложных и средних сценах. Если в случае текстурирования абсолютные результаты G80 по-прежнему самые сильные — в максимально выгодном для тестирования ATI режиме (нет текстурирования, в котором сказываются 16 блоков, максимальная сложность сцены благоволит иерархическому HSR) старый чип ATI выглядит очень выгодно. Но, только в такой искусственной ситуации. В реальных приложения G80 будет впереди, несмотря на то, что в отдельности его HSR нельзя назвать самым эффективным.

Возможно, это вполне осознанный ход — инженеры NVIDIA потратили транзисторы с большей отдачей, с точки зрения реальных приложений. Чем лучше оптимизирована отрисовка приложения, тем больше будет заметно преимущество NVIDIA в совокупности.

Тест Point Sprites





Все, как обычно – этот тест давно упирается (на разумных размерах спрайтов) только в скорость закраски. А здесь — лидеры GX2 под руку с G80.

Выводы по синтетическим тестам

Итак, новое топовое решение NVIDIA, новая архитектура, новые инновации. Все на лицо — и результаты синтетических тестов подтверждают наши теоретические предположения. NVIDIA сделала действительно гибкий чип, нацеленный на сложные динамические шейдеры и вычисления. SLI предыдущего поколения проигрывает ему во многих случаях, а конкретно на шейдерных тестах G80 просто вне конкуренции. Потенциальные проблемные места — выборка текстур и ширина шины, не всегда достаточные для такого вычислительного монстра. У NVIDIA есть очевидный простор для роста в будущем.

Интересно, как изменится расстановка сил (и изменится ли) в реальных приложениях.

Кроме того, ждем DX10 — только он, судя по всему, способен полностью и до конца раскрыть потенциал этого чипа в некоторых областях.

С точки зрения архитектуры,- работу NVIDIA можно оценить на твердую пятерку. Нет сомнений и в прекрасной масштабируемости решения как в одну, так и в другую сторону, а значит, в среднем сегменте и в будущих топовых решениях сделан хороший залог для лидерства. Интересно, каков будет ответ в лице R600 и сможет ли он обойти G80 или речь будет идти только о запоздалом паритете.

Впереди — самая главная часть по тестам в играх. Оставайтесь с нами!

NVIDIA GeForce 8800 GTX (G80) — Часть 3: Игровые тесты (производительность) и исследование качества анизотропии



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией NVIDIA