32 калифорнийских стрелка в действии Nvidia Geforce 8600 GTS (G84)

Часть 2: Особенности видеокарт (в том числе от BFG), синтетические тесты





СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 8600 GTS (G84): Часть 1: Теоретические сведения


Nvidia Geforce 8600 GTS (G84): Часть 2: Особенности видеокарты и синтетические тесты



Итак, все подробности об особенностях архитектуры новинок уже освещены в первой части материала.

Мы знаем, что новая линейка G84 Nvidia на сегодня состоит из следующих карт:

  • Nvidia Geforce 8600 GTS (G84) 256MB GDDR3, 675/1450/2000 MHz, 32 unified processors/16(?) TMUs/8 ROPs — $229-249;
  • Nvidia Geforce 8600 GT (G84) 256MB GDDR3, 540/1200/1600 MHz, 32 unified processors/16(?) TMUs/8 ROPs — $179;

В нашей лаборатории побывали три видеокарты от MSI, ECS и Point Of View. Забегая вперед, скажу, что все они практически идентичны (reference card), разницы лишь в частотах у отдельных карт.

Также стоит особо отметить, что почему-то видеокарты от MSI и ECS оказались с повышенными частотами, хотя обозначены они как регулярные, и у MSI будет в серии особый 8600 GTS OC с повышенными частотами. Не хотелось бы думать, что это все сделано по воле Nvidia, чтобы пресс-сэмплы работали на более высоких частотах, нежели потом будут в продаже. Либо чтобы никто из партнеров не мог в начале анонса предоставить свою разогнанную карту, которая смотрелась бы явно выгоднее остальных. В том или ином случае это некрасмво.

Поэтому заранее предупреждаем о том, что следует иметь в виду: серийные частоты 8600 GTS — 675/2000 МГц. Все, что выше — это уже разгон… В драйверах, на которых проходили тесты, отключена возможность регулирования частот. (Не случайно!). Очень повезло, что автор RivaTuner Алексей Николайчук сумел ввести поддержку новой карты в свою утилиту:



И уже с ее помощью мы могли опустить частоты до уровня reference. Зачем? Просто видеокарта с нормальными серийными частотами у нас появилась позже всех, когда были проведены все тесты. Разумеется, на повыщенных частотах, и… А вот по поводу второго — разговор особый. Да, мы можем с помощью RivaTuner понизить частоты до 675/2000 МГц, однако в BIOS первых карт, что работали на 725/2200 МГц, жестко залочена пропорция между частотой работы ROP-ядра и Shader-ядра. А именно 1 к 2. То есть при работе ROP на 725 МГц, шейдерный блок работает на 1450 МГц. Смотрим на спецификации и видим, что как раз такая частота шейдерного блока и нужна.. Но при частоте ROP 675 МГц.. А в нашем случае — 725 МГц.. Разумеется, при снижении частоты ROP до 675 упала и частота работы шейдеров — 1350 МГц. Поэтому мы уже морально готовились выдать результаты работы карты на обоих клокингах и предупредить пользователя, что реальная производительность будет лежать где-то в этом коридоре.

Но все обошлось, поскольку появилась карта, работаюшая на серийных частотах 675/1450/2000 МГц.

Платы



MSI Geforce 8600 GTS (G84) 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: данный ЭКЗЕМПЛЯР 725/1450 MHz, серийные карты 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: данный ЭКЗЕМПЛЯР 1100 (2200) MHz, серийные карты 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

ECS Geforce 8600 GTS 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: данный ЭКЗЕМПЛЯР 725/1450 MHz, серийные карты 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: данный ЭКЗЕМПЛЯР 1100 (2200) MHz, серийные карты 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

Point Of View Geforce 8600 GTS 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).



MSI Geforce 8600 GTS (G84) 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E
Каждая карта имеет 256 МБ памяти GDDR3 SDRAM, размещенной в 4-х микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1,0 ns, что соответствует частоте работы 1000 (2000) МГц.



Сравнение с эталонным дизайном, вид спереди
MSI Geforce 8600 GTS (G84) 256MB PCI-E Reference card Nvidia Geforce 7600 GT 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E


Сравнение с эталонным дизайном, вид сзади
MSI Geforce 8600 GTS (G84) 256MB PCI-E Reference card Nvidia Geforce 7600 GT 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E


Отчетливо видно, что дизайн у 8600 несколько усложнился по сравнению с 7600 GT из-за того, что теперь комплект ядро-память требуют отдельного дополнительного питания, а это значит, что блок питания у карты увеличился, что привело к росту размера PCB.

На фотографиях четко видно, что плата требует один шестипиновый PCI-E хвост от БП. Поэтому это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 350Вт с поддержкой токов по 12В каналу не менее 18-20А.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Причем, Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Напомню еще раз, что ТОЛЬКО ДАННЫЕ рассмотренные две видеокарты от MSI и ECS работают на частотах 725/1450/2200 МГц. Точно такие же, но серийные будут иметь штатные частоты 675/1450/2000 МГц.

Теперь о системе охлаждения. Поскольку она одинаковая у всех трех продуктов, то изучим на примере MSI:

MSI Geforce 8600 GTS 256MB PCI-E

Кулер вполне привычной конструкции, снова видим закрытый плоский радиатор, через который смещенный относительно центра вентилятор продувает воздух.

Размеры весьма приличные, хотя и меньше, чем было у 7800 GTX. Весь радиатор алюминиевый, лишь пластина, касающаяся ядра, медная.

Несмотря на то, что карта уровня Middle, кулер выставлен на приличные обороты, поэтому шумноват. Пока нет возможности регулировать обороты, в драйвере и это отключено.



Теперь посмотрим на сам процессор.

8600 GTS — g84 изготовлен на 6-й неделе 2007 года, это в феврале, то есть, чипу всего 2 месяца с лищним



Комплектация.

MSI Geforce 8600 GTS 256MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub и S-Video-to-RCA, TV-кабели, адаптер для компонентного вывода.

ECS Geforce 8600 GTS 256MB PCI-E
Комплект почти аналогичный.

Point Of View Geforce 8600 GTS 256MB PCI-E
Комплект очень скромный. Руководство, диск с драйверами, два адаптера. И все.



Упаковка.

MSI Geforce 8600 GTS 256MB PCI-E

Традиционная коробка-сумка в ярком супере. Карта сама находится в отдельном отсеке из пенополиуретана, где жестко закреплена.

ECS Geforce 8600 GTS 256MB PCI-E

Небольшого размера бокс, внутри которого (под суперобложкой) коробка из белого картона. Карта расположена в отдельном кармане.

Point Of View Geforce 8600 GTS 256MB PCI-E

Большая обычная коробка из толстого картона. Карта плохо закреплена внутри и может при перевозке перемещаться внутри коробки.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете Nvidia nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 7.3; Nvidia версии 158.16.

VSync отключен.

Следует повторно сообщить, что после некоторой доработки автором Алексеем Николайчуком последняя бета-версия RivaTuner стала поддерживать и этот ускоритель.

Nvidia Geforce 8600 GTS (G84) 256MB PCI-E



675/1450/2000 МГц



725/1450/2200 МГц



Первый скриншот показывает работу карты на штатных частотах. Мы видим, что максимальная температура ядра весьма невысока, при этом кулер остается весьма шумным (непонятно, зачем выставили такие высокие обороты).

Второй скриншот показал работу ускорителя при повышенных частотах, максимальная температура ядра получилась лишь чуть ниже выше предыдущей.

Синтетические тесты

Используемая нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и её описание доступны на сайте 3d.rightmark.org

Также мы использовали более сложные тесты пиксельных шейдеров версий 2.0 и 3.0 — D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3, соответственно. Некоторые из задач, появившихся в этих тестах, уже применяются в реальных приложениях, а остальные обязательно появятся там в скором времени. Данные тестовые наборы доступны для скачивания здесь.

В самом ближайшем будущем мы планируем начать использование обновленного пакета D3D RightMark, предназначенного для тестирования Direct3D 10 совместимых ускорителей в Windows Vista. Старые тесты в нём будут переписаны под DX10, также добавятся тесты геометрических шейдеров. Мы постараемся сделать анализ результатов новых тестов в одном из последующих материалов, возможно, посвященном выходу DirectX 10 решений от AMD.

Синтетические тесты проводились на видеокартах:

  • Nvidia Geforce 8600 GTS с частотами 725/1450 МГц (далее G84(720))
  • Nvidia Geforce 8600 GTS с частотами 675/1350 МГц (далее G84(675))
  • Nvidia Geforce 8800 GTS со стандартными параметрами (далее G80)
  • Nvidia Geforce 7900 GS со стандартными параметрами (далее G71)
  • ATI RADEON X1950 PRO со стандартными параметрами (далее RV570)

Объяснение двум результатам Geforce 8600 GTS на разных частотах простое. Номинальная частота видеочипа в этой модели равна 675 МГц и 1450 МГц для универсальных шейдерных процессоров, но у нашего образца частота была 725/1450 МГц, а сэмпл с номинальными частотами появился позже, когда работа уже была сделана. И чтобы сравнение было корректным, мы снизили частоты чипа до 675/1350 МГц (соотношение частот ядра и универсальных процессоров неизменно), протестировав плату и на этой частоте. Чтобы оценить производительность Geforce 8600 GTS на номинальной частоте, в тестах филлрейта нужно смотреть на результаты «G84(675)», а синтетические тесты, показывающие производительность вершинных и пиксельных шейдеров, будут ближе к результатам «G84(720)». А можно просто брать средние значения, для простоты, там разница не такая уж и большая.

Тест Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Хорошо видно, что 24 текстурных блока в Geforce 8800 GTS быстры, высокая пропускная способность памяти не ограничивает производительность, и в результате получаемые значения близки к теоретическому максимуму. У RV570 КПД тоже высок, достигнутая скорость выборки почти совпадает с теоретической. А вот у Geforce 7900 GS результат хуже, хотя там 20 текстурных модулей, но их эффективность в синтетических тестах ниже.

Что касается главного героя обзора (G84), то замеренная в наших тестах пиковая производительность выборки текстур не подтверждает возможности выборки 16 значений его текстурными блоками. Судя по полученным нами результатам, чип может выбирать лишь 8 текселей за такт (8 * 675 = 5400 мтекс/с), а не 16 (16 * 675 = 10800 мтекс/с), несмотря на то, что в наших тестах используется именно билинейная фильтрация, которая теоретически не должна влиять на производительность. То ли в спецификациях Nvidia неправильно указывается наличие 16 блоков выборки и их в действительности 8 штук, то ли драйверы ещё сырые — пока что сие остается великой тайной. Но факт в том, что работы 16-ти текстурников не видно.



В нашем втором тесте скорости заполнения наблюдается примерно та же самая картина, но с учетом количества записанных в буфер кадра пикселей. В случаях 0 и 1 текстур RV570 и G71 получают некоторое преимущество за счет более высокой ПСП, а дальше всё становится на свои места. С большим количеством текстур G80 выходит далеко вперед, а G84 всё так же отстает от него почти в два раза, соперничая на равных с чипами прошлого поколения.

Проверяем ту же самую задачу в исполнении пиксельного шейдера версии 2.0:



Никаких значительных изменений не произошло, FFP и шейдеры работают примерно одинаково (вероятно, FFP эмулируется эффективным шейдером) и карты показывают схожие с предыдущими результаты. Только в случаях с одной и двумя текстурами G84 немного проваливается в PS 2.0 тесте по сравнению с FFP — это единственный интересный результат здесь.

Вообще, к синтетике на унифицированной архитектуре нужно относиться особенно осторожно, она обычно нагружает определенные части чипа, а реальные приложения пользуются всеми его ресурсами одновременно. И если чип со старой архитектурой при хорошем балансе игры может выдавать близкие к пиковым значения, то унифицированный в таких ситуациях может ухудшить результаты, по сравнению с полученными в синтетических тестах. Это было предисловие к геометрическим тестам, которые мы сейчас рассмотрим.

Тест Geometry Processing Speed

Сначала рассмотрим самый простой вершинный шейдер, показывающий предельную пропускную способность по треугольникам:



В свете вышенаписанного немудрено, что унифицированные чипы G80 и G84 являются лидерами, но их результаты явно упираются в возможности API и платформы, а не в скорость соответствующих блоков чипа. В целом, эффективность выполнения задачи в разных режимах у чипов примерно равна, пиковая производительность в FFP, VS 1.1 и VS 2.0 мало отличается. Интересно, что у G84 результаты в VS 1.1 и 2.0 даже выше, чем у G80 — явно влияют недостаточно отлаженные драйверы. Посмотрим, что изменится в усложненном тесте с одним diffuse источником освещения:



Вот тут уже расстановка сил становится более похожей на реальную, хотя потенциал G80 явно еще не раскрыт полностью. Тут G84 уже отстают от топового решения, но опережают традиционные архитектуры, что вполне объяснимо и логично. В очередной раз в наших материалах удивляемся сравнительной медленностью FFP, видимо, оптимизации драйверов всё более смещаются в сторону программируемости.

Далее смотрим, что получится в еще более тяжелых условиях. Третья диаграмма GPS предлагает более сложный шейдер с одним источником освещения и расчетом бликовой составляющей:



Вот теперь мы точно видим, что явным лидером по геометрической производительности является G80. Унифицированная архитектура окончательно раскрыла свои возможности, хотя от G84 можно было бы ожидать и большего. С другой стороны, становится хорошо видно, что 32 универсальных скалярных процессора — это не так уж много на фоне выделенных на геометрические задачи 7-8 векторных. Интересно, что на смешанном источнике света проявляется наличие оптимизированной эмуляции FFP, которая есть у всех чипов, кроме G84.

Рассмотрим еще более сложную геометрическую задачу, включающую статические и динамические переходы:



Получилось примерно то же самое, что и в предыдущем случае. Унифицированная архитектура G8x показывает свою силу в синтетике, чем сложнее задача — тем лучше результат относительно традиционных чипов. Результаты G84 похожи на G80, за исключением разницы в эмуляции FFP и динамических переходах, которые у G80 получились аномально быстрыми.

И в очередной раз мы видим противоположные слабые места вершинных блоков текущих архитектур AMD(ATI) и Nvidia — динамические переходы вызывают серьезное падение производительности у чипов первой, а статические — у чипов второй. Надеемся, что с выходом новых унифицированных чипов AMD ситуация с «динамикой» изменится в лучшую сторону.

Подведем итоги по геометрическим тестам: G84 показывает ожидаемо сильные результаты в синтетических геометрических тестах. Из-за своей унифицированной архитектуры чип хорошо показывает себя в таких однобоких тестах, он способен использовать все 32 ALU, работающие на высокой частоте, на решение геометрических задач. Унифицированная архитектура демонстрирует прекрасную гибкость и способности при работе со сложными вершинными шейдерами. Но посмотрим, что получится в реальных игровых приложениях, ведь в силе унифицированной архитектуры и её слабость — в реальности большую часть работы ALU будет составлять выполнение пиксельных шейдеров…

Тест Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассмотрим, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Вот, пожалуй, и первый тревожный звоночек, говорящий о слишком малом количестве исполнительных блоков в G84. Да, Geforce 8600 GTS показывает результат, примерно равный Geforce 7900 GS в большинстве тестов, но этого ли ждут от неё потенциальные покупатели? Ведь даже решение конкурента предыдущего поколения прилично опережает новые карты в самых сложных случаях!

G84 в этих тестах более чем в два раза проигрывает самому младшему G80, чего и следовало ожидать, исходя из количества универсальных процессоров и частоты их работы. Возможно, конечно, что эти тесты слишком простые для G8x и не способны показать, на что способна архитектура. Но результат настораживает. Кстати, шейдеры с пониженной точностью вычислений выполняются быстрее только на G71, старая уже архитектура Nvidia получает преимущество при снижении числа временных регистров и их точности, а новая считает FP32 точно так же, как и FP16.

Посмотрим на результаты более сложных пиксельных программ:



Подтверждается то, что унифицированная архитектура G8x не зависит от точности вычислений и результаты одинаковы для любой точности. В более зависимом от скорости текстурирования (используется зависимая выборка из текстур больших уровней вложенности) тесте процедурной визуализации воды «Water», G84 больше проигрывает своему собрату G71, а в более интенсивном тесте с точки зрения вычислений он примерно равен G71 и сильно отстает от RV570. Ну а G80 очень далеко впереди. Очередное подтверждение тому, что насколько бы ни была прекрасна унифицированная архитектура, сильно уменьшенное количество ALU крайне серьёзно сказывается на результатах.

Конечно, в реальных приложениях ситуация может измениться, но общая тенденция хорошо прослеживается: уровень Geforce 8600 GTS — это уровень решений Geforce 7900 GS и RADEON X1950 PRO, и не более того. Да, конечно, у новых решений есть поддержка DirectX 10 и всего остального, но про скорость то почему забыли? Учитывая, что в линейке пока нет ничего между Geforce 8600 GTS и Geforce 8800 GTS с 320 Мбайт памяти, становится явной большая дыра в производительности между этими решениями. Нужно было или не так сильно урезать новые чипы, или сделать еще менее производительные решения на базе G80.

Тесты сложных пиксельных шейдеров New Pixel Shaders

Это уже более новые тесты, которые введены не так давно, и на которые планируется обращать всё большее внимание. От ранних синтетических тестов с шейдерами устаревших версий (менее 2.0) планируется отказаться в пользу 2.x, 3.0 и 4.0 шейдеров, написанных на HLSL. Ведь производительность старых версий шейдеров можно проверять в играх, где они давно используются, а синтетические тесты должны соответствовать требованиям будущего.

Эти тесты делятся на две категории, начнем мы с более простых шейдеров версии 2.0. Доступны два новых теста, реализующие уже использующиеся в современных 3D приложениях эффекты:

  • Parallax Mapping — знакомый нам по нескольким современным играм (Splinter Cell: Chaos Theory, F.E.A.R., TES4: Oblivion, Prey и др.) метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами, подобные эффекты в играх также уже не в новинку, пусть и менее сложные

Оба шейдера мы тестируем в двух вариантах: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Также проверяется разница для пониженной и нормальной точности вычислений. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



В очередной раз видим неутешительные результаты для G84. На первом месте стабильно идет G80, особенно в тесте Frozen Glass, следующим RV570 с большим количеством блоков, исполняющих пиксельные шейдеры (вот где есть польза от пресловутого соотношения количества блоков пиксельных и текстурных блоков 3:1), а G71 и G84 показывают очень близкие результаты. Такое впечатление, что в Nvidia намеренно делали так, чтобы производительность Geforce 8600 GTS была на уровне Geforce 7900 GS. Особенно разочаровывают результаты G84 в тесте parallax mapping…

Рассмотрим те же тесты, но в модификации с предпочтением выборки текстур математическим вычислениям:



Здесь картина несколько изменилась, но не в лучшую сторону для наших главных героев обзора. Производительность в тестах теперь больше упирается в текстурные блоки, поэтому решение AMD приблизилось к G71. G80 традиционно далеко впереди, а вот G84 еще и ухудшили своё положение, довольно сильно отставая теперь от всех в тесте parallax mapping. Видно, что у G84 нет явных сильных мест, и количество ALU слишком мало, и возможности TMU слабоваты. Хотя, если стоит задача бороться с урезанным G71…

Слегка отойдем от темы G84, вспомнив о ситуации с предпочтением математических расчетов и текстурных выборок. По этим двум диаграммам видно, что даже на G71 шейдер быстрее работает в виде с большим количеством математических вычислений и смысла в варианте с упором на текстурирование нет никакого. Унифицированная архитектура G8x явно любит вычисления больше, чем текстурирование, и в играх многое будет зависеть от предпочтений программистов. Чтобы раскрыть потенциал новых чипов, нужно выбирать вычислительно ориентированные варианты для своих алгоритмов.

Далее мы рассмотрим результаты еще двух сложных тестов пиксельных шейдеров — версии 3.0, самых сложных из наших синтетических тестов на данный момент. В рамках проекта D3D RightMark были разработаны две шейдерных программы, длинные, сложные и с большим количеством ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, пока что не применяющаяся в играх (ждать осталось недолго), также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Нагрузка от этих тестов явно достойная даже для G80, не говоря об остальных решениях. Очевидно, что архитектура G8x лучше работает с динамическими переходами в пиксельных шейдерах и хорошо приспособлена к таким задачам, особенно по сравнению с G7x. Хотя и RV570 обеспечивает эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений. Что касается нашего испытуемого G84, то в тесте «Fur» он показал неплохой результат на уровне RV570, а вот во втором случае, с техникой steep parallax mapping, уступил чипу AMD и выиграл у G71. Интересно, что разница между G84 и G80 в этих тестах меньше, чем в предыдущих.

Выводы по тестам пиксельных шейдеров: конечно, G8x — это мощная вычислительная архитектура, хорошо приспособленная к выполнению сложных пиксельных шейдеров, и чем больше в задаче математических вычислений, тем для неё лучше. Но количество исполнительных блоков и блоков TMU в новых чипах среднего уровня слишком мало, что не позволяет им опережать карты предыдущих поколений в большинстве проведенных тестов.

Самое печальное, что в G84 и число текстурных блоков в чипе невелико, и число ALU. Первое не позволит картам показать очень хорошие результаты в нынешних играх, которые до сих пор сильно зависят от скорости текстурирования, а второе не даст раскрыться в играх ближайшего будущего. Посмотрим, подтвердится ли это предположение в тестах современных игр, которые ждут вас в следующей части статьи…

Тест Hidden Surface Removal

Пиковая эффективность отбрасывания невидимых поверхностей (без наложения текстур и с текстурированием), в зависимости от сложности геометрии:





А вот это уже приятная неожиданность! По сути, это первое значительное изменение в поведении новых решений по сравнению с G80. Хорошо видно, что эффективность HSR для G84 получилась значительно более высокой, чем для G80 и G71. Мало того, чип Nvidia не просто догнал чип AMD (а надо сказать, что они всегда были лидерами в этих тестах) по этому показателю, но и в ряде случаев показывает даже большую эффективность отбрасывания невидимых поверхностей.

Интересно, что изменилось в чипе? Появился иерархический HSR в исполнении Nvidia или некие блоки в G80 не работали так, как предполагалось изначально и были отключены? Nvidia в своих материалах ничего про это не говорит. Но мы перепроверили результаты — всё так и есть, никаких ошибок. По сравнению с предыдущими чипами, G84 стали значительно лучше работать со сложными сценами, возможно, был изменен баланс для соответствия современным требованиям с увеличивающейся геометрической сложностью сцен в играх.

Посмотрим на достигнутые абсолютные значения в тестах HSR:





Цифры очень интересные! Если в «легких» сценах G84 уступает одному или двум решениям предыдущего поколения, в сцене средней геометрической сложности уже опережает их, а в самых тяжелых и вовсе показывает абсолютно лучшие результаты, опережая даже G80! Хорошо видно, что баланс всё-таки сместился в сторону геометрически более сложных сцен, что не может не радовать. Думаем, что в Nvidia сделали шаг в правильном направлении. Конечно, пока что в реальных приложениях столь сложные сцены не используются, и G80 чаще всего будет впереди, несмотря на то, что в его HSR нельзя назвать самым эффективным.

Тест Point Sprites





Point sprites используются в небольшом количестве реальных приложений, рассмотрим их работу на разных видеочипах. Подтверждаются результаты всех наших предыдущих исследований — чипы Nvidia опережают решения AMD на спрайтах небольшого размера, благодаря более эффективной работе с буфером кадра, зато по мере роста размера частиц и сложности освещения, уже последний начинает выигрывать. G84 ведёт себя схоже с G80, с поправкой на частоты и количество блоков, ничего особенно интересного мы тут не видим. Этот тест на небольших размерах спрайтов упирается только в скорость закраски.

Выводы по синтетическим тестам

  • Унифицированная архитектура G8x сама по себе очень хороша — гибкость и высокий КПД пиксельных процессоров позволяет показывать очень неплохие результаты в некоторых синтетических тестах, например, в геометрических тестах и сложных шейдерных с ветвлениями. Преимущество в таких тестах у новых решений среднего уровня Nvidia есть, и оно увеличивается по мере роста сложности задач. Карта уверенно опереждает предыдущее решение среднего уровня — Geforce 7600 GT, и показывает результаты примерно наравне с Geforce 7900 GS.


  • При всём этом явно видны и возможные слабые места конкретного чипа, которые могут проявиться после выхода решений конкурента — малое количество исполнительных блоков ALU и блоков текстурирования TMU. Тут даже про возможную нехватку пропускной способности памяти при 128-бит шине, и сравнительно малом количестве блоков ROP забываешь. В результате, карта показывает довольно низкую скорость выполнения многих пиксельных и вершинных шейдеров, а также невысокую производительность текстурных выборок, сравнимую разве что с Geforce 7900 GS. Эти слабости уже сейчас должны сказываться в игровых тестах, что уж говорить о будущем?


  • Несмотря на заявленные Nvidia изменения в возможностях блоков TMU и характеристики по скорости выборки из текстур, нами не была обнаружена возможность выборки более восьми значений за такт. Замеренная в наших тестах пиковая производительность говорит о наличии восьми блоков TMU, а не 16-ти, как заявлено в спецификациях. Возможно, это специфические проблемы наших тестов и/или драйверов, мы лишь констатируем факт. И надеемся, что Nvidia прояснит ситуацию.


  • Ну а самым неожиданным и приятным изменением в G84 стала резко возросшая эффективность отсечения невидимых поверхностей. В наших тестах она получилась значительно большей, чем у G80 и G71, новое решение по этому параметру догнало и даже обогнало решение признанных лидеров по эффективности HSR от AMD(ATI). Также, по сравнению с предыдущими чипами, G84 стали лучше работать с геометрически сложными сценами.

Итак, с точки зрения архитектуры — у Nvidia все получилось совсем неплохо, она прекрасно масштабируется в обе стороны, универсальна и унифицирована, нацелена на сложные шейдеры и иные вычисления. Но почему решения среднего и низшего сегмента настолько сильно урезали по количеству исполнительных блоков? Количество ALU и TMU явно ниже того, что ожидалось от этих решений рынком. Не станет ли эта потенциальная ошибка явно видимой по мере выхода конкурирующих решений от единственного соперника Nvidia? Конечно, мы еще посмотрим на результаты DirectX 10 тестов и игр, ведь только в них будет видно, на что способны новые чипы, именно такие приложения способны полностью раскрыть потенциал новой архитектуры.

А на данный момент нам остаётся посмотреть на ситуацию в играх и определить, справедливы ли наши выводы, полученные в результате анализа результатов синтетических тестов. Следующая часть покажет всё, что пока могло быть скрыто. По сути, это самая главная часть статьи, ведь на основе игровых тестов и следует делать выбор покупателям.



Nvidia Geforce 8600 GTS (G84) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

32 калифорнийских стрелка в действии: Nvidia Geforce 8600 GTS (G84)

32 калифорнийских стрелка в действии Nvidia Geforce 8600 GTS (G84)

Часть 2: Особенности видеокарт (в том числе от BFG), синтетические тесты




СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


Nvidia Geforce 8600 GTS (G84): Часть 1: Теоретические сведения


Nvidia Geforce 8600 GTS (G84): Часть 2: Особенности видеокарты и синтетические тесты



Итак, все подробности об особенностях архитектуры новинок уже освещены в первой части материала.

Мы знаем, что новая линейка G84 Nvidia на сегодня состоит из следующих карт:

  • Nvidia Geforce 8600 GTS (G84) 256MB GDDR3, 675/1450/2000 MHz, 32 unified processors/16(?) TMUs/8 ROPs — $229-249;
  • Nvidia Geforce 8600 GT (G84) 256MB GDDR3, 540/1200/1600 MHz, 32 unified processors/16(?) TMUs/8 ROPs — $179;

В нашей лаборатории побывали три видеокарты от MSI, ECS и Point Of View. Забегая вперед, скажу, что все они практически идентичны (reference card), разницы лишь в частотах у отдельных карт.

Также стоит особо отметить, что почему-то видеокарты от MSI и ECS оказались с повышенными частотами, хотя обозначены они как регулярные, и у MSI будет в серии особый 8600 GTS OC с повышенными частотами. Не хотелось бы думать, что это все сделано по воле Nvidia, чтобы пресс-сэмплы работали на более высоких частотах, нежели потом будут в продаже. Либо чтобы никто из партнеров не мог в начале анонса предоставить свою разогнанную карту, которая смотрелась бы явно выгоднее остальных. В том или ином случае это некрасмво.

Поэтому заранее предупреждаем о том, что следует иметь в виду: серийные частоты 8600 GTS — 675/2000 МГц. Все, что выше — это уже разгон… В драйверах, на которых проходили тесты, отключена возможность регулирования частот. (Не случайно!). Очень повезло, что автор RivaTuner Алексей Николайчук сумел ввести поддержку новой карты в свою утилиту:



И уже с ее помощью мы могли опустить частоты до уровня reference. Зачем? Просто видеокарта с нормальными серийными частотами у нас появилась позже всех, когда были проведены все тесты. Разумеется, на повыщенных частотах, и… А вот по поводу второго — разговор особый. Да, мы можем с помощью RivaTuner понизить частоты до 675/2000 МГц, однако в BIOS первых карт, что работали на 725/2200 МГц, жестко залочена пропорция между частотой работы ROP-ядра и Shader-ядра. А именно 1 к 2. То есть при работе ROP на 725 МГц, шейдерный блок работает на 1450 МГц. Смотрим на спецификации и видим, что как раз такая частота шейдерного блока и нужна.. Но при частоте ROP 675 МГц.. А в нашем случае — 725 МГц.. Разумеется, при снижении частоты ROP до 675 упала и частота работы шейдеров — 1350 МГц. Поэтому мы уже морально готовились выдать результаты работы карты на обоих клокингах и предупредить пользователя, что реальная производительность будет лежать где-то в этом коридоре.

Но все обошлось, поскольку появилась карта, работаюшая на серийных частотах 675/1450/2000 МГц.

Платы



MSI Geforce 8600 GTS (G84) 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: данный ЭКЗЕМПЛЯР 725/1450 MHz, серийные карты 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: данный ЭКЗЕМПЛЯР 1100 (2200) MHz, серийные карты 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

ECS Geforce 8600 GTS 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: данный ЭКЗЕМПЛЯР 725/1450 MHz, серийные карты 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: данный ЭКЗЕМПЛЯР 1100 (2200) MHz, серийные карты 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).

Point Of View Geforce 8600 GTS 256MB PCI-E
GPU: Geforce 8600 GTS (G84)

Интерфейс: PCI-Express x16

Частоты работы GPU (ROPs/Shaders):: 675/1450 (номинал — 675/1450 МГц)

Частоты работы памяти(физическая (эффективная)):: 1000 (2000) MHz (номинал — 1000 (2000) МГц)

Ширина шины обмена с памятью: 128bit

Число вершинных процессоров: -

Число пиксельных процессоров: -

Число универсальных процессоров: 32

Число текстурных процессоров: 16 (?)

Число ROPs: 8

Размеры: 180x100x15 мм (последняя величина — максимальная толщина видеокарты).

Цвет текстолита: зеленый.

RAMDACs/TMDS: интегрированы в GPU.

Выходные гнезда: 2хDVI, TV-выход.

VIVO: нет

TV-out: интегрирован в GPU.

Поддержка многопроцессорной работы: SLI (интегрировано в GPU).



MSI Geforce 8600 GTS (G84) 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E
Каждая карта имеет 256 МБ памяти GDDR3 SDRAM, размещенной в 4-х микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1,0 ns, что соответствует частоте работы 1000 (2000) МГц.



Сравнение с эталонным дизайном, вид спереди
MSI Geforce 8600 GTS (G84) 256MB PCI-E Reference card Nvidia Geforce 7600 GT 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E


Сравнение с эталонным дизайном, вид сзади
MSI Geforce 8600 GTS (G84) 256MB PCI-E Reference card Nvidia Geforce 7600 GT 256MB PCI-E
ECS Geforce 8600 GTS 256MB PCI-E
Point Of View Geforce 8600 GTS 256MB PCI-E


Отчетливо видно, что дизайн у 8600 несколько усложнился по сравнению с 7600 GT из-за того, что теперь комплект ядро-память требуют отдельного дополнительного питания, а это значит, что блок питания у карты увеличился, что привело к росту размера PCB.

На фотографиях четко видно, что плата требует один шестипиновый PCI-E хвост от БП. Поэтому это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 350Вт с поддержкой токов по 12В каналу не менее 18-20А.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Причем, Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Напомню еще раз, что ТОЛЬКО ДАННЫЕ рассмотренные две видеокарты от MSI и ECS работают на частотах 725/1450/2200 МГц. Точно такие же, но серийные будут иметь штатные частоты 675/1450/2000 МГц.

Теперь о системе охлаждения. Поскольку она одинаковая у всех трех продуктов, то изучим на примере MSI:

MSI Geforce 8600 GTS 256MB PCI-E

Кулер вполне привычной конструкции, снова видим закрытый плоский радиатор, через который смещенный относительно центра вентилятор продувает воздух.

Размеры весьма приличные, хотя и меньше, чем было у 7800 GTX. Весь радиатор алюминиевый, лишь пластина, касающаяся ядра, медная.

Несмотря на то, что карта уровня Middle, кулер выставлен на приличные обороты, поэтому шумноват. Пока нет возможности регулировать обороты, в драйвере и это отключено.



Теперь посмотрим на сам процессор.

8600 GTS — g84 изготовлен на 6-й неделе 2007 года, это в феврале, то есть, чипу всего 2 месяца с лищним



Комплектация.

MSI Geforce 8600 GTS 256MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub и S-Video-to-RCA, TV-кабели, адаптер для компонентного вывода.

ECS Geforce 8600 GTS 256MB PCI-E
Комплект почти аналогичный.

Point Of View Geforce 8600 GTS 256MB PCI-E
Комплект очень скромный. Руководство, диск с драйверами, два адаптера. И все.



Упаковка.

MSI Geforce 8600 GTS 256MB PCI-E

Традиционная коробка-сумка в ярком супере. Карта сама находится в отдельном отсеке из пенополиуретана, где жестко закреплена.

ECS Geforce 8600 GTS 256MB PCI-E

Небольшого размера бокс, внутри которого (под суперобложкой) коробка из белого картона. Карта расположена в отдельном кармане.

Point Of View Geforce 8600 GTS 256MB PCI-E

Большая обычная коробка из толстого картона. Карта плохо закреплена внутри и может при перевозке перемещаться внутри коробки.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете Nvidia nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 7.3; Nvidia версии 158.16.

VSync отключен.

Следует повторно сообщить, что после некоторой доработки автором Алексеем Николайчуком последняя бета-версия RivaTuner стала поддерживать и этот ускоритель.

Nvidia Geforce 8600 GTS (G84) 256MB PCI-E



675/1450/2000 МГц



725/1450/2200 МГц



Первый скриншот показывает работу карты на штатных частотах. Мы видим, что максимальная температура ядра весьма невысока, при этом кулер остается весьма шумным (непонятно, зачем выставили такие высокие обороты).

Второй скриншот показал работу ускорителя при повышенных частотах, максимальная температура ядра получилась лишь чуть ниже выше предыдущей.

Синтетические тесты

Используемая нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и её описание доступны на сайте 3d.rightmark.org

Также мы использовали более сложные тесты пиксельных шейдеров версий 2.0 и 3.0 — D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3, соответственно. Некоторые из задач, появившихся в этих тестах, уже применяются в реальных приложениях, а остальные обязательно появятся там в скором времени. Данные тестовые наборы доступны для скачивания здесь.

В самом ближайшем будущем мы планируем начать использование обновленного пакета D3D RightMark, предназначенного для тестирования Direct3D 10 совместимых ускорителей в Windows Vista. Старые тесты в нём будут переписаны под DX10, также добавятся тесты геометрических шейдеров. Мы постараемся сделать анализ результатов новых тестов в одном из последующих материалов, возможно, посвященном выходу DirectX 10 решений от AMD.

Синтетические тесты проводились на видеокартах:

  • Nvidia Geforce 8600 GTS с частотами 725/1450 МГц (далее G84(720))
  • Nvidia Geforce 8600 GTS с частотами 675/1350 МГц (далее G84(675))
  • Nvidia Geforce 8800 GTS со стандартными параметрами (далее G80)
  • Nvidia Geforce 7900 GS со стандартными параметрами (далее G71)
  • ATI RADEON X1950 PRO со стандартными параметрами (далее RV570)

Объяснение двум результатам Geforce 8600 GTS на разных частотах простое. Номинальная частота видеочипа в этой модели равна 675 МГц и 1450 МГц для универсальных шейдерных процессоров, но у нашего образца частота была 725/1450 МГц, а сэмпл с номинальными частотами появился позже, когда работа уже была сделана. И чтобы сравнение было корректным, мы снизили частоты чипа до 675/1350 МГц (соотношение частот ядра и универсальных процессоров неизменно), протестировав плату и на этой частоте. Чтобы оценить производительность Geforce 8600 GTS на номинальной частоте, в тестах филлрейта нужно смотреть на результаты «G84(675)», а синтетические тесты, показывающие производительность вершинных и пиксельных шейдеров, будут ближе к результатам «G84(720)». А можно просто брать средние значения, для простоты, там разница не такая уж и большая.

Тест Pixel Filling

В этом тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Хорошо видно, что 24 текстурных блока в Geforce 8800 GTS быстры, высокая пропускная способность памяти не ограничивает производительность, и в результате получаемые значения близки к теоретическому максимуму. У RV570 КПД тоже высок, достигнутая скорость выборки почти совпадает с теоретической. А вот у Geforce 7900 GS результат хуже, хотя там 20 текстурных модулей, но их эффективность в синтетических тестах ниже.

Что касается главного героя обзора (G84), то замеренная в наших тестах пиковая производительность выборки текстур не подтверждает возможности выборки 16 значений его текстурными блоками. Судя по полученным нами результатам, чип может выбирать лишь 8 текселей за такт (8 * 675 = 5400 мтекс/с), а не 16 (16 * 675 = 10800 мтекс/с), несмотря на то, что в наших тестах используется именно билинейная фильтрация, которая теоретически не должна влиять на производительность. То ли в спецификациях Nvidia неправильно указывается наличие 16 блоков выборки и их в действительности 8 штук, то ли драйверы ещё сырые — пока что сие остается великой тайной. Но факт в том, что работы 16-ти текстурников не видно.



В нашем втором тесте скорости заполнения наблюдается примерно та же самая картина, но с учетом количества записанных в буфер кадра пикселей. В случаях 0 и 1 текстур RV570 и G71 получают некоторое преимущество за счет более высокой ПСП, а дальше всё становится на свои места. С большим количеством текстур G80 выходит далеко вперед, а G84 всё так же отстает от него почти в два раза, соперничая на равных с чипами прошлого поколения.

Проверяем ту же самую задачу в исполнении пиксельного шейдера версии 2.0:



Никаких значительных изменений не произошло, FFP и шейдеры работают примерно одинаково (вероятно, FFP эмулируется эффективным шейдером) и карты показывают схожие с предыдущими результаты. Только в случаях с одной и двумя текстурами G84 немного проваливается в PS 2.0 тесте по сравнению с FFP — это единственный интересный результат здесь.

Вообще, к синтетике на унифицированной архитектуре нужно относиться особенно осторожно, она обычно нагружает определенные части чипа, а реальные приложения пользуются всеми его ресурсами одновременно. И если чип со старой архитектурой при хорошем балансе игры может выдавать близкие к пиковым значения, то унифицированный в таких ситуациях может ухудшить результаты, по сравнению с полученными в синтетических тестах. Это было предисловие к геометрическим тестам, которые мы сейчас рассмотрим.

Тест Geometry Processing Speed

Сначала рассмотрим самый простой вершинный шейдер, показывающий предельную пропускную способность по треугольникам:



В свете вышенаписанного немудрено, что унифицированные чипы G80 и G84 являются лидерами, но их результаты явно упираются в возможности API и платформы, а не в скорость соответствующих блоков чипа. В целом, эффективность выполнения задачи в разных режимах у чипов примерно равна, пиковая производительность в FFP, VS 1.1 и VS 2.0 мало отличается. Интересно, что у G84 результаты в VS 1.1 и 2.0 даже выше, чем у G80 — явно влияют недостаточно отлаженные драйверы. Посмотрим, что изменится в усложненном тесте с одним diffuse источником освещения:



Вот тут уже расстановка сил становится более похожей на реальную, хотя потенциал G80 явно еще не раскрыт полностью. Тут G84 уже отстают от топового решения, но опережают традиционные архитектуры, что вполне объяснимо и логично. В очередной раз в наших материалах удивляемся сравнительной медленностью FFP, видимо, оптимизации драйверов всё более смещаются в сторону программируемости.

Далее смотрим, что получится в еще более тяжелых условиях. Третья диаграмма GPS предлагает более сложный шейдер с одним источником освещения и расчетом бликовой составляющей:



Вот теперь мы точно видим, что явным лидером по геометрической производительности является G80. Унифицированная архитектура окончательно раскрыла свои возможности, хотя от G84 можно было бы ожидать и большего. С другой стороны, становится хорошо видно, что 32 универсальных скалярных процессора — это не так уж много на фоне выделенных на геометрические задачи 7-8 векторных. Интересно, что на смешанном источнике света проявляется наличие оптимизированной эмуляции FFP, которая есть у всех чипов, кроме G84.

Рассмотрим еще более сложную геометрическую задачу, включающую статические и динамические переходы:



Получилось примерно то же самое, что и в предыдущем случае. Унифицированная архитектура G8x показывает свою силу в синтетике, чем сложнее задача — тем лучше результат относительно традиционных чипов. Результаты G84 похожи на G80, за исключением разницы в эмуляции FFP и динамических переходах, которые у G80 получились аномально быстрыми.

И в очередной раз мы видим противоположные слабые места вершинных блоков текущих архитектур AMD(ATI) и Nvidia — динамические переходы вызывают серьезное падение производительности у чипов первой, а статические — у чипов второй. Надеемся, что с выходом новых унифицированных чипов AMD ситуация с «динамикой» изменится в лучшую сторону.

Подведем итоги по геометрическим тестам: G84 показывает ожидаемо сильные результаты в синтетических геометрических тестах. Из-за своей унифицированной архитектуры чип хорошо показывает себя в таких однобоких тестах, он способен использовать все 32 ALU, работающие на высокой частоте, на решение геометрических задач. Унифицированная архитектура демонстрирует прекрасную гибкость и способности при работе со сложными вершинными шейдерами. Но посмотрим, что получится в реальных игровых приложениях, ведь в силе унифицированной архитектуры и её слабость — в реальности большую часть работы ALU будет составлять выполнение пиксельных шейдеров…

Тест Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассмотрим, очень проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Вот, пожалуй, и первый тревожный звоночек, говорящий о слишком малом количестве исполнительных блоков в G84. Да, Geforce 8600 GTS показывает результат, примерно равный Geforce 7900 GS в большинстве тестов, но этого ли ждут от неё потенциальные покупатели? Ведь даже решение конкурента предыдущего поколения прилично опережает новые карты в самых сложных случаях!

G84 в этих тестах более чем в два раза проигрывает самому младшему G80, чего и следовало ожидать, исходя из количества универсальных процессоров и частоты их работы. Возможно, конечно, что эти тесты слишком простые для G8x и не способны показать, на что способна архитектура. Но результат настораживает. Кстати, шейдеры с пониженной точностью вычислений выполняются быстрее только на G71, старая уже архитектура Nvidia получает преимущество при снижении числа временных регистров и их точности, а новая считает FP32 точно так же, как и FP16.

Посмотрим на результаты более сложных пиксельных программ:



Подтверждается то, что унифицированная архитектура G8x не зависит от точности вычислений и результаты одинаковы для любой точности. В более зависимом от скорости текстурирования (используется зависимая выборка из текстур больших уровней вложенности) тесте процедурной визуализации воды «Water», G84 больше проигрывает своему собрату G71, а в более интенсивном тесте с точки зрения вычислений он примерно равен G71 и сильно отстает от RV570. Ну а G80 очень далеко впереди. Очередное подтверждение тому, что насколько бы ни была прекрасна унифицированная архитектура, сильно уменьшенное количество ALU крайне серьёзно сказывается на результатах.

Конечно, в реальных приложениях ситуация может измениться, но общая тенденция хорошо прослеживается: уровень Geforce 8600 GTS — это уровень решений Geforce 7900 GS и RADEON X1950 PRO, и не более того. Да, конечно, у новых решений есть поддержка DirectX 10 и всего остального, но про скорость то почему забыли? Учитывая, что в линейке пока нет ничего между Geforce 8600 GTS и Geforce 8800 GTS с 320 Мбайт памяти, становится явной большая дыра в производительности между этими решениями. Нужно было или не так сильно урезать новые чипы, или сделать еще менее производительные решения на базе G80.

Тесты сложных пиксельных шейдеров New Pixel Shaders

Это уже более новые тесты, которые введены не так давно, и на которые планируется обращать всё большее внимание. От ранних синтетических тестов с шейдерами устаревших версий (менее 2.0) планируется отказаться в пользу 2.x, 3.0 и 4.0 шейдеров, написанных на HLSL. Ведь производительность старых версий шейдеров можно проверять в играх, где они давно используются, а синтетические тесты должны соответствовать требованиям будущего.

Эти тесты делятся на две категории, начнем мы с более простых шейдеров версии 2.0. Доступны два новых теста, реализующие уже использующиеся в современных 3D приложениях эффекты:

  • Parallax Mapping — знакомый нам по нескольким современным играм (Splinter Cell: Chaos Theory, F.E.A.R., TES4: Oblivion, Prey и др.) метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами, подобные эффекты в играх также уже не в новинку, пусть и менее сложные

Оба шейдера мы тестируем в двух вариантах: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Также проверяется разница для пониженной и нормальной точности вычислений. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



В очередной раз видим неутешительные результаты для G84. На первом месте стабильно идет G80, особенно в тесте Frozen Glass, следующим RV570 с большим количеством блоков, исполняющих пиксельные шейдеры (вот где есть польза от пресловутого соотношения количества блоков пиксельных и текстурных блоков 3:1), а G71 и G84 показывают очень близкие результаты. Такое впечатление, что в Nvidia намеренно делали так, чтобы производительность Geforce 8600 GTS была на уровне Geforce 7900 GS. Особенно разочаровывают результаты G84 в тесте parallax mapping…

Рассмотрим те же тесты, но в модификации с предпочтением выборки текстур математическим вычислениям:



Здесь картина несколько изменилась, но не в лучшую сторону для наших главных героев обзора. Производительность в тестах теперь больше упирается в текстурные блоки, поэтому решение AMD приблизилось к G71. G80 традиционно далеко впереди, а вот G84 еще и ухудшили своё положение, довольно сильно отставая теперь от всех в тесте parallax mapping. Видно, что у G84 нет явных сильных мест, и количество ALU слишком мало, и возможности TMU слабоваты. Хотя, если стоит задача бороться с урезанным G71…

Слегка отойдем от темы G84, вспомнив о ситуации с предпочтением математических расчетов и текстурных выборок. По этим двум диаграммам видно, что даже на G71 шейдер быстрее работает в виде с большим количеством математических вычислений и смысла в варианте с упором на текстурирование нет никакого. Унифицированная архитектура G8x явно любит вычисления больше, чем текстурирование, и в играх многое будет зависеть от предпочтений программистов. Чтобы раскрыть потенциал новых чипов, нужно выбирать вычислительно ориентированные варианты для своих алгоритмов.

Далее мы рассмотрим результаты еще двух сложных тестов пиксельных шейдеров — версии 3.0, самых сложных из наших синтетических тестов на данный момент. В рамках проекта D3D RightMark были разработаны две шейдерных программы, длинные, сложные и с большим количеством ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, пока что не применяющаяся в играх (ждать осталось недолго), также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Нагрузка от этих тестов явно достойная даже для G80, не говоря об остальных решениях. Очевидно, что архитектура G8x лучше работает с динамическими переходами в пиксельных шейдерах и хорошо приспособлена к таким задачам, особенно по сравнению с G7x. Хотя и RV570 обеспечивает эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений. Что касается нашего испытуемого G84, то в тесте «Fur» он показал неплохой результат на уровне RV570, а вот во втором случае, с техникой steep parallax mapping, уступил чипу AMD и выиграл у G71. Интересно, что разница между G84 и G80 в этих тестах меньше, чем в предыдущих.

Выводы по тестам пиксельных шейдеров: конечно, G8x — это мощная вычислительная архитектура, хорошо приспособленная к выполнению сложных пиксельных шейдеров, и чем больше в задаче математических вычислений, тем для неё лучше. Но количество исполнительных блоков и блоков TMU в новых чипах среднего уровня слишком мало, что не позволяет им опережать карты предыдущих поколений в большинстве проведенных тестов.

Самое печальное, что в G84 и число текстурных блоков в чипе невелико, и число ALU. Первое не позволит картам показать очень хорошие результаты в нынешних играх, которые до сих пор сильно зависят от скорости текстурирования, а второе не даст раскрыться в играх ближайшего будущего. Посмотрим, подтвердится ли это предположение в тестах современных игр, которые ждут вас в следующей части статьи…

Тест Hidden Surface Removal

Пиковая эффективность отбрасывания невидимых поверхностей (без наложения текстур и с текстурированием), в зависимости от сложности геометрии:





А вот это уже приятная неожиданность! По сути, это первое значительное изменение в поведении новых решений по сравнению с G80. Хорошо видно, что эффективность HSR для G84 получилась значительно более высокой, чем для G80 и G71. Мало того, чип Nvidia не просто догнал чип AMD (а надо сказать, что они всегда были лидерами в этих тестах) по этому показателю, но и в ряде случаев показывает даже большую эффективность отбрасывания невидимых поверхностей.

Интересно, что изменилось в чипе? Появился иерархический HSR в исполнении Nvidia или некие блоки в G80 не работали так, как предполагалось изначально и были отключены? Nvidia в своих материалах ничего про это не говорит. Но мы перепроверили результаты — всё так и есть, никаких ошибок. По сравнению с предыдущими чипами, G84 стали значительно лучше работать со сложными сценами, возможно, был изменен баланс для соответствия современным требованиям с увеличивающейся геометрической сложностью сцен в играх.

Посмотрим на достигнутые абсолютные значения в тестах HSR:





Цифры очень интересные! Если в «легких» сценах G84 уступает одному или двум решениям предыдущего поколения, в сцене средней геометрической сложности уже опережает их, а в самых тяжелых и вовсе показывает абсолютно лучшие результаты, опережая даже G80! Хорошо видно, что баланс всё-таки сместился в сторону геометрически более сложных сцен, что не может не радовать. Думаем, что в Nvidia сделали шаг в правильном направлении. Конечно, пока что в реальных приложениях столь сложные сцены не используются, и G80 чаще всего будет впереди, несмотря на то, что в его HSR нельзя назвать самым эффективным.

Тест Point Sprites





Point sprites используются в небольшом количестве реальных приложений, рассмотрим их работу на разных видеочипах. Подтверждаются результаты всех наших предыдущих исследований — чипы Nvidia опережают решения AMD на спрайтах небольшого размера, благодаря более эффективной работе с буфером кадра, зато по мере роста размера частиц и сложности освещения, уже последний начинает выигрывать. G84 ведёт себя схоже с G80, с поправкой на частоты и количество блоков, ничего особенно интересного мы тут не видим. Этот тест на небольших размерах спрайтов упирается только в скорость закраски.

Выводы по синтетическим тестам

  • Унифицированная архитектура G8x сама по себе очень хороша — гибкость и высокий КПД пиксельных процессоров позволяет показывать очень неплохие результаты в некоторых синтетических тестах, например, в геометрических тестах и сложных шейдерных с ветвлениями. Преимущество в таких тестах у новых решений среднего уровня Nvidia есть, и оно увеличивается по мере роста сложности задач. Карта уверенно опереждает предыдущее решение среднего уровня — Geforce 7600 GT, и показывает результаты примерно наравне с Geforce 7900 GS.


  • При всём этом явно видны и возможные слабые места конкретного чипа, которые могут проявиться после выхода решений конкурента — малое количество исполнительных блоков ALU и блоков текстурирования TMU. Тут даже про возможную нехватку пропускной способности памяти при 128-бит шине, и сравнительно малом количестве блоков ROP забываешь. В результате, карта показывает довольно низкую скорость выполнения многих пиксельных и вершинных шейдеров, а также невысокую производительность текстурных выборок, сравнимую разве что с Geforce 7900 GS. Эти слабости уже сейчас должны сказываться в игровых тестах, что уж говорить о будущем?


  • Несмотря на заявленные Nvidia изменения в возможностях блоков TMU и характеристики по скорости выборки из текстур, нами не была обнаружена возможность выборки более восьми значений за такт. Замеренная в наших тестах пиковая производительность говорит о наличии восьми блоков TMU, а не 16-ти, как заявлено в спецификациях. Возможно, это специфические проблемы наших тестов и/или драйверов, мы лишь констатируем факт. И надеемся, что Nvidia прояснит ситуацию.


  • Ну а самым неожиданным и приятным изменением в G84 стала резко возросшая эффективность отсечения невидимых поверхностей. В наших тестах она получилась значительно большей, чем у G80 и G71, новое решение по этому параметру догнало и даже обогнало решение признанных лидеров по эффективности HSR от AMD(ATI). Также, по сравнению с предыдущими чипами, G84 стали лучше работать с геометрически сложными сценами.

Итак, с точки зрения архитектуры — у Nvidia все получилось совсем неплохо, она прекрасно масштабируется в обе стороны, универсальна и унифицирована, нацелена на сложные шейдеры и иные вычисления. Но почему решения среднего и низшего сегмента настолько сильно урезали по количеству исполнительных блоков? Количество ALU и TMU явно ниже того, что ожидалось от этих решений рынком. Не станет ли эта потенциальная ошибка явно видимой по мере выхода конкурирующих решений от единственного соперника Nvidia? Конечно, мы еще посмотрим на результаты DirectX 10 тестов и игр, ведь только в них будет видно, на что способны новые чипы, именно такие приложения способны полностью раскрыть потенциал новой архитектуры.

А на данный момент нам остаётся посмотреть на ситуацию в играх и определить, справедливы ли наши выводы, полученные в результате анализа результатов синтетических тестов. Следующая часть покажет всё, что пока могло быть скрыто. По сути, это самая главная часть статьи, ведь на основе игровых тестов и следует делать выбор покупателям.



Nvidia Geforce 8600 GTS (G84) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia