ATI RADEON 3850/3870 (RV670)

320 шейдерных процессора с 256-битной шиной памяти


Часть 2: Особенности видеокарт, синтетические тесты




СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON 3850/3870 (RV670): Часть 1: Теоретические сведения


Итак, все подробности об особенностях архитектуры новинок уже освещены в первой части материала.

Сегодня в нашей лаборатории, кроме эталонных карт RADEON 3850 и 3870 были аналогичные продукты от компаний HIS, TUL и Sapphire.

Платы



HIS RADEON HD 3870 512MB PCI-E
  • GPU: RADEON HD 3870 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 775/775 MHz (номинал — 775/775 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1125 (2250) MHz (номинал — 1125 (2250) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
  • GPU: RADEON HD 3850 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 720/720 MHz (номинал — 670/670 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 830 (1660) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Sapphire RADEON HD 3850 256MB PCI-E
  • GPU: RADEON HD 3850 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 670/670 MHz (номинал — 670/670 МГц)
  • Частоты работы памяти (физическая (эффективная)): 830 (1660) MHz (номинал — 830 (1660) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Sapphire RADEON HD 3870 512MB PCI-E
  • GPU: RADEON HD 3870 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 775/775 MHz (номинал — 775/775 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1125 (2250) MHz (номинал — 1125 (2250) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E
Каждая карта имеет 512 МБ памяти GDDR4 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR4). Время выборки у микросхем памяти 0.8ns, что соответствует частоте работы 1250 (2500) МГц.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.0ns, что соответствует частоте работы 1000 (2000) МГц.

Sapphire RADEON HD 3850 256MB PCI-E
Карта имеет 256 МБ памяти GDDR3 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.1ns, что соответствует частоте работы 900 (1800) МГц.



Сравнение с эталонным дизайном, вид спереди
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Sapphire RADEON HD 3850 256MB PCI-E
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E


Сравнение с эталонным дизайном, вид сзади
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Sapphire RADEON HD 3850 256MB PCI-E
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E


Фотографии показали, что дизайн 3850 и 3870 карт несколько отличается, несмотря на то, что платы, по сути, отличаются только частотами и объемом памяти. Но разные требования к питанию, а также различная обвязка у DDR3 и DDR4 микросхем памяти вызвали необходимость сделать два дизайна.

На фотографиях четко видно, что каждая плата требует один шестипиновый PCI-E хвост от БП. Поэтому это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 350-400Вт с поддержкой токов по 12В каналу не менее 18-20А.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

Что касается HDTV и прочих новомодных видеоштучек, то одно из исследований также проведено, и с ним можно ознакомиться здесь.

Теперь о системах охлаждения. Рассмотрим свою собственную у карты от TUL, а также референсные кулеры, которые можно также видеть и у продуктов от HIS/Sapphire.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E

Разработчики из TUL, кроме того, что на карту установили 512 мегабайт памяти, подняли частоты работы, используя особый кулер компании Zerotherm

Это округлая чаша, состоящая из множества ребер, нанизанных на тепловые трубки. Все сделано из медных сплавов.

В центре чаши — большой вентилятор. К очень большому сожалению, если аналогичные кулеры от Zalman отличаются бесшумностью вкупе с высокой эффективностью охлаждения, то в данном случае выскользнул элемент — бесшумность. Данное устройство имеет некоторый шум (шелест), который, хоть и незначителен, но имеется.

Это минус, но не очень высокий. Эффективность охлаждения высока.

Стоит обратить внимание на то, что микросхемы памяти не имеют никакого охлаждения.

ATI RADEON HD 3850 256MB PCI-E

В данном случае перед нами привычная конструкция, представляющая узкий закрытый радиатор, через который продувается воздух, гонимый турбиной, установленной на одном из концов радиатора.

Ядро прижимается к радиатору через медную вставку. Микросхемы памяти также охлаждаются с помощью термопрокладок.

Кулер по-умолчанию работает на очень низких оборотах, от силы 10-15% от номинала, поэтому шума нет. Далее мы поговорим о том, нужны ли такие низкие обороты.

ATI RADEON HD 3870 512MB PCI-E

Данное устройство двухэтажное, если так можно сказать, то карта с таким кулером будет занимать два слота в системном блоке. Мы видим также большой закрытый радиатор, через который гонится воздух, но в данном случае он уже выводится вон из системного блока через решетку в брекете.

Кулер тоже бесшумный, ибо работает на очень низкой скорости.



Поскольку новая версия RivaTuner (автор А. Николайчук AKA Unwinder) уже поддерживает RADEON HD 3xxx серию, то посмотрим на мониторинг, полученный с помощью данной программы.



ATI RADEON HD 3850, установки кулера по умолчанию.



Как мы уже выше сказали, кулер по-умолчанию работает очень медленно, но при этом ядро очень сильно греется. Есть информация, что первые карты 3850 имели установки на более высокие обороты кулера (28-30%), и при этом нагрев ядра не превышал 70 градусов. ВНИМАНИЕ! Программа Риватюнер ПОЗВОЛЯЕТ регулировать обороты кулера на плате эталонного дизайна, поэтому всем рекомендуем выставить обороты на 30-40% вручную, при этом бесшумность кулера будет еще соблюдена, но нагрев ядра резко уменьшится до 60 градусов.



Powercolor RADEON HD 3850, установки кулера по умолчанию.



А в данном случае установлен, как вы помните, особый кулер, который немного шумен, но не поддается регулировке. Охлаждение ядра при этом очень эффективное.



ATI RADEON HD 3870, установки кулера по умолчанию.



Здесь ситуация такая же, как и у 3850 эталонного дизайна. Кулер работает на очень малых скоростях, но нагрев весьма велик. Разработчики из AMD явно перестарались с бесшумностью, впали, как говорится, в иную крайность.



ATI RADEON HD 3870, кулер выставлен на 70%.



Посмотрите, что получается, если выставить кулер на 70% от его номинала, где находится верхняя планка, за которой кулер уже ощутимо начинает шуметь. Нагрев — мизерный для такой карты!



ATI RADEON HD 3870, разгон до 825/2400.



И что получается при разгоне.

Итог: смело устанавливайте работу кулера на 40-50% от его номинала, при этом сохранится бесшумность, и нагрев ядра резко уменьшится.

Посмотрим на сами процессоры.

RADEON HD 3850 (RV670)



RADEON HD 3870 (RV670)



Размеры кристалла не очень велики, несмотря на столь огромное число транзисторов (сказывается тонкий техпроцесс). С маркировками AMD уже намудрила, уже нет никаких общепонятных обозначений, только коды.

Комплектация.

HIS RADEON HD 3870 512MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub, DVI-to-HDMI, S-Video-to-RCA, адаптер для компонентного вывода, переходник для внешнего питания. Купон на бесплатное скачивание ряда игр, мостик для соединения карт в CrossFire-систему.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Почти аналогичный комплект.

Sapphire RADEON HD 3850 256MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E
Аналогичный комплект, плюс CD с PowerDVD, DVD Suite, 3Dmark06.



Упаковка.

HIS RADEON HD 3870 512MB PCI-E

К очень большому сожалению, приходится констатировать, что компания HIS ушла от красивых и удобных упаковок к какому-то черному мрачному дизайну, да и коробка слишком узкая для такой широкой карты (это даже видно визуально, как в центре коробка немного вздувается).

Хотя внутри все разложено в пластиковом боксе, и карта надежно закреплена в своем отсеке.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E

Коробка в стиле последних выпусков от Powercolor, расположена вертикально, внутри нее — еще одна из белого картона, где уже расположен весь комплект, разложенный по отсекам.

Sapphire RADEON HD 3850 256MB PCI-E

Как и в случае с HIS должны с огорчением сказать, что по какой-то непонятной причине компания отказалась от старых красивых дизайнов с окнами, да и комплект тогда располагался в пластиковых отсеках, а теперь насыпан в коробку и переложен поролоном.

Какое-то ощущение, что наспех сваяли, туда бросили карту и отправили в продажу. Хотя то, что ушли от рисования марсиан на коробках — уже хорошо.

Sapphire RADEON HD 3870 512MB PCI-E

Упаковка аналогичная.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете Nvidia nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista Ultimate; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 7.10; Nvidia версии 169.04.

VSync отключен.

Синтетические тесты

В наших базовых обзорах мы продолжаем использование как старых, так и новой версии пакета — RightMark3D 2.0, предназначенного Direct3D 10 совместимых ускорителей в операционной системе MS Windows Vista. Некоторые ранее известные тесты в составе последнего были переписаны под DX10, добавились новые виды синтетических тестов: модифицированные тесты пиксельных шейдеров, переписанные под SM 4.0, тесты геометрических шейдеров, тесты выборки текстур из вершинных шейдеров. Предыдущие версии RightMark останутся до тех пор, пока в новом пакете не появятся низкоуровневые тесты заполнения и т.п.

Все используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 3870 со стандартными параметрами (далее HD3870)
  • RADEON HD 3850 со стандартными параметрами (далее HD3850)
  • RADEON HD 2900 XT со стандартными параметрами (далее HD2900XT)
  • RADEON HD 2600 XT со стандартными параметрами (далее HD2600XT)
  • Nvidia Geforce 8800 GT со стандартными параметрами (далее GF8800GT)
  • Nvidia Geforce 8800 GTS со стандартными параметрами (далее GF8800GTS)

Для анализа результатов новых видеокарт AMD были выбраны эти модели по следующим причинам: с RADEON HD 2600 XT сравниваем, как с предыдущим топовым решением среднего ценового диапазона, со старым Geforce 8800 GTS сравним просто для интереса, Geforce 8800 GT любопытен, как основной конкурент для RADEON HD 3870, а сравнение с RADEON HD 2900 XT должно быть интересно потому, что именно на основе R600 и разработан чип для анонсированных решений среднего уровня от AMD, изменены только рабочие частоты и пропускная способность видеопамяти.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



У большинства видеокарт AMD получились значения, близкие к их теоретическому максимуму, но всё же меньшие. Результаты синтетических тестов привычно не дотягивают до теоретических цифр в режимах с большим количеством текстур. Показатели текстурной выборки у HD 3870 и HD 3850 полностью соответствуют показателям HD 2900 XT с поправкой на тактовые частоты. А у видеокарты Nvidia, отличающейся высокой скоростью текстурирования, из-за улучшенных блоков TMU, в нашем тесте максимум не достигается.

В случае с малым количеством текстур на пиксель, HD 3870 и 3850 конкурируют с Geforce 8800 GT, так как последнему не хватает пропускной способности видеопамяти, которая у этого решения меньше, чем у более мощного варианта на основе RV670. Зато в более тяжелых условиях видеокарты AMD начинают проигрывать своему основному конкуренту, подтверждая полную идентичность текстурных блоков и принадлежность к архитектуре R6xx. Смотрим тест филлрейта:



Второй синтетический тест измеряет скорость заполнения, тут мы видим ту же ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами новое решение среднего уровня от Nvidia отстаёт от одного из рассматриваемых сегодня решений AMD, и значительно сильнее показывает себя в ситуациях с большим количеством текстур на пиксель. Как и предполагалось в предыдущем материале, видеокарты на основе RV670 проигрывают решениям на базе G92 по скорости текстурных выборок и филлрейту в случаях, когда скорость не ограничивается пропускной способностью памяти. А теоретическая разница ещё более ощутима.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим предельные геометрические тесты, первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Так как все чипы основаны на унифицированных архитектурах, все универсальные исполнительные блоки в этом тесте заняты геометрической работой и все решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Эффективность выполнения теста в разных режимах у чипов примерно одинаковая, пиковая производительность в FFP, VS 1.1 и VS 2.0 отличается мало. Даже по этим результатам видно, что решения AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia. Скорость RV670 полностью соответствует производительности R600, с учётом разных тактовых частот. А RV630 так силён, вероятно, из-за своей ещё большей тактовой частоты. Посмотрим, что изменится в усложненном тесте с одним diffuse источником освещения:



Ситуация изменилась не слишком сильно, потенциал у решений AMD явно выше. Geforce 8800 GT уже сильнее отстаёт от всех решений AMD, включая даже RADEON HD 2600 XT, а HD 3850 догоняет HD 2900 XT. В этот раз режим FFP несколько быстрее на двух видеокартах: Geforce 8800 и HD 2900. Посмотрим, что получится в ещё более тяжелых условиях сложного расчета освещения с одним источником света и расчетом бликовой составляющей:



Примерно та же ситуация, явным лидером по геометрической производительности становится более производительное решение на основе RV670, и уже ясно, что в его успехе «виновата» не только тактовая частота. Вероятно, что-то в RV670 всё-таки исправили, и он стал показывать лучшие результаты в синтетических тестах обработки геометрии, по сравнению с R600.

В пользу этого же говорит и тот факт, что на смешанном источнике света наличие оптимизированной эмуляции FFP проявляется у большинства протестированных решений, кроме HD 3850 и 3870, как раз. Geforce 8800 GT в этот раз отстает примерно так же, как и в предыдущем случае. Рассмотрим самую сложную геометрическую задачу с тремя источниками света, включающую статические и динамические переходы:



Тут уже хорошо видна разница между всеми участниками, в этих тестах их геометрическая производительность проявляется нагляднее всего. Оба новых mid-end решения вместе с RADEON HD 2900 XT вышли вперёд, и вполне вероятно, что даже в нашей самой сложной геометрической задаче возможности этих чипов не раскрыты полностью.

Поведение HD 3850 и HD 3870 полностью повторяет ситуацию с HD 2900 XT, удивляет только то, что HD 3850 на меньшей частоте показывает равный с HD 2900 XT результат. Возможно, причины этого в проведенных оптимизациях архитектуры, увеличенных кэшах и т.п. В остальных случаях, когда основными ограничителями являются шейдерные блоки, результаты решений становятся в соответствии с теоретическими цифрами. RADEON HD 3870 опережает всех соперников, особенно контрастно его результат смотрится на фоне предыдущего mid-end решения AMD — HD 2600 XT.

Краткие итоги по геометрическим тестам: так как новые чипы основаны на удачной унифицированной архитектуре R6xx, они отлично проявляют себя в геометрических тестах, способны использовать все универсальные потоковые процессоры для решения геометрических задач и прекрасно оптимизированы для обработки геометрии, в некоторых случаях обгоняя RADEON HD 2900 XT. Впрочем, в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, слишком проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Видно, что тесты слишком просты для современных архитектур и не показывают их истинную силу. В простых тестах производительность ограничена текстурными выборками и филлрейтом, что и видно на примере слабых результатов всех видеокарт AMD по сравнению с Geforce 8800 GT. Всё-таки зря они решили ограничиться количеством TMU 16 штук… Хотя в более сложных PS 2.0 тестах результаты становятся интереснее, например, в самом сложном (Phong с тремя источниками света), Geforce 8800 GT уже проигрывает всем картам на базе RV670 и R600.

Цифры HD 3850 и HD 3870 соответствуют тому, что показывает HD 2900 XT с поправкой на частоты. Естественно, обе новые видеокарты заметно быстрее RADEON HD 2600 XT, предыдущее решение среднего уровня сильно отстаёт во всех тестах, показывая результаты слабее более чем в два раза. Это объясняется как возросшим филлрейтом и скоростью текстурных выборок, так и увеличенным количеством универсальных шейдерных блоков в RV670. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:



В тесте процедурной визуализации воды «Water», сильно зависящем от скорости текстурирования, используется зависимая выборка из текстур с большим уровнем вложенности, поэтому все решения компании AMD неприлично отстают от единственного представителя Nvidia. Geforce 8800 GT оказывается далеко впереди, более чем двукратно выигрывая у обеих моделей на RV670. Скорости HD 3850 и HD 3870 соответствуют показателям HD 2900 XT, а HD 2600 XT традиционно остаётся в аутсайдерах, слишком слабыми были предыдущие mid-end решения.

Во втором тесте, интенсивном вычислительно, прежде всего, новые решения AMD вырываются вперед, а Geforce 8800 GT немного им проигрывает. Эта задача лучше подходит для архитектуры AMD с большим числом унифицированных вычислительных блоков. Соотношение между результатами HD 3850, HD 3870 и HD 2900 обусловлено отличиями в тактовой частоте установленных на них GPU и полностью соответствует теоретическим характеристикам.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существуют два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



В тесте «Frozen Glass» явным лидером является решение Nvidia, Geforce 8800 GT опережает ближайших конкурентов (HD 2900 и HD 3870) в два раза, что говорит об ограничении производительности скоростью текстурных выборок, прежде всего.

Во втором тесте «Parallax Mapping» лидерство принадлежит решениям AMD, которые расположились в соответствии с теорией, но Geforce 8800 GT отстаёт от них совсем чуть-чуть, а ведь раньше Nvidia в этом тесте была явно слабее. Никаких неожиданностей в результатах нет, RV670 в этих тестах ведёт себя аналогично R600. Рассмотрим тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там Geforce 8800 GT должна оторваться ещё сильнее:



Действительно, ситуация поменялась, теперь производительность ещё больше упирается в скорость текстурных блоков, и поэтому Geforce 8800 GT всегда впереди. RADEON HD 2900 XT вместе с HD 3850 и HD 3870 показывают близкие результаты, заметно проигрывая Geforce 8800 GT и столь же сильно опережая HD 2600 XT.

Впрочем, на всех видеокартах варианты шейдеров с большим количеством математических вычислений работают быстрее, и для современных архитектур GPU смысла в варианте с упором на текстурирование нет, все новые чипы AMD и Nvidia предпочитают математические вычисления текстурированию. Вероятно, в будущем мы уберем вариант с упором в текстурирование из состава наших синтетических тестов.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



В этих тестах нагрузка на видеокарты большая даже для самых мощных чипов, хотя HD 2600 XT отстаёт даже не в два раза. Самое интересное, что в обоих тестах рассматриваемые сегодня решения на основе чипа RV670 проигрывают и Geforce 8800 GT, и даже RADEON HD 2900 XT! Это может говорить либо о недоработках в драйверах, либо о том, что на производительность чипов AMD в этих тестах сильно влияет пропускная способность памяти. Geforce 8800 GT с меньшей ПСП выигрывает у RADEON HD 3870, хотя по чипу R600 ранее казалось, что архитектура AMD обеспечивает более эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений по сравнению с G8x/G9x.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также два полностью новых теста. В первые два добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Эти тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Все результаты в «High» примерно в полтора раза ниже, чем в «Low». Тесты процедурной визуализации меха с большим количеством текстурных выборок уже традиционно показывают очень большое преимущество решений Nvidia над AMD, просто многократное. С обеими моделями Geforce 8800 ни одна из карт RADEON тягаться не может. Интересно, что такого отставания не должно быть даже чисто теоретически, и непонятно, откуда взялась такая разница…

RADEON HD 2600 XT отстаёт от верхних решений довольно сильно, урезание количества исполнительных блоков сильно сказалось на его скорости. Интересно, что карты на основе RV670 показывают чуть лучшие результаты относительно топового R600, с учетом разности частот. HD 3850 показывает скорость на уровне HD 2900 XT, а HD 3870 опережает того на 10-15%, хотя разница в частотах между ними меньше. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно, в такой ситуации что-то изменится:

Включение суперсэмплинга теоретически увеличивает нагрузку ровно в четыре раза, но на видеокартах Nvidia оно снижает скорость сильнее, чем на AMD R6xx, за счет чего последние чуть приблизились к картам на G80 и G92. Видно, что подобная сложность тестов под силу разве что Geforce 8800, все остальные показывают низкие результаты, а RADEON HD 2600 XT отстаёт от решений на RV670 и R600 более чем в два раза. В сравнении HD 3800 и HD 2900 ничего не меняется, недавно анонсированные видеокарты опережают предыдущее топовое решение, несмотря на почти одинаковые частоты.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот, и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Данный тест уже интереснее для нас с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping, совсем недавно появились в играх, в Lost Planet и Crysis, например. В тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, — этот режим называется «High».

Хотя решения AMD ранее были традиционно сильны в наших Direct3D 9 тестах parallax mapping, в обновленном DX10 варианте без суперсэмплинга они не могут справиться с задачей на уровне Geforce 8800 GT и GTS. Да и включение самозатенения вызывает на продукции AMD большее падение производительности, более двух раз, по сравнению с полуторакратной разницей для решений производства Nvidia.

По результатам видно, что HD 3850 в легком режиме чуть-чуть отстает от HD 2900 XT, а в тяжелом чуть-чуть опережает его. Второй сегодняшний герой — RADEON HD 3870 — уже явно быстрее этой парочки, хотя до конкурирующего Geforce 8800 GT ему очень далеко. Зато предыдущее mid-end решение AMD плетётся в хвосте, отставая от всех более чем в два раза. Посмотрим, что изменит включение суперсэмплинга, ведь в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

Ещё одна тяжелая задача для видеочипов, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростью видеокарт сохраняется, но включение суперсэмплинга сказывается, как и в предыдущем случае — карты на чипах R6xx улучшают свои показатели относительно решений Nvidia. К сожалению, несмотря на это, RV670 лишь приближается к G92, всё же отставая от него. Что касается сравнения HD 3800 и HD 2900, можно отметить, что с увеличением нагрузки решения на основе RV670 показывают лучшие результаты, чем топовая карта на базе R600.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимум текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

В соответствии с результатами наших исследований в Direct3D 9 синтетических тестах, в вычислительно сложных задачах R600 показывает себя очень хорошо, опережает конкурирующие решения Nvidia. RADEON HD 2900 XT явно сильнее всех в этом тесте, и решения на базе G80 и G92 отстают от него. Похоже, что на скорость в этом тесте сильно влияет и пропускная способность памяти, так как HD 2900 XT оказался в полтора раза быстрее, чем HD 3870. Иными причинами такой результат объяснить нельзя, вряд ли в RV670 ухудшилась эффективность исполнения математических команд.

В сравнении конкурирующих решений AMD и Nvidia отмечаем, что новые модели карт на основе RV670 показывают близкий к Geforce 8800 GT результат, а Geforce 8800 GTS немного отстаёт от них. Производительность RADEON HD 2600 XT более чем в два раза ниже показателей решений на основе RV670, это соотношение между ними наблюдается в который раз.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

С появлением серии RADEON HD 3800 для решений AMD в этом тесте ничего не изменилось, налицо явная ошибка в драйверах AMD, которая до сих пор не исправлена. Если это не ошибка, то Geforce 8800 GT опережает все конкурирующие решения AMD раз так в 50. Понятное дело, наш тест — это ведь не 3DMark и не Crysis, под него драйверы не оптимизируют… С одной стороны, это хорошо, с другой — такие явные ошибки исправлять надо.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен получилось примерно одинаковым, отличаются только абсолютные значения. Показываемая производительность полностью соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Явно видно влияние ПСП на результаты, RADEON HD 2900 XT показал в 1.5 раза лучшие результаты, по сравнению с HD 3850 и HD 3870. HD 2600 XT, в свою очередь, отстал ещё почти в два раза.

С Geforce 8800 GT и GTS в этом тесте смогла конкурировать только топовая видеокарта AMD, оба варианта на базе RV670 проигрывают решениям Nvidia. Впрочем, эта задача для современных видеокарт несложная, да и ограничена она больше ПСП, чем мощностью чипов. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится.

Но нет, изменений, по сути, не произошло вообще. Все видеокарты показали те же результаты (с учетом погрешности измерения) при изменении параметра GS load, то есть, при переносе части вычислений в геометрический шейдер. Geforce 8800 GT всё так же немного опережает HD 2900 XT, а последняя из-за большей ПСП быстрее новых mid-end видеокарт HD 3850 и HD 3870. Посмотрим, что будет в следующем тесте…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy», — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке. Во всех случаях производительность хорошо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Показатели видеокарт Nvidia опять более чем в два раза выше, по сравнению с лучшими решениями AMD при любой геометрической сложности.

А с новыми решениями AMD в этом тесте получилось гораздо интереснее. RADEON HD 2900 XT всего в 1.5 раза опережает HD 2600 XT, зато обе новые видеокарты показывают большие результаты относительно недавнего решения верхнего уровня. Если HD 3850 быстрее HD 2900 XT всего чуть-чуть, то HD 3870 сильнее HD 2900 XT на 20-25%! Это не объяснить разницей в частотах, тут явно виноваты или оптимизации в драйверах, или оптимизации аппаратные (что хотя и менее вероятно, но всё же вполне может быть). Цифры могут измениться в следующем тесте, с более активным использованием геометрических шейдеров. Также интересно сравнить друг с другом цифры, полученные в «Balanced» и «Heavy» режимах.

В этот раз соотношение скоростей в разных режимах использования геометрических шейдеров изменилось довольно сильно. Чипы семейства R6xx явно быстрее в таких задачах, чем чипы Nvidia, их RADEON HD 2900 XT имеет преимущество перед Geforce 8800 в 1.5-2 раза, а HD 2600 XT показывает результат, сопоставимый с Geforce 8800 GTS! Подтверждается полученный в ранних исследованиях вывод о том, что чем сложнее работа для геометрического шейдера, тем быстрее будут решения AMD по сравнению с видеокартами на чипах Nvidia.

А на результатах карт AMD опять сказывается то ли оптимизация, рассчитанная на разную нагрузку для чипов R600 и RV670, то ли мы видим простое влияние разной пропускной способности памяти. Ведь HD 2900 XT на 30-40% быстрее, чем HD 3800. С другой стороны, может быть просто R600 лучше оптимизирован под задачи с большей нагрузкой на геометрические шейдеры, а RV670 — на задачи с вершинными. Тогда объясняется результат и этого теста, и предыдущего.

Что касается сравнения результатов в разных режимах, нужно отметить, что оба варианта Geforce 8800 GT в «Balanced» показывают лучшие показатели, чем RADEON HD 2900 XT, HD 3850 и HD 3870 в «Heavy». При том, что получаемая в разных режимах картинка не отличается визуально. Решениям AMD больше подходит второй режим (использование геометрического шейдера при выводе вместо «instancing»), а Nvidia — первый. Но при сравнении в лучших для обеих компаний режимах, Geforce 8800 GT всё же опережает обе новые видеокарты AMD среднего уровня.

Основной вывод по геометрическим шейдерам: разные тесты геометрических шейдеров показывают отличающиеся результаты. Новые решения на основе чипа RV670 показывают неплохие результаты в них, хотя и отставая от конкурентов, и в целом выступая наравне с RADEON HD 2900 XT. А при росте сложности работы для геометрического шейдера они даже выходят вперёд.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

В этот раз три режима показывают разную производительность видеокарт относительно друг друга. Чем проще режим, тем большее влияние на скорость оказывает пропускная способность видеопамяти. Что подтверждает вывод в статье, посвященной анонсу Geforce 8800 GT, где было отмечено значительное отличие в производительности между Geforce 8800 GT и 8800 GTX.

Это хорошо видно по сравнению скорости HD 2900 XT и HD 3850, если в легком режиме старое решение легко выигрывает, в среднем получается паритет, а в тяжелом HD 3850 уже выходит вперёд. То же самое касается и HD 3870, только он опережает HD 2900 XT уже в режиме средней геометрической сложности. Борьба HD 3870 и Geforce 8800 GT проходит с переменным успехом, в двух режимах побеждает видеокарта Nvidia, а в самом сложном совсем чуть-чуть вперёд выходит новое решение компании AMD.

Соотношение между производительностью новых видеокарт AMD среднего ценового уровня и предыдущей модели RADEON HD 2600 XT несколько изменилось, отставание последней увеличилось до трёх раз в самом сложном режиме. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, разница между HD 3800 и HD 2900 уменьшилась, влияние ПСП остаётся, хотя старшая из новых видеокарт компании всё-таки опережает старую. Предыдущая модель среднего уровня — RADEON HD 2600 XT — всё так же сильно проигрывает, а Geforce 8800 GT теперь побеждает во всех тестах.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

В «Waves» всё почти то же, что и в предыдущем тесте, теперь влияние ПСП уже видно и по видеокартам производства Nvidia. Обе недавно анонсированные модели семейства HD 3800 смотрятся неплохо, младшая на уровне HD 2900 XT, а старшая сильнее, обе они в два-три раза опережают HD 2600 XT, но это не даёт им обогнать главного конкурента — Geforce 8800 GT, победившего в сложных режимах и проигравшего простой из-за меньшей ПСП. Смотрим второй режим:

Интересно, что с увеличением сложности теста уже обе недавно анонсированные модели семейства HD 3800 выигрывают у HD 2900 XT. Видимо, некие оптимизации всё же были сделаны. Все остальные выводы остаются в силе — в легком режиме скорость ограничивает ПСП, в тяжелых большую роль играют блоки TMU и ROP. В целом, хорошо видно, что Geforce 8800 GT лучше справляется с тестами текстурных выборок из вершинных шейдеров по сравнению с новыми картами AMD, при небольшой геометрической сложности сцен его сдерживает меньшая пропускная способность локальной памяти, а при увеличении количества выбираемых данных по скорости этой модели нет равных.

Выводы по синтетическим тестам

  • Видеочип RV670 основан на уже известной нам архитектуре R6xx, новый GPU изменился в своей 3D части совсем незначительно, судя по всему (почти всё, что нужно для DirectX 10.1, было и в R600). Как и прародитель, он отличается высокой вычислительной производительностью, особенно в современных и будущих приложениях с большим количеством сложных шейдеров. RV670 отличает высокая эффективность и производительность универсальных процессоров, и повышенные относительно R600 рабочие частоты, которые позволяют этому чипу показывать очень хорошие результаты в большинстве синтетических тестов. Видеокарты RADEON HD 3850 и HD 3870 в наших тестах чаще всего не уступают более дорогой HD 2900 XT, а в некоторых даже опережают эту модель!


  • Самое слабое место у RV670 не изменилось со времен R600 — у нового чипа всё такое же сравнительно малое количество текстурных блоков, которое не позволяет видеокартам на его основе показывать большую производительность в тех тестах, которые сильно зависят от скорости текстурирования. Ещё одной небольшой проблемой является меньшая ширина шины памяти по сравнению с R600, и меньшая пропускная способность, которой не хватает, чтобы показывать результаты на уровне RADEON HD 2900 XT во всех тестах. С другой стороны, даже с меньшей ПСП у HD 3850 и HD 3870 получилась очень высокая производительность, сравнимая со скоростью старшего решения, а для видеокарт среднего ценового диапазона такой ПСП вполне достаточно.


  • Несмотря на то, что старшее решение RADEON HD 3870 в большинстве наших тестов немного проигрывает своему основному конкуренту — Geforce 8800 GT, многое будет решать производительность в играх, которую мы оценим в следующей части статьи, а также реальная стоимость конкурирующих видеокарт в розничной продаже. У RV670 есть определенное преимущество перед G92 в меньшей сложности и площади чипа, его производство должно обходиться дешевле при прочих равных. Так что следите за нашими материалами и розницей, делая выбор не на основе синтетических тестов и рекомендованных производителем цен, а на основе тестов в современных играх и реальных розничных цен в вашей местности.

Итак, на основе анализа результатов синтетических тестов RADEON HD 3850 и HD 3870 мы увидели, что новые решения среднего уровня у компании AMD получились очень мощными, сравнимыми с предыдущими топовыми. Как и Nvidia Geforce 8800 GT, они составляют конкуренцию значительно более дорогим видеокартам! А по таким параметрам, как энергетическая эффективность, с новыми решениями монстры вроде HD 2900 XT не могут сравниться, ведь новые GPU производятся по 55 нм техпроцессу, дающему важные для mid-end преимущества в энергопотреблении и тепловыделении.

Нельзя не упомянуть в выводах и потенциальный плюс RV670 и видеокарт на его основе — поддержку DirectX 10.1. Несмотря на то, что этой версии в живом виде ещё не существует (за исключением тестовых вариантов для разработчиков, естественно), эта поддержка является важным конкурентоспособным преимуществом, ведь многие привыкли оценивать видеокарты по степени поддержки этого игрового API. Пока что мы не можем оценить преимущества от нововведений версии 10.1, но в будущих материалах постараемся обратить на это своё внимание.

В следующей части статьи вы увидите тесты новых mid-end решений компании AMD в современных игровых приложениях. Эти результаты должны показать справедливость выводов, сделанных нами при анализе результатов синтетики.



ATI RADEON 3850/3870 (RV670) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

320 шейдерных процессора с 256-битной шиной памяти: дешевое решение ATI RADEON HD 3850/3870 (RV670)

ATI RADEON 3850/3870 (RV670)

320 шейдерных процессора с 256-битной шиной памяти

Часть 2: Особенности видеокарт, синтетические тесты




СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON 3850/3870 (RV670): Часть 1: Теоретические сведения


Итак, все подробности об особенностях архитектуры новинок уже освещены в первой части материала.

Сегодня в нашей лаборатории, кроме эталонных карт RADEON 3850 и 3870 были аналогичные продукты от компаний HIS, TUL и Sapphire.

Платы



HIS RADEON HD 3870 512MB PCI-E
  • GPU: RADEON HD 3870 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 775/775 MHz (номинал — 775/775 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1125 (2250) MHz (номинал — 1125 (2250) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
  • GPU: RADEON HD 3850 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 720/720 MHz (номинал — 670/670 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (1800) MHz (номинал — 830 (1660) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x32 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Sapphire RADEON HD 3850 256MB PCI-E
  • GPU: RADEON HD 3850 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 670/670 MHz (номинал — 670/670 МГц)
  • Частоты работы памяти (физическая (эффективная)): 830 (1660) MHz (номинал — 830 (1660) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).
Sapphire RADEON HD 3870 512MB PCI-E
  • GPU: RADEON HD 3870 (RV670)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 775/775 MHz (номинал — 775/775 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1125 (2250) MHz (номинал — 1125 (2250) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 16 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-выход.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E
Каждая карта имеет 512 МБ памяти GDDR4 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR4). Время выборки у микросхем памяти 0.8ns, что соответствует частоте работы 1250 (2500) МГц.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.0ns, что соответствует частоте работы 1000 (2000) МГц.

Sapphire RADEON HD 3850 256MB PCI-E
Карта имеет 256 МБ памяти GDDR3 SDRAM, размещенной в 8-ми микросхемах на лицевой стороне PCB.

Микросхемы памяти Samsung (GDDR3). Время выборки у микросхем памяти 1.1ns, что соответствует частоте работы 900 (1800) МГц.



Сравнение с эталонным дизайном, вид спереди
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Sapphire RADEON HD 3850 256MB PCI-E
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E


Сравнение с эталонным дизайном, вид сзади
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Sapphire RADEON HD 3850 256MB PCI-E
ATI RADEON HD 3850 256MB PCI-E Reference card ATI RADEON HD 2900 XT
HIS RADEON HD 3870 512MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E


Фотографии показали, что дизайн 3850 и 3870 карт несколько отличается, несмотря на то, что платы, по сути, отличаются только частотами и объемом памяти. Но разные требования к питанию, а также различная обвязка у DDR3 и DDR4 микросхем памяти вызвали необходимость сделать два дизайна.

На фотографиях четко видно, что каждая плата требует один шестипиновый PCI-E хвост от БП. Поэтому это надо иметь в виду потенциальным покупателям. Требования к БП таковы: нужен блок питания не менее 350-400Вт с поддержкой токов по 12В каналу не менее 18-20А.

У карт имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуется специальный адаптер-переходник, (обычно поставляемый вместе с картой). По ТВ-выходу можно почитать — здесь.

Продолжая изучать карты, мы видим, что они снабжены парой гнезд DVI. Dual link DVI, что позволяет по цифровому каналу получать разрешения выше 1600х1200. Подключение к аналоговым мониторам с d-Sub (VGA) интерфейсам производится через специальные адаптеры-переходники DVI-to-d-Sub. Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit @ 85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

Что касается HDTV и прочих новомодных видеоштучек, то одно из исследований также проведено, и с ним можно ознакомиться здесь.

Теперь о системах охлаждения. Рассмотрим свою собственную у карты от TUL, а также референсные кулеры, которые можно также видеть и у продуктов от HIS/Sapphire.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E

Разработчики из TUL, кроме того, что на карту установили 512 мегабайт памяти, подняли частоты работы, используя особый кулер компании Zerotherm

Это округлая чаша, состоящая из множества ребер, нанизанных на тепловые трубки. Все сделано из медных сплавов.

В центре чаши — большой вентилятор. К очень большому сожалению, если аналогичные кулеры от Zalman отличаются бесшумностью вкупе с высокой эффективностью охлаждения, то в данном случае выскользнул элемент — бесшумность. Данное устройство имеет некоторый шум (шелест), который, хоть и незначителен, но имеется.

Это минус, но не очень высокий. Эффективность охлаждения высока.

Стоит обратить внимание на то, что микросхемы памяти не имеют никакого охлаждения.

ATI RADEON HD 3850 256MB PCI-E

В данном случае перед нами привычная конструкция, представляющая узкий закрытый радиатор, через который продувается воздух, гонимый турбиной, установленной на одном из концов радиатора.

Ядро прижимается к радиатору через медную вставку. Микросхемы памяти также охлаждаются с помощью термопрокладок.

Кулер по-умолчанию работает на очень низких оборотах, от силы 10-15% от номинала, поэтому шума нет. Далее мы поговорим о том, нужны ли такие низкие обороты.

ATI RADEON HD 3870 512MB PCI-E

Данное устройство двухэтажное, если так можно сказать, то карта с таким кулером будет занимать два слота в системном блоке. Мы видим также большой закрытый радиатор, через который гонится воздух, но в данном случае он уже выводится вон из системного блока через решетку в брекете.

Кулер тоже бесшумный, ибо работает на очень низкой скорости.



Поскольку новая версия RivaTuner (автор А. Николайчук AKA Unwinder) уже поддерживает RADEON HD 3xxx серию, то посмотрим на мониторинг, полученный с помощью данной программы.



ATI RADEON HD 3850, установки кулера по умолчанию.



Как мы уже выше сказали, кулер по-умолчанию работает очень медленно, но при этом ядро очень сильно греется. Есть информация, что первые карты 3850 имели установки на более высокие обороты кулера (28-30%), и при этом нагрев ядра не превышал 70 градусов. ВНИМАНИЕ! Программа Риватюнер ПОЗВОЛЯЕТ регулировать обороты кулера на плате эталонного дизайна, поэтому всем рекомендуем выставить обороты на 30-40% вручную, при этом бесшумность кулера будет еще соблюдена, но нагрев ядра резко уменьшится до 60 градусов.



Powercolor RADEON HD 3850, установки кулера по умолчанию.



А в данном случае установлен, как вы помните, особый кулер, который немного шумен, но не поддается регулировке. Охлаждение ядра при этом очень эффективное.



ATI RADEON HD 3870, установки кулера по умолчанию.



Здесь ситуация такая же, как и у 3850 эталонного дизайна. Кулер работает на очень малых скоростях, но нагрев весьма велик. Разработчики из AMD явно перестарались с бесшумностью, впали, как говорится, в иную крайность.



ATI RADEON HD 3870, кулер выставлен на 70%.



Посмотрите, что получается, если выставить кулер на 70% от его номинала, где находится верхняя планка, за которой кулер уже ощутимо начинает шуметь. Нагрев — мизерный для такой карты!



ATI RADEON HD 3870, разгон до 825/2400.



И что получается при разгоне.

Итог: смело устанавливайте работу кулера на 40-50% от его номинала, при этом сохранится бесшумность, и нагрев ядра резко уменьшится.

Посмотрим на сами процессоры.

RADEON HD 3850 (RV670)



RADEON HD 3870 (RV670)



Размеры кристалла не очень велики, несмотря на столь огромное число транзисторов (сказывается тонкий техпроцесс). С маркировками AMD уже намудрила, уже нет никаких общепонятных обозначений, только коды.

Комплектация.

HIS RADEON HD 3870 512MB PCI-E
Руководство пользователя, CD с драйверами, переходники DVI-to-d-Sub, DVI-to-HDMI, S-Video-to-RCA, адаптер для компонентного вывода, переходник для внешнего питания. Купон на бесплатное скачивание ряда игр, мостик для соединения карт в CrossFire-систему.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E
Почти аналогичный комплект.

Sapphire RADEON HD 3850 256MB PCI-E
Sapphire RADEON HD 3870 512MB PCI-E
Аналогичный комплект, плюс CD с PowerDVD, DVD Suite, 3Dmark06.



Упаковка.

HIS RADEON HD 3870 512MB PCI-E

К очень большому сожалению, приходится констатировать, что компания HIS ушла от красивых и удобных упаковок к какому-то черному мрачному дизайну, да и коробка слишком узкая для такой широкой карты (это даже видно визуально, как в центре коробка немного вздувается).

Хотя внутри все разложено в пластиковом боксе, и карта надежно закреплена в своем отсеке.

Powercolor RADEON HD 3850 Extreme 512MB PCI-E

Коробка в стиле последних выпусков от Powercolor, расположена вертикально, внутри нее — еще одна из белого картона, где уже расположен весь комплект, разложенный по отсекам.

Sapphire RADEON HD 3850 256MB PCI-E

Как и в случае с HIS должны с огорчением сказать, что по какой-то непонятной причине компания отказалась от старых красивых дизайнов с окнами, да и комплект тогда располагался в пластиковых отсеках, а теперь насыпан в коробку и переложен поролоном.

Какое-то ощущение, что наспех сваяли, туда бросили карту и отправили в продажу. Хотя то, что ушли от рисования марсиан на коробках — уже хорошо.

Sapphire RADEON HD 3870 512MB PCI-E

Упаковка аналогичная.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 Duo (775 Socket)
    • процессор Intel Core2 Duo Extreme X6800 (2930 MHz) (L2=4096K);
    • системная плата EVGA nForce 680i SLI на чипсете Nvidia nForce 680i;
    • оперативная память 2 GB DDR2 SDRAM Corsair 1142MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • операционная система Windows Vista Ultimate; DirectX 10.0;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 7.10; Nvidia версии 169.04.

VSync отключен.

Синтетические тесты

В наших базовых обзорах мы продолжаем использование как старых, так и новой версии пакета — RightMark3D 2.0, предназначенного Direct3D 10 совместимых ускорителей в операционной системе MS Windows Vista. Некоторые ранее известные тесты в составе последнего были переписаны под DX10, добавились новые виды синтетических тестов: модифицированные тесты пиксельных шейдеров, переписанные под SM 4.0, тесты геометрических шейдеров, тесты выборки текстур из вершинных шейдеров. Предыдущие версии RightMark останутся до тех пор, пока в новом пакете не появятся низкоуровневые тесты заполнения и т.п.

Все используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: ссылка

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 3870 со стандартными параметрами (далее HD3870)
  • RADEON HD 3850 со стандартными параметрами (далее HD3850)
  • RADEON HD 2900 XT со стандартными параметрами (далее HD2900XT)
  • RADEON HD 2600 XT со стандартными параметрами (далее HD2600XT)
  • Nvidia Geforce 8800 GT со стандартными параметрами (далее GF8800GT)
  • Nvidia Geforce 8800 GTS со стандартными параметрами (далее GF8800GTS)

Для анализа результатов новых видеокарт AMD были выбраны эти модели по следующим причинам: с RADEON HD 2600 XT сравниваем, как с предыдущим топовым решением среднего ценового диапазона, со старым Geforce 8800 GTS сравним просто для интереса, Geforce 8800 GT любопытен, как основной конкурент для RADEON HD 3870, а сравнение с RADEON HD 2900 XT должно быть интересно потому, что именно на основе R600 и разработан чип для анонсированных решений среднего уровня от AMD, изменены только рабочие частоты и пропускная способность видеопамяти.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



У большинства видеокарт AMD получились значения, близкие к их теоретическому максимуму, но всё же меньшие. Результаты синтетических тестов привычно не дотягивают до теоретических цифр в режимах с большим количеством текстур. Показатели текстурной выборки у HD 3870 и HD 3850 полностью соответствуют показателям HD 2900 XT с поправкой на тактовые частоты. А у видеокарты Nvidia, отличающейся высокой скоростью текстурирования, из-за улучшенных блоков TMU, в нашем тесте максимум не достигается.

В случае с малым количеством текстур на пиксель, HD 3870 и 3850 конкурируют с Geforce 8800 GT, так как последнему не хватает пропускной способности видеопамяти, которая у этого решения меньше, чем у более мощного варианта на основе RV670. Зато в более тяжелых условиях видеокарты AMD начинают проигрывать своему основному конкуренту, подтверждая полную идентичность текстурных блоков и принадлежность к архитектуре R6xx. Смотрим тест филлрейта:



Второй синтетический тест измеряет скорость заполнения, тут мы видим ту же ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами новое решение среднего уровня от Nvidia отстаёт от одного из рассматриваемых сегодня решений AMD, и значительно сильнее показывает себя в ситуациях с большим количеством текстур на пиксель. Как и предполагалось в предыдущем материале, видеокарты на основе RV670 проигрывают решениям на базе G92 по скорости текстурных выборок и филлрейту в случаях, когда скорость не ограничивается пропускной способностью памяти. А теоретическая разница ещё более ощутима.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим предельные геометрические тесты, первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Так как все чипы основаны на унифицированных архитектурах, все универсальные исполнительные блоки в этом тесте заняты геометрической работой и все решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Эффективность выполнения теста в разных режимах у чипов примерно одинаковая, пиковая производительность в FFP, VS 1.1 и VS 2.0 отличается мало. Даже по этим результатам видно, что решения AMD быстрее обрабатывают геометрию, по сравнению с чипами Nvidia. Скорость RV670 полностью соответствует производительности R600, с учётом разных тактовых частот. А RV630 так силён, вероятно, из-за своей ещё большей тактовой частоты. Посмотрим, что изменится в усложненном тесте с одним diffuse источником освещения:



Ситуация изменилась не слишком сильно, потенциал у решений AMD явно выше. Geforce 8800 GT уже сильнее отстаёт от всех решений AMD, включая даже RADEON HD 2600 XT, а HD 3850 догоняет HD 2900 XT. В этот раз режим FFP несколько быстрее на двух видеокартах: Geforce 8800 и HD 2900. Посмотрим, что получится в ещё более тяжелых условиях сложного расчета освещения с одним источником света и расчетом бликовой составляющей:



Примерно та же ситуация, явным лидером по геометрической производительности становится более производительное решение на основе RV670, и уже ясно, что в его успехе «виновата» не только тактовая частота. Вероятно, что-то в RV670 всё-таки исправили, и он стал показывать лучшие результаты в синтетических тестах обработки геометрии, по сравнению с R600.

В пользу этого же говорит и тот факт, что на смешанном источнике света наличие оптимизированной эмуляции FFP проявляется у большинства протестированных решений, кроме HD 3850 и 3870, как раз. Geforce 8800 GT в этот раз отстает примерно так же, как и в предыдущем случае. Рассмотрим самую сложную геометрическую задачу с тремя источниками света, включающую статические и динамические переходы:



Тут уже хорошо видна разница между всеми участниками, в этих тестах их геометрическая производительность проявляется нагляднее всего. Оба новых mid-end решения вместе с RADEON HD 2900 XT вышли вперёд, и вполне вероятно, что даже в нашей самой сложной геометрической задаче возможности этих чипов не раскрыты полностью.

Поведение HD 3850 и HD 3870 полностью повторяет ситуацию с HD 2900 XT, удивляет только то, что HD 3850 на меньшей частоте показывает равный с HD 2900 XT результат. Возможно, причины этого в проведенных оптимизациях архитектуры, увеличенных кэшах и т.п. В остальных случаях, когда основными ограничителями являются шейдерные блоки, результаты решений становятся в соответствии с теоретическими цифрами. RADEON HD 3870 опережает всех соперников, особенно контрастно его результат смотрится на фоне предыдущего mid-end решения AMD — HD 2600 XT.

Краткие итоги по геометрическим тестам: так как новые чипы основаны на удачной унифицированной архитектуре R6xx, они отлично проявляют себя в геометрических тестах, способны использовать все универсальные потоковые процессоры для решения геометрических задач и прекрасно оптимизированы для обработки геометрии, в некоторых случаях обгоняя RADEON HD 2900 XT. Впрочем, в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, слишком проста для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Видно, что тесты слишком просты для современных архитектур и не показывают их истинную силу. В простых тестах производительность ограничена текстурными выборками и филлрейтом, что и видно на примере слабых результатов всех видеокарт AMD по сравнению с Geforce 8800 GT. Всё-таки зря они решили ограничиться количеством TMU 16 штук… Хотя в более сложных PS 2.0 тестах результаты становятся интереснее, например, в самом сложном (Phong с тремя источниками света), Geforce 8800 GT уже проигрывает всем картам на базе RV670 и R600.

Цифры HD 3850 и HD 3870 соответствуют тому, что показывает HD 2900 XT с поправкой на частоты. Естественно, обе новые видеокарты заметно быстрее RADEON HD 2600 XT, предыдущее решение среднего уровня сильно отстаёт во всех тестах, показывая результаты слабее более чем в два раза. Это объясняется как возросшим филлрейтом и скоростью текстурных выборок, так и увеличенным количеством универсальных шейдерных блоков в RV670. Посмотрим на результаты более сложных пиксельных программ промежуточных версий:



В тесте процедурной визуализации воды «Water», сильно зависящем от скорости текстурирования, используется зависимая выборка из текстур с большим уровнем вложенности, поэтому все решения компании AMD неприлично отстают от единственного представителя Nvidia. Geforce 8800 GT оказывается далеко впереди, более чем двукратно выигрывая у обеих моделей на RV670. Скорости HD 3850 и HD 3870 соответствуют показателям HD 2900 XT, а HD 2600 XT традиционно остаётся в аутсайдерах, слишком слабыми были предыдущие mid-end решения.

Во втором тесте, интенсивном вычислительно, прежде всего, новые решения AMD вырываются вперед, а Geforce 8800 GT немного им проигрывает. Эта задача лучше подходит для архитектуры AMD с большим числом унифицированных вычислительных блоков. Соотношение между результатами HD 3850, HD 3870 и HD 2900 обусловлено отличиями в тактовой частоте установленных на них GPU и полностью соответствует теоретическим характеристикам.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существуют два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



В тесте «Frozen Glass» явным лидером является решение Nvidia, Geforce 8800 GT опережает ближайших конкурентов (HD 2900 и HD 3870) в два раза, что говорит об ограничении производительности скоростью текстурных выборок, прежде всего.

Во втором тесте «Parallax Mapping» лидерство принадлежит решениям AMD, которые расположились в соответствии с теорией, но Geforce 8800 GT отстаёт от них совсем чуть-чуть, а ведь раньше Nvidia в этом тесте была явно слабее. Никаких неожиданностей в результатах нет, RV670 в этих тестах ведёт себя аналогично R600. Рассмотрим тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там Geforce 8800 GT должна оторваться ещё сильнее:



Действительно, ситуация поменялась, теперь производительность ещё больше упирается в скорость текстурных блоков, и поэтому Geforce 8800 GT всегда впереди. RADEON HD 2900 XT вместе с HD 3850 и HD 3870 показывают близкие результаты, заметно проигрывая Geforce 8800 GT и столь же сильно опережая HD 2600 XT.

Впрочем, на всех видеокартах варианты шейдеров с большим количеством математических вычислений работают быстрее, и для современных архитектур GPU смысла в варианте с упором на текстурирование нет, все новые чипы AMD и Nvidia предпочитают математические вычисления текстурированию. Вероятно, в будущем мы уберем вариант с упором в текстурирование из состава наших синтетических тестов.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



В этих тестах нагрузка на видеокарты большая даже для самых мощных чипов, хотя HD 2600 XT отстаёт даже не в два раза. Самое интересное, что в обоих тестах рассматриваемые сегодня решения на основе чипа RV670 проигрывают и Geforce 8800 GT, и даже RADEON HD 2900 XT! Это может говорить либо о недоработках в драйверах, либо о том, что на производительность чипов AMD в этих тестах сильно влияет пропускная способность памяти. Geforce 8800 GT с меньшей ПСП выигрывает у RADEON HD 3870, хотя по чипу R600 ранее казалось, что архитектура AMD обеспечивает более эффективное исполнение сложных пиксельных шейдеров версии 3.0 с большим количеством ветвлений по сравнению с G8x/G9x.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также два полностью новых теста. В первые два добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Эти тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Все результаты в «High» примерно в полтора раза ниже, чем в «Low». Тесты процедурной визуализации меха с большим количеством текстурных выборок уже традиционно показывают очень большое преимущество решений Nvidia над AMD, просто многократное. С обеими моделями Geforce 8800 ни одна из карт RADEON тягаться не может. Интересно, что такого отставания не должно быть даже чисто теоретически, и непонятно, откуда взялась такая разница…

RADEON HD 2600 XT отстаёт от верхних решений довольно сильно, урезание количества исполнительных блоков сильно сказалось на его скорости. Интересно, что карты на основе RV670 показывают чуть лучшие результаты относительно топового R600, с учетом разности частот. HD 3850 показывает скорость на уровне HD 2900 XT, а HD 3870 опережает того на 10-15%, хотя разница в частотах между ними меньше. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно, в такой ситуации что-то изменится:

Включение суперсэмплинга теоретически увеличивает нагрузку ровно в четыре раза, но на видеокартах Nvidia оно снижает скорость сильнее, чем на AMD R6xx, за счет чего последние чуть приблизились к картам на G80 и G92. Видно, что подобная сложность тестов под силу разве что Geforce 8800, все остальные показывают низкие результаты, а RADEON HD 2600 XT отстаёт от решений на RV670 и R600 более чем в два раза. В сравнении HD 3800 и HD 2900 ничего не меняется, недавно анонсированные видеокарты опережают предыдущее топовое решение, несмотря на почти одинаковые частоты.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот, и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Данный тест уже интереснее для нас с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping, совсем недавно появились в играх, в Lost Planet и Crysis, например. В тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, — этот режим называется «High».

Хотя решения AMD ранее были традиционно сильны в наших Direct3D 9 тестах parallax mapping, в обновленном DX10 варианте без суперсэмплинга они не могут справиться с задачей на уровне Geforce 8800 GT и GTS. Да и включение самозатенения вызывает на продукции AMD большее падение производительности, более двух раз, по сравнению с полуторакратной разницей для решений производства Nvidia.

По результатам видно, что HD 3850 в легком режиме чуть-чуть отстает от HD 2900 XT, а в тяжелом чуть-чуть опережает его. Второй сегодняшний герой — RADEON HD 3870 — уже явно быстрее этой парочки, хотя до конкурирующего Geforce 8800 GT ему очень далеко. Зато предыдущее mid-end решение AMD плетётся в хвосте, отставая от всех более чем в два раза. Посмотрим, что изменит включение суперсэмплинга, ведь в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

Ещё одна тяжелая задача для видеочипов, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая серьёзное падение производительности. Разница между скоростью видеокарт сохраняется, но включение суперсэмплинга сказывается, как и в предыдущем случае — карты на чипах R6xx улучшают свои показатели относительно решений Nvidia. К сожалению, несмотря на это, RV670 лишь приближается к G92, всё же отставая от него. Что касается сравнения HD 3800 и HD 2900, можно отметить, что с увеличением нагрузки решения на основе RV670 показывают лучшие результаты, чем топовая карта на базе R600.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимум текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

В соответствии с результатами наших исследований в Direct3D 9 синтетических тестах, в вычислительно сложных задачах R600 показывает себя очень хорошо, опережает конкурирующие решения Nvidia. RADEON HD 2900 XT явно сильнее всех в этом тесте, и решения на базе G80 и G92 отстают от него. Похоже, что на скорость в этом тесте сильно влияет и пропускная способность памяти, так как HD 2900 XT оказался в полтора раза быстрее, чем HD 3870. Иными причинами такой результат объяснить нельзя, вряд ли в RV670 ухудшилась эффективность исполнения математических команд.

В сравнении конкурирующих решений AMD и Nvidia отмечаем, что новые модели карт на основе RV670 показывают близкий к Geforce 8800 GT результат, а Geforce 8800 GTS немного отстаёт от них. Производительность RADEON HD 2600 XT более чем в два раза ниже показателей решений на основе RV670, это соотношение между ними наблюдается в который раз.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

С появлением серии RADEON HD 3800 для решений AMD в этом тесте ничего не изменилось, налицо явная ошибка в драйверах AMD, которая до сих пор не исправлена. Если это не ошибка, то Geforce 8800 GT опережает все конкурирующие решения AMD раз так в 50. Понятное дело, наш тест — это ведь не 3DMark и не Crysis, под него драйверы не оптимизируют… С одной стороны, это хорошо, с другой — такие явные ошибки исправлять надо.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен получилось примерно одинаковым, отличаются только абсолютные значения. Показываемая производительность полностью соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Явно видно влияние ПСП на результаты, RADEON HD 2900 XT показал в 1.5 раза лучшие результаты, по сравнению с HD 3850 и HD 3870. HD 2600 XT, в свою очередь, отстал ещё почти в два раза.

С Geforce 8800 GT и GTS в этом тесте смогла конкурировать только топовая видеокарта AMD, оба варианта на базе RV670 проигрывают решениям Nvidia. Впрочем, эта задача для современных видеокарт несложная, да и ограничена она больше ПСП, чем мощностью чипов. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится.

Но нет, изменений, по сути, не произошло вообще. Все видеокарты показали те же результаты (с учетом погрешности измерения) при изменении параметра GS load, то есть, при переносе части вычислений в геометрический шейдер. Geforce 8800 GT всё так же немного опережает HD 2900 XT, а последняя из-за большей ПСП быстрее новых mid-end видеокарт HD 3850 и HD 3870. Посмотрим, что будет в следующем тесте…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy», — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке. Во всех случаях производительность хорошо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. Показатели видеокарт Nvidia опять более чем в два раза выше, по сравнению с лучшими решениями AMD при любой геометрической сложности.

А с новыми решениями AMD в этом тесте получилось гораздо интереснее. RADEON HD 2900 XT всего в 1.5 раза опережает HD 2600 XT, зато обе новые видеокарты показывают большие результаты относительно недавнего решения верхнего уровня. Если HD 3850 быстрее HD 2900 XT всего чуть-чуть, то HD 3870 сильнее HD 2900 XT на 20-25%! Это не объяснить разницей в частотах, тут явно виноваты или оптимизации в драйверах, или оптимизации аппаратные (что хотя и менее вероятно, но всё же вполне может быть). Цифры могут измениться в следующем тесте, с более активным использованием геометрических шейдеров. Также интересно сравнить друг с другом цифры, полученные в «Balanced» и «Heavy» режимах.

В этот раз соотношение скоростей в разных режимах использования геометрических шейдеров изменилось довольно сильно. Чипы семейства R6xx явно быстрее в таких задачах, чем чипы Nvidia, их RADEON HD 2900 XT имеет преимущество перед Geforce 8800 в 1.5-2 раза, а HD 2600 XT показывает результат, сопоставимый с Geforce 8800 GTS! Подтверждается полученный в ранних исследованиях вывод о том, что чем сложнее работа для геометрического шейдера, тем быстрее будут решения AMD по сравнению с видеокартами на чипах Nvidia.

А на результатах карт AMD опять сказывается то ли оптимизация, рассчитанная на разную нагрузку для чипов R600 и RV670, то ли мы видим простое влияние разной пропускной способности памяти. Ведь HD 2900 XT на 30-40% быстрее, чем HD 3800. С другой стороны, может быть просто R600 лучше оптимизирован под задачи с большей нагрузкой на геометрические шейдеры, а RV670 — на задачи с вершинными. Тогда объясняется результат и этого теста, и предыдущего.

Что касается сравнения результатов в разных режимах, нужно отметить, что оба варианта Geforce 8800 GT в «Balanced» показывают лучшие показатели, чем RADEON HD 2900 XT, HD 3850 и HD 3870 в «Heavy». При том, что получаемая в разных режимах картинка не отличается визуально. Решениям AMD больше подходит второй режим (использование геометрического шейдера при выводе вместо «instancing»), а Nvidia — первый. Но при сравнении в лучших для обеих компаний режимах, Geforce 8800 GT всё же опережает обе новые видеокарты AMD среднего уровня.

Основной вывод по геометрическим шейдерам: разные тесты геометрических шейдеров показывают отличающиеся результаты. Новые решения на основе чипа RV670 показывают неплохие результаты в них, хотя и отставая от конкурентов, и в целом выступая наравне с RADEON HD 2900 XT. А при росте сложности работы для геометрического шейдера они даже выходят вперёд.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути, и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

В этот раз три режима показывают разную производительность видеокарт относительно друг друга. Чем проще режим, тем большее влияние на скорость оказывает пропускная способность видеопамяти. Что подтверждает вывод в статье, посвященной анонсу Geforce 8800 GT, где было отмечено значительное отличие в производительности между Geforce 8800 GT и 8800 GTX.

Это хорошо видно по сравнению скорости HD 2900 XT и HD 3850, если в легком режиме старое решение легко выигрывает, в среднем получается паритет, а в тяжелом HD 3850 уже выходит вперёд. То же самое касается и HD 3870, только он опережает HD 2900 XT уже в режиме средней геометрической сложности. Борьба HD 3870 и Geforce 8800 GT проходит с переменным успехом, в двух режимах побеждает видеокарта Nvidia, а в самом сложном совсем чуть-чуть вперёд выходит новое решение компании AMD.

Соотношение между производительностью новых видеокарт AMD среднего ценового уровня и предыдущей модели RADEON HD 2600 XT несколько изменилось, отставание последней увеличилось до трёх раз в самом сложном режиме. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, разница между HD 3800 и HD 2900 уменьшилась, влияние ПСП остаётся, хотя старшая из новых видеокарт компании всё-таки опережает старую. Предыдущая модель среднего уровня — RADEON HD 2600 XT — всё так же сильно проигрывает, а Geforce 8800 GT теперь побеждает во всех тестах.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

В «Waves» всё почти то же, что и в предыдущем тесте, теперь влияние ПСП уже видно и по видеокартам производства Nvidia. Обе недавно анонсированные модели семейства HD 3800 смотрятся неплохо, младшая на уровне HD 2900 XT, а старшая сильнее, обе они в два-три раза опережают HD 2600 XT, но это не даёт им обогнать главного конкурента — Geforce 8800 GT, победившего в сложных режимах и проигравшего простой из-за меньшей ПСП. Смотрим второй режим:

Интересно, что с увеличением сложности теста уже обе недавно анонсированные модели семейства HD 3800 выигрывают у HD 2900 XT. Видимо, некие оптимизации всё же были сделаны. Все остальные выводы остаются в силе — в легком режиме скорость ограничивает ПСП, в тяжелых большую роль играют блоки TMU и ROP. В целом, хорошо видно, что Geforce 8800 GT лучше справляется с тестами текстурных выборок из вершинных шейдеров по сравнению с новыми картами AMD, при небольшой геометрической сложности сцен его сдерживает меньшая пропускная способность локальной памяти, а при увеличении количества выбираемых данных по скорости этой модели нет равных.

Выводы по синтетическим тестам

  • Видеочип RV670 основан на уже известной нам архитектуре R6xx, новый GPU изменился в своей 3D части совсем незначительно, судя по всему (почти всё, что нужно для DirectX 10.1, было и в R600). Как и прародитель, он отличается высокой вычислительной производительностью, особенно в современных и будущих приложениях с большим количеством сложных шейдеров. RV670 отличает высокая эффективность и производительность универсальных процессоров, и повышенные относительно R600 рабочие частоты, которые позволяют этому чипу показывать очень хорошие результаты в большинстве синтетических тестов. Видеокарты RADEON HD 3850 и HD 3870 в наших тестах чаще всего не уступают более дорогой HD 2900 XT, а в некоторых даже опережают эту модель!


  • Самое слабое место у RV670 не изменилось со времен R600 — у нового чипа всё такое же сравнительно малое количество текстурных блоков, которое не позволяет видеокартам на его основе показывать большую производительность в тех тестах, которые сильно зависят от скорости текстурирования. Ещё одной небольшой проблемой является меньшая ширина шины памяти по сравнению с R600, и меньшая пропускная способность, которой не хватает, чтобы показывать результаты на уровне RADEON HD 2900 XT во всех тестах. С другой стороны, даже с меньшей ПСП у HD 3850 и HD 3870 получилась очень высокая производительность, сравнимая со скоростью старшего решения, а для видеокарт среднего ценового диапазона такой ПСП вполне достаточно.


  • Несмотря на то, что старшее решение RADEON HD 3870 в большинстве наших тестов немного проигрывает своему основному конкуренту — Geforce 8800 GT, многое будет решать производительность в играх, которую мы оценим в следующей части статьи, а также реальная стоимость конкурирующих видеокарт в розничной продаже. У RV670 есть определенное преимущество перед G92 в меньшей сложности и площади чипа, его производство должно обходиться дешевле при прочих равных. Так что следите за нашими материалами и розницей, делая выбор не на основе синтетических тестов и рекомендованных производителем цен, а на основе тестов в современных играх и реальных розничных цен в вашей местности.

Итак, на основе анализа результатов синтетических тестов RADEON HD 3850 и HD 3870 мы увидели, что новые решения среднего уровня у компании AMD получились очень мощными, сравнимыми с предыдущими топовыми. Как и Nvidia Geforce 8800 GT, они составляют конкуренцию значительно более дорогим видеокартам! А по таким параметрам, как энергетическая эффективность, с новыми решениями монстры вроде HD 2900 XT не могут сравниться, ведь новые GPU производятся по 55 нм техпроцессу, дающему важные для mid-end преимущества в энергопотреблении и тепловыделении.

Нельзя не упомянуть в выводах и потенциальный плюс RV670 и видеокарт на его основе — поддержку DirectX 10.1. Несмотря на то, что этой версии в живом виде ещё не существует (за исключением тестовых вариантов для разработчиков, естественно), эта поддержка является важным конкурентоспособным преимуществом, ведь многие привыкли оценивать видеокарты по степени поддержки этого игрового API. Пока что мы не можем оценить преимущества от нововведений версии 10.1, но в будущих материалах постараемся обратить на это своё внимание.

В следующей части статьи вы увидите тесты новых mid-end решений компании AMD в современных игровых приложениях. Эти результаты должны показать справедливость выводов, сделанных нами при анализе результатов синтетики.



ATI RADEON 3850/3870 (RV670) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia