ATI RADEON HD 4870 512MB PCI-E закрепляет успех AMD!


HIS RADEON HD 4870 512MB PCI-E


СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON HD 4870 (RV770): Часть 1: Теоретические сведения


Наш материал выходит достаточно поздно, позже анонса, а виной тому сама AMD. Пригласить издания на мероприятие за пять дней до анонса, а потом взять и сдвинуть последний — это неуважение к тем, кто пишет в компьютерной области. Видимо, маркетологи, у которых в головах только прибыль и алчность, забыли о том, что пользователи и продавцы о новинках читают эти СМИ и оттуда узнают подробности. И только по той причине, что продукты на базе 4850 успели просочиться в ретейловый канал продаж, они сдвинули анонс.

И таким образом, весь заранее заготовленный план потерпел полный крах. Наш автор Алексей Берилло вернулся с мероприятия с сэмплом только 20-го июня, и в этот же день прозвучал ананс всей линейки. А с 4870 вышло очень плохо: платы остались где-то в Европе, на таможне, никто их не дождался, потом они поезхали в Россию неспешно, застряли тут на таможне. Грустно все это. Тем не менее, еще в конце мая мы получали бодрые извещения AMD о том, что сэмплы будут по плану, и что на сей раз все будет отлично, а в результате, — получилось, как всегда.

А потом некоторые читатели в форумах будут обвинять нас в каких-то предвзятостях. Лучше бы те самые крикуны собрали свою фанатскую волю в кулак, и вместо изливаний на форумах — направили бы весь гнев в адрес своего кумира, чтобы наказать его за такое поведение. Всем от этого только лучше бы стало.

Не будем больше о грустном. Маленькая гонконгская компания HIS с бодро работающим московским офисом предоставила нам 4870, и поэтому мы имеем честь познакомить читателей (не фанатов! Ибо они будут вечно всем недовольны) с результатами наших исследований.

Платы



HIS RADEON HD 4870 512MB PCI-E
  • GPU: RADEON HD 4870 (RV770)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 750/750 MHz (номинал — 750/750 МГц)
  • Частоты работы памяти (физическая (эффективная)): 900 (3600) MHz (номинал — 900 (3600) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 800
  • Число текстурных процессоров: 40 (BLF/TLF)
  • Число ROPs: 16
  • Размеры: 220x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-out.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


HIS RADEON HD 4870 512MB PCI-E
Карта имеет 512 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах (на лицевой стороне PCB)

Микросхемы памяти Qimonda (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1000 (4000) МГц.



Сравнение с эталонным дизайном, вид спереди
HIS RADEON HD 4870 512MB PCI-E Reference ATI RADEON HD 4850 512MB PCI-E


Сравнение с эталонным дизайном, вид сзади
HIS RADEON HD 4870 512MB PCI-E Reference ATI RADEON HD 4850 512MB PCI-E


Очевидно, концептуально дизайны у 4850 и 4870 схожи, ибо шина обмена с памятью одна и та же, да и ядро одно и то же, только работаюшее на разных частотах. А наличие DDR5 у 4870, а также более высокое энергопотребление, чем у 4850, наложило некоторую разницу в дизайн PCB, особенно что касается блока питания.

Кстати, очень любопытно заметить, что на PCB стали появляться логотипы и названия компании AMD.



Что это? Закат марки ATI? Постепенная замена на бренд AMD? Хотя маркировка ядра пока имеет старый и хорошо знакомый логотип ATI



Кристалл был получен на 23-й неделе, то есть в начале июня 2008 года.

О кулере. Система охлаждения очень схожа с той, что мы видели у RADEON HD 3870 (по аналогии с тем, что кулер у 4850 такой же, как у 3850). По сути, только изменена форма подошвы, прижимающейся к карте (согласно новому расположению микросхем памяти), а также радиатор стал полностью из медного сплава, поэтому вес карты вырос.

Принцип действия тот же: прогон воздуха через радиатор с помощью турбины. Имеется большой плюс: горячий воздух выносится за пределы системного блока, а не остается внутри. Есть и некоторый минус: кулер широкий и двуслотовый (хотя это сейчас не особо актуально). Однако в тому первому плюсу прибавляется еще один: СО тихая, и карта поэтому получилась весьма бесшумной.



Видеокарты этой серии оснащены собственным звуковым кодеком, поэтому именно этот звуковой поток затем передается на HDMI (с помощью переходника DVI-to-HDMI). Поэтому, если кому-то эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был этот переходник.

Отметим, что питание ускорителя осуществляется с помощью двух 6-пиновых разъемов, которые, к сожалению, уже разместили на торце весьма длинной карты, что может создать проблему владельцам блоков питания с очень жесткими жгутами проводов, подводящих питание для видеокарт.

У карты имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать здесь.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть.

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

К сожалению, на настоящий момент утилита RivaTuner (автор А.Николайчук AKA Unwinder) не поддерживает новую серию, и потому мониторинга нет.

Комплектация.

Базовый комплект поставки должен включать в себя: руководство пользователя, диск с драйверами и утилитами, переходник-адаптер DVI-to-VGA, мост CrossFire, DVI-to-HMDI адаптер, адаптер компонентного вывода (TV-out), а также разветвители внешнего питания. Далее мы покажем, что предлагается к карте дополнительно.

HIS RADEON HD 4870 512MB PCI-E
Комплект поставки содержит базовый набор, за исключением разветвителя внешнего питания. Впрочем, сейчас 6-пиновые «хвосты» есть у каждого блока питания. Бонусом идет универсальная отвертка с несколькими насадками и фонариком.


Упаковки.

HIS RADEON HD 4870 512MB PCI-E

Скромная коробка со стилизованным изображением фирменного кулера IceQ, хотя мало понятно — какое отношение этот кулер имеет к данной карте. Дизайн средненький.

Но зато все внутри грамотно разложено в пластиковом боксе по отсекам, карта сама надежно сидит также в своем отсеке.



Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra на чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz (CAS (tCL)=5; RAS to CAS delay (tRCD)=5; Row Precharge (tRP)=5; tRAS=15);
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.6; Nvidia версии 175.16 (9ххх серия) и 177.34 (GTX 2xx).

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 4870 со стандартными параметрами (далее HD4870)
  • RADEON HD 4850 со стандартными параметрами (далее HD4850)
  • RADEON HD 3870 X2 со стандартными параметрами (далее HD3870X2)
  • RADEON HD 3870 со стандартными параметрами (далее HD3870)
  • Nvidia Geforce GTX 260 со стандартными параметрами (далее GTX260)
  • Nvidia Geforce 9800 GTX со стандартными параметрами (далее GF9800GTX)

Для сравнения результатов новой видеокарты RADEON HD 4870, были выбраны именно эти модели видеокарт по следующим причинам: с RADEON HD 3870 X2 её будет интересно сравнить, как с двухчиповым решением компании AMD на GPU предыдущей архитектуры, чтобы оценить влияние улучшений архитектуры и разницу в производительности. Сравнительная производительность RADEON HD 4850 интересна для того, чтобы узнать вклад повышенных частот GPU и применения нового типа памяти GDDR5. Geforce 9800 GTX хоть и не является прямым конкурентом, но интересен, как прыдущее поколение чипов Nvidia, да и цена HD 4870 не так далека от его ускоренной версии GTX+. А Geforce GTX 260 выступает уже как прямой конкурент RADEON HD 4870, это сравнение и будет главной битвой.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Ничего нового и интересного, всё соответствует разнице в частотах. Как обычно, видеокарты не достигают теоретических значений. Результаты синтетики не дотягивают до теории, ближе всего к ним подходит HD 3870, основанная на RV670. Но для всех новых видеокарт Nvidia и AMD, в данном тесте теоретический максимум не достигается. RV770 в нашем тесте выбирает около 26-27 текселей за один такт из 32-битных текстур при билинейной фильтрации, не дотягивая до 40 теоретических. У карт Nvidia эффективность даже ещё ниже — 35-37 текселей за такт при теоретических 64.

Что касается сравнения HD 4870 с прямым конкурентом GTX 260, то они весьма близки в этом тесте, а вот до Geforce 9800 GTX обе не дотягивают. Новая карта AMD значительно опережает старую, и обгоняет младшую модель линейки HD 4800 в соответствии с частотами. Интересно, что в тесте с одной текстурой HD 4870 немного отстаёт от HD 3870, это связано с теоретически большей производительностью блоков ROP у последнего при 32-битном фреймбуфере без антиалиасинга. В случае же с большим количеством текстур на пиксель, способности блоков ROP не мешают показывать более высокие результаты карте на основе RV770. Посмотрим на результаты в тесте филлрейта:



Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами у RADEON HD 4870 получается всё тот же чуть более низкий результат, чем у HD 3870, что обусловлено рабочей частотой блоков ROP. Но, как и на предыдущей диаграмме, в ситуациях с большим количеством текстур на пиксель, новая видеоплата выходит вперёд.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Все современные чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты это и показывают — RV670 и RV770 весьма близки при сходных частотах. Результаты решений AMD традиционно более высокие, чем у карт Nvidia. RADEON HD 4870 в этом тесте выигрывает и у обеих карт Nvidia, и у своих собратьев. Так как мы убрали из рассмотрения промежуточные тесты на скорость обработки геометрии с одним источником освещения, то переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



В этом варианте разница между решениями AMD и Nvidia видна лучше, разрыв немного увеличился, видеоплаты производства второй компании «просели». HD 4870 и HD 3870 примерно равны на схожих частотах, они снова ограничены чем-то вроде triangle setup, так как цифры почти не изменились с прошлого теста.

Снова все видеокарты AMD опережают и Geforce 9800 GTX и GTX 260. В реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Хоть тесты слишком просты для современных архитектур и не показывают их истинную силу, их интересно смотреть при смене архитектур. В простых тестах производительность ограничена скоростью текстурных выборок, а в чипе RV770 производительность текстурирования как раз улучшена. Это позволило добиться победы по всем фронтам, HD 4870 опережает обе карты Nvidia во всех рассмотренных задачах и быстрее HD 3870 иногда до двух раз.

В более сложных тестах RADEON HD 4870 также показывает отличные результаты, значительно опережая и предшественника и конкурентов. А вот Geforce GTX 260 из-за меньшей скорости текстурирования не впечатляет, немного выигрывая у 9800 GTX лишь в двух самых сложных тестах. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



Великолепный результат для RADEON HD 4870! В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water», где используется зависимая выборка из текстур больших уровней вложенности, и карты располагаются по скорости текстурирования, новая модель значительно обгоняет обе карты Nvidia, а разница с HD 3870 просто поразительна.

Второй тест интенсивнее загружает вычислительные блоки, и он лучше подходит для архитектур AMD, обладающих большим количеством потоковых процессоров. В нём новое решение AMD снова показывает лучший результат, быстрее и Geforce GTX 260 и 9800 GTX в 1.5-2 раза! И снова, по сравнению с предыдущим поколением, новая плата ускорилась более чем в два раза. Разница с HD 4850 соответствует разнице в частотах GPU.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Это математические тесты, зависящие от частоты шейдерных блоков и скорости текстурирования, тут важен баланс чипа. Производительность видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок, поэтому старые RADEON показывают самый слабый результат. А вот новые… Смотрите сами, они заметно быстрее предыдущего. А рассматриваемый сегодня HD 4870 вовсе опережает и Geforce 9800 GTX и GTX 260.

Во втором тесте «Parallax Mapping», новинки от AMD ещё сильнее. Если HD 4850 показывает результат чуть выше GTX 260, то HD 4870 значительно опережает обе модели от Nvidia. Улучшения в TMU значительно усилили результаты линейки HD 4800, в этих тестах они стали новыми лидерами. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там результаты могут получиться даже более интересными:



Результаты RADEON HD 4850 и Geforce 9800 GTX весьма близки, но HD 4870 ожидаемо обходит обоих за счёт более высокой частоты чипа. Взаимное положение карт немного изменилось, заметен упор в скорость текстурных блоков. И обе карты на RV770 обгоняют предыдущий одночиповый топ в два и более раза. А вот GTX 260 показал в этом случае весьма слабые результаты, отстав даже от предшественника.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Новая архитектура компании AMD в этих тестах показывает себя с лучшей стороны, в отличие от предыдущих решений, которые проигрывали картам Nvidia. HD 4870 с большим запасом опережает всех соперников, разница с HD 3870 просто огромна. Да и Geforce 9800 GTX с Geforce GTX 260 остаются далеко позади.

Снова мы видим отличные результаты переработанной архитектуры AMD в наших DirectX 9 тестах. Но что получится в DX10, ведь в прошлых исследованиях там дела были явно похуже. Сейчас узнаем, сравнив уже с двухчиповой картой предыдущего поколения, так как с одночиповыми RV670 всё давно понятно…

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Как мы и ожидали, в Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок ничего особенно не изменилось — всё такое же огромное преимущество решений Nvidia над AMD. Посмотрим, что будет дальше, этот тест карты AMD всегда проваливают.

Хотя HD 4870 и проиграл обеим картам Nvidia, относительно младшей модели линейки он показал преимущество, соответствующее разности частот. Да и двухчиповый RADEON HD 3870 X2 обогнал новое решение HD 4870 только в тяжелом режиме. Очень хороший результат, если не смотреть на цифры Nvidia. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, в этот раз подавляющее преимущество карт Nvidia также никуда не делось, хотя новые видеокарты AMD уже явно ближе к Geforce 9800 GTX. В остальном, с увеличением сложности шейдера и нагрузки на видеочип, разница между HD 4870 и двухчиповым HD 3870 X2 почти та же, они близки друг к другу.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Этот тест интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Повторяется взаимное расположение карт из предыдущего теста. Хотя решения AMD были сильны в Direct3D 9 тестах parallax mapping, в обновленном D3D10 варианте без суперсэмплинга они не могут справиться с нашей задачей на уровне видеокарт Geforce, ещё и включение самозатенения вызывает на продукции AMD слишком большое падение производительности. Рассматриваемый нами сегодня RADEON HD 4870 отстаёт от обеих видеокарт Geforce и очень близок к двухчиповому HD 3870 X2. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между скоростью разных видеокарт уже другая, включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решений Nvidia. И новые HD 4800 хотя и продолжают отставать от Geforce, но HD 4870 близок к HD 3870 X2 и почти догнал хотя бы Geforce 9800 GTX. До прямого конкурента GTX 260 ему далеко, конечно же.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современные архитектуры AMD показывают себя лучше конкурирующих от Nvidia. Вот и сейчас в Mineral HD 4870 просто разорвал конкурентов. Топовая видеокарта на основе одного чипа RV770 обгоняет карту прошлого поколения на двух RV670, что близко к разнице в количестве и частоте потоковых процессоров. Также новая видеокарта почти в два раза опережает и прямого конкурента Geforce GTX 260, не говоря про Geforce 9800 GTX.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В данном тесте скорость рендеринга ограничена исключительно производительностью шейдерных блоков, и тест очень хорошо подходит архитектурам AMD, что хорошо заметно после исправления ошибки в драйверах AMD. Что тут можно сказать… Полный разгром решений Nvidia. Вдумайтесь, RADEON HD 4870 более чем в два раза быстрее Geforce GTX 260 и быстрее двухчипового HD 3870 X2. Потрясающий результат, в вычислениях RV770 явно сильнейший GPU вообще. Кстати, соотношение скоростей между HD 4870 и HD 4850 точно соответствует разнице в частотах.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом.

Ну очень интересно получилось, крайне плотные результаты у двухчиповой HD 3870 X2, новой HD 4870 и конкурента GTX 260. Да и в паре HD 4850 с Geforce 9800 GTX очень тесно. Интересно… Возможно, при переносе части вычислений в геометрический шейдер ситуация будет ещё интереснее, посмотрим:

Но нет, разница между рассмотренными вариантами теста невелика, существенных изменений не произошло. Разве что двухчиповый HD 3870 X2 вышел в явные лидеры по достигнутой частоте кадров. Ему проще, алгоритм многочипового рендеринга AFR прощает многое. Видеокарты Nvidia показывают идентичные результаты при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер, а результаты некоторых видеоплат AMD немного выросли. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. В этот раз скорость RADEON 4850 и HD 4870 больше, чем у двухчипового решения на GPU предыдущей архитектуры, но все карты производства AMD отстают от всех решений Nvidia, хотя HD 4870 близок к ним.

Похоже, что на результаты новых карт повлияли улучшенные возможности текстурирования. Впрочем, цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

В этот раз «провалился» только Geforce 9800 GTX, все остальные архитектуры выдержали удар. И в RV770, и в GT200 были сделаны некоторые оптимизации, направленные на улучшение исполнения геометрических шейдеров. И RADEON HD 4870 теперь догнал Geforce GTX 260, кроме самого простого режима. Предыдущее поколение чипов AMD значительно хуже показывает себя в этом тесте, даже двухчиповая видеокарта отстаёт.

Что касается сравнения результатов в разных режимах, тут всё как всегда, видеоплаты AMD при переходе от использования «instancing» к геометрическому шейдеру при выводе, улучшают свои показатели, а старые видеокарты Nvidia теряют в производительности. Карта Geforce на основе чипа G92 может конкурировать только за счёт скорости в «Balanced» режиме, которая почти равна скорости в «Heavy» у RADEON HD 4850. При этом, получаемая в разных режимах картинка не отличается визуально.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Судя по предыдущим исследованиям, на результаты этого теста влияет не только скорость текстурирования, но и производительность ROP и пропускная способность памяти, и чем проще режим, тем большее влияние на скорость они оказывают. Во всех режимах, кроме простого, лидером является топовая модель серии HD 4800, которую мы сегодня рассматриваем. В простом влияет ПСП, да и многочиповый рендеринг показывает себя неплохо. GTX 260 показывает результат лишь на уровне HD 4850. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась не слишком сильно, но текстурирование влияет на скорость уже сильнее, что видно по паре Geforce. HD 4870 сдала позиции и не является лидером, хотя отстаёт в сложных режимах от Geforce 9800 GTX совсем чуть-чуть. В простом же лидирует GTX 260 с большой ПСП. Интересно, что с ростом сложности геометрии и разница между HD 4870 и HD 3870 X2 изменяется.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Второй тест этого раздела под названием «Waves» благосклоннее к продукции AMD, новая модель семейства RADEON HD 4800 смотрится очень хорошо, на уровне двухчипового предшественника. И также обгоняет видеокарты Nvidia, кроме самого простого, где GTX 260 чуть-чуть впереди. Похоже, что в таких условиях эффективность TMU у RV770 выше, чем у GPU производства Nvidia. Рассмотрим второй вариант этого же теста:

И снова видим совсем мало нового, хотя с увеличением сложности теста результаты видеоплат AMD относительно скорости карт Nvidia улучшились, последние потеряли несколько больше от изменения условий тестирования. В самом лёгком режиме впереди HD 3870 X2 и HD 4870, в остальных двухчиповому HD 3870 X2 нет равных. Ну а среди одночиповых карт лучшим является герой обзора, он опережает своего младшего брата HD 4850 соответственно разнице в частотах. Карты Nvidia остались в этот раз позади.

3DMark Vantage: Feature тесты

В обзор RADEON HD 4870 мы решили включить и синтетические тесты из 3DMark Vantage. Пакет новый, его feature тесты довольно интересны и отличаются от наших. Вероятно, при анализе результатов карт в этом пакете мы сделаем для себя какие-то новые и полезные выводы.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.



Соотношение результатов в целом схоже с тем, что показывают наши тесты, используются условия, в которых карты Nvidia не получают дополнительного преимущества от большого количества TMU. Старая одночиповая карта AMD сильно отстаёт от всех, зато и двухчиповый HD 3870 X2 и новая модель HD 4870 значительно обгоняют оба решения производства Nvidia. Geforce GTX 260 отстаёт от Geforce 9800 GTX, как и должно быть по теории. Но вот почему карта на основе RV770 обгоняет и G92 и GT200? Видимо, дело в той самой эффективности текстурных модулей, которая выше у карт AMD.

Feature Test 2: Color Fill

Тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR рендеринг, поэтому такой тест очень своевременен.



Показания этого теста соответствуют тому, что мы получаем в своих синтетических тестах, с учетом того, что у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте Vantage — 16-бит с плавающей точкой. Поэтому все цифры в два раза меньше наших.

Эти цифры скорее показывают не только производительность ROP, но и величину пропускной способности памяти (в случае мультичипов — умноженную на число чипов для AFR). Цифры соответствуют теоретическим и зависят, прежде всего, от ширины шины памяти и её частоты. В данном тесте новая модель HD 4870, пользуясь улучшенными возможностями блоков ROP и большой ПСП GDDR5 памяти, показывает лучший результат, выше, чем у двухчиповой HD 3870 X2 и GTX 260 с 448-битной шиной памяти.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.



Тест интересен тем, что он не зависит только от шейдерной мощности, эффективности исполнения ветвлений и скорости текстурных выборок, а от всего сразу. То есть, для достижения высокой скорости важен баланс чипа и карты. И больше всего важна эффективность выполнения ветвлений в шейдерах, так называемая гранулярность исполнения.

Старые карты от обоих производителей далеко позади, даже двухчиповый HD 3870 X2 не смог догнать HD 4870, хотя двухчиповый рендеринг этого теста весьма эффективен. И вот тут мы видим интересное расположение RADEON HD 4870 и Geforce GTX 260. Несмотря на то, что в тестах текстурных выборок и математических вычислений решение AMD обычно выигрывало, в тесте POM Geforce сильнее RADEON. И виновата в этом именно лучшая эффективность обработки ветвлений в шейдерах у GT200.

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров, и скорость stream out.



В данном тесте традиционно получаются странные результаты у двухчиповых карт, HD 3870 X2 не получает ускорения от своего второго GPU. В остальном, снова видим отставание решений AMD, даже относительно быстрая HD 4870 не дотягивается до Geforce 9800 GTX, не говоря про GTX260. Похоже, что скорость не зависит от шейдерной производительности, а зависит от скорости stream out…

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.



Тут мы видим почти то же самое, что и в предыдущем случае, только отстал Geforce 9800 GTX, а карты AMD подтянулись повыше. Но всё равно, лидером остаётся Geforce GTX 260, близко к нему следует сегодняшний герой HD 4870. Двухчиповая карта AMD снова не ушла далеко от старой одночиповой и обе расположились в конце списка. И снова предположим, что на скорость влияет производительность stream out, ПСП и текстурная производительность одновременно.

Feature Test 6: Perlin Noise

Этот feature тест можно считать математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он очень сложен математически.



Последний feature тест в Vantage показывает чистую математическую производительность видеочипов. Показанная в нём производительность вполне соответствует тому, что мы видим в наших математических тестах из RightMark 2.0. Видеокарты AMD закономерно выигрывают у своих конкурентов от Nvidia, даже двухчиповый HD 3870 X2 опережает GTX 260. Ну а RADEON HD 4870 является лидером и опережает своего главного конкурента более чем на 25%.

Выводы по синтетическим тестам

На основе результатов проведённых синтетических тестов, мы подтверждаем выводы, сделанные в предыдущей статье. Новые решения компании AMD получились весьма удачными, в чипе RV770 было сделано много изменений, почти во всех синтетических тестах оно в разы опережает по скорости видеокарты предыдущего поколения. Благодаря улучшенной архитектуре RV770, в которой исправили главные недостатки, во многих тестах RADEON HD 4870 обгоняет своего основного конкурента Geforce GTX 260. RV770 стал более эффективным и сбалансированным, что важно для современных и будущих 3D приложений с большим количеством сложных шейдеров.

Чип RV770 обладает большим количеством исполнительных блоков, поддерживает новую память GDDR5, которая позволила выпустить RADEON HD 4870 с высокой ПСП на основе лишь 256-битной шины обмена с памятью. Небольшие вопросы возникают разве что по поводу меньшей эффективности исполнения ветвлений в шейдерных программах, что сказывается на производительности наиболее сложных алгоритмов parallax mapping. Ну и по скорости stream out новые решения AMD уступают конкурирующим от Nvidia. Всё остальное у новой линейки HD 4800 просто отлично! Особенно вычислительная производительность, по которой они далеко впереди.

Следующая часть статьи содержит тесты нового решения компании AMD и других видеокарт в современных игровых приложениях. Игровые результаты должны подтвердить наши выводы. Можно предположить, что в среднем скорость HD 4870 в играх будет примерно на одном уровне с Geforce GTX 260.



ATI RADEON HD 4870 (RV770) — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.