ATI RADEON HD 5870 1024MB PCI-E

В предверии DirectX 11. Мощный удар из Канады — ATI (AMD) выпускает нового короля 3D-графики



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON HD 5870: Часть 1: Теоретические сведения


Перед тем как любой кипарис изучать, надо вначале познать основы ботаники, разобраться, к какому семейству он относится, понять основные свойства растений этого класса, а потом уже.. Вот и в нашем случае перед тем, как детально осматривать и препарировать новый "кипарис" от ATI (AMD), ранее, в теоретической части (см. выше) читателю были даны все основные положения той архитектуры, на которой базируется новый ускоритель.

А здесь мы уже положим дерево..то есть карту перед собой и расскажем, чем же она так примечательна.

Сразу отметим основной момент, а именно то, что карта — референс, то есть она от производителя GPU, от AMD (ATI), а это категорически означает, что упаковки нет, и комплекта тоже. Все эти бирюльки положены только партнерам, конечным производителям, вендорам… Они же снабдят карту красивыми (или не очень) наклейками. Возможно что и осмелятся систему охлаждения поменять на какую-то из своих любимых (впрочем, продукт может от этого только выиграть, но об этом позже).

Итак, Планета Кипарис… Воды нет (только шейдерная), растительности нет (только из Crysis), населена ALU… И вот эти самые ALU в количестве 1600 штук внутри GPU работают не хуже рабочих муравьев в муравейнике. И все ради своей королевы… то есть пользователя компьютера, в котором установлен такого рода акселератор.



ATI RADEON HD 5870 1024MB PCI-E
  • GPU: RADEON HD 5870 (Cypress)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 850/850 MHz (номинал — 850/850 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1200 (4800) MHz (номинал — 1200 (4800) МГц)
  • Ширина шины обмена с памятью: 256bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 1600
  • Число текстурных процессоров: 80 (BLF/TLF)
  • Число ROPs: 32
  • Размеры: 285x100x33 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: черный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), 1xDisplay Port, 1xHDMI.
  • VIVO: нет
  • TV-out: не выведен.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


ATI RADEON HD 5870 1024MB PCI-E
Карта имеет 1024 МБ памяти GDDR5 SDRAM, размещенной в 8 микросхемах на лицевой стороне PCB

Микросхемы памяти Samsung (GDDR5). Микросхемы расчитаны на максимальную частоту работы в 1250 (5000) МГц.



Сравнение с эталонным дизайном, вид спереди
ATI RADEON HD 5870 1024MB PCI-E Reference ATI RADEON HD 4890


Сравнение с эталонным дизайном, вид сзади
ATI RADEON HD 5870 1024MB PCI-E Reference ATI RADEON HD 4890


Как мы видим, продукт имеет общие черты с предыдущим лишь в целом, поскольку шина обмена с памятью осталась той же, 256-битной, количество микросхем памяти то же самое, 8 штук. Однако очень сильные изменения претерпели блоки вывода (поскольку карта обладает возможностью вывода одновременно на три приемника, а также имеет 4 гнезда (HDMI и Display Port могут использоваться по выбору, не одновременно). А также блок питания сильно отличается от предшественника из-за особенностей нового ядра и его питания.



Кстати размеры кристалла очень сильно выросли по сравнению с RV790, несмотря на переход с техпроцесса 55нм на 40нм. Все же многие блоки по сравнению с RV790 увеличились почти в 2 раза.

Так вот. Длина PCB выросла с 260 до 270 мм. Но это было бы еще ничего… Однако дизайн системы охлаждения, который как бы облегает печатную плату в хвостовой части, увеличил размер изделия на 15 мм. Поэтому надо это учитывать, что даже если в ваш корпус умещалась карта типа Geforce GTX 2xx, 4870 X2 длиной 270 мм, то новинка уже может и не уместиться. А также обратим внимание на ширину кожуха, которая неизменна вдоль всей длины, а следовательно на материнской плате за PCI-E x16 разъемом не должно быть никаких портов и высоких конденсаторов, причем на ширину 30 мм (то есть не только за самим слотом PCI-E, но за соседним с ним не должно быть никаких высоких частей на системной плате).

Видеокарты этой серии оснащены собственным звуковым кодеком, поэтому для передачи звукового потока на HDMI (либо непосредственно, либо с помощью переходника DVI-to-HDMI) ничего больше не требуется.

Особо заметим, что питание осуществляется с помощью ДВУХ разъемов, но оба 6-пиновые.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также с серийными картами поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть. К тому же продукт уже оснащен один разъемом HDMI. Следует напомнить ОЧЕНЬ ВАЖНУЮ ЧЕРТУ HD 5xxx серии — способность одновременного вывода изображения на ТРИ приемника (монитора).

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (для DVI-гнезд с Dual-Link / HDMI)

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

Теперь о кулере. Система охлаждения принципиально не отличается от того варианта, что мы видели еще на RADEON HD 4870/4890. Увеличины и изменены размеры и форма радиатора.

Это цилиндрического типа кулер, прогоняющий воздух с помощью установленной на одном конце турбины через радиатор внутри длинного пластикового корпуса. Горячий воздух выбрасывается за пределы системного блока, поэтому карта с СО занимает 2 слота.









А далее мы провели исследование температурного режима с помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) и получили следующие результаты:

ATI RADEON HD 5870 1024MB PCI-E



ATI RADEON HD 5870 1024MB PCI-E overclocked



Удивительно, но нагрев совсем не велик и не превышает 80 градусов по ядру, что является весьма уникальным случаем для современных ускорителей Hi-End уровня. При этом кулер остается тихим.

ОСОБО ХОЧЕТСЯ ОБРАТИТЬ внимание на разгон. Да, мы вопреки нашим правилам не разгонять видеокарты и не повышать фабрично установленные частоты (кроме тех случаев, когда продукт выпускается специально для оверклокеров), решили посмотреть на работу новинки на повышенных клокингах. При этом HD 5870 стабильно работал при увеличении частоты ядра на 100 (!) МГц! Это фантастический результат при условии, что мы не применяли никаких особых кулеров или условий для разгона. Все проводилось в стандартных условиях, в том же самом тестовом корпусе.

Мы гоняли ускоритель на повышенных частотах только в игровых тестах, потому как синтетические тесты все же специализируются на сравнении номинальных режимов работы. Детали всего этого рассмотрим ниже.

А вначале покажем конфигурацию тестового стенда.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core I7 CPU 920 (Socket 1366 LGA)
    • процессор Intel Core I7 CPU 920 (2667 MHz);
    • системная плата Asus P6T Deluxe на чипсете Intel X58;
    • оперативная память 3 GB DDR3 SDRAM Corsair 1066MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 9.9; Nvidia версии 191.00.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

К сожалению, время даже синтетических DirectX 11 тестов ещё не пришло. Мы таких ещё не знаем, а собственный RightMark пока что (надеемся, что лишь временно) не развивается. Да и сравнить HD 5870 было бы не с кем — не с CrossFire же конфигурацией самого себя, тем более что для этого ещё нужно раздобыть две платы на тесты…

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 5870 со стандартными параметрами (далее HD 5870)
  • RADEON HD 5870, память которого работает на частоте 975(3900) МГц (далее HD 5870 (4890))
  • RADEON HD 4870 X2 со стандартными параметрами (далее HD 4870 X2)
  • RADEON HD 4890 со стандартными параметрами (далее HD 4890)
  • Geforce GTX 295 со стандартными параметрами (далее GTX 295)
  • Geforce GTX 285 со стандартными параметрами (далее GTX 285)

Для сравнения результатов новой модели RADEON HD 5870 были выбраны именно эти модели видеокарт по следующим причинам: RADEON HD 4890 является максимально производительной одночиповой моделью от AMD, а HD 4870 X2 — просто самая быстрая карта компании до анонса новых решений. То же самое и с решениями Nvidia: Geforce GTX 285 — наиболее производительная одночиповая карта, и GTX 295 — мощная двухчиповая.

На диаграммах приведен и один вариант новой модели RADEON HD 5870, видеопамять которой работает на сниженной частоте. Это сделано для сравнения с предыдущим поколением (HD 4890) на равных частотах, а также для определения упора в пропускную способность памяти у новой видеокарты AMD, если таковой где-то случится.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Хотя тест немного устарел, и в нём видеокарты не достигают теоретически возможных значений, взаимное расположение карт относительно друг друга он неплохо показывает. Результаты данной синтетики не дотягивают до пиковых значений, по ней получается, что Cypress выбирает около 60 текселей за один такт из 32-битных текстур при билинейной фильтрации в этом тесте, что ниже теоретической цифры в 80 отфильтрованных текселей.

Этого вполне хватает, чтобы показать больший, чем у HD 4870 X2 результат, и вообще — стать лидером среди всех выпущенных видеокарт (с учётом драйверных проблем GTX 295). Вероятно, что двухчиповая карта Nvidia могла бы побороться за лидерство, но её настигли непонятные проблемы, и это касается исключительно работы SLI.

Интересно, что разница между HD 5870 и HD 4890 не всегда соответствует двукратной даже при работе на идентичных частотах. Если с небольшим количеством текстур играет ограничение в ПСП, то при 4-6 текстурах разница примерно двукратная. Зато при 8 текстурах она больше, что может говорить об ином балансе чипа в сторону большего количества текстур. Посмотрим на эти же результаты в тесте филлрейта:



Второй синтетический тест показывает скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. Максимальный результат остаётся за новым решением AMD, в случаях с 0, 1 и 2 накладываемыми текстурами разница между решениями меньше, так как в таких режимах производительность ограничена ПСП, прежде всего. Но и в ситуациях с большим количеством текстур на пиксель, новая видеоплата компании AMD опережает всех своих конкурентов.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Тесты весьма просты для современных архитектур, они показывают далеко не всю мощь GPU, но интересны для оценки баланса между текстурными выборками и математическими вычислениями, особенно при смене архитектур. В этих простых тестах производительность ограничена в основном скоростью текстурных модулей. Смотрим, были ли изменения в архитектуре, по сравнению с RV770? Похоже, что больших модификаций нет, новая карта показывает результат, аналогичный карте на основе предыдущего чипа, с поправкой на разное количество исполнительных блоков и эффективность в целом.

Пропускная способность памяти в этих тестах лишь немного ограничивает новые решения, но это позволяет ему почти всегда быть вблизи к двухчиповому решению предыдущей архитектуры. А видеоплаты на чипах производства Nvidia повержены безоговорочно — неплохая заявка на победу в остальных тестах. Скорость HD 5870 хоть и не вдвое больше, чем у HD 4890 на одинаковых частотах, но тут может сыграть роль некоторая нехватка ПСП. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



Они немного интереснее, хотя в тесте освещения получилось почти то же самое, что и в предыдущих. В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и карты располагаются по скорости текстурирования (исключая небольшое отставание карт Nvidia). Карта на основе Cypress показывает максимальный результат. И вот тут как раз вдвое больший, чем HD 4890 на одной частоте — значит, TMU работают так же, просто их больше в два раза.

Второй тест более интенсивен вычислительно, и хорошо подходит для архитектуры AMD, обладающей большим количеством вычислительных блоков. В этом тесте новое решение AMD уже не может соперничать с двухчиповым вариантом предыдущей архитектуры, хотя отстаёт от него всего на 10%. Тут, кстати, одночиповый HD 4890 гораздо ближе к новой карте, и разница между ними всего 1.6 раза, а не теоретические 2. Значит, новая модель в таких условиях не может раскрыть все свои особенности. На ограничение ПСП не очень похоже, впрочем. Видимо, просто задача такая попалась.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, тут важен общий баланс чипа. Производительность видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок. Ситуация в нём похожа на то, что мы видели чуть раньше в «Cook-Torrance». Новый HD 5870 отстаёт от двухчипового HD 4870 X2, и лишь вдвое быстрее HD 4890 (в пропускную способность не упирается при этом). Впрочем, обе карты Nvidia он опережает с запасом.

Во втором тесте «Parallax Mapping» результат уже немного зависит от ПСП, и HD 5870 показывает близкую к GTX 295 производительность. На одинаковых с RV770 частотах разница ещё меньше, чем полтора раза. Это первый звоночек о том, что двукратных приростов везде можно не ждать, и особенно в играх, которые сложнее, чем синтетика. В целом, новый чип явно не может раскрыть все свои способности в этих тестах текстурной и по математической производительности. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, чтобы убедиться в выводах окончательно:



Картинка похожая, но с текстурными выборками HD 5870 справляется лучше, почти догоняя HD 4870 X2 в обоих тестах. Очень хороший результат, хотя и не вдвое больший по сравнению с HD 4890 на одних частотах. Более явно виден больший упор производительности в скорость текстурных блоков, и их возможности для HD 5870 раскрыть в этом тесте явно проще, чем математические.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



А вот тут — совсем другое дело! Оба PS 3.0 теста абсолютно не зависят от ПСП, а чисто математические, что даёт возможность новому решению показать свою силу и обогнать двухчиповые карты. Ладно Nvidia, но HD 4870 X2 обогнать, пусть и ненамного — это очень хорошо. С новой архитектурой R7xx мы увидели просто огромный прирост производительности в PS 3.0 тестах, что подтверждается и с Cypress, так как RADEON HD 5780 заметно быстрее всех остальных представленных решений, особенно это касается видеокарт Nvidia.

Эффективность более чем удвоенной математической мощи в этот раз лишь немного не достигла двух раз на практике. Очень неплохо, будем ждать сильных результатов и в остальных математических тестах. В который раз мы восторгаемся превосходными результатами переработанной архитектуры AMD, которые обусловлены большим исполнительных блоков ALU.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

Во вторую версию RightMark3D вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит от количества и скорости блоков TMU, и немного от филлрейта и ПСП. Результаты в «High» получились примерно в полтора раза ниже, чем в «Low», как и должно быть. В Direct3D 10 тестах процедурной визуализации меха с большим количеством текстурных выборок решения Nvidia традиционно сильны, но новое решение AMD впервые показывает результат, схожий с одночиповым решением Geforce GTX 285, и превышающий цифру HD 4870 X2.

Разница между HD 4890 и HD 5870 пусть и не двукратная, но близка к этому. И герой обзора RADEON HD 5870 показывает скорость, уступающую только двухчиповому решению конкурента, который в этом тесте всегда был силён. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза, и в этот раз HD 5870 ещё немного сильнее. Разница в самых сложных условиях с HD 4890 даже более чем два раза, но догнать двухчиповую GTX 295 новая модель AMD не может. Зато обгоняет GTX 285 уже чуть увереннее. Влияния ПСП на результат не отмечено, видимо, основной упор всё же в ALU и эффективность ветвлений.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Данный тест интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Повторилась ситуация предыдущего теста, очень похоже на его результаты даже по абсолютным цифрам. В обновленном D3D10 варианте теста без суперсэмплинга, RADEON HD 5870 лучше своих сородичей справляется со своей задачей, оставляя даже двухчиповую видеокарту HD 4870 X2 позади. В лёгком режиме новая карта теперь чуть не дотягивает до одночипового решения Nvidia, но в тяжёлом берёт победу.

Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал несколько большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между показателями видеокарт изменилась, включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решения Nvidia.

И хотя GTX 295 остаётся лидером, интересующий нас сегодня RADEON HD 5870 заметно выигрывает как у одночиповой видеокарты Nvidia Geforce GTX 285, так и с запасом обгоняет мощную HD 4870 X2. И снова мы видим близкую к двукратной разницу между HD 4890 и HD 5870. Да, теоретическое удвоение мощности хорошо заметно в синтетических тестах…

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современная архитектура AMD показывает себя лучше конкурирующих от Nvidia. Подтверждается это и сейчас, в этом тесте новая плата HD 5870 вдвое быстрее лучшей одночиповой карты Nvidia, и даже обгоняет двухчиповую от этой же компании.

А вот по сравнению с HD 4890 и HD 4870 X2 получаем интересный результат — ни двукратной разницы с одночиповой, ни обгона двухчиповой карт предыдущего поколения не случилось, как ни странно. Видимо, тест не полностью зависит от скорости ALU. Но и от ПСП не зависит совсем. Всего лишь 44% прироста по сравнению с HD 4890 — это весьма странно…

Но посмотрим на второй тест шейдерных вычислений, который носит название Fire. Он ещё более тяжёл для ALU, в нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

Вот во втором тесте скорость рендеринга ограничена уже почти исключительно производительностью шейдерных блоков, и мы видим схожий с PS 3.0 тестами результат. RADEON HD 5870 в этом тесте показывает скорость немного выше, чем у HD 4870 X2, и почти вдвое быстрее, по сравнению с HD 4890. Значит, в первом тесте его явно что-то ограничивало.

Карты Nvidia далеко позади. Одночиповый вариант GTX 285 отстал от нашего героя более чем в 2.5 раза. Именно во столько раз нужно ускорять следующий чип Nvidia по сравнению с GT200, чтобы хотя бы догнать AMD по математике. В общем, итог по пиковым математическим вычислениям остаётся неизменным в который раз — видим явное и неоспоримое преимущество решений компании AMD, которое было только подкреплено новым чипом Cypress.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничения скорости мощностью потоковых процессоров просто нет, скорость ограничена чем-то иным, и не пропускной способностью памяти, что хорошо видно по результатам HD 5870 на разных частотах. Очень странно.

Возможно, что дело в драйверах, ведь HD 5870 показывает результат, равный тому, что мы видим у HD 4890 с точностью до единиц (!), да и Geforce GTX 285 примерно там же. Лишь двухчиповые HD 4870 X2 и GTX 295 получают выгоду от своего AFR, и дружно почти вдвое быстрее одночиповых. Так что результат получился бесполезный. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится:

Цифры при увеличении нагрузки почти не изменились. Все карты в этом тесте как будто не видят изменения параметра GS load, отвечающего за перенос части вычислений в геометрический шейдер, и показывают аналогичные результаты новой. Смотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры. А тест Galaxy надо уже исключать из тестов, как бесполезный.

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Ой, как чудно… А тут двухчиповые конфигурации показали себя во всей «красе», что Nvidia, что AMD. Вот уж где странность так странность. В остальном, относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней.

В этот раз скорость RADEON HD 5890 уже во всех подтестах чуть выше, чем у решения AMD предыдущего поколения, да и Geforce GTX 285 где-то там же рядом. Разница между двумя конфигурациями HD 5870 говорит о небольшом упоре в пропускную способность памяти.

Но в целом, судя по двум тестам, упор наблюдается во что-то отличное от ПСП, филлрейта и вычислительной мощности. И даже от частоты это не сильно зависит. Возможно, достигнут упор в возможности API и/или видеодрайвера. Впрочем, относительно всех карт у рассматриваемого HD 5870 показатели в любом случае неплохие. Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

И снова лишь небольшое изменение… В RV7xx было улучшено исполнение геометрических шейдеров, и инженеры компании устранили один из недостатков предыдущих архитектур. То же самое касается и Cypress. Но оценить разницу нам мешает невидимый упор производительности во что-то. Похоже, остались мы без тестов геометрических шейдеров — ни один из них не показывает похожих на реальность результатов. Наверное, упор в возможности растеризации? В мощность CPU? Без дополнительных исследований непонятно…

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Предыдущие исследования показали, что на результаты этого теста могут влиять и скорость текстурирования, и пропускная способность памяти. Впрочем, по сравнению новой карты AMD на разных частотах памяти это неочевидно. Ещё один кандидат на выбывание из набора синтетики?

Хотя не будем торопиться, разница между решениями всё же есть, хотя небольшая. HD 5870 немного уступает в лёгком режиме GTX 285, но выигрывает в тяжёлом. В целом, они равны. HD 4890 тоже недалеко. Впереди только всё те же двухчиповые карты с AFR… Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась лишь совсем немного, это видно по немного ухудшившимся показателям всех карт. HD 5870 уступает во всех режимах двухчиповым картам, и в лёгком — Nvidia Geforce GTX 285. Судя по результатам, ПСП важна, но только в лёгком режиме. В остальных скорость упирается во что-то иное.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Результаты в тесте «Waves» похожи на те, что мы видели в предыдущий раз. Преимущество продукции AMD несколько усилилось, теперь HD 5870 почти догоняет двухчиповый Nvidia Geforce GTX 295, традиционно проигрывая только в простом режиме. Новая модель семейства RADEON HD 5800 опережает предыдущую одночиповую не очень сильно, но всё же опережает. Рассмотрим второй вариант этого же теста:

Изменений почти нет, хотя с ростом сложности условий результаты видеоплат AMD становятся ещё чуть лучше относительно скорости карт Nvidia. Geforce GTX 285 снова уступил анонсированной сегодня RADEON HD 5870. Которая в очередной раз показала схожий с GTX 295 результат. И только HD 4870 X2 где-то далеко впереди. Впрочем, похоже, что и VTF тесты в RightMark 2.0 уже не могут показать разницы между такими мощными решениями. Если раньше эти тесты измеряли то, что предполагается, то теперь их цифры почти бесполезны, увы. И с этим нужно что-то делать.

3DMark Vantage: Feature тесты

Но так как пока что с RightMark мы сделать ничего не можем, то в данный обзор мы решили включить синтетические тесты из пакета 3DMark Vantage. Пакет новый, его feature тесты довольно интересны и отличаются от наших. Кроме того, разработчики чипов обращают своё внимание на результаты, показанные их картами в нём. Вероятно, при анализе результатов в этом пакете мы сделаем для себя какие-то новые и полезные выводы.

Feature Test 1: Texture Fill

Первый тест — тест скорости текстурных выборок. Используется заполнение прямоугольника значениями, считываемыми из маленькой текстуры с использованием многочисленных текстурных координат, которые изменяются каждый кадр.



Соотношение результатов очень интересное, и с нашими цифрами совсем не сочетается. Видимо, Futuremark применяет какие-то странные условия, в которых карты Nvidia не получают преимущества от большого количества их не совсем обычных TMU. Не должны они так сильно отставать. В этом тесте старая двухчиповая карта AMD проигрывает новой одночиповой, и последняя как раз и является неоспоримым лидером теста.

Одночиповая модель Nvidia просто далеко позади, а новая модель HD 5870 даже более чем вдвое быстрее, по сравнению с картой на чипе предыдущей архитектуры. Очень хороший результат Cypress, у архитектуры AMD весьма эффективные текстурные модули.

Feature Test 2: Color Fill

Тест скорости заполнения. Используется очень простой пиксельный шейдер, не ограничивающий производительность. Интерполированное значение цвета записывается во внеэкранный буфер (render target) с использованием альфа-блендинга. Используется 16-битный внеэкранный буфер формата FP16, наиболее часто используемый в играх, применяющих HDR рендеринг, поэтому такой тест очень своевременен.



А вот здесь — ну очень интересно получилось. Показания этого теста снова не соответствуют тому, что мы видели в своих синтетических тестах, даже с учетом того, что у нас используется целочисленный буфер с 8-бит на компоненту, а в тесте Vantage — 16-бит с плавающей точкой. В целом, эти цифры скорее показывают не столько производительность блоков ROP, а величину пропускной способности памяти (в случае двухчиповых карт умноженную на два). В этом случае, результаты примерно соответствуют теоретическим и зависят, прежде всего, от ширины шины памяти, и её типа и частоты. В этом тесте новая модель HD 5870 как раз обнажает чуть ли не единственную свою слабую (относительно) сторону.

Даже несмотря на неплохие возможности блоков ROP в архитектурах RV770 (перешедших в Cypress без изменений, как показывает сравнение с HD 4890 на одинаковых частотах) и большую ПСП GDDR5 памяти, новая карта показывает результат лишь чуть выше уровня GTX 285 с 512-битной шиной GDDR3 памяти. Вот и потенциальное ограничение производительности в случае использования HDR буферов, что сейчас в играх делается почти повсеместно.

Feature Test 3: Parallax Occlusion Mapping

Один из самых интересных feature тестов, так как подобная техника уже используется в играх. В нём рисуется один четырехугольник (точнее, два треугольника), с применением специальной техники Parallax Occlusion Mapping, имитирующей сложную геометрию. Используются довольно ресурсоёмкие операции по трассировке лучей и карта глубины большого разрешения. Также эта поверхность затеняется при помощи тяжёлого алгоритма Strauss. Это тест очень сложного и тяжелого для видеочипа пиксельного шейдера, содержащего многочисленные текстурные выборки при трассировке лучей, динамические ветвления и сложные расчёты освещения по Strauss.



Тест интересен тем, что он не зависит только от шейдерной мощности, эффективности исполнения ветвлений и скорости текстурных выборок, а от всего сразу. То есть, для достижения высокой скорости важен баланс чипа и карты. А больше всего важна эффективность выполнения ветвлений в шейдерах, так называемая гранулярность исполнения. Смотрим, что изменилось в Cypress…

По сравнению с HD 4890 результат очень приличный — новая карта в 2.2 раза быстрее, это максимум, что можно от неё ожидать. Она намного опережает и двухчиповую карту на уже старых RV770, а также одночипового конкурента Geforce GTX 285. Лишь GTX 295 впереди всех, двухчиповый рендеринг в этом тесте весьма эффективен. Решения Nvidia эффективнее в разветвленном коде, по сравнению со старыми картами AMD. Зато новый HD 5870 ещё более эффективен и почти догнал двухчиповую GTX 295. Очень хороший результат!

Feature Test 4: GPU Cloth

Тест интересен тем, что рассчитывает физические взаимодействия (имитация ткани) при помощи видеочипа. Используется вершинная симуляция, при помощи комбинированной работы вершинного и геометрического шейдеров, с несколькими проходами. Используется stream out для переноса вершин из одного прохода симуляции к другому. Таким образом, тестируется производительность исполнения вершинных и геометрических шейдеров, и скорость stream out.



И в прошлые разы тест показывал странные показатели для двухчиповых карт. А в этот раз HD 4870 X2 быстрее всех, но GTX 295 показывает результат ниже одночипового аналога. В остальном, тоже видим некий непонятный упор (скорость stream out? геометрических шейдеров?)

HD 5870 лишь на четверть быстрее предшественника HD 4890, это не соответствует даже разнице в ПСП. Тем более, что особого упора в неё нет, как показывает сравнение результатов HD 5870 с памятью, работающей на разных частотах. В общем, за нашим сегодняшним героем мы закрепляем неплохой, пусть и не рекордный, результат на уровне одночипового конкурента Geforce GTX 285. Похоже, что скорость в GPU Cloth не зависит от шейдерной производительности, а всё же зависит от скорости stream out и/или ПСП. Возможно, то же самое касается и части наших тестов RightMark 2.0.

Feature Test 5: GPU Particles

Тест физической симуляции эффектов на базе систем частиц, рассчитываемых при помощи видеочипа. Также используется вершинная симуляция, каждая вершина представляет одиночную частицу. Stream out используется с той же целью, что и в предыдущем тесте. Рассчитывается несколько сотен тысяч частиц, все анимируются отдельно, также рассчитываются их столкновения с картой высот. Аналогично одному из тестов нашего RightMark3D 2.0, частицы отрисовываются при помощи геометрического шейдера, который из каждой точки создает четыре вершины, образующих частицу. Но тест больше всего загружает шейдерные блоки вершинными расчётами, также тестируется stream out.



И снова результаты мультичипов странные — решение AMD ускоряется почти вдвое, являясь лидером, а GTX 295 медленнее чем даже одночиповый GTX 285 — явно AFR в этом тесте у Nvidia снова не работает. В остальном, мы видим по смыслу почти то же самое, что и в предыдущем случае, только у новых карт AMD дела улучшились.

Решения Nvidia теперь среди отстающих, а новая карта AMD показывает результат, лишь немного превышающий показатель HD 4890. Причём, скорость в этот раз уже зависит от ПСП в определённой степени. Наш герой впереди всех одночиповых карт, и уступает только HD 4870 X2. Снова ограничение в скорость stream out и/или пропускную способность?

Feature Test 6: Perlin Noise

Последний feature тест пакета Vantage можно считать математически-интенсивным тестом видеочипа, он рассчитывает несколько октав алгоритма Perlin noise в пиксельном шейдере. Каждый цветовой канал использует собственную функцию шума для большей нагрузки на видеочип. Perlin noise — это стандартный алгоритм, часто используемый в процедурном текстурировании, он очень сложен математически.



Итак, последний feature тест пакета тестов компании Futuremark показывает чистую математическую производительность видеочипов. И немудрено, что показанная в нём производительность примерно соответствует тому, что мы видели выше в наших математических тестах из RightMark 2.0. Но в этом тесте разница между HD 5870 и GTX 285 уже значительно выше — почти 3.5 раза!

Видеокарты AMD вполне закономерно выигрывают у конкурентов производства Nvidia в этом тесте, а рассматриваемый RADEON HD 5870 является чистым лидером и опережает даже двухчиповую карту на базе GPU предыдущей архитектуры в полтора раза! Не говорим уж о HD 4890, разница в производительности в этом тесте превысила 2.5 раза, что даже больше теоретически возможной величины. Видимо, свою роль сыграли некоторые изменения в новом чипе, направленные на увеличение эффективности исполнения математических операций…

Выводы по синтетическим тестам

На основе результатов синтетических тестов новой модели RADEON HD 5870, основанной на чипе Cypress, а также результатов других моделей видеокарт обоих основных производителей видеочипов, можно сделать вывод о том, что новое решение компании AMD является самым мощным среди всех одночиповых, и выглядит очень сильно даже по сравнению с двухчиповыми картами предыдущих семейств. Предположим, что HD 5870 должна показать весьма сильные результаты и в игровых приложениях, и во всех случаях заметно обгонять одночиповых конкурентов Nvidia, не говоря о своих предшественниках HD 4870 и HD 4890. Что касается двухчиповых карт, то скорость HD 5870 в большинстве случаев может быть близкой к производительности HD 4870 X2, и этим нас уже не удивить.

Хотя новый чип относится к новой архитектуре R8xx, получившей поддержку DirectX 11 API, по сути, он мало чем отличается от RV770/RV790 архитектурно. Его явным преимуществом, обусловленным применением нового технологического процесса 40 нм, является удвоенное количество всех исполнительных блоков, а также большая тактовая частота (по сравнению с HD 4870), которые и позволяют предполагать отличные результаты в играх на уровне RADEON HD 4870 X2. Архитектурные улучшения если и играют, то меньшую роль.

В редких случаях производительность решений на основе Cypress может ограничиваться пропускной способностью памяти. Ведь у чипа всё та же 256-битная шина памяти, что и у RV770, и использование более скоростной GDDR5 памяти позволило повысить ПСП лишь на треть. Чего может быть недостаточно в тех случаях, когда скорость рендеринга в целом ограничена эффективным филлрейтом, что в играх иногда бывает. Но нужно понимать, что о проигрыше GTX 285 речи не идёт. Просто случаев двукратного превосходства по сравнению с HD 4890 в реальных тестах будет меньше, чем могло быть.

Ну а что касается конкуренции с решениями Nvidia, то тут можно сказать, что её почти нет. В большинстве синтетических тестов RADEON HD 5870 значительно опережает по скорости и одночипового конкурента от компании Nvidia, и даже двухчиповую GTX 295. В играх, конечно же, GTX 295 будет сильнее, чем в наших теоретических тестах, но сравнение будет всё равно явно в пользу решения компании AMD.

В следующей части статьи вы увидите тесты топового решения компании AMD, основанного на новом GPU, в современных игровых приложениях. Игровые результаты должны примерно соответствовать нашим выводам, сделанным при анализе результатов синтетических тестов, но необходимо учитывать и то, что скорость рендеринга в играх зачастую сильнее зависит от филлрейта и пропускной способности памяти, и в некоторых случаях уровня HD 4870 X2 будет сложно достичь. Но HD 5870 уж точно будет значительно быстрее чем HD 4890 и Nvidia Geforce GTX 285 в подавляющем большинстве случаев.



ATI RADEON HD 5870 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Корпус ThermalTake 8430 для тестового стенда предоставлен компанией 3LOGIC
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно