ATI RADEON HD 4670 512MB PCI-E (RV730)

Почти половина от 4870 плюс 128bit шина, что получится? –
Новый супершустряк в 3D-графике, если в кармане мало денег.



СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON HD 4670: Часть 1: Теоретические сведения


В первой части мы рассказали о том, что собой теоретически представляет новый ускоритель (вернее целая серия), и уже там его набор функций смотрится очень солидно даже для такой дешевой видеокарты.

Неужели реально AMD смогла в бюджетное решение вложить столько силы, что оно может потягаться с предыдущими «середнячками»? А также быть впереди всех остальных продуктов того же класса по близким ценам? Наш материал покажет это.

Плата



ATI RADEON HD 4670 512MB PCI-E
  • GPU: RADEON HD 4670 (RV730)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 750/750 MHz (номинал — 750/750 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1000 (2000) MHz (номинал — 900-1000 (1800-2000) МГц)
  • Ширина шины обмена с памятью: 128bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 32 (BLF/TLF)
  • Число ROPs: 8
  • Размеры: 190x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-out.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


ATI RADEON HD 4670 512MB PCI-E
Карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8 микросхемах ( по 4 на лицевой и оборотной сторонах PCB)

Микросхемы памяти Hynix (GDDR3). Микросхемы расчитаны на максимальную частоту работы в 1000 (2000) МГц.



Сравнение с эталонным дизайном, вид спереди
ATI RADEON HD 4670 512MB PCI-E Reference ATI RADEON HD 3650


Сравнение с эталонным дизайном, вид сзади
ATI RADEON HD 4670 512MB PCI-E Reference ATI RADEON HD 3650


Как мы видим, PCB от 3650 и 4670 очень близки, да и это понятно: шина одинаковая, память используется того же типа. Зачем велосипед придумывать? Да и потребление у новой карты весьма мало, потому в блоке питания особо ничего переделывать не придется.

Потому обе карты очень схожи.

Ядро имеет довольно малого размера кристалл, расположенный под углом 45 градусов к подложке.



Теперь о кулере. Система охлаждения очень проста, и мы ее часто видели. Это небольшой закрытый радиатор из медного сплава (потому прилично тяжелый), через который продувается воздух.

Турбина работает максимум на 2500 оборотов и потому ее особо не слышно.

Осталась одна непонятка: зачем в лицевой стороны карты охлаждать память тем же радиатором, но с оборотной стороны — нет никаких средств охлаждения? Может проще изменить конструкцию кулера так, чтобы радиатор стал шире и жффективнее, но при этом касался лишь одного ядра?





Видеокарты этой серии оснащены собственным звуковым кодеком, поэтому именно этот звуковой поток затем передается на HDMI (с помощью переходника DVI-to-HDMI). Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был этот переходник.

Также еще раз отметим, что питание ускорителя осуществляется только по шине, никакого дополнительного внешнего питания не требуется.

У карты имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать здесь.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть.

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

К помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) мы посмотрели на мониторинг работы карты.



Как мы видим, нагрев весьма велик для такого дешевого устройства. Явно эффективность данной СО невелика, и надеемся, что партнеры AMD предложат свои, более эффективные решения для аналогичных ускорителей.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra на чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.8; Nvidia версии 177.79.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 4670 со стандартными параметрами (далее HD4670)
  • RADEON HD 3870 с частотами 750/1000 МГц (далее HD3870(750))
  • RADEON HD 3650 со стандартными параметрами (далее HD3650)
  • Nvidia Geforce 9500 GT со стандартными параметрами (далее GF9500GT)
  • Nvidia Geforce 8600 GTS со стандартными параметрами (далее GF8600GTS)

Для сравнения результатов новой модели RADEON HD 4670 были выбраны эти модели видеокарт по следующим причинам: RADEON HD 3870 на частотах 750/1000 МГц будет интересно сравнить с RADEON HD 4670, чтобы оценить влияние улучшений архитектуры в RV7xx по сравнению с RV6xx, а также разницу в производительности между поколениями. RADEON HD 3650 является той моделью, которую заменяет одна из моделей серии HD 4600 в продуктовой линейке компании AMD. Geforce 9500 GT — это один из основных конкурентов от Nvidia, также к ним можно приписать и до сих пор встречающуюся в продаже Geforce 8600 GTS. Есть и ещё один конкурент от Nvidia — Geforce 9600 GSO, но для наших синтетических тестов его присутствие не обязательно.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Всё как обычно — в нашем устаревшем (замены пока нет) тесте многие видеокарты не достигают значений, близких к теоретическим. Чаще всего, результаты данной синтетики не дотягивают до теории, ближе всего к ним подобралась видеокарта RADEON HD 3650, показав почти равный теоретическому результат. Ну а для остальных видеокарт, отличающихся более совершенными TMU, и для Nvidia и для новых RV7xx, в нашем тесте теоретический максимум не достигается. Получается, что RV730 выбирает менее 16 текселей за один такт из 32-битных текстур при билинейной фильтрации, что значительно ниже теоретических цифр. И производительность, возможно, ограничена пропускной способностью видеопамяти.

Но и такой скорости для RV730 хватает. По сравнению с RV670 на тех же частотах показан весьма близкий результат, даже чуть выше. И это сравнение с чипом более высокого уровня, хотя и прошлого поколения со сниженной частотой. Если же сравнивать с картами Nvidia и старой HD 3650, то HD 4670 впереди на 80-100%, то есть до двух раз. Да и в тесте с одной текстурой HD 4670 немного уступает только HD 3870 за счёт меньшего эффективного филлрейта, но в случае с большим количеством текстур на пиксель, способности блоков ROP раскрываются, и в таких условиях карта на RV730 становится даже несколько быстрее. Посмотрим на результаты в тесте филлрейта:



Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами у RADEON HD 4670 получается результат на уровне Geforce 8600 GTS, имеющей аналогичную пропускную способность памяти (в таких режимах производительность ограничена ПСП, прежде всего). Как и в предыдущем тесте, в ситуациях с большим количеством текстур на пиксель, новая видеоплата выходит далеко вперёд, показывая результат на уровне HD 3870 со сниженной частотой.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Все современные чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты это и показывают — все видеокарты AMD на близких частотах показывают схожие результаты. Традиционно более высокие, чем результаты любых решений Nvidia. Скорость RADEON HD 4670 в этом тесте мало отличается от скорости остальных карт, этот тест зависит исключительно от тактовой частоты GPU. Переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



В этом варианте разница между решениями AMD и Nvidia видна значительно лучше, разрыв увеличился в несколько раз. Интересно, что здесь разница между картами AMD уже есть, даже между HD 3870 и HD 4670 на одинаковых частотах. Новая видеоплата нижнего ценового диапазона выглядит лучше, будучи во всех режимах ограничена чем-то вроде triangle setup, так как цифры мало изменились с прошлого теста. В этом тесте новая видеокарта AMD опережает обе Geforce в 4-6 раз.

Наверняка в этом случае отличились и потоковые процессоры, из-за большого количества которых новый чип отлично проявил себя в геометрических тестах. Но в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Тесты слишком просты для современных архитектур, даже в low-end исполнении. Они показывают не всю силу GPU, но интересны для оценки баланса между текстурными выборками и математическими вычислениями при смене архитектур. Ведь в простых тестах производительность ограничена скоростью TMU, а видеокарта HD 4670, которую мы сегодня рассматриваем, основана на чипе RV730, улучшившем свои показатели по текстурированию. Так и получилось, HD 4670 почти во всех тестах опередил соперников, немного отстав только в одном от HD 3870. Разница производительности, по сравнению с решениями Nvidia, более чем двукратная.

И по сравнению RV670 и RV730 становится хорошо видно, какой тест ограничен математическими вычислениями, а какой — текстурными выборками. Например, все тесты процедурного текстурирования используют увеличенную производительность текстурирования в RV730, а вот тесты освещения загружают ALU математическими вычислениями, и поэтому RV670 и RV730 на одинаковой частоте показывают близкие результаты. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



В целом, получилось то же самое, что и в предыдущем тесте — налицо разница между двумя тестами, один из которых нагружает работой текстурные блоки, а другой — ALU. В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и карты располагаются по скорости текстурирования. RV730 в нём показывает результат почти в три раза быстрее HD 3870 и почти в четыре раза быстрее карт Nvidia!

А вот второй тест интенсивен вычислительно, и отлично подходит для всех архитектур AMD, обладающих большим количеством вычислительных блоков. В этом тесте новое low-end решение AMD показывает результат на уровне RADEON HD 3870, работающего на той же частоте, что полностью соответствует теории. Архитектурные изменения в семействе RV7xx явно очень удались компании AMD, повысив эффективность ALU, ещё больше они ускорили текстурирование.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, тут важен общий баланс чипа. Производительность видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок, поэтому старые решения RADEON показывали довольно слабые результаты. Зато наш сегодняшний герой в разы опережает всех, в том числе и HD 3870 на 80%. У него просто нет конкурентов, карты Nvidia отстали в 2.5-3 раза.

Во втором тесте «Parallax Mapping» решения AMD обычно ещё сильнее. Хотя по сравнению с HD 3870 в нём не такая большая разница, вероятно, скорость ALU играет большую роль, чем в предыдущем тесте. Но HD 4670 всё равно быстрее всех, обгоняя конкурентов Geforce более чем вдвое. Улучшения в TMU значительно усилили результат RV730 по сравнению с RV670, разница на той же частоте составляет 40%. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там результат RV730 может получиться ещё интереснее:



Так оно и есть, в первом тесте RADEON HD 4670 оторвался от остальных карт ещё дальше. Взаимное положение карт немного изменилось, появился больший упор производительности в скорость текстурных блоков. RV730 в обоих тестах показывает лучшие результаты, опережая RV670 в 2.5 раза в первом тесте и на треть — во втором. Карты Nvidia немного подтянулись повыше, хотя их это не спасло, уж слишком быстр RV730.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Ранее в этих тестах решения AMD довольно сильно проигрывали картам Nvidia, хотя это не касается младших Geforce, которые также показывают низкие результаты в этих тестах. Но с новой архитектурой RV7xx мы увидели огромный прирост производительности в PS 3.0 тестах. RADEON HD 4670 теперь впереди всех решений, и он опережает HD 3870 на тех же частотах в 1.7-2 раза.

С другими участниками тестов новую карту AMD и сравнивать то неприлично, Geforce 9500 GT медленнее в 3.6-3.7 раза, а Geforce 8600 GTS — в три раза. Предыдущее решение этого же ценового диапазона от AMD где-то там же. Налицо превосходные результаты переработанной архитектуры AMD, которые можно объяснить значительно увеличенным количеством исполнительных блоков, улучшенной архитектурой, а также большей эффективностью использования имеющихся ресурсов.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Результаты в «High» получились примерно в полтора раза ниже, чем в «Low». Наконец-то, Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок хоть какое-то из решений AMD показывает результат, схожий с конкурирующими картами Nvidia. Вообще, таких низких результатов у остальных решений AMD быть не должно, по идее.

Герой обзора RADEON HD 4670 показывает скорость примерно на уровне уже старой модели Geforce 8600 GTS и даже опережает новую Geforce 9500 GT. Остальные платы AMD отстают, HD 4670 более чем в полтора раза быстрее HD 3870 на той же частоте, а RADEON HD 3650 вообще в четыре раза медленнее нового low-end решения компании. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза. В этот раз преимущество карт Nvidia уже испарилось, их обгоняет и HD 3870 (хотя сравнивать их, конечно же, неправильно). С увеличением сложности шейдера и нагрузки на видеочип, разница между HD 4670 и HD 3870 достигает почти двукратной. Обе Geforce также в два и более раз медленнее новой видеокарты в этом тесте. AMD явно исправляется, даже в нашем D3D10 пакете уже почти не осталось слабых мест для их решений.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Тест интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Почти повторилась ситуация предыдущего теста. В обновленном D3D10 варианте теста без суперсэмплинга, RADEON HD 4670 лучше всех справляется со своей задачей. И обе видеокарты Geforce остаются позади, и HD 3870 на сниженных частотах. Явно тесту важна производительность текстурных выборок. Интересно, что включение самозатенения вызывает на продукции AMD несколько большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня RADEON HD 4670 снова с большим преимуществом победил предшественников от компании AMD, причём из разных ценовых секторов. Разница между HD 4670 и HD 3870 на равных частотах достигла 45-65%. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между показателями видеокарт уже несколько иная, а включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решений Nvidia. Интересующий нас RADEON HD 4670 продолжает заметно выигрывать как у обеих видеокарт Nvidia Geforce, так и почти в полтора раза обгоняет HD 3870 на той же частоте. RADEON HD 3650 на основе старой архитектуры остался далеко позади.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современные архитектуры AMD показывают себя лучше конкурирующих от Nvidia. Ситуация изменялась со временем, и если в соперничестве RADEON HD 3650 и Geforce 9500 GT решение AMD выигрывает совсем чуть-чуть, то новичок HD 4670 разрывает конкурентов в клочья, показывая отличную производительность на уровне видеоплат более высокого уровня.

Видеокарта на основе нового чипа RV730 в 2.7-3.1 раза обгоняет своих прямых конкурентов от Nvidia, и примерно во столько же раз опередила HD 3650 прошлого поколения. Интересно, что несмотря на одинаковые тактовые частоты, HD 4670 немного (на 10%) обгоняет и HD 3870, имеющий ровно столько же потоковых процессоров. Похоже, что на результаты теста небольшое влияние оказали и небольшие изменения в RV7xx, направленные на увеличение вычислительной эффективности ALU.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В данном тесте скорость рендеринга также ограничена почти исключительно производительностью шейдерных блоков, и мы видим схожий результат, хотя разница между решениями даже стала ещё чуть большей. Видно, что RADEON HD 4670 в этом тесте показывает скорость в 3-3.5 раза выше, чем у обеих Geforce и HD 3650. И в этом тесте новая видеокарта снова обгоняет HD 3870, работающую на той же тактовой частоте, и уже почти на 12%. В общем, по математическим вычислениям лидерство явно за новым решением компании AMD.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом.

Очень интересно уже то, что HD 3650 обогнал HD 3870, ведь никаких видимых причин этому просто нет, даже частоты схожие. Да и карта на RV730 не слишком сильно обогнала HD 3650, даже учитывая то, что в архитектуре RV7xx компания AMD обещала увеличение эффективности исполнения геометрических шейдеров. Итак, своих сородичей RADEON HD 4670 обгоняет, но конкурирующие решения от Nvidia показывают более высокие результаты. Причём, как ни странно, Geforce 9500 GT впервые оказывается быстрее Geforce 8600 GTS. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится, посмотрим:

Но нет, разница между рассмотренными вариантами теста не так велика и существенных изменений не видно. Обе видеокарты Nvidia показывают чуть меньшие результат при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер, а результаты видеоплат AMD, наоборот, немного вырастают. И теперь HD 4670 показывает скорость на уровне Geforce 8600 GTS, немного отставая от Geforce 9500 GT. Но с остальными RADEON он вполне справился. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. В этот раз скорость RADEON 4670 не настолько сильнее, чем у предыдущих решений, и все карты производства AMD всё так же отстают от решений Nvidia.

В прошлые разы мы определили, что упор в тесте получается во что-то отличное от ПСП, филлрейта и вычислительной мощности. В этом тесте ситуация запутывается ещё больше, взаимное расположение карт Nvidia меняется, теперь 8600 GTS быстрее 9500 GT. Впрочем, у рассматриваемого HD 4670 неплохие показатели, похоже, что на его результат повлияли улучшенные возможности текстурирования. Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Наконец-то явно видно, что в RV7xx было улучшено исполнение геометрических шейдеров, инженеры компании устранили один из недостатков предыдущих архитектур, и в этих условиях новое решение опережает и Geforce 9500 GT и Geforce 8600 GTS. Хотя тут все Geforce очень слабы, кроме новейшей серии Geforce GTX 200.

Что касается сравнения результатов в разных режимах, тут всё как всегда, видеоплаты AMD при переходе от использования «instancing» к геометрическому шейдеру при выводе, улучшают свои показатели, а видеокарты Nvidia теряют в производительности. И если сравнивать цифры, полученные в разных режимах, при условии неизменности получаемой картинки, можно признать, что видеокарты Nvidia всё равно остаются впереди, пусть и не так уж далеко.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Судя по предыдущим исследованиям, на результаты этого теста сильно влияет не только скорость текстурирования, но и пропускная способность памяти. И чем проще режим, тем большее влияние на скорость она оказывает. Что мы и видим по сегодняшним результатам. Интересно, что изменение режима на RADEON HD 3870 со сниженными частотами влияет не так, как на HD 4670. Вероятно, последнюю больше всего ограничивает именно ПСП.

Во всех режимах лидером является рассматриваемая сегодня low-end карта AMD, хотя в самом тяжёлом её догоняет RADEON HD 3870. Конкурентов от Nvidia сегодняшний герой опережает в этом тесте на 30-300%, в зависимости от режима и модели видеокарты. Разница с предшествующей моделью этого же ценового диапазона RADEON HD 3650 менее двух раз, что также говорит об ограничении ПСП. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась, HD 3870 показывает лучший результат, а обе Geforce откатились ещё ниже, сравнивать скорость нового решения AMD с ними не интересно — разница достигает 3-3.5 раза. RADEON HD 4670 теперь уступает HD 3870 в самом тяжёлом режиме, продолжая лидировать с запасом в остальных. Эту интересную закономерность мы отметили и в предыдущих обзорах — с ростом сложности геометрии разница между RV7xx и RV6xx снижается.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Тест «Waves» также показывает преимущество продукции AMD рассматриваемых ценовых секторов. Новая модель семейства RADEON HD 4600 смотрится удачно, показывая результат, близкий к HD 3870 и опережая оба решение на базе чипов Nvidia. И чем тяжелее режим, тем больше отстают видеокарты Geforce. Рассмотрим второй вариант этого же теста:

Изменений минимум, хотя с ростом сложности условий теста результаты видеоплат AMD стали ещё лучше относительно скорости карт Nvidia. Последние снова потеряли в скорости больше, чем решения производства AMD. Во всех режимах лучшей является скорость рассматриваемого сегодня RADEON HD 4670, он чуть-чуть превосходит HD 3870, пользуясь большей эффективностью текстурных выборок. Интересно, что даже HD 3650 в тяжёлых условиях впереди Geforce 9500 GT и 8600 GTX — можно порадоваться тому, что в наших тестах вершинных выборок положение плат AMD стало значительно лучше, чем это наблюдалось ранее.

Выводы по синтетическим тестам

На основе результатов синтетических тестов новой бюджетной модели RADEON HD 4670 на основе чипа RV730, а также других моделей видеокарт обоих основных производителей видеочипов, можно сделать вывод, что новые low-end решения компании AMD должны показать сравнительно сильные результаты и в игровых приложениях. Чип относится к новой архитектуре RV7xx, в которой было сделано большое количество архитектурных модификаций, и в большинстве синтетических тестов оно многократно опережает по скорости как соответствующие варианты видеокарт предыдущего поколения AMD, так и конкурентов от Nvidia. Во многих тестах карта на основе RV730 показывает результат на уровне решения предыдущего поколения из более высокого ценового диапазона, и даже выше. За это нужно благодарить архитектуру RV7xx, которая явно лучше удалась компании AMD, по сравнению с предыдущими.

Значительное увеличение производительности и эффективности RV7xx достигнуто не только за счёт увеличения количества исполнительных блоков, но и эффективных улучшений архитектуры по сравнению с RV6xx. В RV7xx исправили недостатки предыдущих GPU, увеличили количество текстурных модулей, усилили TMU и ROP и сделали другие изменения. Вследствие этого, линейка стала гораздо более эффективной и сбалансированной. Возможности и производительность всех важнейших блоков чипа улучшены, и новые видеокарты серии RADEON HD 4600 можно отлично подходят даже для современных игровых приложений, требовательных к шейдерной производительности, сложному текстурированию и филлрейту. Рассматриваемые чипы, RV730 и RV710, отличаются большим числом текстурных модулей даже по сравнению с RV770, и их результаты в реальных приложениях должны быть довольно высокими.

В следующей части нашей статьи традиционно содержатся тесты нового решения компании AMD в современных игровых приложениях. Игровые результаты должны примерно соответствовать нашим выводам при анализе результатов синтетических тестов, даже с учётом того, что скорость рендеринга в играх сильнее зависит от ПСП, скорости текстурирования и филлрейта, и отрыв HD 4670 там будет не таким большим, как в некоторых синтетических тестах. Но у новых решений серии мощность TMU и ROP довольно высока, и можно предположить, что в среднем скорость HD 4670 в играх точно превысит производительность основных конкурентов от Nvidia, и будет близка к скорости RADEON HD 3850.



ATI RADEON HD 4670 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia




Дополнительно

Почти половина от 4870 плюс 128bit шина, что получится? - RADEON HD 46xx - серия (RV730) с 512MB.

ATI RADEON HD 4670 512MB PCI-E (RV730)

Почти половина от 4870 плюс 128bit шина, что получится? –
Новый супершустряк в 3D-графике, если в кармане мало денег.


СОДЕРЖАНИЕ

  1. Часть 1 — Теория и архитектура
  2. Часть 2 — Практическое знакомство
  3. Особенности видеокарт
  4. Конфигурация стенда, список тестовых инструментов
  5. Результаты синтетических тестов
  6. Результаты игровых тестов (производительность)


ATI RADEON HD 4670: Часть 1: Теоретические сведения


В первой части мы рассказали о том, что собой теоретически представляет новый ускоритель (вернее целая серия), и уже там его набор функций смотрится очень солидно даже для такой дешевой видеокарты.

Неужели реально AMD смогла в бюджетное решение вложить столько силы, что оно может потягаться с предыдущими «середнячками»? А также быть впереди всех остальных продуктов того же класса по близким ценам? Наш материал покажет это.

Плата



ATI RADEON HD 4670 512MB PCI-E
  • GPU: RADEON HD 4670 (RV730)
  • Интерфейс: PCI-Express x16
  • Частоты работы GPU (ROPs/Shaders): 750/750 MHz (номинал — 750/750 МГц)
  • Частоты работы памяти (физическая (эффективная)): 1000 (2000) MHz (номинал — 900-1000 (1800-2000) МГц)
  • Ширина шины обмена с памятью: 128bit
  • Число вершинных процессоров: -
  • Число пиксельных процессоров: -
  • Число универсальных процессоров: 320
  • Число текстурных процессоров: 32 (BLF/TLF)
  • Число ROPs: 8
  • Размеры: 190x100x15 мм (последняя величина — максимальная толщина видеокарты).
  • Цвет текстолита: красный
  • RAMDACs/TMDS: интегрированы в GPU.
  • Выходные гнезда: 2xDVI (Dual-Link/HDMI), TV-out.
  • VIVO: нет
  • TV-out: интегрирован в GPU.
  • Поддержка многопроцессорной работы: CrossFire (Hardware).


ATI RADEON HD 4670 512MB PCI-E
Карта имеет 512 МБ памяти GDDR3 SDRAM, размещенной в 8 микросхемах ( по 4 на лицевой и оборотной сторонах PCB)

Микросхемы памяти Hynix (GDDR3). Микросхемы расчитаны на максимальную частоту работы в 1000 (2000) МГц.



Сравнение с эталонным дизайном, вид спереди
ATI RADEON HD 4670 512MB PCI-E Reference ATI RADEON HD 3650


Сравнение с эталонным дизайном, вид сзади
ATI RADEON HD 4670 512MB PCI-E Reference ATI RADEON HD 3650


Как мы видим, PCB от 3650 и 4670 очень близки, да и это понятно: шина одинаковая, память используется того же типа. Зачем велосипед придумывать? Да и потребление у новой карты весьма мало, потому в блоке питания особо ничего переделывать не придется.

Потому обе карты очень схожи.

Ядро имеет довольно малого размера кристалл, расположенный под углом 45 градусов к подложке.



Теперь о кулере. Система охлаждения очень проста, и мы ее часто видели. Это небольшой закрытый радиатор из медного сплава (потому прилично тяжелый), через который продувается воздух.

Турбина работает максимум на 2500 оборотов и потому ее особо не слышно.

Осталась одна непонятка: зачем в лицевой стороны карты охлаждать память тем же радиатором, но с оборотной стороны — нет никаких средств охлаждения? Может проще изменить конструкцию кулера так, чтобы радиатор стал шире и жффективнее, но при этом касался лишь одного ядра?





Видеокарты этой серии оснащены собственным звуковым кодеком, поэтому именно этот звуковой поток затем передается на HDMI (с помощью переходника DVI-to-HDMI). Поэтому, если кому эта функция важна, следите за тем, чтобы в комплекте поставки видеокарты был этот переходник.

Также еще раз отметим, что питание ускорителя осуществляется только по шине, никакого дополнительного внешнего питания не требуется.

У карты имеется гнездо TV-выхода, которое уникально по разъему, и для вывода изображения на ТВ как через S-Video, так и по RCA, требуются специальные адаптеры-переходники, поставляемые вместе с картой. Более подробно о ТВ-выходе можно почитать здесь.

Подключение к аналоговым мониторам с d-Sub (VGA) производится через специальные адаптеры-переходники DVI-to-d-Sub. Также поставляются переходники DVI-to-HDMI (мы помним, что данные ускорители поддерживают полноценную передачу видео и звука на HDMI-приемник), поэтому проблем с такими мониторами также не должно быть.

Максимальные разрешения и частоты:

  • 240 Hz Max Refresh Rate
  • 2048 × 1536 × 32bit x85Hz Max — по аналоговому интерфейсу
  • 2560 × 1600 @ 60Hz Max — по цифровому интерфейсу (все DVI-гнезда с Dual-Link)

Что касается возможностей видеокарт по проигрыванию MPEG2 (DVD-Video), то еще в 2002 году мы изучали этот вопрос, с тех пор мало что поменялось. В зависимости от фильма загрузка CPU при проигрывании на современных видеокартах не поднимается выше 25%.

По поводу HDTV. Одно из исследований также проведено, и с ним можно ознакомиться здесь.

К помощью утилиты RivaTuner (автор А.Николайчук AKA Unwinder) мы посмотрели на мониторинг работы карты.



Как мы видим, нагрев весьма велик для такого дешевого устройства. Явно эффективность данной СО невелика, и надеемся, что партнеры AMD предложат свои, более эффективные решения для аналогичных ускорителей.

Установка и драйверы

Конфигурация тестового стенда:

  • Компьютер на базе Intel Core2 (775 Socket)
    • процессор Intel Core2 Extreme QX9650 (3000 MHz);
    • системная плата Zotac 790i Ultra на чипсете Nvidia nForce 790i Ultra;
    • оперативная память 2 GB DDR3 SDRAM Corsair 2000MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
    • блок питания Tagan TG900-BZ 900W.
  • операционная система Windows Vista 32bit SP1; DirectX 10.1;
  • монитор Dell 3007WFP (30").
  • драйверы ATI версии CATALYST 8.8; Nvidia версии 177.79.

VSync отключен.

Синтетические тесты

Используемые нами пакеты синтетических тестов можно скачать здесь:

  • D3D RightMark Beta 4 (1050) с описанием на сайте 3d.rightmark.org
  • D3D RightMark Pixel Shading 2 и D3D RightMark Pixel Shading 3 — тесты пиксельных шейдеров версий 2.0 и 3.0 ссылка.
  • RightMark3D 2.0 с кратким описанием: Vista без SP1, Vista c SP1

Для работы RightMark3D 2.0 требуется установленный пакет MS Visual Studio 2005 runtime, а также последнее обновление DirectX runtime.

Синтетические тесты проводились на следующих видеокартах:

  • RADEON HD 4670 со стандартными параметрами (далее HD4670)
  • RADEON HD 3870 с частотами 750/1000 МГц (далее HD3870(750))
  • RADEON HD 3650 со стандартными параметрами (далее HD3650)
  • Nvidia Geforce 9500 GT со стандартными параметрами (далее GF9500GT)
  • Nvidia Geforce 8600 GTS со стандартными параметрами (далее GF8600GTS)

Для сравнения результатов новой модели RADEON HD 4670 были выбраны эти модели видеокарт по следующим причинам: RADEON HD 3870 на частотах 750/1000 МГц будет интересно сравнить с RADEON HD 4670, чтобы оценить влияние улучшений архитектуры в RV7xx по сравнению с RV6xx, а также разницу в производительности между поколениями. RADEON HD 3650 является той моделью, которую заменяет одна из моделей серии HD 4600 в продуктовой линейке компании AMD. Geforce 9500 GT — это один из основных конкурентов от Nvidia, также к ним можно приписать и до сих пор встречающуюся в продаже Geforce 8600 GTS. Есть и ещё один конкурент от Nvidia — Geforce 9600 GSO, но для наших синтетических тестов его присутствие не обязательно.

Direct3D 9: Тесты Pixel Filling

В тесте определяется пиковая производительность выборки текстур (texel rate) в режиме FFP для разного числа текстур, накладываемых на один пиксель:



Всё как обычно — в нашем устаревшем (замены пока нет) тесте многие видеокарты не достигают значений, близких к теоретическим. Чаще всего, результаты данной синтетики не дотягивают до теории, ближе всего к ним подобралась видеокарта RADEON HD 3650, показав почти равный теоретическому результат. Ну а для остальных видеокарт, отличающихся более совершенными TMU, и для Nvidia и для новых RV7xx, в нашем тесте теоретический максимум не достигается. Получается, что RV730 выбирает менее 16 текселей за один такт из 32-битных текстур при билинейной фильтрации, что значительно ниже теоретических цифр. И производительность, возможно, ограничена пропускной способностью видеопамяти.

Но и такой скорости для RV730 хватает. По сравнению с RV670 на тех же частотах показан весьма близкий результат, даже чуть выше. И это сравнение с чипом более высокого уровня, хотя и прошлого поколения со сниженной частотой. Если же сравнивать с картами Nvidia и старой HD 3650, то HD 4670 впереди на 80-100%, то есть до двух раз. Да и в тесте с одной текстурой HD 4670 немного уступает только HD 3870 за счёт меньшего эффективного филлрейта, но в случае с большим количеством текстур на пиксель, способности блоков ROP раскрываются, и в таких условиях карта на RV730 становится даже несколько быстрее. Посмотрим на результаты в тесте филлрейта:



Второй синтетический тест измеряет скорость заполнения, и в нём мы видим ту же самую ситуацию, но уже с учетом количества записанных в буфер кадра пикселей. В случаях с 0 и 1 накладываемыми текстурами у RADEON HD 4670 получается результат на уровне Geforce 8600 GTS, имеющей аналогичную пропускную способность памяти (в таких режимах производительность ограничена ПСП, прежде всего). Как и в предыдущем тесте, в ситуациях с большим количеством текстур на пиксель, новая видеоплата выходит далеко вперёд, показывая результат на уровне HD 3870 со сниженной частотой.

Direct3D 9: Тесты Geometry Processing Speed

Рассмотрим пару предельных геометрических тестов, и первым у нас будет самый простой вершинный шейдер, показывающий максимальную пропускную способность по треугольникам:



Все современные чипы основаны на унифицированных архитектурах, их универсальные исполнительные блоки в этом тесте заняты только геометрической работой, и решения показывают высокие результаты, явно упирающиеся не в пиковую производительность унифицированных блоков, а в производительность других блоков, например, triangle setup.

Результаты это и показывают — все видеокарты AMD на близких частотах показывают схожие результаты. Традиционно более высокие, чем результаты любых решений Nvidia. Скорость RADEON HD 4670 в этом тесте мало отличается от скорости остальных карт, этот тест зависит исключительно от тактовой частоты GPU. Переходим к рассмотрению самой сложной геометрической задачи с тремя источниками света, включающей статические и динамические переходы:



В этом варианте разница между решениями AMD и Nvidia видна значительно лучше, разрыв увеличился в несколько раз. Интересно, что здесь разница между картами AMD уже есть, даже между HD 3870 и HD 4670 на одинаковых частотах. Новая видеоплата нижнего ценового диапазона выглядит лучше, будучи во всех режимах ограничена чем-то вроде triangle setup, так как цифры мало изменились с прошлого теста. В этом тесте новая видеокарта AMD опережает обе Geforce в 4-6 раз.

Наверняка в этом случае отличились и потоковые процессоры, из-за большого количества которых новый чип отлично проявил себя в геометрических тестах. Но в реальных приложениях универсальные шейдерные процессоры заняты в основном пиксельными расчетами, к исследованию производительности которых мы и переходим.

Direct3D 9: Тесты Pixel Shaders

Первая группа пиксельных шейдеров, которую мы рассматриваем, является очень простой для современных видеочипов, она включает в себя различные версии пиксельных программ сравнительно низкой сложности: 1.1, 1.4 и 2.0.



Тесты слишком просты для современных архитектур, даже в low-end исполнении. Они показывают не всю силу GPU, но интересны для оценки баланса между текстурными выборками и математическими вычислениями при смене архитектур. Ведь в простых тестах производительность ограничена скоростью TMU, а видеокарта HD 4670, которую мы сегодня рассматриваем, основана на чипе RV730, улучшившем свои показатели по текстурированию. Так и получилось, HD 4670 почти во всех тестах опередил соперников, немного отстав только в одном от HD 3870. Разница производительности, по сравнению с решениями Nvidia, более чем двукратная.

И по сравнению RV670 и RV730 становится хорошо видно, какой тест ограничен математическими вычислениями, а какой — текстурными выборками. Например, все тесты процедурного текстурирования используют увеличенную производительность текстурирования в RV730, а вот тесты освещения загружают ALU математическими вычислениями, и поэтому RV670 и RV730 на одинаковой частоте показывают близкие результаты. Посмотрим на результаты тестов более сложных пиксельных программ промежуточных версий:



В целом, получилось то же самое, что и в предыдущем тесте — налицо разница между двумя тестами, один из которых нагружает работой текстурные блоки, а другой — ALU. В сильно зависящем от скорости текстурирования тесте процедурной визуализации воды «Water» используется зависимая выборка из текстур больших уровней вложенности, и карты располагаются по скорости текстурирования. RV730 в нём показывает результат почти в три раза быстрее HD 3870 и почти в четыре раза быстрее карт Nvidia!

А вот второй тест интенсивен вычислительно, и отлично подходит для всех архитектур AMD, обладающих большим количеством вычислительных блоков. В этом тесте новое low-end решение AMD показывает результат на уровне RADEON HD 3870, работающего на той же частоте, что полностью соответствует теории. Архитектурные изменения в семействе RV7xx явно очень удались компании AMD, повысив эффективность ALU, ещё больше они ускорили текстурирование.

Direct3D 9: Тесты пиксельных шейдеров New Pixel Shaders

Эти тесты пиксельных шейдеров DirectX 9 ещё сложнее, они делятся на две категории. Начнем с более простых шейдеров версии 2.0:

  • Parallax Mapping — знакомый по большинству современных игр метод наложения текстур, подробно описанный в статье Современная терминология 3D графики
  • Frozen Glass — сложная процедурная текстура замороженного стекла с управляемыми параметрами

Существует два варианта этих шейдеров: с ориентацией на математические вычисления, и с предпочтением выборки значений из текстур. Рассмотрим математически интенсивные варианты, более перспективные с точки зрения будущих приложений:



Это универсальные тесты, зависящие и от скорости блоков ALU и от скорости текстурирования, тут важен общий баланс чипа. Производительность видеокарт в тесте «Frozen Glass» ограничена не только математикой, но и скоростью текстурных выборок, поэтому старые решения RADEON показывали довольно слабые результаты. Зато наш сегодняшний герой в разы опережает всех, в том числе и HD 3870 на 80%. У него просто нет конкурентов, карты Nvidia отстали в 2.5-3 раза.

Во втором тесте «Parallax Mapping» решения AMD обычно ещё сильнее. Хотя по сравнению с HD 3870 в нём не такая большая разница, вероятно, скорость ALU играет большую роль, чем в предыдущем тесте. Но HD 4670 всё равно быстрее всех, обгоняя конкурентов Geforce более чем вдвое. Улучшения в TMU значительно усилили результат RV730 по сравнению с RV670, разница на той же частоте составляет 40%. Рассмотрим эти же тесты в модификации с предпочтением выборок из текстур математическим вычислениям, там результат RV730 может получиться ещё интереснее:



Так оно и есть, в первом тесте RADEON HD 4670 оторвался от остальных карт ещё дальше. Взаимное положение карт немного изменилось, появился больший упор производительности в скорость текстурных блоков. RV730 в обоих тестах показывает лучшие результаты, опережая RV670 в 2.5 раза в первом тесте и на треть — во втором. Карты Nvidia немного подтянулись повыше, хотя их это не спасло, уж слишком быстр RV730.

Рассмотрим результаты ещё двух тестов пиксельных шейдеров — версии 3.0, самых сложных из наших тестов пиксельных шейдеров для Direct3D 9. Тесты отличаются тем, что сильно нагружают и ALU и текстурные модули, обе шейдерные программы сложные, длинные, включают большое количество ветвлений:

  • Steep Parallax Mapping — значительно более «тяжелая» разновидность техники parallax mapping, также описанная в статье Современная терминология 3D графики
  • Fur — процедурный шейдер, визуализирующий мех



Ранее в этих тестах решения AMD довольно сильно проигрывали картам Nvidia, хотя это не касается младших Geforce, которые также показывают низкие результаты в этих тестах. Но с новой архитектурой RV7xx мы увидели огромный прирост производительности в PS 3.0 тестах. RADEON HD 4670 теперь впереди всех решений, и он опережает HD 3870 на тех же частотах в 1.7-2 раза.

С другими участниками тестов новую карту AMD и сравнивать то неприлично, Geforce 9500 GT медленнее в 3.6-3.7 раза, а Geforce 8600 GTS — в три раза. Предыдущее решение этого же ценового диапазона от AMD где-то там же. Налицо превосходные результаты переработанной архитектуры AMD, которые можно объяснить значительно увеличенным количеством исполнительных блоков, улучшенной архитектурой, а также большей эффективностью использования имеющихся ресурсов.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (текстурирование, циклы)

В новую версию RightMark3D 2.0 вошли два знакомых PS 3.0 теста под Direct3D 9, которые были переписаны под DirectX 10, а также ещё два полностью новых теста. В первую пару добавились возможности включения самозатенения и шейдерного суперсэмплинга, что дополнительно увеличивает нагрузку на видеочипы.

Данные тесты измеряют производительность выполнения пиксельных шейдеров с циклами, при большом количестве текстурных выборок (в самом тяжелом режиме до нескольких сотен выборок на пиксель!) и сравнительно небольшой загрузке ALU. Иными словами, в них измеряется скорость текстурных выборок и эффективность ветвлений в пиксельном шейдере.

Первым тестом пиксельных шейдеров будет Fur. При самых низких настройках в нём используется от 15 до 30 текстурных выборок из карты высот и две выборки из основной текстуры. Режим Effect detail — «High» увеличивает количество выборок до 40-80, включение «шейдерного» суперсэмплинга — до 60-120 выборок, а режим «High» совместно с SSAA отличается максимальной «тяжестью» — от 160 до 320 выборок из карты высот.

Проверим сначала режимы без включенного суперсэмплинга, они относительно просты, и соотношение результатов в режимах «Low» и «High» должно быть примерно одинаковым.

Производительность в этом тесте зависит не только от количества и скорости блоков TMU, но и от филлрейта и ПСП. Результаты в «High» получились примерно в полтора раза ниже, чем в «Low». Наконец-то, Direct3D 10 тесты процедурной визуализации меха с большим количеством текстурных выборок хоть какое-то из решений AMD показывает результат, схожий с конкурирующими картами Nvidia. Вообще, таких низких результатов у остальных решений AMD быть не должно, по идее.

Герой обзора RADEON HD 4670 показывает скорость примерно на уровне уже старой модели Geforce 8600 GTS и даже опережает новую Geforce 9500 GT. Остальные платы AMD отстают, HD 4670 более чем в полтора раза быстрее HD 3870 на той же частоте, а RADEON HD 3650 вообще в четыре раза медленнее нового low-end решения компании. Посмотрим на результат этого же теста, но с включенным «шейдерным» суперсэмплингом, увеличивающим работу в четыре раза, возможно в такой ситуации что-то изменится, и ПСП с филлрейтом будут влиять меньше:

Включение суперсэмплинга теоретически увеличивает нагрузку в четыре раза. В этот раз преимущество карт Nvidia уже испарилось, их обгоняет и HD 3870 (хотя сравнивать их, конечно же, неправильно). С увеличением сложности шейдера и нагрузки на видеочип, разница между HD 4670 и HD 3870 достигает почти двукратной. Обе Geforce также в два и более раз медленнее новой видеокарты в этом тесте. AMD явно исправляется, даже в нашем D3D10 пакете уже почти не осталось слабых мест для их решений.

Второй тест, измеряющий производительность выполнения сложных пиксельных шейдеров с циклами при большом количестве текстурных выборок называется Steep Parallax Mapping. При низких настройках он использует от 10 до 50 текстурных выборок из карты высот и три выборки из основных текстур. При включении тяжелого режима с самозатенением, число выборок возрастает в два раза, а суперсэмплинг увеличивает это число в четыре раза. Наиболее сложный тестовый режим с суперсэмплингом и самозатенением выбирает от 80 до 400 текстурных значений, то есть в восемь раз больше, по сравнению с простым режимом. Проверяем сначала простые варианты без суперсэмплинга:

Тест интереснее с практической точки зрения, ведь разновидности parallax mapping давно применяются в играх, а тяжелые варианты, вроде нашего steep parallax mapping используются в некоторых проектах, например, в Crysis и Lost Planet. Кроме того, в нашем тесте, помимо суперсэмплинга, можно включить самозатенение, увеличивающее нагрузку на видеочип примерно в два раза, такой режим называется «High».

Почти повторилась ситуация предыдущего теста. В обновленном D3D10 варианте теста без суперсэмплинга, RADEON HD 4670 лучше всех справляется со своей задачей. И обе видеокарты Geforce остаются позади, и HD 3870 на сниженных частотах. Явно тесту важна производительность текстурных выборок. Интересно, что включение самозатенения вызывает на продукции AMD несколько большее падение производительности, по сравнению с разницей для решений Nvidia.

Рассматриваемый нами сегодня RADEON HD 4670 снова с большим преимуществом победил предшественников от компании AMD, причём из разных ценовых секторов. Разница между HD 4670 и HD 3870 на равных частотах достигла 45-65%. Посмотрим, что изменит включение суперсэмплинга, в прошлом тесте он вызывал большее падение скорости на картах Nvidia.

При включении суперсэмплинга и самозатенения задача получается более тяжёлой, совместное включение сразу двух опций увеличивает нагрузку на карты почти в восемь раз, вызывая большое падение производительности. Разница между показателями видеокарт уже несколько иная, а включение суперсэмплинга сказывается как и в предыдущем случае — карты производства AMD улучшают свои показатели относительно решений Nvidia. Интересующий нас RADEON HD 4670 продолжает заметно выигрывать как у обеих видеокарт Nvidia Geforce, так и почти в полтора раза обгоняет HD 3870 на той же частоте. RADEON HD 3650 на основе старой архитектуры остался далеко позади.

Direct3D 10: Тесты пиксельных шейдеров PS 4.0 (вычисления)

Следующая пара тестов пиксельных шейдеров содержит минимальное количество текстурных выборок для снижения влияния производительности блоков TMU. В них используется большое количество арифметических операций, и измеряют они именно математическую производительность видеочипов, скорость выполнения арифметических инструкций в пиксельном шейдере.

Первый математический тест — Mineral. Это тест сложного процедурного текстурирования, в котором используются лишь две выборки из текстурных данных и 65 инструкций типа sin и cos.

При анализе результатов наших синтетических тестов, мы всегда отмечаем, что в вычислительно сложных задачах современные архитектуры AMD показывают себя лучше конкурирующих от Nvidia. Ситуация изменялась со временем, и если в соперничестве RADEON HD 3650 и Geforce 9500 GT решение AMD выигрывает совсем чуть-чуть, то новичок HD 4670 разрывает конкурентов в клочья, показывая отличную производительность на уровне видеоплат более высокого уровня.

Видеокарта на основе нового чипа RV730 в 2.7-3.1 раза обгоняет своих прямых конкурентов от Nvidia, и примерно во столько же раз опередила HD 3650 прошлого поколения. Интересно, что несмотря на одинаковые тактовые частоты, HD 4670 немного (на 10%) обгоняет и HD 3870, имеющий ровно столько же потоковых процессоров. Похоже, что на результаты теста небольшое влияние оказали и небольшие изменения в RV7xx, направленные на увеличение вычислительной эффективности ALU.

Второй тест шейдерных вычислений носит название Fire, и он ещё более тяжёл для ALU. В нём текстурная выборка только одна, а количество инструкций типа sin и cos увеличено вдвое, до 130. Посмотрим, что изменилось при увеличении нагрузки:

В данном тесте скорость рендеринга также ограничена почти исключительно производительностью шейдерных блоков, и мы видим схожий результат, хотя разница между решениями даже стала ещё чуть большей. Видно, что RADEON HD 4670 в этом тесте показывает скорость в 3-3.5 раза выше, чем у обеих Geforce и HD 3650. И в этом тесте новая видеокарта снова обгоняет HD 3870, работающую на той же тактовой частоте, и уже почти на 12%. В общем, по математическим вычислениям лидерство явно за новым решением компании AMD.

Direct3D 10: Тесты геометрических шейдеров

В пакете RightMark3D 2.0 есть два теста скорости геометрических шейдеров, первый вариант носит название «Galaxy», техника аналогична «point sprites» из предыдущих версий Direct3D. В нем анимируется система частиц на GPU, геометрический шейдер из каждой точки создает четыре вершины, образующих частицу. Аналогичные алгоритмы должны получить широкое использование в будущих DirectX 10 играх.

Изменение балансировки в тестах геометрических шейдеров не влияет на конечный результат рендеринга, итоговая картинка всегда абсолютно одинакова, изменяются лишь способы обработки сцены. Параметр «GS load» определяет, в каком из шейдеров производятся вычисления — в вершинном или геометрическом. Количество вычислений всегда одинаково.

Рассмотрим первый вариант теста «Galaxy», с вычислениями в вершинном шейдере, для трёх уровней геометрической сложности:

Соотношение скоростей при разной геометрической сложности сцен примерно одинаковое, производительность соответствует количеству точек, с каждым шагом падение FPS составляет около двух раз. Задача для современных видеокарт не очень сложная и ограничение скорости мощностью потоковых процессоров в тесте не явное, задача ограничена также и ПСП и филлрейтом.

Очень интересно уже то, что HD 3650 обогнал HD 3870, ведь никаких видимых причин этому просто нет, даже частоты схожие. Да и карта на RV730 не слишком сильно обогнала HD 3650, даже учитывая то, что в архитектуре RV7xx компания AMD обещала увеличение эффективности исполнения геометрических шейдеров. Итак, своих сородичей RADEON HD 4670 обгоняет, но конкурирующие решения от Nvidia показывают более высокие результаты. Причём, как ни странно, Geforce 9500 GT впервые оказывается быстрее Geforce 8600 GTS. Возможно, при переносе части вычислений в геометрический шейдер ситуация изменится, посмотрим:

Но нет, разница между рассмотренными вариантами теста не так велика и существенных изменений не видно. Обе видеокарты Nvidia показывают чуть меньшие результат при изменении параметра GS load, отвечающем за перенос части вычислений в геометрический шейдер, а результаты видеоплат AMD, наоборот, немного вырастают. И теперь HD 4670 показывает скорость на уровне Geforce 8600 GTS, немного отставая от Geforce 9500 GT. Но с остальными RADEON он вполне справился. Посмотрим, что изменится в следующем тесте, который предполагает большую нагрузку именно на геометрические шейдеры…

«Hyperlight» — это второй тест геометрических шейдеров, демонстрирующий использование сразу нескольких техник: instancing, stream output, buffer load. В нем используется динамическое создание геометрии при помощи отрисовки в два буфера, а также новая возможность Direct3D 10 — stream output. Первый шейдер генерирует направление лучей, скорость и направление их роста, эти данные помещаются в буфер, который используется вторым шейдером для отрисовки. По каждой точке луча строятся 14 вершин по кругу, всего до миллиона выходных точек.

Новый тип шейдерных программ используется для генерации «лучей», а с параметром «GS load», выставленном в «Heavy» — ещё и для их отрисовки. То есть, в режиме «Balanced» геометрические шейдеры используются только для создания и «роста» лучей, вывод осуществляется при помощи «instancing», а в режиме «Heavy» выводом также занимается геометрический шейдер. Сначала рассматриваем лёгкий режим:

Относительные результаты в разных режимах соответствуют нагрузке: во всех случаях производительность неплохо масштабируется и близка к теоретическим параметрам, по которым каждый следующий уровень «Polygon count» должен быть в два раза медленней. В этот раз скорость RADEON 4670 не настолько сильнее, чем у предыдущих решений, и все карты производства AMD всё так же отстают от решений Nvidia.

В прошлые разы мы определили, что упор в тесте получается во что-то отличное от ПСП, филлрейта и вычислительной мощности. В этом тесте ситуация запутывается ещё больше, взаимное расположение карт Nvidia меняется, теперь 8600 GTS быстрее 9500 GT. Впрочем, у рассматриваемого HD 4670 неплохие показатели, похоже, что на его результат повлияли улучшенные возможности текстурирования. Цифры должны измениться на следующей диаграмме, в тесте с более активным использованием геометрических шейдеров. Также будет интересно сравнить друг с другом результаты, полученные в «Balanced» и «Heavy» режимах.

Наконец-то явно видно, что в RV7xx было улучшено исполнение геометрических шейдеров, инженеры компании устранили один из недостатков предыдущих архитектур, и в этих условиях новое решение опережает и Geforce 9500 GT и Geforce 8600 GTS. Хотя тут все Geforce очень слабы, кроме новейшей серии Geforce GTX 200.

Что касается сравнения результатов в разных режимах, тут всё как всегда, видеоплаты AMD при переходе от использования «instancing» к геометрическому шейдеру при выводе, улучшают свои показатели, а видеокарты Nvidia теряют в производительности. И если сравнивать цифры, полученные в разных режимах, при условии неизменности получаемой картинки, можно признать, что видеокарты Nvidia всё равно остаются впереди, пусть и не так уж далеко.

Direct3D 10: Скорость выборки текстур из вершинных шейдеров

В тестах «Vertex Texture Fetch» измеряется скорость большого количества текстурных выборок из вершинного шейдера. Тесты схожи по сути и соотношение между результатами карт в тестах «Earth» и «Waves» должно быть примерно одинаковым. В обоих тестах используется displacement mapping на основании данных текстурных выборок, единственное существенное отличие состоит в том, что в тесте «Waves» используются условные переходы, а в «Earth» — нет.

Рассмотрим первый тест «Earth», сначала в режиме «Effect detail Low»:

Судя по предыдущим исследованиям, на результаты этого теста сильно влияет не только скорость текстурирования, но и пропускная способность памяти. И чем проще режим, тем большее влияние на скорость она оказывает. Что мы и видим по сегодняшним результатам. Интересно, что изменение режима на RADEON HD 3870 со сниженными частотами влияет не так, как на HD 4670. Вероятно, последнюю больше всего ограничивает именно ПСП.

Во всех режимах лидером является рассматриваемая сегодня low-end карта AMD, хотя в самом тяжёлом её догоняет RADEON HD 3870. Конкурентов от Nvidia сегодняшний герой опережает в этом тесте на 30-300%, в зависимости от режима и модели видеокарты. Разница с предшествующей моделью этого же ценового диапазона RADEON HD 3650 менее двух раз, что также говорит об ограничении ПСП. Посмотрим на результаты этого же теста с увеличенным количеством текстурных выборок:

Ситуация изменилась, HD 3870 показывает лучший результат, а обе Geforce откатились ещё ниже, сравнивать скорость нового решения AMD с ними не интересно — разница достигает 3-3.5 раза. RADEON HD 4670 теперь уступает HD 3870 в самом тяжёлом режиме, продолжая лидировать с запасом в остальных. Эту интересную закономерность мы отметили и в предыдущих обзорах — с ростом сложности геометрии разница между RV7xx и RV6xx снижается.

Рассмотрим результаты второго теста текстурных выборок из вершинных шейдеров. Тест «Waves» отличается меньшим количеством выборок, зато в нём используются условные переходы. Количество билинейных текстурных выборок в данном случае до 14 («Effect detail Low») или до 24 («Effect detail High») на каждую вершину. Сложность геометрии изменяется аналогично предыдущему тесту.

Тест «Waves» также показывает преимущество продукции AMD рассматриваемых ценовых секторов. Новая модель семейства RADEON HD 4600 смотрится удачно, показывая результат, близкий к HD 3870 и опережая оба решение на базе чипов Nvidia. И чем тяжелее режим, тем больше отстают видеокарты Geforce. Рассмотрим второй вариант этого же теста:

Изменений минимум, хотя с ростом сложности условий теста результаты видеоплат AMD стали ещё лучше относительно скорости карт Nvidia. Последние снова потеряли в скорости больше, чем решения производства AMD. Во всех режимах лучшей является скорость рассматриваемого сегодня RADEON HD 4670, он чуть-чуть превосходит HD 3870, пользуясь большей эффективностью текстурных выборок. Интересно, что даже HD 3650 в тяжёлых условиях впереди Geforce 9500 GT и 8600 GTX — можно порадоваться тому, что в наших тестах вершинных выборок положение плат AMD стало значительно лучше, чем это наблюдалось ранее.

Выводы по синтетическим тестам

На основе результатов синтетических тестов новой бюджетной модели RADEON HD 4670 на основе чипа RV730, а также других моделей видеокарт обоих основных производителей видеочипов, можно сделать вывод, что новые low-end решения компании AMD должны показать сравнительно сильные результаты и в игровых приложениях. Чип относится к новой архитектуре RV7xx, в которой было сделано большое количество архитектурных модификаций, и в большинстве синтетических тестов оно многократно опережает по скорости как соответствующие варианты видеокарт предыдущего поколения AMD, так и конкурентов от Nvidia. Во многих тестах карта на основе RV730 показывает результат на уровне решения предыдущего поколения из более высокого ценового диапазона, и даже выше. За это нужно благодарить архитектуру RV7xx, которая явно лучше удалась компании AMD, по сравнению с предыдущими.

Значительное увеличение производительности и эффективности RV7xx достигнуто не только за счёт увеличения количества исполнительных блоков, но и эффективных улучшений архитектуры по сравнению с RV6xx. В RV7xx исправили недостатки предыдущих GPU, увеличили количество текстурных модулей, усилили TMU и ROP и сделали другие изменения. Вследствие этого, линейка стала гораздо более эффективной и сбалансированной. Возможности и производительность всех важнейших блоков чипа улучшены, и новые видеокарты серии RADEON HD 4600 можно отлично подходят даже для современных игровых приложений, требовательных к шейдерной производительности, сложному текстурированию и филлрейту. Рассматриваемые чипы, RV730 и RV710, отличаются большим числом текстурных модулей даже по сравнению с RV770, и их результаты в реальных приложениях должны быть довольно высокими.

В следующей части нашей статьи традиционно содержатся тесты нового решения компании AMD в современных игровых приложениях. Игровые результаты должны примерно соответствовать нашим выводам при анализе результатов синтетических тестов, даже с учётом того, что скорость рендеринга в играх сильнее зависит от ПСП, скорости текстурирования и филлрейта, и отрыв HD 4670 там будет не таким большим, как в некоторых синтетических тестах. Но у новых решений серии мощность TMU и ROP довольно высока, и можно предположить, что в среднем скорость HD 4670 в играх точно превысит производительность основных конкурентов от Nvidia, и будет близка к скорости RADEON HD 3850.



ATI RADEON HD 4670 — Часть 3: Игровые тесты (производительность)



Блок питания для тестового стенда предоставлен компанией TAGAN
Монитор Dell 3007WFP для тестовых стендов предоставлен компанией Nvidia