ATI RADEON 9700 Pro 128MB


" Это он, это он, это новый Radeon!"
(почти по Маршаку)

Для начала, настоятельно рекомендуем прочитать аналитическую статью, посвященную архитектуре и спецификациям RADEON 9700 (R300)

СОДЕРЖАНИЕ

  1. Общие сведения
  2. Теоретические аспекты реализации анитиалиасинга и анизотропной фильтрации
  3. Особенности видеокарты ATI RADEON 9700 Pro 128MB
  4. Конфигурации тестовых стендов и особенности настроек драйверов
  5. Результаты тестов: коротко о 2D, предельные из DirectX 8.1 SDK и синтетические (на базе DirectX 9.0) тесты
  6. Результаты тестов: Синтетические тесты 3DMark2001 SE
  7. Результаты тестов: Игровые тесты 3DMark2001 SE
  8. Результаты тестов: Quake3 ARENA
  9. Результаты тестов: Serious Sam: The Second Encounter
  10. Результаты тестов: Return to Castle Wolfenstein
  11. Результаты тестов: Code Creatures DEMO
  12. Результаты тестов: Comanche4 DEMO
  13. Результаты тестов: Unreal Tournament 2003 DEMO
  14. Результаты тестов: AquaMark
  15. Результаты тестов: RightMark 3D
  16. Качество 3D: Анизотропная фильтрация
  17. Качество 3D: Анти-алиасинг
  18. Качество 3D в целом
  19. Выводы

В этом обзоре, мы не будем повторно описывать архитектуру или спецификации чипа RADEON 9700 (известного также под кодовым названием R300), а займемся подробным практическим исследованием его возможностей и аспектов производительности. На данный момент, линейка карт на базе различных вариантов R300 выглядит следующим образом:

  • RADEON 9700 PRO — 325 МГц чип, 128 Мбайт 310 МГц (DDR 620) 256 бит локальной памяти;
  • RADEON 9700 — 300 МГц чип, 128 Мбайт 300 МГц (DDR 600) 256 бит локальной памяти;
  • RADEON 9500 — урезанный до 4-х конвейеров чип, 128 бит локальная память;

Мы будем исследовать старшую и единственную доступную на данный момент карту линейки — RADEON 9700 PRO. Впервые тестирование производительности и возможностей чипа проводится на DirectX 9 (бета 2). Прежде, чем приступить к практическим тестам производительности, приведем список возможностей DX9, поддерживаемых картой на данный момент (в скобках приведены оценки конкретных значений параметров):

  • Размер текстур — до 2048x2048 (стандартно)
  • Возможны неквадратные текстуры (хорошо)
  • Максимальное число источников света — 8 (стандартно)
  • Число текстурных стадий — 8 (отлично)
  • Число комбинационных стадий — 8 (стандартно)
  • Число плоскостей отсечения — 6 (отлично)
  • Максимальный размер спрайтов — 256 (отлично)
  • Максимальное число примитивов за один вызов — 65535 (спорно)
  • Размер вершинного буфера — 16777215 (отлично)
  • Максимальное число потоков вершин — 16 (отлично)
  • Максимальная версия вершинных шейдеров — 1.1 (непорядок)
  • Число констант вершинного шейдера — 256 (отлично)
  • Максимальная версия пиксельных шейдеров — 1.4 (непорядок)
  • Максимальное значение пиксельного шейдера — 3.40282E+038 (максимально число для плавающего формата F32, отлично)
  • Режимы мультисамплинга: нет, 2, 4, 6 отсчетов (только в режиме X8R8G8B8, в режиме кадрового буфера с альфаканалом A8R8G8B8 мультисамплинг недоступен).
  • Форматы итогового буфера (хорошо):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
  • Форматы буфера глубины (хорошо):
    • D3DFMT_D16_LOCKABLE
    • D3DFMT_D24S8
    • D3DFMT_D24X8
    • D3DFMT_D16
  • Форматы текстур (странно):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_V8U8
    • D3DFMT_L6V5U5
    • D3DFMT_X8L8V8U8
    • D3DFMT_Q8W8V8U8
    • D3DFMT_V16U16
    • D3DFMT_UYVY
    • D3DFMT_YUY2
  • Форматы кубических текстур (нормально):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_UYVY
    • D3DFMT_YUY2
  • Форматы объемных текстур (нормально):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_UYVY
    • D3DFMT_YUY2
    Режимы фильтрации обычных текстур (отлично):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MINFANISOTROPIC
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR
    • D3DPTFILTERCAPS_MAGFANISOTROPIC
  • Режимы фильтрации кубических текстур (хорошо):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR
  • Режимы фильтрации объемных текстур (хорошо):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR

Искушенный читатель сразу отметит, что никакого DX9 мы здесь не наблюдаем. Дело в том, что доступные на данный момент драйверы содержат лишь старый DDI8 (Direct Driver Interface 8) интерфейс для драйверов и по определению не могут предлагать выходящих за рамки DX8 возможностей. Только с появлением у нас DDI9 драйвера (судя по всему, ATI сможет предоставить его кому-либо только тогда, когда Microsoft закончит вносить изменения в DX9 и даст соответствующее разрешение) мы сможем проверить новые возможности чипа, пока же нам придется ограничиться подробным исследованием хорошо знакомых. Несмотря на то, что DX9 работает с такими драйверами без потери скорости (результаты приложений отличаются от DX8 в пределах погрешности) нам недоступны самые интересные новый возможности RADEON 9700 PRO — вторые версии пиксельных и вершинных шейдеров или плавающие форматы текстур и буфера кадров. С другой стороны, ничего не мешает нам подробно исследовать производительность и реализацию АА, анизотропной фильтрации и просто предельные характеристики чипа, такие как скорость закраски или производительность геометрического блока.

Отметим, также, что из-за раннего драйвера (или особенностей работы DX9 с DDI8) в списке поддерживаемых текстур отсутствуют какие-либо сжатые форматы.

Приведем список доступных на данный момент OpenGL расширений и версию OpenGL ICD:

ATI, Radeon 9700 x86/SSE2, version 1.3.3259 NVIDIA, GeForce4 Ti 4600/AGP/SSE2, version 1.3.1 ATI, Radeon 8500 DDR x86/SSE2, version 1.3.2475
GL_ARB_depth_texture GL_ARB_imaging GL_ARB_multitexture
GL_ARB_multitexture GL_ARB_multisample GL_ARB_texture_border_clamp
GL_ARB_point_parameters GL_ARB_multitexture GL_ARB_texture_compression
GL_ARB_shadow GL_ARB_texture_border_clamp GL_ARB_texture_cube_map
GL_ARB_shadow_ambient GL_ARB_texture_compression GL_ARB_texture_env_add
GL_ARB_texture_border_clamp GL_ARB_texture_cube_map GL_ARB_texture_env_combine
GL_ARB_texture_compression GL_ARB_texture_env_add GL_ARB_texture_env_crossbar
GL_ARB_texture_cube_map GL_ARB_texture_env_combine GL_ARB_texture_env_dot3
GL_ARB_texture_env_add GL_ARB_texture_env_dot3 GL_ARB_transpose_matrix
GL_ARB_texture_env_combine GL_ARB_transpose_matrix GL_ARB_vertex_blend
GL_ARB_texture_env_crossbar GL_S3_s3tc GL_ARB_window_pos
GL_ARB_texture_env_dot3 GL_EXT_abgr GL_S3_s3tc
GL_ARB_transpose_matrix GL_EXT_bgra GL_ATI_element_array
GL_ARB_vertex_blend GL_EXT_blend_color GL_ATI_envmap_bumpmap
GL_ARB_vertex_program GL_EXT_blend_minmax GL_ATI_fragment_shader
GL_ARB_window_pos GL_EXT_blend_subtract GL_ATI_map_object_buffer
GL_S3_s3tc GL_EXT_compiled_vertex_array GL_ATI_pn_triangles
GL_ATI_element_array GL_EXT_separate_specular_color GL_ATI_texture_mirror_once
GL_ATI_envmap_bumpmap GL_EXT_fog_coord GL_ATI_vertex_array_object
GL_ATI_fragment_shader GL_EXT_multi_draw_arrays GL_ATI_vertex_streams
GL_ATI_map_object_buffer GL_EXT_packed_pixels GL_ATIX_texture_env_combine3
GL_ATI_separate_stencil GL_EXT_paletted_texture GL_ATIX_texture_env_route
GL_ATI_texture_mirror_once GL_EXT_point_parameters GL_ATIX_vertex_shader_output_point_size
GL_ATI_vertex_array_object GL_EXT_rescale_normal GL_EXT_abgr
GL_ATI_vertex_streams GL_EXT_clip_volume_hint GL_EXT_bgra
GL_ATIX_texture_env_route GL_EXT_draw_range_elements GL_EXT_blend_color
GL_ATIX_vertex_shader_output_point_size GL_EXT_shared_texture_palette GL_EXT_blend_func_separate
GL_EXT_abgr GL_EXT_stencil_wrap GL_EXT_blend_minmax
GL_EXT_bgra GL_EXT_texture3D GL_EXT_blend_subtract
GL_EXT_blend_color GL_EXT_texture_compression_s3tc GL_EXT_clip_volume_hint
GL_EXT_blend_func_separate GL_EXT_texture_edge_clamp GL_EXT_compiled_vertex_array
GL_EXT_blend_minmax GL_EXT_texture_env_add GL_EXT_draw_range_elements
GL_EXT_blend_subtract GL_EXT_texture_env_combine GL_EXT_fog_coord
GL_EXT_clip_volume_hint GL_EXT_texture_env_dot3 GL_EXT_packed_pixels
GL_EXT_compiled_vertex_array GL_EXT_texture_cube_map GL_EXT_point_parameters
GL_EXT_draw_range_elements GL_EXT_texture_filter_anisotropic GL_ARB_point_parameters
GL_EXT_fog_coord GL_EXT_texture_lod GL_EXT_rescale_normal
GL_EXT_packed_pixels GL_EXT_texture_lod_bias GL_EXT_secondary_color
GL_EXT_point_parameters GL_EXT_texture_object GL_EXT_separate_specular_color
GL_EXT_rescale_normal GL_EXT_vertex_array GL_EXT_stencil_wrap
GL_EXT_secondary_color GL_EXT_vertex_weighting GL_EXT_texgen_reflection
GL_EXT_separate_specular_color GL_HP_occlusion_test GL_EXT_texture_env_add
GL_EXT_stencil_wrap GL_IBM_texture_mirrored_repeat GL_EXT_texture3D
GL_EXT_texgen_reflection GL_KTX_buffer_region GL_EXT_texture_compression_s3tc
GL_EXT_texture_env_add GL_NV_blend_square GL_EXT_texture_cube_map
GL_EXT_texture3D GL_NV_copy_depth_to_color GL_EXT_texture_edge_clamp
GL_EXT_texture_compression_s3tc GL_NV_evaluators GL_EXT_texture_env_combine
GL_EXT_texture_cube_map GL_NV_fence GL_EXT_texture_env_dot3
GL_EXT_texture_edge_clamp GL_NV_fog_distance GL_EXT_texture_lod_bias
GL_EXT_texture_env_combine GL_NV_light_max_exponent GL_EXT_texture_filter_anisotropic
GL_EXT_texture_env_dot3 GL_NV_multisample_filter_hint GL_EXT_texture_object
GL_EXT_texture_filter_anisotropic GL_NV_occlusion_query GL_EXT_vertex_array
GL_EXT_texture_lod_bias GL_NV_packed_depth_stencil GL_EXT_vertex_shader
GL_EXT_texture_object GL_NV_point_sprite GL_KTX_buffer_region
GL_EXT_vertex_array GL_NV_register_combiners GL_NV_texgen_reflection
GL_EXT_vertex_shader GL_NV_register_combiners2 GL_NV_blend_square
GL_HP_occlusion_test GL_NV_texgen_reflection GL_SGI_texture_edge_clamp
GL_KTX_buffer_region GL_NV_texture_compression_vtc GL_SGIS_texture_border_clamp
GL_NV_texgen_reflection GL_NV_texture_env_combine4 GL_SGIS_texture_lod
GL_NV_blend_square GL_NV_texture_rectangle GL_SGIS_generate_mipmap
GL_SGI_texture_edge_clamp GL_NV_texture_shader GL_SGIS_multitexture
GL_SGIS_texture_border_clamp GL_NV_texture_shader2 GL_WIN_swap_hint
GL_SGIS_texture_lod GL_NV_texture_shader3 WGL_EXT_extensions_string
GL_SGIS_generate_mipmap GL_NV_vertex_array_range WGL_EXT_swap_control
GL_SGIS_multitexture GL_NV_vertex_array_range2 -
GL_WIN_swap_hint GL_NV_vertex_program -
WGL_EXT_extensions_string GL_NV_vertex_program1_1 -
WGL_EXT_swap_control GL_SGIS_generate_mipmap -
GL_ARB_multisample GL_SGIS_multitexture -
- GL_SGIS_texture_lod -
- GL_SGIX_depth_texture -
- GL_SGIX_shadow -
- GL_WIN_swap_hint -
- WGL_EXT_swap_control -

Теоретические аспекты реализации анитиалиасинга и анизотропной фильтрации

В отличие от предыдущего чипа, в R300 исправлена вызвавшая множество нареканий особенность реализации анизотропии на основе RIP-маппинга — теперь ей не страшен поворот вокруг оси Z. Вне зависимости от угла наклона плоскости относительно этой оси, анизотропия работает как положено. Интересно, что, вопреки большинству мнений, эта особенность не была недостатком самой методики RIP- маппинга, а лишь конкретной особенностью его конкретной реализации в предыдущих чипах ATI. Впрочем, за более корректную реализацию, которую мы наблюдаем теперь в R300, придется заплатить несколько увеличившимся падением производительности (впрочем, далее мы подробно исследуем этот вопрос).

AA тоже претерпел изменения. Как и раньше, выбирается одна из псевдослучайных хаотических масок с двумя, четырьмя или шестью семплами (главное отличие от NVIDIA, где маска хоть и зависит от метода сглаживания, но всегда одинакова). Но, на этот раз, семплы выбираются методом мультисамплинга, как и в чипах NVIDIA. Следует ожидать, что скорость закраски самих полигонов существенно возрастет, на их краях ситуация (внешняя) останется прежней, но, потенциально, края под прозрачными полигонами будут обрабатываться неверно. Чтож, это расплата за повышенную скорость АА. Далее мы подробно исследуем скорость и качество АА на практике.

А теперь, как обычно перед анализом результатов тестирования, мы рассмотрим непосредственно саму карту.

Плата

Карта снабжена интерфейсом AGP x4/x8, 128 МБ локальной памяти DDR SDRAM (восемь микросхем, размещенных на лицевой и оборотной сторонах PCB).

На карте установлены микросхемы памяти Samsung марки K4D26323RA-GC2A, форм-фактора BGA. Максимальная частота работы — 350 (700) МГц, поэтому можно сделать вывод, что время выборки — 2,8 нс, а не 2,2, как было указано ранее в некоторых обзорах. По умолчанию память работает на частоте 310 (620) МГц

Микросхемы памяти в новой BGA-упаковке уже стали весьма популярными среди производителей видеокарт, и мы не станем лишний раз рссказывать о преимуществах использования микросхем в таких корпусах.

ATI RADEON 9700 Pro 128MB

Перед нами карта весьма обычного, на первый взгляд, дизайна. Разумеется, наличие 256-битной высокоскоростной шины не может не привести к усложнению PCB. Но, если на платах от Matrox и 3Dlabs мы видели наличие большого экрана, предохраняющего от наводок, то здесь он имеется только в левой части PCB:


А основная часть PCB, где расположены микросхемы памяти и чип, не защищена никаким экранированием:


Интересной особенностью карты является обязательное внешнее питание. В комплект поставки входит переходник-разветвитель, позволяющий без проблем подключить к плате стандартный "хвост" от блока питания:


Карта снабжена обычным набором интерфейсных разъемов: VGA, DVI и TV-out (S-Video). Для подключения TV-out через RCA в комплект поставки входит соответствующий переходник.

Если рассматривать PCB дальше, мы заметим, что правая ее часть очень похожа на RADEON 8500, особенно в плане расположения микросхем памяти. А вот радиатор на чипе — довольно большого размера, что традициям ATI несвойственно :-).



Хотя, в данном случае, это вынужденная мера, поскольку GPU (вернее, VPU, отвыкаем от старых названий :-) очень сильно греется (сказывается огромное число транзисторов при частоте 325 МГц и технологии .15 микрон). Кстати, обратите внимание на форму упаковки самого процессора:


Как мы видим, FCPGA корпусовка процессоров с перевернутым открытым кристаллом дошла и до графических чипов. В статье про Matrox Parhelia я удивлялся размерам корпуса, хотя понятно, что в случае оной сверху примерно такого же по размеру чипа установлена теплоотводящая металлическая крышка, а здесь ее нет. В наличии огромное число выводов (все же 256-битная шина).

На этом рассмотрение самой карты мы заканчиваем. Сразу скажу, что вас ожидает вторая часть материала по RADEON 9700 Pro, в котором мы подробно рассмотрим особенности работы карты при выводе на два монитора и TV-out (в рамках данного материала, по причине небольшого времени на исследование карты, мы не успеваем это проанализировать. К тому же, во второй части читатели смогут ознакомиться с работой AGP8x).

Заглянем в коробку, где вместе с картой можно найти:

два диска с ПО (драйверы, MMC 7.8 и др.) и маркетинговыми материалами, переходник S-Video-to-RCA весьма непривычного маленького размера (без кабеля), переходник DVI-to-d-Sub.

А вот и сама коробка, в которой будут продаваться платы RADEON 9700 PRO:

Обратите внимание на надпись в правом нижнем углу. Известно, что на Quakecon'2002 такие карты показывали только в специально привезенных системных блоках, не говоря уж про то, что обещанные подарочные наборы за $450 (куда входит RADEON 9700 Pro, сувениры, невышедшая еще игра DOOM III — ее обешали бесплатно прислать позже — и пульт ДУ от ATI) вовсе не продавались, а лишь принимались заказы на них (многие участники мероприятия были очень разочарованы таким обманом).

Разгон

Когда мы только начали исследовать работу карты на штатных частотах, то пришли к выводу, что при таком нагреве наверняка разгон будет почти невозможен. А он оказался возможен! И даже очень! Последняя версия (3.21) PowerStrip уже умеет работать с RADEON 9700.

ATI RADEON 9700 Pro 128MB 325/620 -> 350/700 MHz

По правде говоря, чип смог работать и на 370 МГц, но никаких приростов относительно 350 МГц в обычных режимах работы карты (без АА и/или анизотропии) мы уже не обнаружили, После анонса материала мы еще раз прогнали карту на 370 МГц, но под максимальной нагрузкой и убедились, что стабильность работы имеется. Поэтому на диаграммах ниже мы приводим эти результаты (полоски имеют "кирпичную" раскраску). Мы видим, что, несмотря на огромную сложность процессора и его высокий температурный режим, потенциал разгона имеется. Не последнюю роль сыграла здесь FCPGA корпусовка. Кроме того, мы не можем и отрицать возможности того, что для сэмплов компания ATI отбирала самые лучшие чипы. Напомним, что

  • при разгоне обязательным условием является наличие дополнительного охлаждения, в частности, обдувающего карту (прежде всего, ее память) вентилятора:

  • разгон любой карты зависит от конкретного экземпляра, и поэтому нельзя обобщать вышеприведенные возможности повышения частот на все видеокарты этой марки и даже серии. Показатели разгона мы приводим только как интересное явление; они ни в коей мере не входят в состав обязательных характеристик видеокарты.

Установка и драйверы

Рассмотрим конфигурацию тестового стенда, на котором проводились испытания карт:

  • Компьютер на базе Pentium 4 (Socket 478):
    • процессор Intel Pentium 4 2200 (L2=512K);
    • системная плата ASUS P4T-E (i850);
    • оперативная память 512 MB RDRAM PC800;
    • жесткий диск Quantum FB AS 20GB;
    • операционная система Windows XP.

На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21"). Тестирование на другом стенде на базе AMD Athlon XP мы проведем во второй части материала, к тому же, там будет исследование работы карты на AGP8x (на базе VIA KT400).

При тестировании применялись драйверы от ATI версии 6.143 (отмечу, что этот драйвер предназначен только для карт серии RADEON 9***, поддержки карт прежнего выпуска нет. Нет пока?) VSync отключен, компрессия текстур отключена. Установлен DirectX 9.0 beta2.

Для сравнительного анализа приведены результаты уже знакомых читателям видеокарт:

  • ASUS V8460Ultra (GeForce4 Ti 4600, 300/325 (650) МГц, 128 МБ, driver 30.82);
  • Matrox Parhelia (220/275 (550) МГц, 128 МБ, driver 2.31);
  • Gigabyte MAYA AP128DG-H RADEON 8500 Deluxe (275/275 (550) МГц, 128 МБ, driver 6.118).

Настройки драйверов









Отметим сразу, что на сегодня выпущены только драйверы DirectX 8 ! Выход драйверов DirectX 9.0 ожидается только в октябре. Что касается настроек управления, то они почти стандартны для всей новой серии драйверов CATALYST, за исключением настроек работы RADEON 9700 в части анти-алиасинга (SmoothVision II) и анизотропии. Как мы видим, у анизотропной фильтрации есть возможность выбора режима ее работы (кроме уровней): производительность/качество. Ниже мы рассмотрим, чем же режимы отличаются (вкратце скажу, что возможностью/невозможностью функционирования трилинейной фильтрации совместно с анизотропией).

Что касается АА, то, как уже говорилось, наконец-то мы видим упорядочивание этой функции. Вместо кучи мало кому понятных режимов производительность/качество совместно с уровнями АА, мы видим три режима 2х, 4х и 6х. Что избавляет пользователя от того, чтобы ломать голову над выбором. Ниже мы рассмотрим работу самых интересных режимов 4х и 6х.

На этом рассмотрение особенностей драйверов мы заканчиваем.

Результаты тестов

2D-графика

Традиционно начнем с 2D. Несмотря на высокую частоту и сложность карты, качество 2D выше всяких похвал! Что самое интересное, можно заметить увеличенную насыщенность (сочность) цветов (специально переключал монитор с компьютера с RADEON 9700 на компьютер с RADEON 8500, чтобы сравнить). Мы остались очень довольны качеством 2D.

Казалось, еще Ленин говорил, что оценка 2D-качества есть вещь субъективная. Поэтому напомню, что качество зависит от конкретного экземпляра, а также связка карта-монитор может по-прежнему играть огромную роль, прежде всего надо обращать внимание на качество монитора и кабеля.

3D-графика, MS DirectX 8.1 SDK — предельные тесты

На этот раз мы планировали полностью перейти к тестированию предельных характеристик с помощью прототипов синтетических тестов, разрабатываемых нами в рамках проекта открытого графического теста RightMark 3D. Однако из-за отсутствия в драйверах поддержки основных возможностей DX9 мы приняли решение использовать два старых (и уже хорошо знакомых читателям) теста на основе примеров из DX 8.1 SDK и пока не рассматривать некоторые из наших новых DX9 тестов.

Итак, для тестирования различных предельных характеристик чипов мы использовали модифицированные (для большего удобства и контроля) примеры из последней официальной финальной версии DirectX SDK (8.1).

EMBM рельеф

В этом тесте мы измеряем производительность, а точнее — ее падение, возникающее при использовании наложения карт среды (Environment) и рельефа на основе карт среды (EMBM — Environment Mapped Bump Mapping). Кроме того, мы измеряем филрейт обычного одинарного текстурирования. Тестирование проводилось в разрешении 1280*1024 — мы находим это разрешение оптимальным для предельных тестирований современных карт:

Взгляните на красные столбики RADEON 9700 PRO. Бросается в глаза удручающее падение скорости закраски при использовании EMBM. Столь радикальное падение ставит RADEON 9700 PRO (aka R300), снабженный 256-битным интерфейсом памяти, на одну ступень с предыдущим поколением чипов (в EMBM режиме, разумеется)! Если в обычном текстурировании мы наблюдаем значительное преимущество над всеми конкурентами, то с включением карты среды оно уменьшается. Остальные карты практически не теряют производительности — они могут задействовать второй текстурный блок, а у R300 его нет. При активации EMBM комбинируется уже 3 текстуры. Но и это не все: в случае EMBM одна текстура выбирается на основе значений, полученных из другой, и, как мы видим, подобная схема особенно больно бьет по пиксельным конвейерам R300.

Производительность пиксельных шейдеров 1.0

Мы вновь использовали модифицированный пример MFCPixelShader, измерив производительность карт в высоком разрешении при выполнении 5 различных по сложности шейдеров, для билинейно фильтрованных текстур:

Вновь ситуация неоднозначна. На предельно простом коротком шейдере преимущество R300 очевидно, сказывается наличие 8 конвейеров. Однако по мере усложнения шейдера скорость падает, причем быстрее, чем у остальных соперников, и на сложной задаче R300 располагается практически на одной ступени с NV25(!). Ситуация очень близко напоминает ту, что мы видели в обзоре P10 и, видимо, в той или иной мере будет свойственна всем ускорителям нового поколения, способным исполнять большие пиксельные шейдеры. Впрочем, если сравнить между собой результаты R200 и R300 — прогресс налицо, и более чем двукратный.

Подобное падение производительности вызвано двумя причинами:

  • во-первых, уже отмеченный нами аспект наличия лишь одного текстурного блока, который вызывает заметное падение производительности при активации каждой следующей текстуры, а не пары текстур, как у других чипов.
  • Во-вторых, не забываем, что все остальные чипы снабжены пиксельными стадиями и выполняют шейдеры версии 1.X вдвое или вчетверо быстрее, чем по команде за такт, в то время как R300 выполняет шейдеры покомандно, пускай и 8 параллельными конвейерами. Мы уже не раз рассуждали на этот счет в аналитике по R300 и обзоре P10, и в этом обзоре вновь находим наглядное подтверждение наших аналитических выводов в результатах синтетических тестов.

Кроме того, внимательный читатель может заметить, что NV25 и P512 снабжены, как минимум, 4 стадиями на один пиксельный конвейер, а R200, судя по всему, — лишь двумя. С другой стороны, наличие четырех текстурных модулей не сильно помогает P512 — невысокая тактовая частота является сдерживающим фактором, и наиболее хорошо с точки зрения исполнения пиксельных шейдеров первой версии сбалансирован NV25.

Не следует забывать, что конкурировать R300 придется в первую очередь с NV30, о производительности которого мы пока можем делать лишь очень зыбкие суждения, основанные на ориентировочной тактовой частоте, наличии двух текстурных блоков на конвейер и покомандном исполнении шейдеров (также, как и у R300).

3D-графика, MS DirectX 9 SDK (beta 2) — синтетические тесты

Для тестирования остальных предельных характеристик чипа мы использовали прототипы наших новых синтетических DX9 тестов, созданные в рамках проекта RightMark 3D.

GPU Speed — геометрическая производительность

Этот тест позволяет измерить предельную пропускную способность ускорителя по треугольникам с использованием различных типов и числа источников света и схем освещения, как простых, так и сложных. На данный момент, в тесте реализовано семь различных моделей освещения:

  1. Константное (ambient lighting)
  2. Рассеянное (1 точечный источник)
  3. Рассеянное (2 точечный источника)
  4. Рассеянное (3 точечных источника)
  5. Рассеянное + блики (1 точечный источник)
  6. Рассеянное + блики (2 точечных источника)
  7. Рассеянное + блики (3 точечных источника)

И четыре режима работы:

  1. Традиционный TCL (Fixed-Function Pipeline)
  2. Вершинные шейдеры 1.1
  3. Вершинные шейдеры 1.1 и пиксельные шейдеры 1.1
  4. Вершинные шейдеры 2.0 и пиксельные шейдеры 2.0

Позже в тест будет добавлено несколько характерных задач анимации и трансформации геометрии.

Тест спроектирован таким образом, дабы минимизировать зависимость от всех факторов, кроме геометрической производительности и скорости установки треугольников (передачи параметров в шейдеры). Выводится множество маленьких и очень детализованных моделей, размеры треугольников которых крайне малы (сравнимы с размером пикселя), дабы нивелировать зависимость от HSR или закраски.

Приведем результаты для "традиционного" TCL как в аппаратном режиме, так и в случае программной обработки вершин:

Как мы видим, вновь R300 на высоте в самой простой задаче. Обратите внимание на внушительную цифру в 106 миллионов трансформированных и вершин в секунду (!). И вновь, его позиция в остальных (более сложных) задачах неоднозначна. Скажем так, R300 становится "сравним" с NV25 и P512, что никак нельзя назвать блестящим результатом для чипа нового поколения. Также отметим, что в режиме программной трансформации по-прежнему лидирует поддерживающий FastWrites NV25 — а результаты R300 в этом вопросе, к сожалению, все там же — на уровне R200 и P512.

Но не будем забывать, что это тест старого, в некотором роде рудиментарного TCL. Предыдущие чипы, даже не имея выделенного фиксированного TCL блока, были заточены для его эффективной эмуляции. Возможно, что при разработке R300 такая задача не ставилась. Давайте теперь посмотрим, как обстоят дела с трансформацией и освещением на основе вершинных шейдеров:

Ага! Наши предположения про эмуляцию TCL оказались верны — в задаче исполнения шейдеров R300 на высоте. Как и следовало ожидать — новый чип в среднем опережает NV25 вдвое, а своего предшественника R200 — даже втрое. Результаты R300 хорошо согласуются с полученными в TCL режиме, что говорит об отсутствии какой-либо специально усиленной эмуляции оного. Итак, в этом тесте R300 выходит четким победителем, демонстрируя отрыв, достойный нового поколения.

В программном режиме, вновь лучше всех показывает себя NV25. На более или менее сложных шейдерах программная эмуляция выполняется крайне неспешно. Впрочем, пока еще очень сложно представить себе реальное приложение, способное нарисовать 30 или 40 миллионов треугольников, а посему в реальных задачах эмуляция может оставаться приемлемой.

А теперь проверим зависимость теста от разрешения:

Как мы видим, тест не зависит от разрешения, но при этом четко зависит от сложности модели освещения, что, собственно, и требовалось.

Point Sprites

Этот тест призван измерять производительность вывода точечных спрайтов. Тест всегда использует полупрозрачные спрайты, т.к. большинство реальных эффектов на основе систем частиц (для которых они и предназначены) требуют наличия полупрозрачности и смешения (блендинга). Доступны два режима: с освещением каждого спрайта источниками света и без. Можно регулировать размер выводимых спрайтов.

Как мы видим, при тестировании без освещения на небольших размерах спрайтов (до 4 точек включительно) R300 проигрывает даже R200 (!), не говоря уже о NV25. Однако с ростом размеров спрайтов он занимает лидирующее положение — сказывается наличие 256-битной шины памяти. Чем больше размер спрайтов — тем активнее идет общение с кадровым буфером во время блендинга.

И при освещении общая картина зависимости та же, но на сей раз разница не столь бросается в глаза — особенно на маленьких размерах спрайтов. Видимо, все упирается в трансформацию и освещение. По мере роста размеров R300 начинает лидировать вновь, благодаря существенному преимуществу в скорости работы с буфером кадров. Кроме того, отметим, что 9 миллионов частиц — не такая уж и большая цифра, фактически, в эффектах на основе частиц все упирается в блендинг, а не геометрическую производительность современных чипов.

Texturing Rate — тест на скорость фильтрации текстур

Этот тест позволяет комплексно исследовать скорость фильтрации текстур, произвольно меняя количество накладываемых за один проход текстур, их размер, формат и метод фильтрации. Таким образом, накладывая одну текстуру, мы измеряем скорость закраски пикселей, накладывая их максимальное количество и варьируя методику фильтрации — скорость фильтрации (т.е. производительность текстурных блоков). Кроме того, мы можем оценить алгоритм определения мип-уровней:

И качество исполнения любой фильтрации:

Как видно из приведенного скриншота, тест выводит несколько больших полигонов, причем со значительным диапазоном значений глубины. Это позволяет не только визуально оценить выбор мип-уровней, но и проверить реализацию анизотропной фильтрации. Для проверки всевозможных углов наклона и поворота плоскостей "туннель" (а скорее пирамида) поворачивается вокруг оси Z, кроме того, его вершина и перемещается по кругу в плоскости, параллельной экрану. Таким образом, треугольники, из которых он состоит, равномерно поворачиваются и наклоняются под различными углами.

Для начала исследуем зависимость скорости закраски от числа текстур (билинейная фильтрация):

Если со старыми картами все достаточно ожидаемо, то с R300 в этом тесте происходят странные вещи. Полученные результаты заметно ниже его потенциального максимума. Удивительно, но даже R200 обгоняет своего старшего брата! Однако при внимательном рассмотрении вопроса этот факт находит объяснение:

  1. Не будем забывать, что 8 текстурных блоков на частоте 325 МГц вполне сравнимы по предельной производительности билинейной фильтрации с 8 блоками на 300 МГц у NV25 или с 8 блоками на 275 МГц у R200.
  2. Не будем забывать что у R300 нет комбинационных стадий. Наш тест складывает все текстуры вместе, и, видимо, в случае R300 настройки стадий эмулируются соответствующим пиксельным шейдером. На новой, по-командной архитектуре пиксельных конвейеров R300 каждая выборка текстуры займет одну команду, плюс каждое сложение — еще одну. Таким образом, R300 окажется в невыгодном положении по сравнению со старыми стадийными конвейерами, так же, как и в описанном ранее случае с фиксированным TCL!

Для проверки этого факта мы модифицировали тест (на диаграмме SPECIAL TEST), заставив накладываемые текстуры не складываться, а просто затирать друг друга. Результаты остальных карт остались прежними - занято то же число стадий, а вот R300 линейно рос до тех пор, пока не превысил свой собственный теоретический придел. Как такое могло случится? Ответ лишний раз подтверждает нашу гипотезу. Настройки стадий были транслированы драйверами (или DX9) в соответствующий пиксельный шейдер. При компиляции этого шейдера он был (как обычно) оптимизирован, и все независимые и неиспользуемые далее выборки текстур были исключены. В результате чего всегда накладывалась только одна последняя текстура, а наш тест неверно вычислял текстурный филрейт, полагая, что все текстуры выбираются честно. Итак, мы снова столкнулись с неоднозначными архитектурными особенностями нового поколения чипов. Да, более гибкого, но и менее производительного на традиционных несложных задачах. Что ж, подождем новых DDI9 драйверов и NV30, прежде чем сделать какие-то окончательные выводы. Пока же утешимся тем фактом, что в реальных приложениях все зависит не только от производительности текстурных блоков, но и от суммарного объема текстур (а у нас он был незначителен — одна текстура 256х256 вполне может целиком поместитьтся в кеш), а следовательно, R300 снабженный более широкой шиной памяти, получит заметное преимущество. Подтверждение этому мы найдем далее, в тестах, основанных на реальных приложениях, а теперь исследуем производительность трилинейной фильтрации, которая, согласно заявлениям ATI, для R300 выполняется бесплатно:

На поверку трилинейная фильтрация оказывается "почти бесплатной", впрочем, как и в случае других карт. Взаимная картина сохраняется прежней. Теперь исследуем зависимость от типа фильтрации:

В случае анизотропной фильтрации R300 на высоте — продукты NV предыдущего поколения традиционно проигрывали в этом вопросе. Однако, на сей раз, анизотропия не столь бесплатна для R300, как была для его предка — R200. Особенно заметно это в случае ее совместного использования с трилинейной фильтрацией. Дело в том, что ATI исправила хорошо известную проблему своей реализации анизотропии на основе RIP-маппинга. Теперь их реализация допускает произвольный поворот плоскости текстурируемой поверхности вокруг оси Z (!). За это пришлось расплатиться заметным (но все же не в разы) падением скорости относительно R200. С другой стороны, результаты NV25 и P512, исповедующих классический подход к реализации анизотропии, по-прежнему "далеко внизу". Единственное исключение — младшая степень анизотропии, где NV25 и особенно P512 (благодаря наличию четырех текстурных блоков на конвейер) еще как-то способны конкурировать с семейством RADEON. Остается только похвалить ATI — и проблемы исправили, и скорость упала не очень сильно. Но, с другой стороны, что принесет нам в этом вопросе NV30, с которой R300 должен конкурировать? Не является ли сравнимая с R200 скорость анизотропной фильтрации нового RADEON опрометчивым шагом? ATI была сильно ограничена .15 техпроцессом, и не смогла реализовать вторые текстурные блоки или увеличить частоту ядра чипа. Но при этом чип был сделан по новой архитектуре пиксельных конвейеров, которая сама по себе (на простых задачах при прочих равных) проигрывает старой - это расплата за повышенную гибкость программирования. Зажатый в тиски сложности и техпроцесса Matrox предвидел подобные проблемы и не решился реализовывать полную совместимость c DX9 по технологии .15. А вот инженеры ATI — рискнули. Время покажет, был ли этот риск оправдан.

Напоследок, проверим зависимость нашего теста от размера текстуры (возьмем характерный случай с 4 текстурами за проход — такое количество способны задействовать все чипы, принимающие участие в сравнении):

как видно, зависимость незначительна, и текстура 256х256 может считаться разумным решением для большинства тестов. Теперь проверим зависимость от разрешения (и снова задействуем 4 текстуры):

Начиная с выбранного нами разрешения 1280х1024, зависимость практически не просматривается, что и требуется от хорошего теста. Проверять зависимость от формата текстуры мы пока не будем — т.к. в данных драйверах не реализованы сжатые форматы, а 16-битная текстура будет выводиться с той же самой скоростью (напомним, что пока мы тестируем только использованием одной текстуры, которая помещается в кэш чипа).

Перейдем к синтетическим тестам 3DMark2001:

3D-графика, 3DMark2001 SE — синтетические тесты

Подчеркну, что все замеры по всем 3D-тестам проводились в 32-битной глубине цвета.

Скорость закраски

Напомним, что теоретические пределы для данного теста составляют 880 миллионов пикселей в секунду для Parhelia, 1100 для RADEON 8500, 1200 для Ti 4600 и 2600 для R300. Полученные результаты хорошо соотносятся с теорией, и, благодаря 8 конвейерам закраски (а также 256 битной шине, без которой они бы захлебнулись) R300 лидирует с двукратным преимуществом. Но какое из современных приложений обходится только одной текстурой? А посему, давайте посмотрим, как изменится положение вещей при мультитекстурировании:

Также напомним, что пиковые значения для этого теста составляют 3520 (1760) миллионов текселей в секунду для Parhelia (в скобках указано значение при работе схемы 4 конвейера по 2 текстурника на каждом), 2200 — для RADEON 8500, 2400 для Ti 4600 и 2600 для RADEON 9700 PRO. В случае мультитекстурирования, большую роль играет сбалансированность чипа. На сей раз около своей пиковой скорости оказались Ti 4600 и RADEON 9700 PRO (только в высоком разрешении, для которого его и рекомендуется использовать ;) ). Четкого лидера из R300 не вышло, да и не могло выйти даже теоретически — сказывается наличие лишь одного текстурного блока и сравнимая с остальными чипами частота ядра. Итак, мы нашли очередное подтверждение результатам нашего нового синтетического теста DX9.

Сцена с большим количеством полигонов

На этом тесте особое внимание следует уделить минимальному разрешению — именно там зависимость от закраски практически нивелируется:

При наличии одного источника света R300 показывает себя абсолютным лидером. Результаты повторяют картину, полученную нами на собственном DX9 тесте, но не столь радикально — 3DMark2001, видимо, не позволят подобраться к физическому пределу чипа так же близко, как будущий GPU Speed из RightMark 3D. P512 — заметный аутсайдер, несмотря на 4 вершинных конвейера. Интересно, что на нашем тесте GPU Speed P512 показывает себя куда как более выгодно, демонстрируя в полтора раза более высокие результаты и выступая на ровне с R200. Видимо, в 3DMark2001 задето какое-то больное место этого чипа, вызывающее заметное падение производительности вершинного блока. Либо дело в драйверах и DX - наш тест написан и скомпилирован с интерфейсом DX9, в то время как 3DMark2001 SE компилировался с DX81.

В случае 8 источников света общая картина не меняется, но разница между картами становится меньше, снова подтверждая полученные ранее результаты. Кроме того, R200 и P512 меняются местами — Parhelia реабилитирует себя (с ростом числа источников его производительность падает более медленно, чем производительность RADEON 8500). Лидер — R300, аутсайдером теперь становится R200.

Рельефное текстурирование

Посмотрим на результаты синтетической EMBM сцены:

В отличие от нашего старого теста из DX81 SDK, R300 реабилитирует себя! Видимо, этот тест более зависим от скорости записи в кадровый буфер, которая, несомненно, выше у R300. А теперь DP3-рельеф:

"Все те же лица".

Вершинные шейдеры

Вновь подтверждаются результаты нашего синтетического теста GPU Speed. Отрыв R300 в 3DMark2001 не столь велик, но по-прежнему четко дистанцирует его от остальных участников тестирования: R300 - безоговорочный лидер в вопросах вершинных шедйеров, геометрии и трансформации. По крайней мере, пока дело не касается старого фиксированного TCL.

Пиксельный шейдер

Руководствуясь высказанными выше соображениями о том, что слишком малые разрешения "упираются" в геометрию, а слишком большие — в пропускную полосу памяти, обратим основное внимание на 1024х768 и 1280х1024:

R300 снова четкий лидер. Впрочем, интересно, что его производительность с ростом разрешения падает быстрее. Сказывается покомандное исполнение вершинных шейдеров. Давайте посмотрим, что произойдет в более сложном тесте Advanced Pixel Shader.

Отрыв R300 увеличился! Бальзам на душу поклонников ATI. Сказывается оптимизация пиксельных конвейеров чипа под более гибкие и длинные пиксельные шейдеры. Становится ясно, что до появления драйверов с полной поддержкой DX9 и пиксельных шейдеров 2.0 делать какие-либо выводы рано.

Спрайты

R300 лидирует, но не столь четко, как в предыдущих тестах. В этой области все плохо у Parhelia — чип не имеет специального аппаратного ускорения для вывода точечных спрайтов. Как мы уже отмечали, без прозрачности (блендинга) производительность спрайтов имеет маленькую практическую ценность. Как бы там ни было, этот тест лишний раз демонстрирует преимущество 256-битной шины и 8 конвейеров закраски.

Итак, подведем промежуточный итог. По сумме синтетических тестов карта R300 выглядит достаточно спорно. В вопросах обработки геометрии — четкое преимущество, в вопросах закраски — все зависит от задачи. Как минимум, есть поводы посетовать на наличие только одного текстурного блока на конвейер. Конечно, по сравнению с остальными картами, R300 оставляет четкое впечатление лидера, заточенного под сложные задачи будущих приложений. С другой стороны, до появления полноценных драйверов под DX9 очень сложно делать какие-либо выводы по синтетическим тестам. Кроме того, по этой же причине у нас не было пока возможности протестировать новые форматы текстур и буфера кадров и вторые версии пиксельных и вершинных шейдеров. Не будем также забывать что в данном тестировании еще не принял участие главный конкурент R300 — NV30.

Предваряя результаты тестов в играх, замечу, что мы провели тестирование не только на штатных и разогнанных частотах, но и на пониженных до 300/600 МГц, чтобы оценить, какую производительность смогут показать самые "малопроизводительные" платы из серии (см. выше разброс частот на платах от партнеров ATI).

3D-графика, 3DMark2001 — игровые тесты

3DMark2001, 3DMARKS

На основании общих "марков" можно отметить, что лидерство RADEON 9700 Pro над прошлым королем — GeForce4 Ti 4600 — составляет от 17 до 39%. С учетом сильного ограничивающего влияния центрального процессора — это очень даже неплохо.

3DMark2001, Game1 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 19773/33753/143422
  • Rendered textures per frame with 16 bit textures (min/avg/max): 7.5/8.8/16.5 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 15.1/17.7/30.3 MB
  • Rendered textures per frame with texture compression (min/avg/max): 10.7/12.2/21.0 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 26%, над Parhelia — 123%, над RADEON 8500 — 57.2%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 121%, над Parhelia (FAA16x) — 94% ,над RADEON 8500 (AA4xP) — 265%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 60%, над RADEON 8500 (ANIS 16) — 19%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 75%, над Parhelia — 44%, над RADEON 8500 — 163%.

Если кто хочет проценты перевести в "разы", то надо к процентам прибавить 100 и все разделить на 100.

3DMark2001, Game2 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 46159/51440/147828
  • Rendered textures per frame with 16 bit textures (min/avg/max): 8.0/8.8/10.1 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 15.6/17.2/19.8 MB
  • Rendered textures per frame with texture compression (min/avg/max): 9.3/10.9/13.5 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 38%, над Parhelia — 136%, над RADEON 8500 — 79%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 171%, над Parhelia (FAA16x) — 104% ,над RADEON 8500 (AA4xP) — 311%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 195%, над RADEON 8500 (ANIS 16) — 69%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 181%, над Parhelia — 105%, над RADEON 8500 — 283%.

3DMark2001, Game3 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 16681/21746/39890
  • Rendered textures per frame with 16 bit textures (min/avg/max): 2.8/4.1/4.7 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 5.7/8.2/9.4 MB
  • Rendered textures per frame with texture compression (min/avg/max): 5.0/7.2/8.4 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 29%, над Parhelia — 114%, над RADEON 8500 — 61.5%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 188%, над Parhelia (FAA16x) — 76% ,над RADEON 8500 (AA4xP) — 338%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 153%, над RADEON 8500 (ANIS 16) — 74%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 192%, над Parhelia — 65%, над RADEON 8500 — 297%.

3DMark2001, Game4

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 55601/81714/180938
  • Rendered textures per frame with 16 bit textures (min/avg/max): 14.9/17.4/20.7 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 28.4/33.5/40.0 MB
  • Rendered textures per frame with texture compression (min/avg/max): 28.4/33.5/40.0 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 101%, над Parhelia — 207%, над RADEON 8500 — 113%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 146%, над Parhelia (FAA16x) — 133% ,над RADEON 8500 (AA4xP) — 276%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 90%, над RADEON 8500 (ANIS 16) — 51%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 116%, над Parhelia — 155%, над RADEON 8500 — 187%.

Подводя итоги тестированию в 3DMark2001SE, можно сказать, что самым разительным образом преимущество нового продукта от ATI сказывается в тяжелых режимах АА и анизотропии. Что и следовало ожидать, учитывая ограничивающее производительность влияние частоты центрального процессора (да и платформы в целом, несмотря на, казалось бы, высокие цифры 2.2 ГГц) при малой нагрузке карты. Плюс наличие 256-битной шины обмена с памятью самым положительным образом сказывается на скорости при АА. Что касается анизотропии, то пока просто отметим не слишком капитальные провалы производительности при ее активизации в режиме качества. Ниже мы поговорим о ней более подробно.

3D-графика, игровые тесты

Приступаем к оценке производительности видеокарты в 3D-играх. В качестве инструментария мы использовали:

  • Return to Castle Wolfenstein (MultiPlayer) (id Software/Activision) — OpenGL, мультитекстурирование, Checkpoint-demo, настройки тестирования — все на максимально возможном уровне, S3TC OFF, конфигурации можно скачать тут
  • Serious Sam: The Second Encounter v.1.05 (Croteam/GodGames) — OpenGL, мультитекстурирование, Grand Cathedral demo, настройки тестирования: quality, S3TC OFF
  • Quake3 Arena v.1.17 (id Software/Activision) — OpenGL, мультитекстурирование, Quaver, настройки тестирования все на максимальном уровне: уровень детализации — High, уровень детализации текстур — №4, S3TC OFF, плавность кривых поверхностей резко увеличена при помощи переменных r_subdivisions "1" и r_lodCurveError "30000" (подчеркну, что по умолчанию r_lodCurveError "250" !), конфигурации можно скачать тут
  • Comanche4 Benchmark Demo (NovaLogic) — Direct3D, Shaders, Hardware T&L, Dot3, cube texturing, максимально возможное качество
  • Unreal Tournament 2003 Demo v.927 (Digital Extreme/Epic Games) — Direct3D, Vertex Shaders, Hardware T&L, Dot3, cube texturing, качество по умолчанию
  • Code Creatures Benchmark Pro (CodeCult) — игровой тест, демонстрирующий работу платы в DirectX 8.1, Shaders, HW T&L.
  • AquaMark (Massive Development) — игровой тест, демонстрирующий работу платы в DirectX 8.1, Shaders, HW T&L.
  • RightMark Video Analyzer v.0.4 (Philip Gerasimov) — DirectX 8.1, Dot3, cube texturing, shadow buffers, vertex and pixel shaders (1.1, 1.4).

Quake3 Arena, Quaver

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 38%, над Parhelia — 195%, над RADEON 8500 — 66%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 113%, над Parhelia (FAA16x) — 137%,над RADEON 8500 (AA4xP) — 327%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 94%, над RADEON 8500 (ANIS 16) — 49%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 146%, над Parhelia — 169%, над RADEON 8500 — 429%(!).

Думаю, что всем понятно "упирание" в возможности платформы и CPU в режимах без АА и анизотропии, потому и столь малые преимущества RADEON 9700, но включение указанных функций сразу ставит все на свои места. Конечно, отлаженность OpenGL-драйвера еще далека от совершенства, хотя по сравнению с тем, что мы увидим ниже, в следующем тесте — пустяк.

Serious Sam: The Second Encounter, Grand Cathedral

Поскольку конфигурация настроек этой игры очень сложна, и ее трудно описать словами, я приведу скриншоты установок:

Итак, что же мы получили:

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — -17.8 (отставание)%, над Parhelia — 47%, над RADEON 8500 — 27%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 26%, над Parhelia (FAA16x) — -4 (отставание)% ,над RADEON 8500 (AA4xP) — мы не учитываем, поскольку явный глюк работы RADEON 8500 в этом тесте при АА. Такого малого падения просто быть не может. Тест проводился несколько раз, результаты не отличаются.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 0%, над RADEON 8500 (ANIS 16) — 0%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 0%, над Parhelia — -23 (отставание)%, над RADEON 8500 — не учитываем.

Мы являемся свидетелями того, что, либо драйвер от ATI отвратительно работает в данной игре, либо что-то иное сильно мешает продемонстрировать потенциал RADEON 9700. Надеемся на выход новых драйверов или хотя бы объяснение представителей ATI на данный счет.

Return to Castle Wolfenstein (Multiplayer), Checkpoint

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 24%, над Parhelia — 397%, над RADEON 8500 — 22%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 131%, над Parhelia (FAA16x) — 378% ,над RADEON 8500 (AA4xP) — 262%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 116%, над RADEON 8500 (ANIS 16) — 26%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 177%, над Parhelia — 400%, над RADEON 8500 — 315%.

В этом тесте (который от платформы зависит еще больше, чем Quake3) мы видим схожую картину сильнейшего превосходства новинки при сильной нагрузке на карту. Крайне низкая скорость у Parhelia, вероятно, объясняется тем же, что и у RADEON 9700 в предыдущем тесте: неотлаженностью ПО, либо каким-либо несостыковками (вероятно нужен патч).

Code Creatures

Этот тест создан на базе движка от CodeCult, на котором в производстве находится несколько игр.


Движок примечателен тем, что использует практически все современные возможности видеокарт последнего поколения. Плюс демо-программа на базе этого движка содержит очень тяжелые для акселераторов сцены как по объему текстур, геометрии, так и по числу используемых эффектов.

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 31%, над Parhelia — 110%, над RADEON 8500 — 320%.

Как видим, тест и так чрезвычайно сложен даже для супер-акселератора, поэтому гонять карту при нагрузке АА и/или анизотропии нет смысла.

Comanche4 DEMO

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 0%, над Parhelia — 88%, над RADEON 8500 — 34%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 58%, над Parhelia (FAA16x) — 113% ,над RADEON 8500 (AA4xP) — 149%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 35%, над RADEON 8500 (ANIS 16) — 23%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 37%, над Parhelia — 100%, над RADEON 8500 — 100%.

Этот тест очень процессорозависим, а также сильно нагружает карты, потому обшая производительность невысока при максимальном качестве. И если есть преимущество хотя бы на 50% — это уже большое достижение.

Unreal Tournament 2003 DEMO b.927

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 0%, над Parhelia — 54%, над RADEON 8500 — 230%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — не учитывается, поскольку явно видно что АА4х в данном случае не работает (правда, непонятно, почему), над Parhelia (FAA16x) — 25% ,над RADEON 8500 (AA4xP) — 364%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 12%, над RADEON 8500 (ANIS 16) — 76%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — не учитывается, над Parhelia — -7 (отставание)%, над RADEON 8500 — 165%.

Этот тест давно уже вызывает у многих недоумение, однако мы решили пока его оставить до выхода финального релиза ДЕМО. Еще в наших 3DGiТогах мы писали, что производительность у карт от ATI в этой ДЕМО представляет собой нечто необъяснимое. Мы склонны все же винить в данной картине драйверы от ATI.

AquaMark

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 4%, над Parhelia — 75%, над RADEON 8500 — 76%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 101%, над Parhelia (FAA16x) — 66% ,над RADEON 8500 (AA4xP) — 169%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 278%, над RADEON 8500 (ANIS 16) — 38%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 157%, над Parhelia — 40%, над RADEON 8500 — 142%.

Этот тест вышел в 2001 году, когда появилась только карта на базе GeForce3, и тогда мы говорили, что он очень и очень сложен. И даже нынешние лидеры не блещут супер-скоростями, хотя на порядок производительность и поднялась. Обратите внимание на катастрофическое падение скорости у GeForce4 при анизотропии (этой фильтрацией тупо обрабатываются все текстуры, а в тесте очень много полупрозрачных текстур).

RightMark 3D

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 48%, над Parhelia — 86%, над RADEON 8500 — 211%.

Этот тест также очень сложен, таковым он и задумывался, чтобы проверить не только работоспособность современных ускорителей при активных функциях DX8.1, но и быстроту работы с ними.

Качество 3D-графики

АНИЗОТРОПНАЯ ФИЛЬТРАЦИЯ

Подробности о работе этой функции, и для чего она нужна, вы можете почитать в нашем разделе 3DGiТогов, посвященном данной теме.

Мы знаем, что реализация этой функции у разных фирм-производителей видеопроцессоров отличается. Да и скоростные характеристики анизотропий, скажем, от ATI и от NVIDIA, сильно отличаются. Схоже только результирующее качество.

Этот постулат был справедлив и безжалостен (по крайней мере, к реализации анизотропии от ATI) до недавнего времени. Теперь же все меняется. Как уже ясно из начала статьи, разработчики из Канады наконец-то дали пользователю выбор: или просто анизотропия, или она вместе с трилинейной фильтрацией.

Что же означают переключатели "Скорость-качество" в настройках драйверов в секции, посвященной анизотропной фильтрации? Давайте посмотрим на наш тест Fillrate из будущего RightMark 3D. Включаем трилинейную фильтрацию (слева обычный режим, справа — с окрашиванием MIP-уровней):

Работает отлично. Теперь включаем анизотропию в режиме "Скорость":

Как мы видим, трилинейка пропала. Хотя сама анизотропия — превосходного качества. По ходу дела давайте сравним ее с такой же фильтрацией у RADEON 8500, ведь не случайно же мы поставили стенки в "туннеле" под 45 градусов :-). Слева показан скриншот, снятый в таком положении "туннеля". А справа — он смещен на 40 градусов.

RADEON 8500

GeForce4                                                        RADEON 9700

Ну как? Все увидели разницу? :-) То-то и оно. А теперь посмотрите выше на скриншоты, снятые на RADEON 9700 и убедитесь, что проблема "углов, близких к 45 градусам", решена.

А теперь вернемся к различиям режимов работы этой функции "Скорость-качество". Выше мы убедились, что, несмотря на то, что качество анизотропии выросло и не зависит от углов наклона обрабатываемых поверхностей, она все же несосуществует с трилинейкой. Переключим режим на "Качество".

Ага! Обе фильтрации работают вместе! Замечу, что эта особенность касается всех Direct3D-приложений. Как выяснилось, при подобном форсировании анизотропии внутренние режимы работы фильтраций в играх подчиняются драйверам вне зависимости от того, что выставлено в самих играх. Кроме… 3DMark2001, в котором, видимо, трилинейная фильтрация истреблена как класс, и даже драйвера боятся ее предлагать этому пакету :-).

А что в OpenGL? Там также все в порядке. Давайте посмотрим на примере Quake3. Включаем анизотропию в режиме "Скорость":

Перед нами анизотропия и отсутствие трилинейной фильтрации (вне зависимости от того, включена ли последняя в самой игре или нет). А теперь переключимся на "Качество":

Что мы видим? Думаю, что большое и радостное событие для всех поклонников продукции ATI. Результаты тестирования производительности, приведенные ранее, свидетельствуют о том, что при уровне ANIS 16 и практически честной анизотропке мы имеем не столь сильное падение производительности, как у GeForce4 Ti, например. Одно должно отравлять жизнь: эти приятные особенности есть пока только у очень дорогой карты класса High-End. Возможно, это останется нетронутым у RADEON 9500, однако мы пока ничего не можем предположить даже в плане производительности этой карты и ее ценовой направленности (это может и $180-200, и $250-290).

В заключение рассмотрения анизотропии давайте кинем взгляд на несколько скриншотов, характеризующих качество этой функции:

RADEON 8500 RADEON 9700
3DMark2001, Game 1
ANIS 0
ANIS 16
3DMark2001, Game 2
ANIS 0
ANIS 16
Serious Sam: TSE
ANIS 0
ANIS 16

АНТИ-АЛИАСИНГ (АА)

В начале материала мы уже рассмотрели аспекты работы АА у RADEON 9700, производительность оценили в предыдущем разделе, а здесь давайте посмотрим на качество.

Пример 1 Пример 2
3DMark2001, Game 1
No AA
AA 4x
AA 6x
3DMark2001, Game 3
No AA
 
AA 4x
 
AA 6x
 
3DMark2001, Game 4
No AA
AA 4x
AA 6x
Serious Sam: TSE
No AA
AA 4x
AA 6x

Что мы видим?

  1. Практическое отсутствие разницы в качестве режимов 4х и 6х. А, как говорится, зачем платить больше, если результат один?
  2. Как следовало ожидать, там, где есть прозрачные текстуры, MSAA не работает (смотрим на листья в Game4).
  3. В целом качество АА очень хорошее и на уровне соответствующей степени АА у GeForce4 Ti. Заметим, что в Direct3D при АА немного смещается LOD BIAS в отрицательную сторону, и поэтому слегка увеличивается четкость картинки.

Качество 3D в целом

Мы пока не успели прогнать очень много игр, но ряд артефактов уже заметили. Прежде всего, они есть в некоторых играх выпуска 2000-2001 года (RealMYST, Sacrifice). В играх новейшего выпуска артефактов не замечено. Подробнее вы сможете узнать все из наших предстоящих 3DGiТогов, галерея скриншотов пополнится кадрами, полученными на RADEON 9700 (сразу скажу, что в Morrowind артефактов нет :-) ).

Выводы

Не будем забывать, что в нашем кинозале еще не собрались все зрители — есть одно незанятое место. Место для NV30. Для образования общего мнения об ускорителям нового поколения давайте подождем, пока соберутся все — мы надеемся, что тогда нам и покажут настоящее кино. А пока мы имеем сказать следующее.

  1. В целом, карта у ATI удалась, несмотря на сложность чипа и высокий температурный режим работы (без дополнительного внешнего охлаждения чип греется до 85 градусов (!), сама PCB — до 68-70. Хотя это нисколько не влияет на устойчивость работы карты (проверялось зацикленным 3DMark2001 в течение 6 часов).
  2. Да, RADEON 9700, безусловно, король на сегодня. Но есть ряд моментов: прежде всего, это пока малая доступность карт (отгрузки начнутся только в сентябре), а также не надо забывать, как мы уже сказали выше, на горизонте — NV30 от NVIDIA, который грозит стать новым лидером осенью этого года. Возможно, он не станет "убийцей" RADEON 9700, но сдвинуть с трона и заставить ATI идти на снижение цен — сможет.
  3. Что касается аспектов работы карты, то надо еще раз отметить, что мы не можем в данный момент дать оценку функциям DirectX 9 по причине отсутствия релиза DX9, а также хотя бы бета-версии DX9-драйверов. Поэтому позже мы еще раз вернемся к материалу по RADEON 9700, и ожидайте третью часть большого, так сказать, многосерийного обзора. Вторая часть выйдет через неделю после данной статьи и будет посвящена работе видеофункций, TV-out, AGP8x (в этом материале все показания снимались на AGP4x).
  4. Надо отметить, что по неизвестной пока причине (вероятно, виноват BIOS системной платы) при установке ATI RADEON 9700 Pro в материнку Soltek 75DRV5 (VIA KT333) становятся доступными только режимы работы AGP 1x и 2x (!). Возможности включить 4х нет, хотя с другими видеокартами данная системная плата работает и на 4х. Поскольку режим 2х видеокарта, судя по всему, НЕ ПОДДЕРЖИВАЕТ (!), возникают зависания при запуске любого 3D-приложения.
  5. К минусам относится еще неотлаженное ПО, в частности, панель управления драйверов, когда те или иные установки приходится переключать по 2-3 раза, чтобы заработало так, как требуется. В общем, программистам ATI еще есть над чем работать (несмотря на то, версия 6.143 имеет электронную подпись, то есть сертифицирована).
  6. А по работе 3D-части мы можем сказать, что, несмотря на низкие показатели работы карты по синтетическим тестам, в целом, производительность очень хороша. Да, архитектура 8х1 еще скажется тяжелым бременем на будущих играх, жадных до скорости заполнения. Но пока видно одно: такую карту просто грешно использовать без активизации АА и/или анизотропии (особенно удалась последняя)! Поэтому советуем всем желающим снова отдать $400 за супер-ускоритель изучать базисы 3D-графики, чтобы не бояться правильно активировать и регулировать влияющие на качество 3D функции.
  7. Про минусы (низкий филлрейт из-за 8х1, высокие цены, малая доступность на конец лета, артефакты в некоторых играх) мы уже сказали, к плюсам, кроме вышеупомянутой скорости в целом, можно добавить еще улучшенную анизотропную фильтрацию, да и АА приобрел современные черты (высокое качество при умеренной расплате скоростью).

В заключение хочется пожелать, чтобы эти карты быстрее появлялись на прилавках магазинов, да и цены чтобы быстрее падали (все же это даст косвенный плюс: толчок к падению цен на GeForce4 Ti 4600 — карты). А поклонников ATI мы поздравляем с рождением нового короля 3D-графики в игровом секторе (пусть хотя бы и не надолго, но в кои веки ATI смогла не только догнать, но и перегнать лидера).

И еще раз отметим, что нынешняя производительность карты может сильно меняться после выхода DirectX 9 и соответствующих драйверов, поэтому мы не закрываем тему. И ждите вторую часть материала, посвященного уже аспектам работы RADEON 9700 с DVD, TV-out, а также тестам на KT400 (AGP8x).

Благодарим Филиппа Герасимова, одного из авторов и главного программиста DirectX тестов пакета RightMark 3D, за оперативную помощь в тестировании




Дополнительно

Обзор ATI RADEON 9700 Pro 128MB

ATI RADEON 9700 Pro 128MB

" Это он, это он, это новый Radeon!"
(почти по Маршаку)

Для начала, настоятельно рекомендуем прочитать аналитическую статью, посвященную архитектуре и спецификациям RADEON 9700 (R300)

СОДЕРЖАНИЕ

  1. Общие сведения
  2. Теоретические аспекты реализации анитиалиасинга и анизотропной фильтрации
  3. Особенности видеокарты ATI RADEON 9700 Pro 128MB
  4. Конфигурации тестовых стендов и особенности настроек драйверов
  5. Результаты тестов: коротко о 2D, предельные из DirectX 8.1 SDK и синтетические (на базе DirectX 9.0) тесты
  6. Результаты тестов: Синтетические тесты 3DMark2001 SE
  7. Результаты тестов: Игровые тесты 3DMark2001 SE
  8. Результаты тестов: Quake3 ARENA
  9. Результаты тестов: Serious Sam: The Second Encounter
  10. Результаты тестов: Return to Castle Wolfenstein
  11. Результаты тестов: Code Creatures DEMO
  12. Результаты тестов: Comanche4 DEMO
  13. Результаты тестов: Unreal Tournament 2003 DEMO
  14. Результаты тестов: AquaMark
  15. Результаты тестов: RightMark 3D
  16. Качество 3D: Анизотропная фильтрация
  17. Качество 3D: Анти-алиасинг
  18. Качество 3D в целом
  19. Выводы

В этом обзоре, мы не будем повторно описывать архитектуру или спецификации чипа RADEON 9700 (известного также под кодовым названием R300), а займемся подробным практическим исследованием его возможностей и аспектов производительности. На данный момент, линейка карт на базе различных вариантов R300 выглядит следующим образом:

  • RADEON 9700 PRO — 325 МГц чип, 128 Мбайт 310 МГц (DDR 620) 256 бит локальной памяти;
  • RADEON 9700 — 300 МГц чип, 128 Мбайт 300 МГц (DDR 600) 256 бит локальной памяти;
  • RADEON 9500 — урезанный до 4-х конвейеров чип, 128 бит локальная память;

Мы будем исследовать старшую и единственную доступную на данный момент карту линейки — RADEON 9700 PRO. Впервые тестирование производительности и возможностей чипа проводится на DirectX 9 (бета 2). Прежде, чем приступить к практическим тестам производительности, приведем список возможностей DX9, поддерживаемых картой на данный момент (в скобках приведены оценки конкретных значений параметров):

  • Размер текстур — до 2048x2048 (стандартно)
  • Возможны неквадратные текстуры (хорошо)
  • Максимальное число источников света — 8 (стандартно)
  • Число текстурных стадий — 8 (отлично)
  • Число комбинационных стадий — 8 (стандартно)
  • Число плоскостей отсечения — 6 (отлично)
  • Максимальный размер спрайтов — 256 (отлично)
  • Максимальное число примитивов за один вызов — 65535 (спорно)
  • Размер вершинного буфера — 16777215 (отлично)
  • Максимальное число потоков вершин — 16 (отлично)
  • Максимальная версия вершинных шейдеров — 1.1 (непорядок)
  • Число констант вершинного шейдера — 256 (отлично)
  • Максимальная версия пиксельных шейдеров — 1.4 (непорядок)
  • Максимальное значение пиксельного шейдера — 3.40282E+038 (максимально число для плавающего формата F32, отлично)
  • Режимы мультисамплинга: нет, 2, 4, 6 отсчетов (только в режиме X8R8G8B8, в режиме кадрового буфера с альфаканалом A8R8G8B8 мультисамплинг недоступен).
  • Форматы итогового буфера (хорошо):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
  • Форматы буфера глубины (хорошо):
    • D3DFMT_D16_LOCKABLE
    • D3DFMT_D24S8
    • D3DFMT_D24X8
    • D3DFMT_D16
  • Форматы текстур (странно):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_V8U8
    • D3DFMT_L6V5U5
    • D3DFMT_X8L8V8U8
    • D3DFMT_Q8W8V8U8
    • D3DFMT_V16U16
    • D3DFMT_UYVY
    • D3DFMT_YUY2
  • Форматы кубических текстур (нормально):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_UYVY
    • D3DFMT_YUY2
  • Форматы объемных текстур (нормально):
    • D3DFMT_A8R8G8B8
    • D3DFMT_X8R8G8B8
    • D3DFMT_R5G6B5
    • D3DFMT_X1R5G5B5
    • D3DFMT_A1R5G5B5
    • D3DFMT_A4R4G4B4
    • D3DFMT_R3G3B2
    • D3DFMT_L8
    • D3DFMT_UYVY
    • D3DFMT_YUY2
    Режимы фильтрации обычных текстур (отлично):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MINFANISOTROPIC
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR
    • D3DPTFILTERCAPS_MAGFANISOTROPIC
  • Режимы фильтрации кубических текстур (хорошо):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR
  • Режимы фильтрации объемных текстур (хорошо):
    • D3DPTFILTERCAPS_MINFPOINT
    • D3DPTFILTERCAPS_MINFLINEAR
    • D3DPTFILTERCAPS_MIPFPOINT
    • D3DPTFILTERCAPS_MIPFLINEAR
    • D3DPTFILTERCAPS_MAGFPOINT
    • D3DPTFILTERCAPS_MAGFLINEAR

Искушенный читатель сразу отметит, что никакого DX9 мы здесь не наблюдаем. Дело в том, что доступные на данный момент драйверы содержат лишь старый DDI8 (Direct Driver Interface 8) интерфейс для драйверов и по определению не могут предлагать выходящих за рамки DX8 возможностей. Только с появлением у нас DDI9 драйвера (судя по всему, ATI сможет предоставить его кому-либо только тогда, когда Microsoft закончит вносить изменения в DX9 и даст соответствующее разрешение) мы сможем проверить новые возможности чипа, пока же нам придется ограничиться подробным исследованием хорошо знакомых. Несмотря на то, что DX9 работает с такими драйверами без потери скорости (результаты приложений отличаются от DX8 в пределах погрешности) нам недоступны самые интересные новый возможности RADEON 9700 PRO — вторые версии пиксельных и вершинных шейдеров или плавающие форматы текстур и буфера кадров. С другой стороны, ничего не мешает нам подробно исследовать производительность и реализацию АА, анизотропной фильтрации и просто предельные характеристики чипа, такие как скорость закраски или производительность геометрического блока.

Отметим, также, что из-за раннего драйвера (или особенностей работы DX9 с DDI8) в списке поддерживаемых текстур отсутствуют какие-либо сжатые форматы.

Приведем список доступных на данный момент OpenGL расширений и версию OpenGL ICD:

ATI, Radeon 9700 x86/SSE2, version 1.3.3259 NVIDIA, GeForce4 Ti 4600/AGP/SSE2, version 1.3.1 ATI, Radeon 8500 DDR x86/SSE2, version 1.3.2475
GL_ARB_depth_texture GL_ARB_imaging GL_ARB_multitexture
GL_ARB_multitexture GL_ARB_multisample GL_ARB_texture_border_clamp
GL_ARB_point_parameters GL_ARB_multitexture GL_ARB_texture_compression
GL_ARB_shadow GL_ARB_texture_border_clamp GL_ARB_texture_cube_map
GL_ARB_shadow_ambient GL_ARB_texture_compression GL_ARB_texture_env_add
GL_ARB_texture_border_clamp GL_ARB_texture_cube_map GL_ARB_texture_env_combine
GL_ARB_texture_compression GL_ARB_texture_env_add GL_ARB_texture_env_crossbar
GL_ARB_texture_cube_map GL_ARB_texture_env_combine GL_ARB_texture_env_dot3
GL_ARB_texture_env_add GL_ARB_texture_env_dot3 GL_ARB_transpose_matrix
GL_ARB_texture_env_combine GL_ARB_transpose_matrix GL_ARB_vertex_blend
GL_ARB_texture_env_crossbar GL_S3_s3tc GL_ARB_window_pos
GL_ARB_texture_env_dot3 GL_EXT_abgr GL_S3_s3tc
GL_ARB_transpose_matrix GL_EXT_bgra GL_ATI_element_array
GL_ARB_vertex_blend GL_EXT_blend_color GL_ATI_envmap_bumpmap
GL_ARB_vertex_program GL_EXT_blend_minmax GL_ATI_fragment_shader
GL_ARB_window_pos GL_EXT_blend_subtract GL_ATI_map_object_buffer
GL_S3_s3tc GL_EXT_compiled_vertex_array GL_ATI_pn_triangles
GL_ATI_element_array GL_EXT_separate_specular_color GL_ATI_texture_mirror_once
GL_ATI_envmap_bumpmap GL_EXT_fog_coord GL_ATI_vertex_array_object
GL_ATI_fragment_shader GL_EXT_multi_draw_arrays GL_ATI_vertex_streams
GL_ATI_map_object_buffer GL_EXT_packed_pixels GL_ATIX_texture_env_combine3
GL_ATI_separate_stencil GL_EXT_paletted_texture GL_ATIX_texture_env_route
GL_ATI_texture_mirror_once GL_EXT_point_parameters GL_ATIX_vertex_shader_output_point_size
GL_ATI_vertex_array_object GL_EXT_rescale_normal GL_EXT_abgr
GL_ATI_vertex_streams GL_EXT_clip_volume_hint GL_EXT_bgra
GL_ATIX_texture_env_route GL_EXT_draw_range_elements GL_EXT_blend_color
GL_ATIX_vertex_shader_output_point_size GL_EXT_shared_texture_palette GL_EXT_blend_func_separate
GL_EXT_abgr GL_EXT_stencil_wrap GL_EXT_blend_minmax
GL_EXT_bgra GL_EXT_texture3D GL_EXT_blend_subtract
GL_EXT_blend_color GL_EXT_texture_compression_s3tc GL_EXT_clip_volume_hint
GL_EXT_blend_func_separate GL_EXT_texture_edge_clamp GL_EXT_compiled_vertex_array
GL_EXT_blend_minmax GL_EXT_texture_env_add GL_EXT_draw_range_elements
GL_EXT_blend_subtract GL_EXT_texture_env_combine GL_EXT_fog_coord
GL_EXT_clip_volume_hint GL_EXT_texture_env_dot3 GL_EXT_packed_pixels
GL_EXT_compiled_vertex_array GL_EXT_texture_cube_map GL_EXT_point_parameters
GL_EXT_draw_range_elements GL_EXT_texture_filter_anisotropic GL_ARB_point_parameters
GL_EXT_fog_coord GL_EXT_texture_lod GL_EXT_rescale_normal
GL_EXT_packed_pixels GL_EXT_texture_lod_bias GL_EXT_secondary_color
GL_EXT_point_parameters GL_EXT_texture_object GL_EXT_separate_specular_color
GL_EXT_rescale_normal GL_EXT_vertex_array GL_EXT_stencil_wrap
GL_EXT_secondary_color GL_EXT_vertex_weighting GL_EXT_texgen_reflection
GL_EXT_separate_specular_color GL_HP_occlusion_test GL_EXT_texture_env_add
GL_EXT_stencil_wrap GL_IBM_texture_mirrored_repeat GL_EXT_texture3D
GL_EXT_texgen_reflection GL_KTX_buffer_region GL_EXT_texture_compression_s3tc
GL_EXT_texture_env_add GL_NV_blend_square GL_EXT_texture_cube_map
GL_EXT_texture3D GL_NV_copy_depth_to_color GL_EXT_texture_edge_clamp
GL_EXT_texture_compression_s3tc GL_NV_evaluators GL_EXT_texture_env_combine
GL_EXT_texture_cube_map GL_NV_fence GL_EXT_texture_env_dot3
GL_EXT_texture_edge_clamp GL_NV_fog_distance GL_EXT_texture_lod_bias
GL_EXT_texture_env_combine GL_NV_light_max_exponent GL_EXT_texture_filter_anisotropic
GL_EXT_texture_env_dot3 GL_NV_multisample_filter_hint GL_EXT_texture_object
GL_EXT_texture_filter_anisotropic GL_NV_occlusion_query GL_EXT_vertex_array
GL_EXT_texture_lod_bias GL_NV_packed_depth_stencil GL_EXT_vertex_shader
GL_EXT_texture_object GL_NV_point_sprite GL_KTX_buffer_region
GL_EXT_vertex_array GL_NV_register_combiners GL_NV_texgen_reflection
GL_EXT_vertex_shader GL_NV_register_combiners2 GL_NV_blend_square
GL_HP_occlusion_test GL_NV_texgen_reflection GL_SGI_texture_edge_clamp
GL_KTX_buffer_region GL_NV_texture_compression_vtc GL_SGIS_texture_border_clamp
GL_NV_texgen_reflection GL_NV_texture_env_combine4 GL_SGIS_texture_lod
GL_NV_blend_square GL_NV_texture_rectangle GL_SGIS_generate_mipmap
GL_SGI_texture_edge_clamp GL_NV_texture_shader GL_SGIS_multitexture
GL_SGIS_texture_border_clamp GL_NV_texture_shader2 GL_WIN_swap_hint
GL_SGIS_texture_lod GL_NV_texture_shader3 WGL_EXT_extensions_string
GL_SGIS_generate_mipmap GL_NV_vertex_array_range WGL_EXT_swap_control
GL_SGIS_multitexture GL_NV_vertex_array_range2 -
GL_WIN_swap_hint GL_NV_vertex_program -
WGL_EXT_extensions_string GL_NV_vertex_program1_1 -
WGL_EXT_swap_control GL_SGIS_generate_mipmap -
GL_ARB_multisample GL_SGIS_multitexture -
- GL_SGIS_texture_lod -
- GL_SGIX_depth_texture -
- GL_SGIX_shadow -
- GL_WIN_swap_hint -
- WGL_EXT_swap_control -

Теоретические аспекты реализации анитиалиасинга и анизотропной фильтрации

В отличие от предыдущего чипа, в R300 исправлена вызвавшая множество нареканий особенность реализации анизотропии на основе RIP-маппинга — теперь ей не страшен поворот вокруг оси Z. Вне зависимости от угла наклона плоскости относительно этой оси, анизотропия работает как положено. Интересно, что, вопреки большинству мнений, эта особенность не была недостатком самой методики RIP- маппинга, а лишь конкретной особенностью его конкретной реализации в предыдущих чипах ATI. Впрочем, за более корректную реализацию, которую мы наблюдаем теперь в R300, придется заплатить несколько увеличившимся падением производительности (впрочем, далее мы подробно исследуем этот вопрос).

AA тоже претерпел изменения. Как и раньше, выбирается одна из псевдослучайных хаотических масок с двумя, четырьмя или шестью семплами (главное отличие от NVIDIA, где маска хоть и зависит от метода сглаживания, но всегда одинакова). Но, на этот раз, семплы выбираются методом мультисамплинга, как и в чипах NVIDIA. Следует ожидать, что скорость закраски самих полигонов существенно возрастет, на их краях ситуация (внешняя) останется прежней, но, потенциально, края под прозрачными полигонами будут обрабатываться неверно. Чтож, это расплата за повышенную скорость АА. Далее мы подробно исследуем скорость и качество АА на практике.

А теперь, как обычно перед анализом результатов тестирования, мы рассмотрим непосредственно саму карту.

Плата

Карта снабжена интерфейсом AGP x4/x8, 128 МБ локальной памяти DDR SDRAM (восемь микросхем, размещенных на лицевой и оборотной сторонах PCB).

На карте установлены микросхемы памяти Samsung марки K4D26323RA-GC2A, форм-фактора BGA. Максимальная частота работы — 350 (700) МГц, поэтому можно сделать вывод, что время выборки — 2,8 нс, а не 2,2, как было указано ранее в некоторых обзорах. По умолчанию память работает на частоте 310 (620) МГц

Микросхемы памяти в новой BGA-упаковке уже стали весьма популярными среди производителей видеокарт, и мы не станем лишний раз рссказывать о преимуществах использования микросхем в таких корпусах.

ATI RADEON 9700 Pro 128MB

Перед нами карта весьма обычного, на первый взгляд, дизайна. Разумеется, наличие 256-битной высокоскоростной шины не может не привести к усложнению PCB. Но, если на платах от Matrox и 3Dlabs мы видели наличие большого экрана, предохраняющего от наводок, то здесь он имеется только в левой части PCB:


А основная часть PCB, где расположены микросхемы памяти и чип, не защищена никаким экранированием:


Интересной особенностью карты является обязательное внешнее питание. В комплект поставки входит переходник-разветвитель, позволяющий без проблем подключить к плате стандартный "хвост" от блока питания:


Карта снабжена обычным набором интерфейсных разъемов: VGA, DVI и TV-out (S-Video). Для подключения TV-out через RCA в комплект поставки входит соответствующий переходник.

Если рассматривать PCB дальше, мы заметим, что правая ее часть очень похожа на RADEON 8500, особенно в плане расположения микросхем памяти. А вот радиатор на чипе — довольно большого размера, что традициям ATI несвойственно :-).



Хотя, в данном случае, это вынужденная мера, поскольку GPU (вернее, VPU, отвыкаем от старых названий :-) очень сильно греется (сказывается огромное число транзисторов при частоте 325 МГц и технологии .15 микрон). Кстати, обратите внимание на форму упаковки самого процессора:


Как мы видим, FCPGA корпусовка процессоров с перевернутым открытым кристаллом дошла и до графических чипов. В статье про Matrox Parhelia я удивлялся размерам корпуса, хотя понятно, что в случае оной сверху примерно такого же по размеру чипа установлена теплоотводящая металлическая крышка, а здесь ее нет. В наличии огромное число выводов (все же 256-битная шина).

На этом рассмотрение самой карты мы заканчиваем. Сразу скажу, что вас ожидает вторая часть материала по RADEON 9700 Pro, в котором мы подробно рассмотрим особенности работы карты при выводе на два монитора и TV-out (в рамках данного материала, по причине небольшого времени на исследование карты, мы не успеваем это проанализировать. К тому же, во второй части читатели смогут ознакомиться с работой AGP8x).

Заглянем в коробку, где вместе с картой можно найти:

два диска с ПО (драйверы, MMC 7.8 и др.) и маркетинговыми материалами, переходник S-Video-to-RCA весьма непривычного маленького размера (без кабеля), переходник DVI-to-d-Sub.

А вот и сама коробка, в которой будут продаваться платы RADEON 9700 PRO:

Обратите внимание на надпись в правом нижнем углу. Известно, что на Quakecon'2002 такие карты показывали только в специально привезенных системных блоках, не говоря уж про то, что обещанные подарочные наборы за $450 (куда входит RADEON 9700 Pro, сувениры, невышедшая еще игра DOOM III — ее обешали бесплатно прислать позже — и пульт ДУ от ATI) вовсе не продавались, а лишь принимались заказы на них (многие участники мероприятия были очень разочарованы таким обманом).

Разгон

Когда мы только начали исследовать работу карты на штатных частотах, то пришли к выводу, что при таком нагреве наверняка разгон будет почти невозможен. А он оказался возможен! И даже очень! Последняя версия (3.21) PowerStrip уже умеет работать с RADEON 9700.

ATI RADEON 9700 Pro 128MB 325/620 -> 350/700 MHz

По правде говоря, чип смог работать и на 370 МГц, но никаких приростов относительно 350 МГц в обычных режимах работы карты (без АА и/или анизотропии) мы уже не обнаружили, После анонса материала мы еще раз прогнали карту на 370 МГц, но под максимальной нагрузкой и убедились, что стабильность работы имеется. Поэтому на диаграммах ниже мы приводим эти результаты (полоски имеют "кирпичную" раскраску). Мы видим, что, несмотря на огромную сложность процессора и его высокий температурный режим, потенциал разгона имеется. Не последнюю роль сыграла здесь FCPGA корпусовка. Кроме того, мы не можем и отрицать возможности того, что для сэмплов компания ATI отбирала самые лучшие чипы. Напомним, что

  • при разгоне обязательным условием является наличие дополнительного охлаждения, в частности, обдувающего карту (прежде всего, ее память) вентилятора:

  • разгон любой карты зависит от конкретного экземпляра, и поэтому нельзя обобщать вышеприведенные возможности повышения частот на все видеокарты этой марки и даже серии. Показатели разгона мы приводим только как интересное явление; они ни в коей мере не входят в состав обязательных характеристик видеокарты.

Установка и драйверы

Рассмотрим конфигурацию тестового стенда, на котором проводились испытания карт:

  • Компьютер на базе Pentium 4 (Socket 478):
    • процессор Intel Pentium 4 2200 (L2=512K);
    • системная плата ASUS P4T-E (i850);
    • оперативная память 512 MB RDRAM PC800;
    • жесткий диск Quantum FB AS 20GB;
    • операционная система Windows XP.

На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21"). Тестирование на другом стенде на базе AMD Athlon XP мы проведем во второй части материала, к тому же, там будет исследование работы карты на AGP8x (на базе VIA KT400).

При тестировании применялись драйверы от ATI версии 6.143 (отмечу, что этот драйвер предназначен только для карт серии RADEON 9***, поддержки карт прежнего выпуска нет. Нет пока?) VSync отключен, компрессия текстур отключена. Установлен DirectX 9.0 beta2.

Для сравнительного анализа приведены результаты уже знакомых читателям видеокарт:

  • ASUS V8460Ultra (GeForce4 Ti 4600, 300/325 (650) МГц, 128 МБ, driver 30.82);
  • Matrox Parhelia (220/275 (550) МГц, 128 МБ, driver 2.31);
  • Gigabyte MAYA AP128DG-H RADEON 8500 Deluxe (275/275 (550) МГц, 128 МБ, driver 6.118).

Настройки драйверов









Отметим сразу, что на сегодня выпущены только драйверы DirectX 8 ! Выход драйверов DirectX 9.0 ожидается только в октябре. Что касается настроек управления, то они почти стандартны для всей новой серии драйверов CATALYST, за исключением настроек работы RADEON 9700 в части анти-алиасинга (SmoothVision II) и анизотропии. Как мы видим, у анизотропной фильтрации есть возможность выбора режима ее работы (кроме уровней): производительность/качество. Ниже мы рассмотрим, чем же режимы отличаются (вкратце скажу, что возможностью/невозможностью функционирования трилинейной фильтрации совместно с анизотропией).

Что касается АА, то, как уже говорилось, наконец-то мы видим упорядочивание этой функции. Вместо кучи мало кому понятных режимов производительность/качество совместно с уровнями АА, мы видим три режима 2х, 4х и 6х. Что избавляет пользователя от того, чтобы ломать голову над выбором. Ниже мы рассмотрим работу самых интересных режимов 4х и 6х.

На этом рассмотрение особенностей драйверов мы заканчиваем.

Результаты тестов

2D-графика

Традиционно начнем с 2D. Несмотря на высокую частоту и сложность карты, качество 2D выше всяких похвал! Что самое интересное, можно заметить увеличенную насыщенность (сочность) цветов (специально переключал монитор с компьютера с RADEON 9700 на компьютер с RADEON 8500, чтобы сравнить). Мы остались очень довольны качеством 2D.

Казалось, еще Ленин говорил, что оценка 2D-качества есть вещь субъективная. Поэтому напомню, что качество зависит от конкретного экземпляра, а также связка карта-монитор может по-прежнему играть огромную роль, прежде всего надо обращать внимание на качество монитора и кабеля.

3D-графика, MS DirectX 8.1 SDK — предельные тесты

На этот раз мы планировали полностью перейти к тестированию предельных характеристик с помощью прототипов синтетических тестов, разрабатываемых нами в рамках проекта открытого графического теста RightMark 3D. Однако из-за отсутствия в драйверах поддержки основных возможностей DX9 мы приняли решение использовать два старых (и уже хорошо знакомых читателям) теста на основе примеров из DX 8.1 SDK и пока не рассматривать некоторые из наших новых DX9 тестов.

Итак, для тестирования различных предельных характеристик чипов мы использовали модифицированные (для большего удобства и контроля) примеры из последней официальной финальной версии DirectX SDK (8.1).

EMBM рельеф

В этом тесте мы измеряем производительность, а точнее — ее падение, возникающее при использовании наложения карт среды (Environment) и рельефа на основе карт среды (EMBM — Environment Mapped Bump Mapping). Кроме того, мы измеряем филрейт обычного одинарного текстурирования. Тестирование проводилось в разрешении 1280*1024 — мы находим это разрешение оптимальным для предельных тестирований современных карт:

Взгляните на красные столбики RADEON 9700 PRO. Бросается в глаза удручающее падение скорости закраски при использовании EMBM. Столь радикальное падение ставит RADEON 9700 PRO (aka R300), снабженный 256-битным интерфейсом памяти, на одну ступень с предыдущим поколением чипов (в EMBM режиме, разумеется)! Если в обычном текстурировании мы наблюдаем значительное преимущество над всеми конкурентами, то с включением карты среды оно уменьшается. Остальные карты практически не теряют производительности — они могут задействовать второй текстурный блок, а у R300 его нет. При активации EMBM комбинируется уже 3 текстуры. Но и это не все: в случае EMBM одна текстура выбирается на основе значений, полученных из другой, и, как мы видим, подобная схема особенно больно бьет по пиксельным конвейерам R300.

Производительность пиксельных шейдеров 1.0

Мы вновь использовали модифицированный пример MFCPixelShader, измерив производительность карт в высоком разрешении при выполнении 5 различных по сложности шейдеров, для билинейно фильтрованных текстур:

Вновь ситуация неоднозначна. На предельно простом коротком шейдере преимущество R300 очевидно, сказывается наличие 8 конвейеров. Однако по мере усложнения шейдера скорость падает, причем быстрее, чем у остальных соперников, и на сложной задаче R300 располагается практически на одной ступени с NV25(!). Ситуация очень близко напоминает ту, что мы видели в обзоре P10 и, видимо, в той или иной мере будет свойственна всем ускорителям нового поколения, способным исполнять большие пиксельные шейдеры. Впрочем, если сравнить между собой результаты R200 и R300 — прогресс налицо, и более чем двукратный.

Подобное падение производительности вызвано двумя причинами:

  • во-первых, уже отмеченный нами аспект наличия лишь одного текстурного блока, который вызывает заметное падение производительности при активации каждой следующей текстуры, а не пары текстур, как у других чипов.
  • Во-вторых, не забываем, что все остальные чипы снабжены пиксельными стадиями и выполняют шейдеры версии 1.X вдвое или вчетверо быстрее, чем по команде за такт, в то время как R300 выполняет шейдеры покомандно, пускай и 8 параллельными конвейерами. Мы уже не раз рассуждали на этот счет в аналитике по R300 и обзоре P10, и в этом обзоре вновь находим наглядное подтверждение наших аналитических выводов в результатах синтетических тестов.

Кроме того, внимательный читатель может заметить, что NV25 и P512 снабжены, как минимум, 4 стадиями на один пиксельный конвейер, а R200, судя по всему, — лишь двумя. С другой стороны, наличие четырех текстурных модулей не сильно помогает P512 — невысокая тактовая частота является сдерживающим фактором, и наиболее хорошо с точки зрения исполнения пиксельных шейдеров первой версии сбалансирован NV25.

Не следует забывать, что конкурировать R300 придется в первую очередь с NV30, о производительности которого мы пока можем делать лишь очень зыбкие суждения, основанные на ориентировочной тактовой частоте, наличии двух текстурных блоков на конвейер и покомандном исполнении шейдеров (также, как и у R300).

3D-графика, MS DirectX 9 SDK (beta 2) — синтетические тесты

Для тестирования остальных предельных характеристик чипа мы использовали прототипы наших новых синтетических DX9 тестов, созданные в рамках проекта RightMark 3D.

GPU Speed — геометрическая производительность

Этот тест позволяет измерить предельную пропускную способность ускорителя по треугольникам с использованием различных типов и числа источников света и схем освещения, как простых, так и сложных. На данный момент, в тесте реализовано семь различных моделей освещения:

  1. Константное (ambient lighting)
  2. Рассеянное (1 точечный источник)
  3. Рассеянное (2 точечный источника)
  4. Рассеянное (3 точечных источника)
  5. Рассеянное + блики (1 точечный источник)
  6. Рассеянное + блики (2 точечных источника)
  7. Рассеянное + блики (3 точечных источника)

И четыре режима работы:

  1. Традиционный TCL (Fixed-Function Pipeline)
  2. Вершинные шейдеры 1.1
  3. Вершинные шейдеры 1.1 и пиксельные шейдеры 1.1
  4. Вершинные шейдеры 2.0 и пиксельные шейдеры 2.0

Позже в тест будет добавлено несколько характерных задач анимации и трансформации геометрии.

Тест спроектирован таким образом, дабы минимизировать зависимость от всех факторов, кроме геометрической производительности и скорости установки треугольников (передачи параметров в шейдеры). Выводится множество маленьких и очень детализованных моделей, размеры треугольников которых крайне малы (сравнимы с размером пикселя), дабы нивелировать зависимость от HSR или закраски.

Приведем результаты для "традиционного" TCL как в аппаратном режиме, так и в случае программной обработки вершин:

Как мы видим, вновь R300 на высоте в самой простой задаче. Обратите внимание на внушительную цифру в 106 миллионов трансформированных и вершин в секунду (!). И вновь, его позиция в остальных (более сложных) задачах неоднозначна. Скажем так, R300 становится "сравним" с NV25 и P512, что никак нельзя назвать блестящим результатом для чипа нового поколения. Также отметим, что в режиме программной трансформации по-прежнему лидирует поддерживающий FastWrites NV25 — а результаты R300 в этом вопросе, к сожалению, все там же — на уровне R200 и P512.

Но не будем забывать, что это тест старого, в некотором роде рудиментарного TCL. Предыдущие чипы, даже не имея выделенного фиксированного TCL блока, были заточены для его эффективной эмуляции. Возможно, что при разработке R300 такая задача не ставилась. Давайте теперь посмотрим, как обстоят дела с трансформацией и освещением на основе вершинных шейдеров:

Ага! Наши предположения про эмуляцию TCL оказались верны — в задаче исполнения шейдеров R300 на высоте. Как и следовало ожидать — новый чип в среднем опережает NV25 вдвое, а своего предшественника R200 — даже втрое. Результаты R300 хорошо согласуются с полученными в TCL режиме, что говорит об отсутствии какой-либо специально усиленной эмуляции оного. Итак, в этом тесте R300 выходит четким победителем, демонстрируя отрыв, достойный нового поколения.

В программном режиме, вновь лучше всех показывает себя NV25. На более или менее сложных шейдерах программная эмуляция выполняется крайне неспешно. Впрочем, пока еще очень сложно представить себе реальное приложение, способное нарисовать 30 или 40 миллионов треугольников, а посему в реальных задачах эмуляция может оставаться приемлемой.

А теперь проверим зависимость теста от разрешения:

Как мы видим, тест не зависит от разрешения, но при этом четко зависит от сложности модели освещения, что, собственно, и требовалось.

Point Sprites

Этот тест призван измерять производительность вывода точечных спрайтов. Тест всегда использует полупрозрачные спрайты, т.к. большинство реальных эффектов на основе систем частиц (для которых они и предназначены) требуют наличия полупрозрачности и смешения (блендинга). Доступны два режима: с освещением каждого спрайта источниками света и без. Можно регулировать размер выводимых спрайтов.

Как мы видим, при тестировании без освещения на небольших размерах спрайтов (до 4 точек включительно) R300 проигрывает даже R200 (!), не говоря уже о NV25. Однако с ростом размеров спрайтов он занимает лидирующее положение — сказывается наличие 256-битной шины памяти. Чем больше размер спрайтов — тем активнее идет общение с кадровым буфером во время блендинга.

И при освещении общая картина зависимости та же, но на сей раз разница не столь бросается в глаза — особенно на маленьких размерах спрайтов. Видимо, все упирается в трансформацию и освещение. По мере роста размеров R300 начинает лидировать вновь, благодаря существенному преимуществу в скорости работы с буфером кадров. Кроме того, отметим, что 9 миллионов частиц — не такая уж и большая цифра, фактически, в эффектах на основе частиц все упирается в блендинг, а не геометрическую производительность современных чипов.

Texturing Rate — тест на скорость фильтрации текстур

Этот тест позволяет комплексно исследовать скорость фильтрации текстур, произвольно меняя количество накладываемых за один проход текстур, их размер, формат и метод фильтрации. Таким образом, накладывая одну текстуру, мы измеряем скорость закраски пикселей, накладывая их максимальное количество и варьируя методику фильтрации — скорость фильтрации (т.е. производительность текстурных блоков). Кроме того, мы можем оценить алгоритм определения мип-уровней:

И качество исполнения любой фильтрации:

Как видно из приведенного скриншота, тест выводит несколько больших полигонов, причем со значительным диапазоном значений глубины. Это позволяет не только визуально оценить выбор мип-уровней, но и проверить реализацию анизотропной фильтрации. Для проверки всевозможных углов наклона и поворота плоскостей "туннель" (а скорее пирамида) поворачивается вокруг оси Z, кроме того, его вершина и перемещается по кругу в плоскости, параллельной экрану. Таким образом, треугольники, из которых он состоит, равномерно поворачиваются и наклоняются под различными углами.

Для начала исследуем зависимость скорости закраски от числа текстур (билинейная фильтрация):

Если со старыми картами все достаточно ожидаемо, то с R300 в этом тесте происходят странные вещи. Полученные результаты заметно ниже его потенциального максимума. Удивительно, но даже R200 обгоняет своего старшего брата! Однако при внимательном рассмотрении вопроса этот факт находит объяснение:

  1. Не будем забывать, что 8 текстурных блоков на частоте 325 МГц вполне сравнимы по предельной производительности билинейной фильтрации с 8 блоками на 300 МГц у NV25 или с 8 блоками на 275 МГц у R200.
  2. Не будем забывать что у R300 нет комбинационных стадий. Наш тест складывает все текстуры вместе, и, видимо, в случае R300 настройки стадий эмулируются соответствующим пиксельным шейдером. На новой, по-командной архитектуре пиксельных конвейеров R300 каждая выборка текстуры займет одну команду, плюс каждое сложение — еще одну. Таким образом, R300 окажется в невыгодном положении по сравнению со старыми стадийными конвейерами, так же, как и в описанном ранее случае с фиксированным TCL!

Для проверки этого факта мы модифицировали тест (на диаграмме SPECIAL TEST), заставив накладываемые текстуры не складываться, а просто затирать друг друга. Результаты остальных карт остались прежними - занято то же число стадий, а вот R300 линейно рос до тех пор, пока не превысил свой собственный теоретический придел. Как такое могло случится? Ответ лишний раз подтверждает нашу гипотезу. Настройки стадий были транслированы драйверами (или DX9) в соответствующий пиксельный шейдер. При компиляции этого шейдера он был (как обычно) оптимизирован, и все независимые и неиспользуемые далее выборки текстур были исключены. В результате чего всегда накладывалась только одна последняя текстура, а наш тест неверно вычислял текстурный филрейт, полагая, что все текстуры выбираются честно. Итак, мы снова столкнулись с неоднозначными архитектурными особенностями нового поколения чипов. Да, более гибкого, но и менее производительного на традиционных несложных задачах. Что ж, подождем новых DDI9 драйверов и NV30, прежде чем сделать какие-то окончательные выводы. Пока же утешимся тем фактом, что в реальных приложениях все зависит не только от производительности текстурных блоков, но и от суммарного объема текстур (а у нас он был незначителен — одна текстура 256х256 вполне может целиком поместитьтся в кеш), а следовательно, R300 снабженный более широкой шиной памяти, получит заметное преимущество. Подтверждение этому мы найдем далее, в тестах, основанных на реальных приложениях, а теперь исследуем производительность трилинейной фильтрации, которая, согласно заявлениям ATI, для R300 выполняется бесплатно:

На поверку трилинейная фильтрация оказывается "почти бесплатной", впрочем, как и в случае других карт. Взаимная картина сохраняется прежней. Теперь исследуем зависимость от типа фильтрации:

В случае анизотропной фильтрации R300 на высоте — продукты NV предыдущего поколения традиционно проигрывали в этом вопросе. Однако, на сей раз, анизотропия не столь бесплатна для R300, как была для его предка — R200. Особенно заметно это в случае ее совместного использования с трилинейной фильтрацией. Дело в том, что ATI исправила хорошо известную проблему своей реализации анизотропии на основе RIP-маппинга. Теперь их реализация допускает произвольный поворот плоскости текстурируемой поверхности вокруг оси Z (!). За это пришлось расплатиться заметным (но все же не в разы) падением скорости относительно R200. С другой стороны, результаты NV25 и P512, исповедующих классический подход к реализации анизотропии, по-прежнему "далеко внизу". Единственное исключение — младшая степень анизотропии, где NV25 и особенно P512 (благодаря наличию четырех текстурных блоков на конвейер) еще как-то способны конкурировать с семейством RADEON. Остается только похвалить ATI — и проблемы исправили, и скорость упала не очень сильно. Но, с другой стороны, что принесет нам в этом вопросе NV30, с которой R300 должен конкурировать? Не является ли сравнимая с R200 скорость анизотропной фильтрации нового RADEON опрометчивым шагом? ATI была сильно ограничена .15 техпроцессом, и не смогла реализовать вторые текстурные блоки или увеличить частоту ядра чипа. Но при этом чип был сделан по новой архитектуре пиксельных конвейеров, которая сама по себе (на простых задачах при прочих равных) проигрывает старой - это расплата за повышенную гибкость программирования. Зажатый в тиски сложности и техпроцесса Matrox предвидел подобные проблемы и не решился реализовывать полную совместимость c DX9 по технологии .15. А вот инженеры ATI — рискнули. Время покажет, был ли этот риск оправдан.

Напоследок, проверим зависимость нашего теста от размера текстуры (возьмем характерный случай с 4 текстурами за проход — такое количество способны задействовать все чипы, принимающие участие в сравнении):

как видно, зависимость незначительна, и текстура 256х256 может считаться разумным решением для большинства тестов. Теперь проверим зависимость от разрешения (и снова задействуем 4 текстуры):

Начиная с выбранного нами разрешения 1280х1024, зависимость практически не просматривается, что и требуется от хорошего теста. Проверять зависимость от формата текстуры мы пока не будем — т.к. в данных драйверах не реализованы сжатые форматы, а 16-битная текстура будет выводиться с той же самой скоростью (напомним, что пока мы тестируем только использованием одной текстуры, которая помещается в кэш чипа).

Перейдем к синтетическим тестам 3DMark2001:

3D-графика, 3DMark2001 SE — синтетические тесты

Подчеркну, что все замеры по всем 3D-тестам проводились в 32-битной глубине цвета.

Скорость закраски

Напомним, что теоретические пределы для данного теста составляют 880 миллионов пикселей в секунду для Parhelia, 1100 для RADEON 8500, 1200 для Ti 4600 и 2600 для R300. Полученные результаты хорошо соотносятся с теорией, и, благодаря 8 конвейерам закраски (а также 256 битной шине, без которой они бы захлебнулись) R300 лидирует с двукратным преимуществом. Но какое из современных приложений обходится только одной текстурой? А посему, давайте посмотрим, как изменится положение вещей при мультитекстурировании:

Также напомним, что пиковые значения для этого теста составляют 3520 (1760) миллионов текселей в секунду для Parhelia (в скобках указано значение при работе схемы 4 конвейера по 2 текстурника на каждом), 2200 — для RADEON 8500, 2400 для Ti 4600 и 2600 для RADEON 9700 PRO. В случае мультитекстурирования, большую роль играет сбалансированность чипа. На сей раз около своей пиковой скорости оказались Ti 4600 и RADEON 9700 PRO (только в высоком разрешении, для которого его и рекомендуется использовать ;) ). Четкого лидера из R300 не вышло, да и не могло выйти даже теоретически — сказывается наличие лишь одного текстурного блока и сравнимая с остальными чипами частота ядра. Итак, мы нашли очередное подтверждение результатам нашего нового синтетического теста DX9.

Сцена с большим количеством полигонов

На этом тесте особое внимание следует уделить минимальному разрешению — именно там зависимость от закраски практически нивелируется:

При наличии одного источника света R300 показывает себя абсолютным лидером. Результаты повторяют картину, полученную нами на собственном DX9 тесте, но не столь радикально — 3DMark2001, видимо, не позволят подобраться к физическому пределу чипа так же близко, как будущий GPU Speed из RightMark 3D. P512 — заметный аутсайдер, несмотря на 4 вершинных конвейера. Интересно, что на нашем тесте GPU Speed P512 показывает себя куда как более выгодно, демонстрируя в полтора раза более высокие результаты и выступая на ровне с R200. Видимо, в 3DMark2001 задето какое-то больное место этого чипа, вызывающее заметное падение производительности вершинного блока. Либо дело в драйверах и DX - наш тест написан и скомпилирован с интерфейсом DX9, в то время как 3DMark2001 SE компилировался с DX81.

В случае 8 источников света общая картина не меняется, но разница между картами становится меньше, снова подтверждая полученные ранее результаты. Кроме того, R200 и P512 меняются местами — Parhelia реабилитирует себя (с ростом числа источников его производительность падает более медленно, чем производительность RADEON 8500). Лидер — R300, аутсайдером теперь становится R200.

Рельефное текстурирование

Посмотрим на результаты синтетической EMBM сцены:

В отличие от нашего старого теста из DX81 SDK, R300 реабилитирует себя! Видимо, этот тест более зависим от скорости записи в кадровый буфер, которая, несомненно, выше у R300. А теперь DP3-рельеф:

"Все те же лица".

Вершинные шейдеры

Вновь подтверждаются результаты нашего синтетического теста GPU Speed. Отрыв R300 в 3DMark2001 не столь велик, но по-прежнему четко дистанцирует его от остальных участников тестирования: R300 - безоговорочный лидер в вопросах вершинных шедйеров, геометрии и трансформации. По крайней мере, пока дело не касается старого фиксированного TCL.

Пиксельный шейдер

Руководствуясь высказанными выше соображениями о том, что слишком малые разрешения "упираются" в геометрию, а слишком большие — в пропускную полосу памяти, обратим основное внимание на 1024х768 и 1280х1024:

R300 снова четкий лидер. Впрочем, интересно, что его производительность с ростом разрешения падает быстрее. Сказывается покомандное исполнение вершинных шейдеров. Давайте посмотрим, что произойдет в более сложном тесте Advanced Pixel Shader.

Отрыв R300 увеличился! Бальзам на душу поклонников ATI. Сказывается оптимизация пиксельных конвейеров чипа под более гибкие и длинные пиксельные шейдеры. Становится ясно, что до появления драйверов с полной поддержкой DX9 и пиксельных шейдеров 2.0 делать какие-либо выводы рано.

Спрайты

R300 лидирует, но не столь четко, как в предыдущих тестах. В этой области все плохо у Parhelia — чип не имеет специального аппаратного ускорения для вывода точечных спрайтов. Как мы уже отмечали, без прозрачности (блендинга) производительность спрайтов имеет маленькую практическую ценность. Как бы там ни было, этот тест лишний раз демонстрирует преимущество 256-битной шины и 8 конвейеров закраски.

Итак, подведем промежуточный итог. По сумме синтетических тестов карта R300 выглядит достаточно спорно. В вопросах обработки геометрии — четкое преимущество, в вопросах закраски — все зависит от задачи. Как минимум, есть поводы посетовать на наличие только одного текстурного блока на конвейер. Конечно, по сравнению с остальными картами, R300 оставляет четкое впечатление лидера, заточенного под сложные задачи будущих приложений. С другой стороны, до появления полноценных драйверов под DX9 очень сложно делать какие-либо выводы по синтетическим тестам. Кроме того, по этой же причине у нас не было пока возможности протестировать новые форматы текстур и буфера кадров и вторые версии пиксельных и вершинных шейдеров. Не будем также забывать что в данном тестировании еще не принял участие главный конкурент R300 — NV30.

Предваряя результаты тестов в играх, замечу, что мы провели тестирование не только на штатных и разогнанных частотах, но и на пониженных до 300/600 МГц, чтобы оценить, какую производительность смогут показать самые "малопроизводительные" платы из серии (см. выше разброс частот на платах от партнеров ATI).

3D-графика, 3DMark2001 — игровые тесты

3DMark2001, 3DMARKS

На основании общих "марков" можно отметить, что лидерство RADEON 9700 Pro над прошлым королем — GeForce4 Ti 4600 — составляет от 17 до 39%. С учетом сильного ограничивающего влияния центрального процессора — это очень даже неплохо.

3DMark2001, Game1 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 19773/33753/143422
  • Rendered textures per frame with 16 bit textures (min/avg/max): 7.5/8.8/16.5 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 15.1/17.7/30.3 MB
  • Rendered textures per frame with texture compression (min/avg/max): 10.7/12.2/21.0 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 26%, над Parhelia — 123%, над RADEON 8500 — 57.2%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 121%, над Parhelia (FAA16x) — 94% ,над RADEON 8500 (AA4xP) — 265%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 60%, над RADEON 8500 (ANIS 16) — 19%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 75%, над Parhelia — 44%, над RADEON 8500 — 163%.

Если кто хочет проценты перевести в "разы", то надо к процентам прибавить 100 и все разделить на 100.

3DMark2001, Game2 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 46159/51440/147828
  • Rendered textures per frame with 16 bit textures (min/avg/max): 8.0/8.8/10.1 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 15.6/17.2/19.8 MB
  • Rendered textures per frame with texture compression (min/avg/max): 9.3/10.9/13.5 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 38%, над Parhelia — 136%, над RADEON 8500 — 79%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 171%, над Parhelia (FAA16x) — 104% ,над RADEON 8500 (AA4xP) — 311%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 195%, над RADEON 8500 (ANIS 16) — 69%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 181%, над Parhelia — 105%, над RADEON 8500 — 283%.

3DMark2001, Game3 Low details

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 16681/21746/39890
  • Rendered textures per frame with 16 bit textures (min/avg/max): 2.8/4.1/4.7 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 5.7/8.2/9.4 MB
  • Rendered textures per frame with texture compression (min/avg/max): 5.0/7.2/8.4 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 29%, над Parhelia — 114%, над RADEON 8500 — 61.5%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 188%, над Parhelia (FAA16x) — 76% ,над RADEON 8500 (AA4xP) — 338%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 153%, над RADEON 8500 (ANIS 16) — 74%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 192%, над Parhelia — 65%, над RADEON 8500 — 297%.

3DMark2001, Game4

Характеристики теста:

  • Rendered triangles per frame (min/avg/max): 55601/81714/180938
  • Rendered textures per frame with 16 bit textures (min/avg/max): 14.9/17.4/20.7 MB
  • Rendered textures per frame with 32 bit textures (min/avg/max): 28.4/33.5/40.0 MB
  • Rendered textures per frame with texture compression (min/avg/max): 28.4/33.5/40.0 MB

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 101%, над Parhelia — 207%, над RADEON 8500 — 113%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 146%, над Parhelia (FAA16x) — 133% ,над RADEON 8500 (AA4xP) — 276%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 90%, над RADEON 8500 (ANIS 16) — 51%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 116%, над Parhelia — 155%, над RADEON 8500 — 187%.

Подводя итоги тестированию в 3DMark2001SE, можно сказать, что самым разительным образом преимущество нового продукта от ATI сказывается в тяжелых режимах АА и анизотропии. Что и следовало ожидать, учитывая ограничивающее производительность влияние частоты центрального процессора (да и платформы в целом, несмотря на, казалось бы, высокие цифры 2.2 ГГц) при малой нагрузке карты. Плюс наличие 256-битной шины обмена с памятью самым положительным образом сказывается на скорости при АА. Что касается анизотропии, то пока просто отметим не слишком капитальные провалы производительности при ее активизации в режиме качества. Ниже мы поговорим о ней более подробно.

3D-графика, игровые тесты

Приступаем к оценке производительности видеокарты в 3D-играх. В качестве инструментария мы использовали:

  • Return to Castle Wolfenstein (MultiPlayer) (id Software/Activision) — OpenGL, мультитекстурирование, Checkpoint-demo, настройки тестирования — все на максимально возможном уровне, S3TC OFF, конфигурации можно скачать тут
  • Serious Sam: The Second Encounter v.1.05 (Croteam/GodGames) — OpenGL, мультитекстурирование, Grand Cathedral demo, настройки тестирования: quality, S3TC OFF
  • Quake3 Arena v.1.17 (id Software/Activision) — OpenGL, мультитекстурирование, Quaver, настройки тестирования все на максимальном уровне: уровень детализации — High, уровень детализации текстур — №4, S3TC OFF, плавность кривых поверхностей резко увеличена при помощи переменных r_subdivisions "1" и r_lodCurveError "30000" (подчеркну, что по умолчанию r_lodCurveError "250" !), конфигурации можно скачать тут
  • Comanche4 Benchmark Demo (NovaLogic) — Direct3D, Shaders, Hardware T&L, Dot3, cube texturing, максимально возможное качество
  • Unreal Tournament 2003 Demo v.927 (Digital Extreme/Epic Games) — Direct3D, Vertex Shaders, Hardware T&L, Dot3, cube texturing, качество по умолчанию
  • Code Creatures Benchmark Pro (CodeCult) — игровой тест, демонстрирующий работу платы в DirectX 8.1, Shaders, HW T&L.
  • AquaMark (Massive Development) — игровой тест, демонстрирующий работу платы в DirectX 8.1, Shaders, HW T&L.
  • RightMark Video Analyzer v.0.4 (Philip Gerasimov) — DirectX 8.1, Dot3, cube texturing, shadow buffers, vertex and pixel shaders (1.1, 1.4).

Quake3 Arena, Quaver

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 38%, над Parhelia — 195%, над RADEON 8500 — 66%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 113%, над Parhelia (FAA16x) — 137%,над RADEON 8500 (AA4xP) — 327%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 94%, над RADEON 8500 (ANIS 16) — 49%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 146%, над Parhelia — 169%, над RADEON 8500 — 429%(!).

Думаю, что всем понятно "упирание" в возможности платформы и CPU в режимах без АА и анизотропии, потому и столь малые преимущества RADEON 9700, но включение указанных функций сразу ставит все на свои места. Конечно, отлаженность OpenGL-драйвера еще далека от совершенства, хотя по сравнению с тем, что мы увидим ниже, в следующем тесте — пустяк.

Serious Sam: The Second Encounter, Grand Cathedral

Поскольку конфигурация настроек этой игры очень сложна, и ее трудно описать словами, я приведу скриншоты установок:

Итак, что же мы получили:

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — -17.8 (отставание)%, над Parhelia — 47%, над RADEON 8500 — 27%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 26%, над Parhelia (FAA16x) — -4 (отставание)% ,над RADEON 8500 (AA4xP) — мы не учитываем, поскольку явный глюк работы RADEON 8500 в этом тесте при АА. Такого малого падения просто быть не может. Тест проводился несколько раз, результаты не отличаются.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 0%, над RADEON 8500 (ANIS 16) — 0%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 0%, над Parhelia — -23 (отставание)%, над RADEON 8500 — не учитываем.

Мы являемся свидетелями того, что, либо драйвер от ATI отвратительно работает в данной игре, либо что-то иное сильно мешает продемонстрировать потенциал RADEON 9700. Надеемся на выход новых драйверов или хотя бы объяснение представителей ATI на данный счет.

Return to Castle Wolfenstein (Multiplayer), Checkpoint

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 24%, над Parhelia — 397%, над RADEON 8500 — 22%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 131%, над Parhelia (FAA16x) — 378% ,над RADEON 8500 (AA4xP) — 262%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 116%, над RADEON 8500 (ANIS 16) — 26%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 177%, над Parhelia — 400%, над RADEON 8500 — 315%.

В этом тесте (который от платформы зависит еще больше, чем Quake3) мы видим схожую картину сильнейшего превосходства новинки при сильной нагрузке на карту. Крайне низкая скорость у Parhelia, вероятно, объясняется тем же, что и у RADEON 9700 в предыдущем тесте: неотлаженностью ПО, либо каким-либо несостыковками (вероятно нужен патч).

Code Creatures

Этот тест создан на базе движка от CodeCult, на котором в производстве находится несколько игр.


Движок примечателен тем, что использует практически все современные возможности видеокарт последнего поколения. Плюс демо-программа на базе этого движка содержит очень тяжелые для акселераторов сцены как по объему текстур, геометрии, так и по числу используемых эффектов.

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 31%, над Parhelia — 110%, над RADEON 8500 — 320%.

Как видим, тест и так чрезвычайно сложен даже для супер-акселератора, поэтому гонять карту при нагрузке АА и/или анизотропии нет смысла.

Comanche4 DEMO

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 0%, над Parhelia — 88%, над RADEON 8500 — 34%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 58%, над Parhelia (FAA16x) — 113% ,над RADEON 8500 (AA4xP) — 149%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 35%, над RADEON 8500 (ANIS 16) — 23%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 37%, над Parhelia — 100%, над RADEON 8500 — 100%.

Этот тест очень процессорозависим, а также сильно нагружает карты, потому обшая производительность невысока при максимальном качестве. И если есть преимущество хотя бы на 50% — это уже большое достижение.

Unreal Tournament 2003 DEMO b.927

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 0%, над Parhelia — 54%, над RADEON 8500 — 230%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — не учитывается, поскольку явно видно что АА4х в данном случае не работает (правда, непонятно, почему), над Parhelia (FAA16x) — 25% ,над RADEON 8500 (AA4xP) — 364%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 12%, над RADEON 8500 (ANIS 16) — 76%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — не учитывается, над Parhelia — -7 (отставание)%, над RADEON 8500 — 165%.

Этот тест давно уже вызывает у многих недоумение, однако мы решили пока его оставить до выхода финального релиза ДЕМО. Еще в наших 3DGiТогах мы писали, что производительность у карт от ATI в этой ДЕМО представляет собой нечто необъяснимое. Мы склонны все же винить в данной картине драйверы от ATI.

AquaMark

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 4%, над Parhelia — 75%, над RADEON 8500 — 76%.

При активизации АА расклады таковы: преимущество над Ti 4600 (AA4x) — 101%, над Parhelia (FAA16x) — 66% ,над RADEON 8500 (AA4xP) — 169%.

Анизотропная фильтрация (режим качества) произвела следующую расстановку сил: преимущество над Ti 4600 (ANIS 8) — 278%, над RADEON 8500 (ANIS 16) — 38%.

При полной нагрузке карт АА и анизотропией мы получаем следующую картину преимущества нового продукта канадской компании (в 1280х1024): над Ti 4600 — 157%, над Parhelia — 40%, над RADEON 8500 — 142%.

Этот тест вышел в 2001 году, когда появилась только карта на базе GeForce3, и тогда мы говорили, что он очень и очень сложен. И даже нынешние лидеры не блещут супер-скоростями, хотя на порядок производительность и поднялась. Обратите внимание на катастрофическое падение скорости у GeForce4 при анизотропии (этой фильтрацией тупо обрабатываются все текстуры, а в тесте очень много полупрозрачных текстур).

RightMark 3D

Лидерство у RADEON 9700 в разрешении 1600х1200х32 таково: над Ti 4600 — 48%, над Parhelia — 86%, над RADEON 8500 — 211%.

Этот тест также очень сложен, таковым он и задумывался, чтобы проверить не только работоспособность современных ускорителей при активных функциях DX8.1, но и быстроту работы с ними.

Качество 3D-графики

АНИЗОТРОПНАЯ ФИЛЬТРАЦИЯ

Подробности о работе этой функции, и для чего она нужна, вы можете почитать в нашем разделе 3DGiТогов, посвященном данной теме.

Мы знаем, что реализация этой функции у разных фирм-производителей видеопроцессоров отличается. Да и скоростные характеристики анизотропий, скажем, от ATI и от NVIDIA, сильно отличаются. Схоже только результирующее качество.

Этот постулат был справедлив и безжалостен (по крайней мере, к реализации анизотропии от ATI) до недавнего времени. Теперь же все меняется. Как уже ясно из начала статьи, разработчики из Канады наконец-то дали пользователю выбор: или просто анизотропия, или она вместе с трилинейной фильтрацией.

Что же означают переключатели "Скорость-качество" в настройках драйверов в секции, посвященной анизотропной фильтрации? Давайте посмотрим на наш тест Fillrate из будущего RightMark 3D. Включаем трилинейную фильтрацию (слева обычный режим, справа — с окрашиванием MIP-уровней):

Работает отлично. Теперь включаем анизотропию в режиме "Скорость":

Как мы видим, трилинейка пропала. Хотя сама анизотропия — превосходного качества. По ходу дела давайте сравним ее с такой же фильтрацией у RADEON 8500, ведь не случайно же мы поставили стенки в "туннеле" под 45 градусов :-). Слева показан скриншот, снятый в таком положении "туннеля". А справа — он смещен на 40 градусов.

RADEON 8500

GeForce4                                                        RADEON 9700

Ну как? Все увидели разницу? :-) То-то и оно. А теперь посмотрите выше на скриншоты, снятые на RADEON 9700 и убедитесь, что проблема "углов, близких к 45 градусам", решена.

А теперь вернемся к различиям режимов работы этой функции "Скорость-качество". Выше мы убедились, что, несмотря на то, что качество анизотропии выросло и не зависит от углов наклона обрабатываемых поверхностей, она все же несосуществует с трилинейкой. Переключим режим на "Качество".

Ага! Обе фильтрации работают вместе! Замечу, что эта особенность касается всех Direct3D-приложений. Как выяснилось, при подобном форсировании анизотропии внутренние режимы работы фильтраций в играх подчиняются драйверам вне зависимости от того, что выставлено в самих играх. Кроме… 3DMark2001, в котором, видимо, трилинейная фильтрация истреблена как класс, и даже драйвера боятся ее предлагать этому пакету :-).

А что в OpenGL? Там также все в порядке. Давайте посмотрим на примере Quake3. Включаем анизотропию в режиме "Скорость":

Перед нами анизотропия и отсутствие трилинейной фильтрации (вне зависимости от того, включена ли последняя в самой игре или нет). А теперь переключимся на "Качество":

Что мы видим? Думаю, что большое и радостное событие для всех поклонников продукции ATI. Результаты тестирования производительности, приведенные ранее, свидетельствуют о том, что при уровне ANIS 16 и практически честной анизотропке мы имеем не столь сильное падение производительности, как у GeForce4 Ti, например. Одно должно отравлять жизнь: эти приятные особенности есть пока только у очень дорогой карты класса High-End. Возможно, это останется нетронутым у RADEON 9500, однако мы пока ничего не можем предположить даже в плане производительности этой карты и ее ценовой направленности (это может и $180-200, и $250-290).

В заключение рассмотрения анизотропии давайте кинем взгляд на несколько скриншотов, характеризующих качество этой функции:

RADEON 8500 RADEON 9700
3DMark2001, Game 1
ANIS 0
ANIS 16
3DMark2001, Game 2
ANIS 0
ANIS 16
Serious Sam: TSE
ANIS 0
ANIS 16

АНТИ-АЛИАСИНГ (АА)

В начале материала мы уже рассмотрели аспекты работы АА у RADEON 9700, производительность оценили в предыдущем разделе, а здесь давайте посмотрим на качество.

Пример 1 Пример 2
3DMark2001, Game 1
No AA
AA 4x
AA 6x
3DMark2001, Game 3
No AA
 
AA 4x
 
AA 6x
 
3DMark2001, Game 4
No AA
AA 4x
AA 6x
Serious Sam: TSE
No AA
AA 4x
AA 6x

Что мы видим?

  1. Практическое отсутствие разницы в качестве режимов 4х и 6х. А, как говорится, зачем платить больше, если результат один?
  2. Как следовало ожидать, там, где есть прозрачные текстуры, MSAA не работает (смотрим на листья в Game4).
  3. В целом качество АА очень хорошее и на уровне соответствующей степени АА у GeForce4 Ti. Заметим, что в Direct3D при АА немного смещается LOD BIAS в отрицательную сторону, и поэтому слегка увеличивается четкость картинки.

Качество 3D в целом

Мы пока не успели прогнать очень много игр, но ряд артефактов уже заметили. Прежде всего, они есть в некоторых играх выпуска 2000-2001 года (RealMYST, Sacrifice). В играх новейшего выпуска артефактов не замечено. Подробнее вы сможете узнать все из наших предстоящих 3DGiТогов, галерея скриншотов пополнится кадрами, полученными на RADEON 9700 (сразу скажу, что в Morrowind артефактов нет :-) ).

Выводы

Не будем забывать, что в нашем кинозале еще не собрались все зрители — есть одно незанятое место. Место для NV30. Для образования общего мнения об ускорителям нового поколения давайте подождем, пока соберутся все — мы надеемся, что тогда нам и покажут настоящее кино. А пока мы имеем сказать следующее.

  1. В целом, карта у ATI удалась, несмотря на сложность чипа и высокий температурный режим работы (без дополнительного внешнего охлаждения чип греется до 85 градусов (!), сама PCB — до 68-70. Хотя это нисколько не влияет на устойчивость работы карты (проверялось зацикленным 3DMark2001 в течение 6 часов).
  2. Да, RADEON 9700, безусловно, король на сегодня. Но есть ряд моментов: прежде всего, это пока малая доступность карт (отгрузки начнутся только в сентябре), а также не надо забывать, как мы уже сказали выше, на горизонте — NV30 от NVIDIA, который грозит стать новым лидером осенью этого года. Возможно, он не станет "убийцей" RADEON 9700, но сдвинуть с трона и заставить ATI идти на снижение цен — сможет.
  3. Что касается аспектов работы карты, то надо еще раз отметить, что мы не можем в данный момент дать оценку функциям DirectX 9 по причине отсутствия релиза DX9, а также хотя бы бета-версии DX9-драйверов. Поэтому позже мы еще раз вернемся к материалу по RADEON 9700, и ожидайте третью часть большого, так сказать, многосерийного обзора. Вторая часть выйдет через неделю после данной статьи и будет посвящена работе видеофункций, TV-out, AGP8x (в этом материале все показания снимались на AGP4x).
  4. Надо отметить, что по неизвестной пока причине (вероятно, виноват BIOS системной платы) при установке ATI RADEON 9700 Pro в материнку Soltek 75DRV5 (VIA KT333) становятся доступными только режимы работы AGP 1x и 2x (!). Возможности включить 4х нет, хотя с другими видеокартами данная системная плата работает и на 4х. Поскольку режим 2х видеокарта, судя по всему, НЕ ПОДДЕРЖИВАЕТ (!), возникают зависания при запуске любого 3D-приложения.
  5. К минусам относится еще неотлаженное ПО, в частности, панель управления драйверов, когда те или иные установки приходится переключать по 2-3 раза, чтобы заработало так, как требуется. В общем, программистам ATI еще есть над чем работать (несмотря на то, версия 6.143 имеет электронную подпись, то есть сертифицирована).
  6. А по работе 3D-части мы можем сказать, что, несмотря на низкие показатели работы карты по синтетическим тестам, в целом, производительность очень хороша. Да, архитектура 8х1 еще скажется тяжелым бременем на будущих играх, жадных до скорости заполнения. Но пока видно одно: такую карту просто грешно использовать без активизации АА и/или анизотропии (особенно удалась последняя)! Поэтому советуем всем желающим снова отдать $400 за супер-ускоритель изучать базисы 3D-графики, чтобы не бояться правильно активировать и регулировать влияющие на качество 3D функции.
  7. Про минусы (низкий филлрейт из-за 8х1, высокие цены, малая доступность на конец лета, артефакты в некоторых играх) мы уже сказали, к плюсам, кроме вышеупомянутой скорости в целом, можно добавить еще улучшенную анизотропную фильтрацию, да и АА приобрел современные черты (высокое качество при умеренной расплате скоростью).

В заключение хочется пожелать, чтобы эти карты быстрее появлялись на прилавках магазинов, да и цены чтобы быстрее падали (все же это даст косвенный плюс: толчок к падению цен на GeForce4 Ti 4600 — карты). А поклонников ATI мы поздравляем с рождением нового короля 3D-графики в игровом секторе (пусть хотя бы и не надолго, но в кои веки ATI смогла не только догнать, но и перегнать лидера).

И еще раз отметим, что нынешняя производительность карты может сильно меняться после выхода DirectX 9 и соответствующих драйверов, поэтому мы не закрываем тему. И ждите вторую часть материала, посвященного уже аспектам работы RADEON 9700 с DVD, TV-out, а также тестам на KT400 (AGP8x).

Благодарим Филиппа Герасимова, одного из авторов и главного программиста DirectX тестов пакета RightMark 3D, за оперативную помощь в тестировании