Обзор NVIDIA GeForce 6600GT и 6600 (NV43): Часть 1 — Производительность.



СОДЕРЖАНИЕ

  1. Официальные спецификации
  2. Архитектура
  3. Особенности видеокарт
  4. Конфигурации стендов, список тестовых инструментов, качество в 2D
  5. Синтетические тесты в D3D RightMark
  6. Синтетические тесты в 3DMark03: FillRate Multitexturing
  7. Синтетические тесты в 3DMark03: Vertex Shaders
  8. Синтетические тесты в 3DMark03: Pixel Shaders
  9. Результаты тестов: Quake3 ARENA
  10. Результаты тестов: Serious Sam: The Second Encounter
  11. Результаты тестов: Return to Castle Wolfenstein
  12. Результаты тестов: Code Creatures DEMO
  13. Результаты тестов: Unreal Tournament 2003
  14. Результаты тестов: Unreal II: The Awakening
  15. Результаты тестов: RightMark 3D
  16. Результаты тестов: TRAOD
  17. Результаты тестов: FarCry
  18. Результаты тестов: Call Of Duty
  19. Результаты тестов: HALO: Combat Evolved
  20. Результаты тестов: Half-Life2(beta)
  21. Результаты тестов: Splinter Cell
  22. Результаты тестов: DOOM III
  23. Результаты тестов: 3DMark03 Game1
  24. Результаты тестов: 3DMark03 Game2
  25. Результаты тестов: 3DMark03 Game3
  26. Результаты тестов: 3DMark03 Game4
  27. Результаты тестов: 3DMark03 MARKS
  28. Выводы


Установка и драйверы

Конфигурации тестовых стендов:

    Компьютер на базе Pentium4 Overclocked 3200 MHz (Prescott)
    • процессор Intel Pentium4 3600 MHz (225MHz × 16; L2=1024K, LGA775); Hyper-Threading включен
    • системная плата ABIT AA8 DuraMAX на чипсете i925X;
    • оперативная память 1 GB DDR2 SDRAM 300MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • Компьютер на базе Athlon 64 3400+
    • процессор AMD Athlon 64 3400+ (L2=1024K);
    • системная плата ASUS K8V SE Deluxe на чипсете VIA K8T800;
    • оперативная память 1 GB DDR SDRAM PC3200;
    • жесткий диск Seagate Barracuda 7200.7 80GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • мониторы ViewSonic P810 (21") и Mitsubishi Diamond Pro 2070sb (21").
  • драйверы ATI версии 6.476 (CATALYST 4.9); NVIDIA версии 65.76.

VSync отключен.

Рассматривать настройки драйверов нет смысла, ибо по сравнению с GeForce 6800 никаких отличий нет.

ВНИМАНИЕ!

Для изучения особенностей GeForce 6600GT было весьма интересно сравнить эти карты с более старшими аналогами на базе GeForce 6800/6800GT, работающих с GeForce 6600GT на равных частотах и с пониженным до ее уровня число конвейеров. Поэтому для этих целей мы воспользовались Palit GeForce 6800,





и с помощью RivaTuner его модифицировали:





Таким образом, установив такое же количество конвейеров, как у GeForce 6600GT, а также выставив частоты 325/175 (350) МГц, мы можем провести тестирование такого как бы эмулятора 6600 на базе 6800 и сравнить эти тесты с аналогичными результатами на GeForce 6600GT, работающим на частотах 325/350 (700) МГц. Частота по памяти у GeForce 6800 снижена в 2 раза из-за разницы в шинах у обеих карт. Тогда ПСП получается одинаковой: 128bit × 700 MHz = 256bit × 350 MHz.

Но надо иметь в виду, что и GeForce 6800, и некоторые другие карты, с которыми мы будем сравнивать 6600GT, имеют AGP-интерфейс, и потому протестировать их возможно только на другом стенде (платформа на базе Athlon64 3400+). Наши предварительные исследования работы идентичных карт на AGP/PCX интерфейсах, например, X800XT, показали, что результаты, полученные на Athlon64 3400+ и Pentium4 3600 MHz отличаются очень незначительно, а при нагрузке карт АА или АФ (или и тем и другим вместе), разница вообще нивелируется.

Поэтому мы все же провели сравнение с RADEON 9800 PRO 128MB и GeForce 6800LE (8 пиксельных и 4 вершинных конвейера), несмотря на различие в интерфейсах и платформах. Проценты сравнения, полученные без нагрузки АА и АФ (так называемая чистая скорость), выделены в таблицах темно-синим цветом, затрудняющим чтение цифр. Таким символическим образом помечено как бы наиболее «нечестное» сравнение, где влияние платформ на производительность будет самым большим. Желающие могут эти результаты просто проигнорировать.

Далее, чтобы не ограничиваться только такими опосредованными сравнениями, за неимением GeForce 6800 на PCX-основе, мы провели еще одно сравнение, уже с GeForce 6800GT PCI-E, у которой нами было ограничено ядро по числу конвейеров (8/3 как у 6600) и частотам 350/250 (500) МГц. Таким образом, сравнение с GeForce 6600GT (работающим на частотах 350/500 (1000) MHz) будет правомерным полностью, как по частоте ядра, так и по числу конвейеров и пропускной способности памяти. Лишь разница в объеме и типе памяти может о себе дать знать.

Итак, в таблицах с процентами сравнения в игровых и некоторых синтетических тестах мы ввели некоторые условные обозначения в виде раскрасок разными цветами:

  • ВСЕ СИНЕ-ГОЛУБЫЕ ТОНА означают сравнение с видеокартами, работающими на другой (Athlon64) платформе;
  • ИЗ НИХ ТЕМНО-СИНИЙ ЦВЕТ — сравнение в режиме «чистой скорости» без нагрузки АА и АФ (можно игнорировать при анализе);
  • ГОЛУБОЙ ЦВЕТ — сравнение с GeForce 6800, работающем на равных с GeForce 6600GT частотах и с равным числом конвейеров и одинаковой ПСП;
  • ТЕМНО-ЖЕЛТЫЙ ЦВЕТ означает аналогичное сравнение с GeForce 6800GT PCX;
  • САЛАТОВЫЙ ЦВЕТ — анализ GeForce 6600 (300/300 (600) MHz);
  • БЕЛЫЙ ЦВЕТ — все остальные сравнения.

Результаты тестов

Перед тем, как дать краткую оценку качеству в 2D, я еще раз поясню, что на настоящий момент НЕТ полноценной методики объективной оценки этого параметра по следующим причинам:

  1. Практически у всех современных 3D-акселераторов качество 2D может сильно зависеть от конкретного экземпляра, а отследить все карты невозможно физически;
  2. Качество 2D зависит не только от видеокарты, но и от монитора, соединительного кабеля;
  3. В последнее время огромное влияние на этот параметр стали оказывать связки: монитор-карта, то есть, встречаются мониторы, "не дружащие" с теми или иными видеокартами.

Что касается протестированного экземпляра, то совместно с Mitsubishi Diamond Pro 2070sb плата продемонстрировала отменное качество в следующих разрешениях и частотах:

NVIDIA GeForce 6600GT 1600x1200x85Hz, 1280x1024x120Hz, 1024x768x160Hz


Синтетические тесты D3D RightMark

Использованная нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и ее описание доступна на сайте 3d.rightmark.org

Список карт:

  • 6600 GT (500/500)
  • 6600 GT (350/500)
  • 6800 GT (350/250)
  • 6800 Ultra (400/550)

Для обнаружения конкретных отличий NV40 и NV43 мы провели тесты не только на оригинальной 6600 GT (частоты 500/500) но и на контрольной паре — 6800 GT (350/250) с включенными 8 пиксельными и 3 вершинными конвейерами и 6600 GT (350/500) также, с конвейерной схемой 8/3 и эквивалентной полосой пропускания памяти (у обеих карт, при таких установках частоты памяти, она составила 16 Гигабайт в секунду). Таким образом, мы надеемся увидеть различия, связанные с различными качественными и количественными изменениями, внесенными в NV43, если они конечно есть. Кроме того, для общего сравнения мы приводим результаты 6800 Ultra, как опорную точку для абсолютного сравнения, насколько Mainstream решение проигрывает дорогому Highend.

Сперва исследуем соответствие заявленных характеристик (8 пикселей за такт и т. д.) действительности. Итак:

Тест Pixel Filling

Пиковая производительность выборки текстур (texelrate), режим FFP, для разного числа текстур накладываемых на один пиксель:

Теоретический максимум NV43-500 в этом тесте 4 гигатекселов в секунду. В действительности мы достигли 3.4 гигатекселов, что однозначно свидетельствует о наличии 8 текстурных модулей. В случае одной текстуры результат меньше чем в случае двух — мы страдаем от недостаточной полосы пропускания буфера кадра, а далее на лицо плавная зависимость — с каждой новой текстурой скорость закраски постепенно падает. Результаты эталонной 6800 GT совпадают с 6600, начиная с двух текстур, — либо у 6600 сказалась недостаточная эффективность двухканального контроллера памяти, либо (что также вероятно) верно наше предположение об облегченном механизме блендинга и записи значений в буфер кадра.

А сейчас — скорость закраски буфера кадра (fillrate, pixelrate), режим FFP, для разного числа текстур, накладываемых на один пиксель:

Посмотрим, как скорость закраски зависит от версии шейдеров:

Итак, во-первых, от версии шейдеров закраска не зависит никак (что хорошо соотносится с нашими представлениями об архитектуре NV40) а если говорить об эффективности закраски, то вырисовывается следующая картина:

Карта ( ядро / память )

Теоретический предел

Практический предел

6600 GT (500/500)

4000

1887

6600 GT (350/500)

2800

1259

6800 GT (350/250)

2800

2515

6800 U (400/550)

6400

5032

Которая, опять таки, свидетельствует о заметном различии в эффективности записи данных в буфер кадра. Нельзя однозначно сказать, виноват в этом:

  1. Двуканальный контроллер памяти
  2. Какие-либо буфера, уменьшенные в NV43 по сравнению с NV40
  3. Уменьшенная пропускная способность блока блендинга и записи.
  4. Технология сжатия буфера кадра (которая могла быть, как отключена в драйверах, в качестве припасенного скачка производительности на будущее, так и просто вырезана из NV43 как это было сделано в свое время у NV34);

Но факт остается фактом. Совершенно идентичный по полосе пропускания памяти и числу конвейеров 6800 GT (350/250) на основе NV40 выступает в случае маленького числа текстур (а, следовательно, и максимальной нагрузки на запись буфера кадров) гораздо эффективнее 6600 GT (350/500) на основе NV43, то есть 6600 считает 8 пикселей за такт, но записывает в буфер кадра только 4(!) за такт, а пока идет обсчет пиксельным шейдером следующих значений, то записываются оставшиеся 4 пикселя. Это может ввести некоторых в заблуждение, что у NV43 4 конвейера, но 8 текстурников, но это не так. В принципе, можно эту меру оправданной, т.к. шейдеры работают как минимум с двумя командами.

Тест Geometry Processing Speed

Самый простой шейдер — предельная пропускная способность по треугольникам:

Очевидно, что здесь все упирается в процессор, программное обеспечение и платформу, а не в ускоритель. Пиковая геометрическая пропускная способность современных ускорителей более чем достаточна.

Более сложный шейдер — один простой точечный источник света:

Здесь все зависит от частоты ядра. Но, как в случае 6800 Ultra, так и в случае 6600 GT она была достаточной — и результаты, как и в предыдущем тесте, уперлись в другие факторы, процессор, систему и т. д.

Следует отметить равенство NV43 и NV40 на частоте ядра 350. Оно лишь подтверждает наши предположения о полной идентичности вершинных блоков в этих чипах.

Усложняем задачу:

На более интенсивных вычислениях чипы распределяются строго согласно тактовой чистоте и числу вершинных блоков — ничего неожиданного. Разве что обращает на себя внимание высокий результат FFP, практически сравнимый у 6 и 3 блочных конфигураций. Специальные блоки для ускорения эмуляции FFP позволили 6800 Ultra даже в этом тесте упереться в процессор.

А теперь самая сложная задача, три источника света, причем, для сравнения в вариантах без переходов, со статическим и динамическим управлением исполнением:

Во-первых, отметим равную производительность шейдера в случае компиляции для профиля 2.a с динамическими переходами и 3.0 — чего в принципе и следовало ожидать, ведь динамические переходы организуются аппаратно одним и тем же методом, как в случае первого профиля, так и второго. Все кардинальное отличие 3.0 в данном случае в чуть более расширенной системе команд и наличии выборок из текстур, которые мы пока не тестировали на производительность (в следующей версии RightMark D3D этот тест появится, но уже известно, что эта функция выполняется чипами NV4X очень неторопливо). Как минимум, радует, что в последней версии DX компиляция шейдеров 3.0 отлажена и ни в чем не проигрывает профилям 2.x.

В общем и целом карты показали себя в строгом соответствии с тактовой частотой и числом конвейеров, если не считать единственного случая — FFP на 6800 Ultra, где чип, опять-таки, продемонстрировал феноменальную производительность и уперся в ограничения нашей тестовой платформы.

Итак :

  1. Вершинная архитектура NV43 полностью повторяет NV40
  2. На равной частоте, равное число вершинных блоков дает равную производительность.
  3. Производительность вершинных блоков, особенно эмуляция FFP и некоторые другие простые тесты очень велика, она с запасом превышает возможности нашей тестовой платформы.
  4. Как уже отмечалось нами в предыдущих обзорах, динамические переходы на чипах NV4X предпочтительнее статических, а отсутствие переходов предпочтительнее присутствия.
  5. Вершинные шейдеры 3.0 компилируются и работают, причем, как и ожидалось, не менее эффективно, чем 2.x

Тест Pixel Shaders

Первая группа шейдеров — достаточно простых для исполнения в реальном времени, 1.1, 1.4 и 2.0:

Все тесты очень хорошо соответствуют тактовой частоте и числу конвейеров, а результаты чипов на частоте ядра 350 совпадают очень точно. Итак, мы делаем вывод об идентичности пиксельных процессоров NV40 и NV43. Как и ожидалось ранее, благодаря высокой частоте ядра 6600 GT в пиксельных шейдерах выглядит очень хорошо, даже на фоне гораздо более дорогой 6800 Ultra. Можно только порадоваться за покупателей Mainstream решений — им будут доступны самые последние игры, пусть и в умеренных разрешениях.

А теперь посмотрим на сложные шейдеры:

Тоже самое. Интересно, что 6600 хоть и немного, но везде быстрее 6800 GT в сходной конфигурации. Видимо, есть какие то минорные отличия, связанные с оптимизациями пиксельных конвейеров, которые добавили ей эти несколько процентов постоянного преимущества. Впрочем, разница столь мала, что вполне может оказаться и следствием меньших задержек GDDR3.

Итого, по пиксельным шейдерам:

  1. Производительность достойна всех похвал, даже в сравнении с более дорогими решениями. Запас по пиксельным шейдерам значителен и достаточен даже для самых требовательных приложений.
  2. С точки зрения архитектуры пиксельные процессоры NV40 и NV43 практически идентичны, разница не превышает единиц процентов — погрешности в которую могут внести разные типы памяти.

Тест HSR

Для начала пиковая эффективность (без текстур и с текстурами) в зависимости от сложности геометрии:

 


Алгоритм HSR очень схож, и результаты практически везде совпадают. Однако без текстур NV43 показывает несколько отличные от NV40 результаты, особенно на сценах с высоким фактором перекрытия. В чем же дело? Давайте посмотрим на абсолютные цифры:


Заметно, что 6800 GT продемонстрировала чуть более высокую скорость отбрасывания невидимых блоков и записи результатов там, где не было задействовано текстурирование. Видимо сказывается не столько уменьшенная эффективность HSR подсистемы NV43, а уменьшенная эффективность записи в буфер кадра, замеченная нами во время тестов на скорость закраски.

Вывод:

  1. Алгоритм HSR не претерпел изменений
  2. В отдельных случаях его производительность у NV43 немного отличается от NV40, скорее всего, из-за косвенных причин (ими могут быть запись в буфер кадра и двуканальный контроллер памяти)

Тест Point Sprites.

Хорошо заметна более эффективная работа NV40 с блендингом и записью в буфер кадра — на всех размерах спрайтов она немного опережает NV43 на равной частоте.

На крупных размерах спрайтов NV40 выигрывает у NV43 — опять-таки, благодаря более высокой предельной скорости блендинга и записи в буфер кадра. На небольших размерах результаты идентичны — все упирается в вычисления цвета, освещения и выборку текстур и здесь NV40 и NV43 равны.

Тест MSAA

И здесь мы видим, что MSAA 4х реализован у NV40 заметно эффективнее. Сказывается двуканальный контроллер памяти и/или упрощенный блок блендинга, записи и постобработки результатов. Как мы уже предполагали выше, суть может быть конкретно в полном (или частичном?) отсутствии алгоритмов сжатия экранного буфера. Возможно, что они лишь отключены на уровне драйвера. В следующих наших обзорах мы попытаемся более подробно исследовать этот вопрос и найти точный ответ.

[ Предыдущая часть (1) ]

[ Следующая часть (3) ]





Дополнительно

Обзор NVIDIA GeForce 6600GT и 6600 (NV43): Часть 1 — Производительность.

Обзор NVIDIA GeForce 6600GT и 6600 (NV43): Часть 1 — Производительность.



СОДЕРЖАНИЕ

  1. Официальные спецификации
  2. Архитектура
  3. Особенности видеокарт
  4. Конфигурации стендов, список тестовых инструментов, качество в 2D
  5. Синтетические тесты в D3D RightMark
  6. Синтетические тесты в 3DMark03: FillRate Multitexturing
  7. Синтетические тесты в 3DMark03: Vertex Shaders
  8. Синтетические тесты в 3DMark03: Pixel Shaders
  9. Результаты тестов: Quake3 ARENA
  10. Результаты тестов: Serious Sam: The Second Encounter
  11. Результаты тестов: Return to Castle Wolfenstein
  12. Результаты тестов: Code Creatures DEMO
  13. Результаты тестов: Unreal Tournament 2003
  14. Результаты тестов: Unreal II: The Awakening
  15. Результаты тестов: RightMark 3D
  16. Результаты тестов: TRAOD
  17. Результаты тестов: FarCry
  18. Результаты тестов: Call Of Duty
  19. Результаты тестов: HALO: Combat Evolved
  20. Результаты тестов: Half-Life2(beta)
  21. Результаты тестов: Splinter Cell
  22. Результаты тестов: DOOM III
  23. Результаты тестов: 3DMark03 Game1
  24. Результаты тестов: 3DMark03 Game2
  25. Результаты тестов: 3DMark03 Game3
  26. Результаты тестов: 3DMark03 Game4
  27. Результаты тестов: 3DMark03 MARKS
  28. Выводы


Установка и драйверы

Конфигурации тестовых стендов:

    Компьютер на базе Pentium4 Overclocked 3200 MHz (Prescott)
    • процессор Intel Pentium4 3600 MHz (225MHz × 16; L2=1024K, LGA775); Hyper-Threading включен
    • системная плата ABIT AA8 DuraMAX на чипсете i925X;
    • оперативная память 1 GB DDR2 SDRAM 300MHz;
    • жесткий диск WD Caviar SE WD1600JD 160GB SATA.
  • Компьютер на базе Athlon 64 3400+
    • процессор AMD Athlon 64 3400+ (L2=1024K);
    • системная плата ASUS K8V SE Deluxe на чипсете VIA K8T800;
    • оперативная память 1 GB DDR SDRAM PC3200;
    • жесткий диск Seagate Barracuda 7200.7 80GB SATA.
  • операционная система Windows XP SP2; DirectX 9.0c;
  • мониторы ViewSonic P810 (21") и Mitsubishi Diamond Pro 2070sb (21").
  • драйверы ATI версии 6.476 (CATALYST 4.9); NVIDIA версии 65.76.

VSync отключен.

Рассматривать настройки драйверов нет смысла, ибо по сравнению с GeForce 6800 никаких отличий нет.

ВНИМАНИЕ!

Для изучения особенностей GeForce 6600GT было весьма интересно сравнить эти карты с более старшими аналогами на базе GeForce 6800/6800GT, работающих с GeForce 6600GT на равных частотах и с пониженным до ее уровня число конвейеров. Поэтому для этих целей мы воспользовались Palit GeForce 6800,





и с помощью RivaTuner его модифицировали:





Таким образом, установив такое же количество конвейеров, как у GeForce 6600GT, а также выставив частоты 325/175 (350) МГц, мы можем провести тестирование такого как бы эмулятора 6600 на базе 6800 и сравнить эти тесты с аналогичными результатами на GeForce 6600GT, работающим на частотах 325/350 (700) МГц. Частота по памяти у GeForce 6800 снижена в 2 раза из-за разницы в шинах у обеих карт. Тогда ПСП получается одинаковой: 128bit × 700 MHz = 256bit × 350 MHz.

Но надо иметь в виду, что и GeForce 6800, и некоторые другие карты, с которыми мы будем сравнивать 6600GT, имеют AGP-интерфейс, и потому протестировать их возможно только на другом стенде (платформа на базе Athlon64 3400+). Наши предварительные исследования работы идентичных карт на AGP/PCX интерфейсах, например, X800XT, показали, что результаты, полученные на Athlon64 3400+ и Pentium4 3600 MHz отличаются очень незначительно, а при нагрузке карт АА или АФ (или и тем и другим вместе), разница вообще нивелируется.

Поэтому мы все же провели сравнение с RADEON 9800 PRO 128MB и GeForce 6800LE (8 пиксельных и 4 вершинных конвейера), несмотря на различие в интерфейсах и платформах. Проценты сравнения, полученные без нагрузки АА и АФ (так называемая чистая скорость), выделены в таблицах темно-синим цветом, затрудняющим чтение цифр. Таким символическим образом помечено как бы наиболее «нечестное» сравнение, где влияние платформ на производительность будет самым большим. Желающие могут эти результаты просто проигнорировать.

Далее, чтобы не ограничиваться только такими опосредованными сравнениями, за неимением GeForce 6800 на PCX-основе, мы провели еще одно сравнение, уже с GeForce 6800GT PCI-E, у которой нами было ограничено ядро по числу конвейеров (8/3 как у 6600) и частотам 350/250 (500) МГц. Таким образом, сравнение с GeForce 6600GT (работающим на частотах 350/500 (1000) MHz) будет правомерным полностью, как по частоте ядра, так и по числу конвейеров и пропускной способности памяти. Лишь разница в объеме и типе памяти может о себе дать знать.

Итак, в таблицах с процентами сравнения в игровых и некоторых синтетических тестах мы ввели некоторые условные обозначения в виде раскрасок разными цветами:

  • ВСЕ СИНЕ-ГОЛУБЫЕ ТОНА означают сравнение с видеокартами, работающими на другой (Athlon64) платформе;
  • ИЗ НИХ ТЕМНО-СИНИЙ ЦВЕТ — сравнение в режиме «чистой скорости» без нагрузки АА и АФ (можно игнорировать при анализе);
  • ГОЛУБОЙ ЦВЕТ — сравнение с GeForce 6800, работающем на равных с GeForce 6600GT частотах и с равным числом конвейеров и одинаковой ПСП;
  • ТЕМНО-ЖЕЛТЫЙ ЦВЕТ означает аналогичное сравнение с GeForce 6800GT PCX;
  • САЛАТОВЫЙ ЦВЕТ — анализ GeForce 6600 (300/300 (600) MHz);
  • БЕЛЫЙ ЦВЕТ — все остальные сравнения.

Результаты тестов

Перед тем, как дать краткую оценку качеству в 2D, я еще раз поясню, что на настоящий момент НЕТ полноценной методики объективной оценки этого параметра по следующим причинам:

  1. Практически у всех современных 3D-акселераторов качество 2D может сильно зависеть от конкретного экземпляра, а отследить все карты невозможно физически;
  2. Качество 2D зависит не только от видеокарты, но и от монитора, соединительного кабеля;
  3. В последнее время огромное влияние на этот параметр стали оказывать связки: монитор-карта, то есть, встречаются мониторы, "не дружащие" с теми или иными видеокартами.

Что касается протестированного экземпляра, то совместно с Mitsubishi Diamond Pro 2070sb плата продемонстрировала отменное качество в следующих разрешениях и частотах:

NVIDIA GeForce 6600GT 1600x1200x85Hz, 1280x1024x120Hz, 1024x768x160Hz


Синтетические тесты D3D RightMark

Использованная нами версия пакета синтетических тестов D3D RightMark Beta 4 (1050) и ее описание доступна на сайте 3d.rightmark.org

Список карт:

  • 6600 GT (500/500)
  • 6600 GT (350/500)
  • 6800 GT (350/250)
  • 6800 Ultra (400/550)

Для обнаружения конкретных отличий NV40 и NV43 мы провели тесты не только на оригинальной 6600 GT (частоты 500/500) но и на контрольной паре — 6800 GT (350/250) с включенными 8 пиксельными и 3 вершинными конвейерами и 6600 GT (350/500) также, с конвейерной схемой 8/3 и эквивалентной полосой пропускания памяти (у обеих карт, при таких установках частоты памяти, она составила 16 Гигабайт в секунду). Таким образом, мы надеемся увидеть различия, связанные с различными качественными и количественными изменениями, внесенными в NV43, если они конечно есть. Кроме того, для общего сравнения мы приводим результаты 6800 Ultra, как опорную точку для абсолютного сравнения, насколько Mainstream решение проигрывает дорогому Highend.

Сперва исследуем соответствие заявленных характеристик (8 пикселей за такт и т. д.) действительности. Итак:

Тест Pixel Filling

Пиковая производительность выборки текстур (texelrate), режим FFP, для разного числа текстур накладываемых на один пиксель:

Теоретический максимум NV43-500 в этом тесте 4 гигатекселов в секунду. В действительности мы достигли 3.4 гигатекселов, что однозначно свидетельствует о наличии 8 текстурных модулей. В случае одной текстуры результат меньше чем в случае двух — мы страдаем от недостаточной полосы пропускания буфера кадра, а далее на лицо плавная зависимость — с каждой новой текстурой скорость закраски постепенно падает. Результаты эталонной 6800 GT совпадают с 6600, начиная с двух текстур, — либо у 6600 сказалась недостаточная эффективность двухканального контроллера памяти, либо (что также вероятно) верно наше предположение об облегченном механизме блендинга и записи значений в буфер кадра.

А сейчас — скорость закраски буфера кадра (fillrate, pixelrate), режим FFP, для разного числа текстур, накладываемых на один пиксель:

Посмотрим, как скорость закраски зависит от версии шейдеров:

Итак, во-первых, от версии шейдеров закраска не зависит никак (что хорошо соотносится с нашими представлениями об архитектуре NV40) а если говорить об эффективности закраски, то вырисовывается следующая картина:

Карта ( ядро / память )

Теоретический предел

Практический предел

6600 GT (500/500)

4000

1887

6600 GT (350/500)

2800

1259

6800 GT (350/250)

2800

2515

6800 U (400/550)

6400

5032

Которая, опять таки, свидетельствует о заметном различии в эффективности записи данных в буфер кадра. Нельзя однозначно сказать, виноват в этом:

  1. Двуканальный контроллер памяти
  2. Какие-либо буфера, уменьшенные в NV43 по сравнению с NV40
  3. Уменьшенная пропускная способность блока блендинга и записи.
  4. Технология сжатия буфера кадра (которая могла быть, как отключена в драйверах, в качестве припасенного скачка производительности на будущее, так и просто вырезана из NV43 как это было сделано в свое время у NV34);

Но факт остается фактом. Совершенно идентичный по полосе пропускания памяти и числу конвейеров 6800 GT (350/250) на основе NV40 выступает в случае маленького числа текстур (а, следовательно, и максимальной нагрузки на запись буфера кадров) гораздо эффективнее 6600 GT (350/500) на основе NV43, то есть 6600 считает 8 пикселей за такт, но записывает в буфер кадра только 4(!) за такт, а пока идет обсчет пиксельным шейдером следующих значений, то записываются оставшиеся 4 пикселя. Это может ввести некоторых в заблуждение, что у NV43 4 конвейера, но 8 текстурников, но это не так. В принципе, можно эту меру оправданной, т.к. шейдеры работают как минимум с двумя командами.

Тест Geometry Processing Speed

Самый простой шейдер — предельная пропускная способность по треугольникам:

Очевидно, что здесь все упирается в процессор, программное обеспечение и платформу, а не в ускоритель. Пиковая геометрическая пропускная способность современных ускорителей более чем достаточна.

Более сложный шейдер — один простой точечный источник света:

Здесь все зависит от частоты ядра. Но, как в случае 6800 Ultra, так и в случае 6600 GT она была достаточной — и результаты, как и в предыдущем тесте, уперлись в другие факторы, процессор, систему и т. д.

Следует отметить равенство NV43 и NV40 на частоте ядра 350. Оно лишь подтверждает наши предположения о полной идентичности вершинных блоков в этих чипах.

Усложняем задачу:

На более интенсивных вычислениях чипы распределяются строго согласно тактовой чистоте и числу вершинных блоков — ничего неожиданного. Разве что обращает на себя внимание высокий результат FFP, практически сравнимый у 6 и 3 блочных конфигураций. Специальные блоки для ускорения эмуляции FFP позволили 6800 Ultra даже в этом тесте упереться в процессор.

А теперь самая сложная задача, три источника света, причем, для сравнения в вариантах без переходов, со статическим и динамическим управлением исполнением:

Во-первых, отметим равную производительность шейдера в случае компиляции для профиля 2.a с динамическими переходами и 3.0 — чего в принципе и следовало ожидать, ведь динамические переходы организуются аппаратно одним и тем же методом, как в случае первого профиля, так и второго. Все кардинальное отличие 3.0 в данном случае в чуть более расширенной системе команд и наличии выборок из текстур, которые мы пока не тестировали на производительность (в следующей версии RightMark D3D этот тест появится, но уже известно, что эта функция выполняется чипами NV4X очень неторопливо). Как минимум, радует, что в последней версии DX компиляция шейдеров 3.0 отлажена и ни в чем не проигрывает профилям 2.x.

В общем и целом карты показали себя в строгом соответствии с тактовой частотой и числом конвейеров, если не считать единственного случая — FFP на 6800 Ultra, где чип, опять-таки, продемонстрировал феноменальную производительность и уперся в ограничения нашей тестовой платформы.

Итак :

  1. Вершинная архитектура NV43 полностью повторяет NV40
  2. На равной частоте, равное число вершинных блоков дает равную производительность.
  3. Производительность вершинных блоков, особенно эмуляция FFP и некоторые другие простые тесты очень велика, она с запасом превышает возможности нашей тестовой платформы.
  4. Как уже отмечалось нами в предыдущих обзорах, динамические переходы на чипах NV4X предпочтительнее статических, а отсутствие переходов предпочтительнее присутствия.
  5. Вершинные шейдеры 3.0 компилируются и работают, причем, как и ожидалось, не менее эффективно, чем 2.x

Тест Pixel Shaders

Первая группа шейдеров — достаточно простых для исполнения в реальном времени, 1.1, 1.4 и 2.0:

Все тесты очень хорошо соответствуют тактовой частоте и числу конвейеров, а результаты чипов на частоте ядра 350 совпадают очень точно. Итак, мы делаем вывод об идентичности пиксельных процессоров NV40 и NV43. Как и ожидалось ранее, благодаря высокой частоте ядра 6600 GT в пиксельных шейдерах выглядит очень хорошо, даже на фоне гораздо более дорогой 6800 Ultra. Можно только порадоваться за покупателей Mainstream решений — им будут доступны самые последние игры, пусть и в умеренных разрешениях.

А теперь посмотрим на сложные шейдеры:

Тоже самое. Интересно, что 6600 хоть и немного, но везде быстрее 6800 GT в сходной конфигурации. Видимо, есть какие то минорные отличия, связанные с оптимизациями пиксельных конвейеров, которые добавили ей эти несколько процентов постоянного преимущества. Впрочем, разница столь мала, что вполне может оказаться и следствием меньших задержек GDDR3.

Итого, по пиксельным шейдерам:

  1. Производительность достойна всех похвал, даже в сравнении с более дорогими решениями. Запас по пиксельным шейдерам значителен и достаточен даже для самых требовательных приложений.
  2. С точки зрения архитектуры пиксельные процессоры NV40 и NV43 практически идентичны, разница не превышает единиц процентов — погрешности в которую могут внести разные типы памяти.

Тест HSR

Для начала пиковая эффективность (без текстур и с текстурами) в зависимости от сложности геометрии:

 


Алгоритм HSR очень схож, и результаты практически везде совпадают. Однако без текстур NV43 показывает несколько отличные от NV40 результаты, особенно на сценах с высоким фактором перекрытия. В чем же дело? Давайте посмотрим на абсолютные цифры:


Заметно, что 6800 GT продемонстрировала чуть более высокую скорость отбрасывания невидимых блоков и записи результатов там, где не было задействовано текстурирование. Видимо сказывается не столько уменьшенная эффективность HSR подсистемы NV43, а уменьшенная эффективность записи в буфер кадра, замеченная нами во время тестов на скорость закраски.

Вывод:

  1. Алгоритм HSR не претерпел изменений
  2. В отдельных случаях его производительность у NV43 немного отличается от NV40, скорее всего, из-за косвенных причин (ими могут быть запись в буфер кадра и двуканальный контроллер памяти)

Тест Point Sprites.

Хорошо заметна более эффективная работа NV40 с блендингом и записью в буфер кадра — на всех размерах спрайтов она немного опережает NV43 на равной частоте.

На крупных размерах спрайтов NV40 выигрывает у NV43 — опять-таки, благодаря более высокой предельной скорости блендинга и записи в буфер кадра. На небольших размерах результаты идентичны — все упирается в вычисления цвета, освещения и выборку текстур и здесь NV40 и NV43 равны.

Тест MSAA

И здесь мы видим, что MSAA 4х реализован у NV40 заметно эффективнее. Сказывается двуканальный контроллер памяти и/или упрощенный блок блендинга, записи и постобработки результатов. Как мы уже предполагали выше, суть может быть конкретно в полном (или частичном?) отсутствии алгоритмов сжатия экранного буфера. Возможно, что они лишь отключены на уровне драйвера. В следующих наших обзорах мы попытаемся более подробно исследовать этот вопрос и найти точный ответ.

[ Предыдущая часть (1) ]

[ Следующая часть (3) ]