Обзор VPU 3Dlabs P10 и карты Wildcat VP870 на его основе

или "Наглядный процессор"

" Расширяется круг инженеров, которым приходится изучать, осваивать и творчески применять микропроцессорные средства в прикладных разработках"

(А.Л. Гуртовцев, В.С. Гудыменко — "Программы для микропроцессоров", с.3.)

СОДЕРЖАНИЕ

Перейдем к рассмотрению непосредственно самой карты.

Плата

Подчеркну, что мы рассматриваем не опытный образец, а серийную карту.

Карта снабжена AGP x2/x4 интерфейсом, 128 МБ локальной DDR SDRAM памяти (восемь микросхем, размещенных на лицевой и оборотной сторонах PCB).

На карте установлены микросхемы памяти Samsung, BGA форм-фактора. Время выборки — 3.3 нс, что соответствует примерно 300 (600) МГц. Память предположительно работает на частотах 250-300 МГц

3Dlabs Wildcat VP870

C кулером

Перед нами карта очень необычного дизайна. Разумеется, наличие 256-битной высокоскоростной шины не может не привести к усложнению PCB. Прежде всего мы заметим наличие экрана, предохраняющего от наводок:

В противоположность карте Matrox Parhelia 128MB, можно заметить, что на Wildcat VP870 практически "пусто", нет того огромного количества вспомогательных и буферных элементов на карте. Интересно то, что разработчики решили продемонстрировать число слоев на PCB (а их 8, ибо, как мы уже говорили, разводка довольно сложна из-за 256-битной шины памяти), сделав что-то наподобие контрольного "окна" на PCB и пронумеровав слои:

В наличии DVI выход, поэтому для подключения двух обычных CRT-мониторов обязательно потребуется переходник DVI-to-d-Sub. Разумеется, нельзя обойти вниманием и наличие TV-out (гнездо S-Video). В целом, PCB получилась весьма дорогая, но, вероятно, не настолько, как у Matrox. Мы полагаем, что относительно дешевую игровую карту можно создать и на базе такой PCB.

Микросхемы памяти расположены вокруг чипа, но на разном расстоянии, что выглядит необычно. Также интересно отметить, что расстояние между процессором и микросхемами сильно уменьшено, и из за этого карта выглядит совсем пустой — часть микросхем "спрятались" под кулером. Давайте посмотрим на сам VPU:

Несмотря на то, что VPU снабжен 256-битным интерфейсом памяти, используется обычный корпус, хотя и немного большего размера. Несмотря на сложность архитектуры, процессор не очень сильно греется, т.к. число транзисторов и технология сравнимы с чипами класса NV25, а тактовые частоты, в свою очередь, не столь велики.

Однако все равно для такого мощного чипа нужен весьма эффективный кулер. Обратите внимание на форму и размеры охлаждающего устройства.

Как мы видим, используется уже привычный нашему глазу закрытый радиатор со смещенным относительно центра чипа вентилятором. Такую форму кулера мы уже видели на картах на базе GeForce4 Ti, в частности, компании MSI, Triplex используют точно такие же охлаждающие устройства (только с разной формой крышек).

Установка и драйверы

Рассмотрим конфигурацию тестового стенда, на котором проводились испытания карты:

Компьютер на базе Pentium 4 (Socket 478):
- процессор Intel Pentium 4 2200 (L2=512K);
- системная плата ASUS P4T-E (i850);
- оперативная память 512 MB RDRAM PC800;
- жесткий диск Quantum FB AS 20GB;
- операционная система Windows XP.

На стенде использовались мониторы ViewSonic P810 (21") и ViewSonic P817 (21").

При тестировании применялись драйверы от 3Dlabs версии 4.23. VSync отключен.

Для сравнительного анализа приведены результаты следующих видеокарт:

ASUS V8460Ultra (GeForce4 Ti 4600, 300/325 (650) МГц, 128 МБ, driver 29.42);
Matrox Parhelia 128MB (220/275 (550) МГц, 128 МБ, driver 2.31);
Gigabyte MAYA AP128DG-H RADEON 8500 Deluxe (275/275 (550) МГц, 128 МБ, driver 6.118);
Hercules 3D Prophet 9000 Pro (RADEON 9000 Pro, 275/275 (550) МГц, 128 МБ, driver 6.118);
ATI RADEON 7500 (290/230 (460) МГц, 64 МБ, driver 6.118);
Joytech Apollo Blade Monster Xabre 400 (250/250 (500) МГц, 128 МБ, driver 3.03);
Leadtek Winfast A170V (GeForce4 MX 440, 270/200 (400) МГц, 64 МБ, driver 29.42);
NVIDIA Quadro4 750XGL (275/275 (550) МГц, 128 МБ, driver 28.32(ViewPerf7),29.42(3DS MAX));
NVIDIA Quadro4 900XGL (300/325 (650) МГц, 128 МБ, driver 28.32(ViewPerf7),29.42(3DS MAX));
ATI FireGL 8800 (RADEON 8800, 250/300 (600) МГц, 128 МБ, driver 3.036).

Настройки драйверов

Перед нами главное меню настроек, как мы видим, это краткая информационная панель.

В качестве основной информационной панели служит эта закладка, позволяющая посмотреть как версии драйверов, так и поддерживаемые расширения (OpenGL) и возможности DirectX-драйвера (CAPS).

А здесь настройки OpenGL, они самые богатые, поскольку набор драйверов в данном исполнении оптимизирован под профессиональные пакеты, которые работают в OpenGL (кстати, внизу можно выбрать оптимизацию драйвера под тот или иной пакет, выбор огромен). Настройки Direct3D весьма скромны, и там можно только регулировать VSync и включать оптимизацию под игры (правда, никакого эффекта это не дает).

Эта закладка самая таинственная. Ниже, при тестировании в профессиональных приложениях, мы убедимся, что положение бегунка играет весьма существенную роль. А на играх оно вообще сказывается кардинально. Если сместить бегунок вправо (ускорение работы геометрического блока), то и без того низкая скорость работы карты в играх падает на 15-20%, а вот при положении бегунка в левой части (ускорение работы пиксельных конвейеров) в профессиональных приложениях производительность чуть падает, а в играх резко вырастает.

На этом рассмотрение особенностей драйверов от 3Dlabs мы заканчиваем.

Результаты тестов

2D-графика

Традиционно начнем с 2D. Совместно с ViewSonic P817 и кабелем BNC Bargo карта Wildcat VP870 продемонстрировала отменное качество в следующих разрешениях и частотах:

3Dlabs Wildcat VP870	1600x1200x85Hz, 1280x1024x100Hz, 1024x768x120Hz

Пока такие карты выпускает только сама компания 3Dlabs, поэтому в повторе традиционной фразы о том, что оценка 2D-качества зависит от конкретного экземпляра, нет нужды. Но, хотя в данном случае качество и не зависит от конкретного экземпляра, связка карта-монитор могут по-прежнему играть огромную роль, прежде всего, качество монитора и кабеля.

3D-графика, MS DirectX 8.1 SDK — предельные тесты

Для тестирования различных предельных характеристик чипов мы использовали модифицированные (для большего удобства и контроля) примеры из последней версии DirectX SDK (8.1, релиз). Без лишних преамбул перейдем к уже хорошо знакомым нашим постоянным читателям тестам:

Optimized Mesh

Этот тест призван выяснить практический предел пропускной способности ускорителя по треугольникам. Для этого используется несколько одновременно выводимых в небольшом окне моделей, каждая из которых состоит из 50 тысяч треугольников. Текстурирование отсутствует. Размеры моделей минимальны — каждый треугольник не превышает одного пиксела. Хочется сразу отметить, что результат этого теста, разумеется, останется недостижим для реальных приложений, где размеры треугольников значительны, присутствуют текстуры и освещение. Приведем результаты этого теста для трех методов отрисовки — оптимизированной для оптимальной скорости вывода (в том числе, с учетом размера внутреннего кэша вершин на чипе) модели — Optimized, неоптимизированной исходной модели — Unoptimized и той-же неоптимизированной модели, выводимой в виде одного Triangle Strip — Strip. Кроме того, приведены значения в режиме программной эмуляции вершинного конвейера, дабы выяснить эффективность передачи геометрии от процессора к GPU:

В случае полностью оптимизированной модели, когда влияние подсистемы памяти минимально, мы измеряем практически чистую производительность трансформации и установки треугольников. Налицо безоговорочное лидерство Ti 4600. 65 миллионов треугольников в секунду — цифра нешуточная, практически вдвое превосходит результаты RADEON 8500 и Parhelia. P10 занимает почетное второе место, вполне приемлемо отставая от NV25, в первую очередь, вероятно, из-за меньшей тактовой частоты ядра. Однако не будем забывать что не за горами NV30, геометрическая производительность которого вполне будет более чем вдвое выше предшественника — NV25. Отметим существенное преимущество P10 в случае принудительной активации программного расчета геометрии. Особенно заметно оно на неоптимизированной модели. Ранее безусловным лидером в этом вопросе всегда были решения NVIDIA, теперь же результаты NV25 в этом вопросе побиты вдвое! Основным сдерживающим фактором при передаче геометрии является, как правило, AGP шина и алгоритм взаимодействия ускорителя с процессором. P10 несомненно использует какие-то новые оптимизации передачи, возможно меньшую точность представления координат и атрибутов вершин или какие-либо иные техники сжатия геометрической информации. Интересно, что и в случае Strip модели двукратное преимущество сохраняется — видимо, полоса передаваемых данных действительно снижена вдвое для каждой вершины.

Производительность блока вершинного шейдера

Этот тест позволяет определить предельную производительность блока вершинных шейдеров. Выполняется достаточно сложный шейдер, вычисляющий как видовые преобразования, так и геометрические функции. Тест проводится в минимальном разрешении, дабы минимизировать влияние закраски:

И вновь налицо существенное преимущество Ti 4600. P10 практически делит второе место с RADEON 8500.

Вершинный матричный блендинг

Эта возможность T&L используется для правдоподобной анимации и скиннинга моделей. Мы протестировали блендинг с использованием двух матриц как в фиксированном "аппаратном" варианте, так и с использованием вершинного шейдера, выполняющего ту же функцию. Кроме того, мы, как обычно, "подстраховались" результатами, полученными в режиме программной эмуляции T&L:

Интересно, что P10 по какой-то причине не смог выполнить аппаратный блендинг на основе вершинного шейдера, судя по всему, проблема в драйверах, т.к. все необходимые аппаратные возможности для исполнения вершинных шейдеров присутствуют. В случае полностью аппаратного блендинга (так же выполняемого лишенными фиксированного T&L GPU как некий шейдер) P10 вновь занимает почетное второе место.

EMBM рельеф

В этом тесте мы измеряем производительность, а точнее — ее падение, возникающее при использовании наложения карт отражения (Environment) и рельефа на основе карт отражения (EMBM — Environment Bump). Для тестирования использовалось разрешение 1280*1024 — т.к. именно в нем различия между картами и разными режимами текстурирования выражены наиболее резко:

Что ж, результаты теста подтверждают наш постулат о вершинно ориентированном балансе производительности P10. В вопросах закраски он все время проигрывает, во многом из-за отсутствия развитых технологий экономии пропускной полосы памяти. Какой стыд, это происходит даже при наличии 256 бит шины! Сильнее всего активация EMBM бьет по P10. Чип от Matrox красит обычные режимы лишь чуть-чуть быстрее P10, но в EMBM заметно вырывается вперед.

Производительность пиксельных шейдеров

Мы вновь использовали модифицированный пример MFCPixelShader, измерив производительность карт в высоком разрешении при выполнении 5 различных по сложности шейдеров, для билинейно фильтрованных текстур:

На простом шейдере P10 впереди — 64 процессора и более широкая шина дают о себе знать. Но не забываем про расплату за гибкость — все это лишь последовательно выполняющие команды процессоры, а не массив выдающих по результату за такт стадий. В итоге, по мере роста сложности шейдера производительность остальных чипов падает скачками, по мере объединения конвейеров и не зависит от сложности самого шейдера, а только от числа задействованных в нем стадий. Скорость P10 падает с каждой новой командой — т.е. быстрее, чем у всех конкурентов, снабженных стадиями на пиксельном конвейере. Зависит она и от сложности используемых в шейдере команд. В итоге, будучи лидером на самом простом шейдере, на самом сложном P10 опережает только R200, известный нам своей неторопливостью в шейдерных делах еще по предыдущим обзорам.

Итак, подведем первый промежуточный итог. По сумме тестов DX 8.1 SDK карта VP870 выглядит очень уверенно (по сравнению с DX8 поколением игровых ускорителей) в вопросах обработки геометрии, но заметно сдает в вопросах закраски. Налицо четкая ориентация на профессиональные приложения. Судя по всему, эта карта не сможет составить конкуренцию поколению DX9 (R300 и NV30) даже в геометрических вопросах.

Мы еще вернемся к этим тестам несколько позже (осенью), когда будет возможность протестировать наличие шейдеров версии 2.0 и прочих возможностей DirectX 9.0.

[ Предыдущая часть (1) ]

[ Следующая часть (3) ]

6 августа 2002 г.

А.Воробьев, А.Кондаков, А.Медведев