Дорогие читатели! Редакция сайта iXBT.com обращается к вам с просьбой отключить блокировку рекламы на нашем сайте.
Дорогие читатели,
Редакция сайта iXBT.com обращается к вам с просьбой отключить блокировку рекламы на нашем сайте.
Дело в том, что деньги, которые мы получаем от показа рекламных баннеров, позволяют нам писать статьи и новости, проводить тестирования, разрабатывать методики, закупать специализированное оборудование и поддерживать в рабочем состоянии серверы,
чтобы форум и другие проекты работали быстро и без сбоев.
Мы никогда не размещали навязчивую рекламу и не просили вас кликать по баннерам.
Вашей посильной помощью сайту может быть отсутствие блокировки рекламы.
Как я уже ранее говорил, настройки драйверов даже внешне имеют тот же облик, что было у Xabre. Полагаю, что все говорят скриншоты, пояснять чего-либо нет нужды.
Результаты тестов
2D-графика
Традиционно начнем с 2D. Отметим, что вплоть до 1600х1200 при 75Гц включительно нареканий на качество нет.
Если кандидаты в президенты России будут вам вещать, что оценка 2D-качества есть вещь объективная, то не верьте им, и не голосуйте за
них,ибо «правильный» кандидат считает, что оценить объективно сие невозможно, и он прав! Поэтому напомню, что качество зависит
от конкретного экземпляра, да и связка карта-монитор может по-прежнему играть огромную роль. Прежде всего, надо обращать внимание на
качество монитора и кабеля. Я напомню, что тестирование 2D у нас происходит на мониторе ViewSonic P817-E совместно с BNC-кабелем Barсo.
Синтетические тесты D3D RightMark (DirectX 9)
В этой статье мы представим вам подробные описания и результаты тестирования, полученные
с помощью разрабатываемого нами набора гибко-конфигурируемых синтетических тестов для API DX9.
Набор синтетических тестов из разрабатываемого нами тестового пакета RightMark 3D включает
в себя (на данный момент) следующие тесты:
Тест на закраску и фильтрацию текстур (Pixel Filling Test);
Тест на производительность обработки геометрии (Geometry Processing Speed Test);
Тест на производительность работы с отсечением невидимых точек и примитивов (Hidden Surface Removal Test);
Тест на производительность сложных пиксельных шейдеров (Pixel Shader Test);
Тест на производительность отрисовки, освещения и анимации спрайтов (Point Sprites Test).
Полагаем, что нет смысл повторять здесь освещение идеологических вопросов тестирования, поэтому еще раз
просим желающих узнать по-подробнее об идеологии синтетических тестов прочитать внимательно материал
по NV30. Там же можно найти и их описание.
Для тех, кто горит желанием экспериментировать с синтетическими тестами RightMark 3D, или измерить производительность собственных ускорителей, мы предлагаем скачать и опробовать последний вариант нашего теста, доступный на его сайте D3D RightMark Beta 3. Тесты снабжены удобной общей оболочкой и гибким экспортом результатов. Кроме того, вы можете скачать все использованные в данном обзоре настройки тестов.
Мы будем благодарны любым откликам, как в плане пожеланий и идей, так и
информации об ошибках или странном поведении тестов.
Для начала измерим максимальный пиксельный fillrate для различного числа текстур. Это позволит нам определить реальное (эффективное) число
и конфигурацию пиксельных конвейеров. Для исключения влияния прочих факторов, в этом тесте мы используем текстуры минимального размера
и отключим какую либо фильтрацию. Итак:
В случае 0 и 1 текстуры мы получаем практически одинаковые результаты. Это значит что тест идет хорошо, и выборка текстур не влияет
на процесс мы измеряем только скорость закраски и заполнения буфера кадров. Хорошо заметно, что NVIDIA имеет конфигурацию с 2
текстурными блоками на один пиксельный конвейер, а ATI с одним, но большее число конвейеров. Но с Volari происходит что-то странное. Некий
фактор (предположительно скорость записи в память?) существенно ограничивает его эффективную скорость закраски. Фактически, пока число
текстур не достигает 4 на один пиксель, fillrate не начинает падать. Это возможно в двух случаях реальная конфигурация чипа V8 не 8х1 а 4х2,
или (а может быть и И), эффективная полоса пропускания памяти каждого из чипов при работе с буфером кадров не достаточна для записи информации всех
конвейеров без снижения скорости. И тот и другой сценарий печальны, т.к. можно легко представить себе реальные приложения, на производительности
которых эти факты скажутся отрицательно. Например закраска неба в симуляторах или предварительная отрисовка данных (глубины) для построения
теней в Doom III.
Возможно, что реально чип представляет собою некий суперконвейер с 8 текстурными блоками и неким набором параллельных ALU, которые обрабатывают
разное число пикселов за такт в зависимости от сложности алгоритма обработки (отсюда меньшее число конвейеров, указанное в спецификации для
пиксельных шейдеров). Впрочем это теоретический аспект, а главное, что даже с этой, простейшей, задачей чип справился столь неэффективно,
если не считать случая с 4 текстурами, где Volari cумел обогнать конкурентов за счет наличия в сумме 16 текстурных блоков. Вывод:
работа с буфером кадра реализована не столь эффективно как хотелось бы, заявленная конфигурация 16х1 в большинстве случаев проигрывает
8х1 и 4х2 в исполнении конкурентов. До 5600 миллионов пикселей теоретического предела двух V8 далеко как до небес, и вину за это следует
возлагать на неэффективную архитектуру чипа и подсистемы памяти.
Ранее мы производили закраску с использование фиксированных функций (доступных еще со времен DirectX 7). Посмотрим как изменится картина
для различных версий шейдеров:
Разгром просто ужасающий! Если конкуренты исполняют простые шейдеры без потери производительности (небольшое исключение 2.0 на NVIDIA в
случае 2х текстур, скорее полезная для реальных приложений аномалия оптимизирующего компилятора, чем недостаток архитектуры), то XGI стремительно
проигрывает, делая эту функцию чипа строчкой в спецификации, а не реально функционирующей возмножностью. Позор.
Заметьте, что падение скорости закраски происходит теперь при задействовании каждой дополнительной текстуры. Видимо, вычислительные
ресурсы текстурных блоков и шейдерных конвейеров используются совместно (т.е. один и тот же массив ALU служит как для интерполяции координат, так
и для шейдерных вычислений). Вот вам и экономия транзисторов.
Тест на скорость выборки текстур, в зависимости от их числа и размера позволит нам определить эффективность. Приведены результаты в
миллионах текселов в секунду, для 1, 2 и 4 текстур накладываемых на один пиксель и для разных разрешений текстур:
Если в случае маленьких размеров текстур результаты Volari порой выглядят вполне конкурентноспособными, то по мере роста размеров
текстур, видимо, сказывается низкая эффективность их кэширования и работы с памятью результаты вновь становятся настолько низкими, что никакой
речи о конкуренции с продуктами ATI или NVIDIA быть не может. Причем, это заметно уже на текстурах размером 128х128, не говоря уже
о 256х256 а ведь эти размеры наиболее популярны в реальных приложениях! Работать с памятью надо уметь. Число конвейеров остается только цифрой,
если вы не способны своевременно накормить все эти конвейеры данными.
Теперь, для полноты картины, проведем тест на скорость выборки текстур, в зависимости от их формата и размера. Приведены результаты в миллионах
текселов в секунду, для различных форматов текстур двух размеров 256х256 и 2048х2048:
Что еще можно сказать? Там где Volari co скрипом справляется с текстурой размером 256х256, NVIDIA и ATI спокойно могут позволить себе
прекрасное качество и детализацию 2048х2048(!) на равной скорости. И это при более низкой физической пропускной полосе памяти. Знания сила,
а кое-какерам позор.
Посмотрим, как меняется скорость выборки текстур в зависимости от типа фильтрации. Для этого возмем распространенный размер текстуры 128х128 и
проверим результаты для 1,2 и 4 текстур на пиксель:
Билинейная фильтрация не стоит для Volari практически ничего (как и должно быть у любого современного чипа), использование mip-уровней заметно
повышает эффективность кэширования и как следствие особенно хорошо сказывается на большом числе текстур, а вот трилинейная фильтрация дается не
бесплатно, очевидно, что текстурные блоки объединяются парами на 4 текстурах скорость упала сильнее всего, а ранее, отличия нивелировала
низкая эффективность работы с буфером кадров, которую мы наблюдали в первых тестах.
Напоследок, посмотрим, насколько эффективно по сравнению с конкурентами выполняется трилинейная фильтрация, как известно, еще более
требовательная к кэшированию и доступу к памяти, чем билинейная:
Как я уже ранее говорил, настройки драйверов даже внешне имеют тот же облик, что было у Xabre. Полагаю, что все говорят скриншоты, пояснять чего-либо нет нужды.
Результаты тестов
2D-графика
Традиционно начнем с 2D. Отметим, что вплоть до 1600х1200 при 75Гц включительно нареканий на качество нет.
Если кандидаты в президенты России будут вам вещать, что оценка 2D-качества есть вещь объективная, то не верьте им, и не голосуйте за
них,ибо «правильный» кандидат считает, что оценить объективно сие невозможно, и он прав! Поэтому напомню, что качество зависит
от конкретного экземпляра, да и связка карта-монитор может по-прежнему играть огромную роль. Прежде всего, надо обращать внимание на
качество монитора и кабеля. Я напомню, что тестирование 2D у нас происходит на мониторе ViewSonic P817-E совместно с BNC-кабелем Barсo.
Синтетические тесты D3D RightMark (DirectX 9)
В этой статье мы представим вам подробные описания и результаты тестирования, полученные
с помощью разрабатываемого нами набора гибко-конфигурируемых синтетических тестов для API DX9.
Набор синтетических тестов из разрабатываемого нами тестового пакета RightMark 3D включает
в себя (на данный момент) следующие тесты:
Тест на закраску и фильтрацию текстур (Pixel Filling Test);
Тест на производительность обработки геометрии (Geometry Processing Speed Test);
Тест на производительность работы с отсечением невидимых точек и примитивов (Hidden Surface Removal Test);
Тест на производительность сложных пиксельных шейдеров (Pixel Shader Test);
Тест на производительность отрисовки, освещения и анимации спрайтов (Point Sprites Test).
Полагаем, что нет смысл повторять здесь освещение идеологических вопросов тестирования, поэтому еще раз
просим желающих узнать по-подробнее об идеологии синтетических тестов прочитать внимательно материал
по NV30. Там же можно найти и их описание.
Для тех, кто горит желанием экспериментировать с синтетическими тестами RightMark 3D, или измерить производительность собственных ускорителей, мы предлагаем скачать и опробовать последний вариант нашего теста, доступный на его сайте D3D RightMark Beta 3. Тесты снабжены удобной общей оболочкой и гибким экспортом результатов. Кроме того, вы можете скачать все использованные в данном обзоре настройки тестов.
Мы будем благодарны любым откликам, как в плане пожеланий и идей, так и
информации об ошибках или странном поведении тестов.
Для начала измерим максимальный пиксельный fillrate для различного числа текстур. Это позволит нам определить реальное (эффективное) число
и конфигурацию пиксельных конвейеров. Для исключения влияния прочих факторов, в этом тесте мы используем текстуры минимального размера
и отключим какую либо фильтрацию. Итак:
В случае 0 и 1 текстуры мы получаем практически одинаковые результаты. Это значит что тест идет хорошо, и выборка текстур не влияет
на процесс мы измеряем только скорость закраски и заполнения буфера кадров. Хорошо заметно, что NVIDIA имеет конфигурацию с 2
текстурными блоками на один пиксельный конвейер, а ATI с одним, но большее число конвейеров. Но с Volari происходит что-то странное. Некий
фактор (предположительно скорость записи в память?) существенно ограничивает его эффективную скорость закраски. Фактически, пока число
текстур не достигает 4 на один пиксель, fillrate не начинает падать. Это возможно в двух случаях реальная конфигурация чипа V8 не 8х1 а 4х2,
или (а может быть и И), эффективная полоса пропускания памяти каждого из чипов при работе с буфером кадров не достаточна для записи информации всех
конвейеров без снижения скорости. И тот и другой сценарий печальны, т.к. можно легко представить себе реальные приложения, на производительности
которых эти факты скажутся отрицательно. Например закраска неба в симуляторах или предварительная отрисовка данных (глубины) для построения
теней в Doom III.
Возможно, что реально чип представляет собою некий суперконвейер с 8 текстурными блоками и неким набором параллельных ALU, которые обрабатывают
разное число пикселов за такт в зависимости от сложности алгоритма обработки (отсюда меньшее число конвейеров, указанное в спецификации для
пиксельных шейдеров). Впрочем это теоретический аспект, а главное, что даже с этой, простейшей, задачей чип справился столь неэффективно,
если не считать случая с 4 текстурами, где Volari cумел обогнать конкурентов за счет наличия в сумме 16 текстурных блоков. Вывод:
работа с буфером кадра реализована не столь эффективно как хотелось бы, заявленная конфигурация 16х1 в большинстве случаев проигрывает
8х1 и 4х2 в исполнении конкурентов. До 5600 миллионов пикселей теоретического предела двух V8 далеко как до небес, и вину за это следует
возлагать на неэффективную архитектуру чипа и подсистемы памяти.
Ранее мы производили закраску с использование фиксированных функций (доступных еще со времен DirectX 7). Посмотрим как изменится картина
для различных версий шейдеров:
Разгром просто ужасающий! Если конкуренты исполняют простые шейдеры без потери производительности (небольшое исключение 2.0 на NVIDIA в
случае 2х текстур, скорее полезная для реальных приложений аномалия оптимизирующего компилятора, чем недостаток архитектуры), то XGI стремительно
проигрывает, делая эту функцию чипа строчкой в спецификации, а не реально функционирующей возмножностью. Позор.
Заметьте, что падение скорости закраски происходит теперь при задействовании каждой дополнительной текстуры. Видимо, вычислительные
ресурсы текстурных блоков и шейдерных конвейеров используются совместно (т.е. один и тот же массив ALU служит как для интерполяции координат, так
и для шейдерных вычислений). Вот вам и экономия транзисторов.
Тест на скорость выборки текстур, в зависимости от их числа и размера позволит нам определить эффективность. Приведены результаты в
миллионах текселов в секунду, для 1, 2 и 4 текстур накладываемых на один пиксель и для разных разрешений текстур:
Если в случае маленьких размеров текстур результаты Volari порой выглядят вполне конкурентноспособными, то по мере роста размеров
текстур, видимо, сказывается низкая эффективность их кэширования и работы с памятью результаты вновь становятся настолько низкими, что никакой
речи о конкуренции с продуктами ATI или NVIDIA быть не может. Причем, это заметно уже на текстурах размером 128х128, не говоря уже
о 256х256 а ведь эти размеры наиболее популярны в реальных приложениях! Работать с памятью надо уметь. Число конвейеров остается только цифрой,
если вы не способны своевременно накормить все эти конвейеры данными.
Теперь, для полноты картины, проведем тест на скорость выборки текстур, в зависимости от их формата и размера. Приведены результаты в миллионах
текселов в секунду, для различных форматов текстур двух размеров 256х256 и 2048х2048:
Что еще можно сказать? Там где Volari co скрипом справляется с текстурой размером 256х256, NVIDIA и ATI спокойно могут позволить себе
прекрасное качество и детализацию 2048х2048(!) на равной скорости. И это при более низкой физической пропускной полосе памяти. Знания сила,
а кое-какерам позор.
Посмотрим, как меняется скорость выборки текстур в зависимости от типа фильтрации. Для этого возмем распространенный размер текстуры 128х128 и
проверим результаты для 1,2 и 4 текстур на пиксель:
Билинейная фильтрация не стоит для Volari практически ничего (как и должно быть у любого современного чипа), использование mip-уровней заметно
повышает эффективность кэширования и как следствие особенно хорошо сказывается на большом числе текстур, а вот трилинейная фильтрация дается не
бесплатно, очевидно, что текстурные блоки объединяются парами на 4 текстурах скорость упала сильнее всего, а ранее, отличия нивелировала
низкая эффективность работы с буфером кадров, которую мы наблюдали в первых тестах.
Напоследок, посмотрим, насколько эффективно по сравнению с конкурентами выполняется трилинейная фильтрация, как известно, еще более
требовательная к кэшированию и доступу к памяти, чем билинейная: