Экстремальный разгон видеоакселератора NVIDIA GeForce2 GTS


Совсем недавно мы опубликовали обзор самого мощного на сегодня графического акселератора, построенного на базе GPU GeForce2 GTS от NVIDIA. Дабы не повторяться, мы не будем перечислять еще раз все достоинства этого графического процессора, отметим лишь, что высокая производительность GeForce2 GTS обеспечивается за счет уникальной архитектуры и очень высокой тактовой частоты ядра — 200 МГц (для сравнения: ядро GeForce 256 работает на штатной частоте 120 МГц). Казалось бы, для получения сногсшибательных результатов в производительности есть все, что нужно. Однако, с мощным графическим процессором нужно использовать производительную локальную видеопамять, которая должна быть в состоянии передать такой объем данных, чтобы GeForce2 GTS не остался без работы.

GeForce2 GTS — это графический процессор, выполняющий различные операции над массивами данных, которые постоянно обновляются, и для их хранения требуется память. Таким образом, чтобы современные графические акселераторы могли полноценно заниматься своими непосредственными обязанностями, т.е. формировать реалистичную 3D-графику, пропускная способность локальной видеопамяти должна быть достаточной, чтобы графический процессор не простаивал в ожидании данных.

Заглянем немного в прошлое. Еще во времена графического чипа Riva TNT от NVIDIA именно ширина полосы пропускания локальной видеопамяти стала узким местом графической подсистемы. Прежде всего это проявлялось при работе с 32-битной глубиной представления цвета. Практика показывала колоссальное падение производительности при работе с 32-битным цветом по сравнению с 16-битным. Разница достигала 50 и более процентов! Аналогичная ситуация, хотя и с некоторой тенденцией к сокращению разницы в производительности между рендерингом с 16-битной и 32-битной глубиной представления цвета, наблюдается вплоть до настоящего времени. Даже у современных карт на базе GPU GeForce256 с локальной видеопамятью типа DDR SGRAM. Хотя, в то же время, карты на базе GeForce 256 с DDR-памятью на борту являются единственными более-менее сбалансированными решениями в смысле соответствия возможностей графического процессора и пропускной способности шины локальной видеопамяти.

Сегодня на рынке появились акселераторы на базе нового GPU GeForce2 GTS от NVIDIA. Но ситуация с их производительностью при работе с 32-битной глубиной представления цвета не изменилась в лучшую сторону. Мы наблюдаем уже знакомую печальную картину, аналогичную той, что наблюдается с картами на базе GeForce256 с локальной видеопамятью типа SDR SDRAM. По сути, пропускной способности локальной видеопамяти недостаточно для работы в полную силу мощнейшего GPU GeForce2 GTS, что подтверждают результаты тестирования.

Проиллюстрируем проблему с пропускной способностью видеопамяти с помощью цифр. Посмотрим, как соотносятся тактовые частоты ядра и памяти у наиболее популярных карт на базе графических чипов от NVIDIA:

  • Riva TNT2 — 125/150 MHz (соотношение 0.83 — то есть на 5 МГц частоты графического чипа приходится 6 МГц частоты памяти)
  • Riva TNT2 Ultra — 150/183 MHz (0.82 — то есть соотношение примерное такое же как и в предыдущем случае)
  • GeForce256 SDR — 120/166 MHz (0.72 — на первый взгляд соотношение выглядит лучше: на 5 МГц частоты чипсета приходится 7 МГц памяти, однако графический процессор стал не двух-, а четырехконвейерным. Это означает, что распараллеливание вычислений при формировании пикселей увеличено, поэтому можно утверждать, что соотношение частот в целом стало хуже, чем у Riva TNT2 примерно в два раза)
  • GeForce256 DDR — 120/300 MHz (0.40 — мы видим, что соотношение самое лучшее, на 5 МГц частоты чипсета приходится 12.5 МГц памяти. И если даже учесть четырехконвейерность чипа, то все равно соотношение будет самым лучшим)
  • GeForce2 GTS — 200/333 MHz (0.60 — как можно заметить, соотношение резко ухудшилось по сравнению с предыдущим чипом. Особенно если учесть не только четырехконвейерную архитектуру, но и наличие 8 текстурных процессоров в GPU. Таким образом, с учетом всех особенностей архитектуры, соотношение получается даже хуже, чем у Riva TNT2).

Итак, видно, что новейший графический процессор от NVIDIA — GeForce2 GTS ограничен в производительности недостаточной шириной полосы пропускания локальной видеопамяти. Иными словами, пропускной способности этой памяти (333 МГц * 128бит ширины полосы = 5.2 Гбайта/с) просто не хватает для полноценной загрузки работой GeForce2 GTS, прежде всего в высоких разрешениях и при работе с 32-битной глубиной представления цвета.

Если экстраполировать соотношение частот, то можно приблизительно определить, с какой частотой должна работать локальная видеопамять, чтобы получилось более сбалансированное решение, подобное картам на GeForce 256 с DDR памятью. Понятно, что при высокой степени параллелизма вычислений в GeForce2 GTS наша выкладка представляет чисто теоретический интерес, но в качестве оценочных данныx вполне подходит. Итак, мы получаем величину в 500 МГц (и это минимальное число, так как мы не учли то, что NVIDIA GeForce256 имеет 4 текстурных процессора, а NVIDIA GeForce2 GTS — 8 текстурников, что еще повышает требовательность к полосе пропускания памяти). То есть, для получения сбалансированной системы NVIDIA должна была использовать, как минимум, память типа DDR SGRAM с тактовой частотой 250 МГц. Однако, такой памяти пока нет на рынке: чипы памяти типа DDR, рассчитанные на тактовую частоту 266 МГц существуют лишь в виде опытных образцов и маловероятно, что даже осенью 2000-года, когда ожидается анонс NV20 от NVIDIA, начнется массовое производство такой памяти. Получается, что пора менять архитектуру графических процессоров или находить новые решения в дизайне видеокарт. Нам видится четыре возможных выхода:

  • Увеличивать ширину полосы пропускания памяти со 128 бит до 256 бит (для этого требуется либо менять дизайн плат, либо использовать новые типы чипов памяти).
  • Делать шину обмена с памятью многопоточной, чтобы можно использовать существующие модули памяти, запараллелив обращения к ней. Фактически, графический процессор должен иметь несколько блоков, которые независимо, каждый по своей шине, работают с локальной видеопамятью. Этот метод сложен в плане дизайна графического процессора и шины памяти.
  • Переход на многочиповые решения, при которых у каждого графического процессора имеется собственная шина памяти и собственная локальная видеопамять, за счет чего мы получим ту же многопоточность.
  • Коренное изменение архитетуры рендеринга — переход к так называемой тайловой (tile) архитектуре рендеринга.

Первый вариант может быть одним из наиболее вероятных решений, однако его стоимость может оказаться слишком высокой, как с точки зрения памяти, так и с точки зрения инженерных затрат.

Некое подобие второго варианта мы можем видеть на примере чипсетов Matrox G400, где используется Dual Bus. Однако, это была всего лишь робкая и нельзя сказать, чтобы уж очень удачная попытка воплотить в жизнь новую технологию. Тем не менее, можно сказать, что свои плоды эта архитектура все равно принесла: мы имеем гораздо меньшее падение в скорости при работе Matrox G400 в 32-битном цвете, чем у NVIDIA Riva TNT2 Ultra.

Третий вариант уже воплотила в жизнь компания 3dfx в своих картах на базе чипа VSA-100, что должно позволить продемонстрировать картам серии Voodoo5 высокую производительность в высоких разрешениях и при использовании 32-битной глубины представления цвета, т.е. в самых тяжелых для графического акселератора условиях. К сожалению, эта технология обкатывается на картах, оснащенных обычной памятью типа SDR SDRAM. Кроме того, объемов локальной видеопамяти в этом случае, может легко не хватить для высоких разрешений, особенно при больших текстурах.

Четвертый вариант может оказаться более реальным, чем это кажется сегодня. Использование тайловой архитетуры рендеринга позволит существенно снизить требования к ширине полосы пропускания локальной видеопамяти. В этом случае не нужно будет искать новых (возможно, очень дорогих) типов памяти, а обойтись уже имеющейся на рынке DDR SGRAM. Кроме того, в самой тайловой архитектуре изначально заложена возможность массового распараллеливания вычислений, что обеспечивает хороший потенциал для увеличения производительности. Пример воплощения в жизнь этой технологии уже есть — это PowerVR 250 от VideoLogic (NEON-250). А также этими наработками активно занимается фирма Gigapixel, которая недавно вошла в состав 3dfx, поэтому мы можем ожидать в недалеком будущем появления продуктов от 3dfx, применяющих и развивающих эту технологию.

Итак, я вынужден констатировать, что при всем богатстве возможностей нового GPU GeForce2 GTS от NVIDIA, он ограничен в реализации своего потенциала медленной видеопамятью. Видеокарты на базе этого графического процессора представляют собой несбалансированный продукт, причем, в гораздо большей степени, чем все предыдущие изделия, базирующиеся на чипах от NVIDIA. Тем не менее, маркетинговая служба NVIDIA времени даром не теряла. При полном попустительстве со стороны 3dfx, которая до сих пор не может начать массовые продажи своих новых акселераторов, на рынке уже начали продаваться карты на базе GeForce2 GTS, причем по явно завышенным ценам. Мне трудно понять, почему продукт, чья себестоимость не выше, чем у карт на базе GeForce 256 с памятью типа DDR, стоит минимум на $50 больше. Мы привыкли к конкуренции в компьютерной индустрии, и когда по тем или иным причинам она исчезает, перекосы в ценовой политике неизбежны. Страдают от этого прежде всего конечные пользователи. С моей точки зрения, это просто безобразие, когда продукт, который всего на полтора десятка процентов быстрее предыдущего, начинает продаваться по ценам двухлетней давности (да, только в 1998 году еще можно было требовать $350 за новейший и тогда еще диковинный игровой акселератор, коим в то время был 3dfx Voodoo2).

Но вернемся к реальной жизни: видеокарты на базе GeForce2 GTS уже производятся и продаются. Если карта на базе GeForce2 GTS несбалансирована, то можем ли мы самостоятельно улучшить ее характеристики? Да, немного можем. Разумеется, сделать это возможно с помощью разгона или установки нештатных тактовых частот для локальной видеопамяти.

В обзоре референс-платы на базе GeForce2 GTS я затрагивал тему повышения частот работы компонет видеокарты. Тогда я разгонял плату при небольшом внешнем охлаждении в виде дополнительного вентилятора. Сегодня я расскажу о результатах эксремального разгона.

Начнем с описания стенда, на котором видеокарта "обкатывалась":

  • процессор Intel Pentium III 733 MHz;
  • системная плата Chaintech 6ATA4 (VIA Apollo Pro 133A);
  • оперативная память 256 MB PC133;
  • жесткий диск IBM DPTA 20 GB;
  • операционная система Windows 98 SE.

И главный инструмент: холодильник ОКА, морозилка которого и была местом проведения испытаний:

Системная плата со всей периферией, что у нее была на борту, была помещена в морозилку, в которой поддерживалась температура -18 градусов по Цельсию.

В процессе тестирования была измерена температура на системной плате, и датчик показал -8 градусов. При этом температура процессора составляла всего +1 градус.

Для получения результатов тестирования была использована игра Quake3 v.116n, demo002. Были сняты показания работы видеокарты в разрешениях 1024х768х32 и 1280х1024х32 (режим High Quality).

Разгон осуществлялся по двум направлениям:

  • при фиксированной частоте памяти в 333 МГц повышалась частота работы чипсета, и проводились замеры;
  • при фиксированной частоте чипсета в 200 МГц повышалась частота работы памяти, и также проводились замеры.

Результаты можно увидеть на этих графиках:




Таким образом, можно зафиксировать достижение некого своеобразного рекорда в 250 МГц для тактовой частоты графического процессора, при котором пиковая скорость заполнения сцены (fillrate) становится равной 1 Гигапикселю в секунду! Тем не менее, GeForce2 GTS работал устойчиво и на частоте в 260 МГц. Несмотря на то, что пропускная способность памяти не давала графическому процессору "развернуться" в полную силу, производительность, в конечном итоге, выросла примерно на 15% (это при частоте ядра 260 МГц, то есть, при его разгоне на 30%).

Но самыми интересными стали результаты разгона частоты работы локальной видеопамяти. Нетрудно заметить, что максимум был достигнут на уровне 220 МГц (или при результирующей частоте в 440 МГц). При результирующей частоте в 450 МГц уже появлялись артефакты изображения в виде мусора на экране. Видно, что наклон кривой роста производительности более заметный, нежели при разгоне частоты графического ядра. Мы зафиксировали прирост производительности в 30% при результирующей частоте работы видеопамяти в 440 МГц (замечу, что при этом частота графического ядра была штатной — 200 МГц). Такой результат наглядно доказывает все наши теоретические рассуждения, приведенные выше. Видеокарта на базе GeForce2 GTS более чутко реагирует на поднятие частоты работы видеопамяти, нежели графического ядра.

Подведем итоги

Несмотря на экстремальность осуществленного разгона и использования для этого мощного дополнительного охлаждения, можно говорить о том, что повышение тактовой частоты работы видеопамяти сильно сказывается на росте производительности видеокарты на базе GeForce2 GTS в целом, даже при использовании обычного дополнительного вентилятора охлаждения (практика показала, что результирующая частота видеопамяти в 400 МГц достижима довольно легко). Разгонять графическое ядро можно, но особой нужды в этом нет, так как даже на номинальной частоте в 200 МГц GeForce2 GTS не может раскрыть всеь свой потенциал производительности из-за ограничений в виде пропускной способности локальной видеопамяти.

Тем не менее, хочу отметить, что при работе на максимально возможных в данном исследовании частотах 260/440 МГц видеокарта на базе NVIDIA GeForce2 GTS показала просто великолепные результаты в том же Quake3: почти 110 fps в разрешении 1024х768х32bpp, и 63 fps в 1280х1024х32bpp.




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.