Войти

3D-видео и мониторы

AMD Radeon HD 6950/6970:

чуть слабее Geforce GTX 570/580, но и дешевле

СОДЕРЖАНИЕ

Ну что ж, как мы видим, компания Nvidia оттрубила, отчиталась, выдала новые продукты, теперь пиар-отделы отдыхают и просто раздают образцы, отделы продаж стоят над сундуками с чипами и отвешивают вставшим в очередь партнерам. Geforce GTX 570 и 580 постепенно начали свой путь к прилавкам.

А что же AMD? Вот пришла пора и ей выдать на-гора новинки. Однако AMD не была бы AMD, если бы просто выставила конкурентов в той же ценовой нише и примерно равных по производительности. Следуя своей уже давней традиции, компания выпускает Radeon HD 6950, обладающий более низкой ценой, чем ближайший конкурент в лице GTX 570, но при этом он и слабее последнего. Как и Radeon HD 6970 сильно дешевле GTX 580, однако также уступает последнему в производительности. Вот и мучайся теперь, пользователь! Минус 10% — оно стоит цены на 10% меньше? Или же зависимость нелинейная?

Постараемся разобраться. Как обычно, начинаем с архитектуры и передаем слово Алексею Берилло.

Часть 1: Теория и архитектура

Обновления графической архитектуры AMD рынок ожидал уже несколько месяцев. Посудите сами — семейство Radeon HD 5800 вышло ещё в сентябре 2009 года, с тех пор AMD выпустила целую линейку видеокарт с поддержкой DirectX 11, для всех сегментов, от бюджетного до верхнего ценового диапазона.

Вполне логично было ожидать обновления архитектуры осенью 2010 года, и, похоже, что изначально оно так и планировалось. Но в прошедшем октябре вышла только линейка Radeon HD 6800, явно не предназначенная для смены топовых решений семейства HD 5800. Да и применённый в них чип Barts архитектурно гораздо ближе к семейству Evergreen, начало которому положил Cypress, и архитектурных отличий в новом GPU оказалось совсем мало.

А вот настоящих новых топовых решений AMD до сегодняшнего дня так и не было объявлено. Вероятно, с их проектированием и производством возникли какие-то проблемы и, скорее всего, они связаны с изменением планов компании TSMC в виде отмены внедрения 32-нанометрового технологического процесса на своих фабриках. Предполагаем, что у AMD изначально были планы по выпуску других решений на 32 нм, но им пришлось их изменить, выпустив обновление на всё том же техпроцессе 40 нм. Наверняка, с этим же связана и задержка анонса нового GPU.

Но сегодня мы дождались момента появления действительно новой графической архитектуры от AMD, которая всё ещё имеет общие корни с предыдущими чипами. Пусть Cypress и другие чипы AMD остаются более эффективными по соотношению производительности и сложности GPU, а также по энергоэффективности, по сравнению с решениями конкурента, а двухчиповый Radeon HD 5970 до сих пор остаётся быстрейшей видеокартой, компании всё равно нужно двигаться вперёд, развивая в основном вычислительные возможности новых GPU. Да и потенциальным покупателям нужно предлагать уже что-то новое, чтобы привлечь их.

А привлекать надо уже потому, что переход пользователей на решения DirectX 11 не слишком быстрый. По статистике Steam Survey, из 30 миллионов систем пользователей этого сервиса 73% до сих пор основаны на GPU с поддержкой возможностей лишь DirectX 10, а ещё 13% пользователей имеют ещё более старые видеокарты DirectX 9.

Вот как раз этих пользователей и собирается привлечь к своим новым решениям компания AMD. Правда, есть некоторые сомнения, что пользователи, держащиеся за устаревшие ускорители, вдруг бросятся в магазины за топовыми моделями, ведь даже для требовательных современных игр до сих пор чаще всего хватает видеокарт уровня Radeon HD 4850 и Geforce GTX 260, если речь не идёт о сверхвысоких разрешениях и настройках качества. Давайте рассмотрим всю линейку решений компании AMD и позиционирование их на рынке по отношению к видеокартам Nvidia.

Мы уже писали ранее, что серия HD 5800 как бы разделилась на две: HD 6800 и HD 6900, основанные на чипах Barts и Cayman. Линейка HD 5700 осталась на рынке в неизменном виде, HD 6800 немного спускается вниз по скорости (по отношению к HD 5800), а на смену HD 5800 в верхней части пришли анонсированные сегодня решения семейства HD 6900.

Вполне логично, что серия Radeon HD 6800 выступает против нескольких вариантов Geforce GTX 460, а двухчиповый HD 5970 остаётся быстрейшим решением на рынке, конкурирующим с GTX 580. А вот противопоставление новых моделей семейства HD 6900 несколько неожиданное — судя по слайду, HD 6970 будет бороться лишь с GTX 570, а HD 6950 и вовсе не имеет прямого конкурента на данный момент.

Этот самый «свой класс» расположен между GTX 570 и GTX 460, и пока что в нём есть GTX 470, но она уже снята с производства. Весьма вероятно, что Nvidia выпустит ей на замену нечто вроде обновленного чипа GF104 (GF114?) со всеми активными 384 потоковыми процессорами, 256-битной шиной памяти и намного более высокими тактовыми частотами. И, судя по нашим предположениям, такое решение вполне сможет конкурировать с Radeon HD 6950, так что борьба между производителями GPU за тех самых 86% пользователей ещё только начинается.

Так как анонсированный сегодня чип Cayman частично повторяет архитектуру предыдущих GPU, читателям будет полезно ознакомиться с подробной информацией о ранних видеочипах компании по следующим статьям на нашем сайте:

Переходим к подробным характеристикам анонсированных сегодня видеоплат серии Radeon HD 6900, основанных на новом чипе с кодовым названием «Cayman».

Графические ускорители серии Radeon HD 6900

Кодовое имя чипа «Cayman»
Технология 40 нм
2,64 млрд. транзисторов (почти на четверть больше, чем у Cypress и в 1,5 раза больше Barts)
Площадь кристалла 389 мм² (в полтора раза больше, чем у Barts)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой памяти GDDR5
Частота ядра до 880 МГц (для Radeon HD 6970)
24 SIMD-ядра, включающих 384 потоковых процессора, и в общем 1536 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка точности FP32 и FP64 в рамках стандарта IEEE 754)
24 укрупненных текстурных блока, с поддержкой форматов FP16 и FP32
96 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16-текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт (в т. ч. для буферов формата FP16), а в режиме без цвета (Z only) — 128 отсчетов за такт
Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 6970

Частота ядра 880 МГц
Количество универсальных процессоров 1536
Количество текстурных блоков — 96, блоков блендинга — 32
Эффективная частота памяти 5500 МГц (4×1375 МГц)
Тип памяти GDDR5
Объем памяти 2 гигабайта
Пропускная способность памяти 176 гигабайт в сек.
Теоретическая максимальная скорость закраски 28,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 84,5 гигатекселей в сек.
Два разъёма CrossFireX
Шина PCI Express 2.1
Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
Энергопотребление от 20 до 250 Вт (типичное энергопотребление в играх — до 190 Вт)
Один 8-штырьковый и один 6-штырьковый разъёмы питания
Двухслотовый дизайн
Рекомендованная цена для рынка США $369

Спецификации видеокарты Radeon HD 6950

Частота ядра 800 МГц
Количество универсальных процессоров 1408
Количество текстурных блоков — 88, блоков блендинга — 32
Эффективная частота памяти 5000 МГц (4×1250 МГц)
Тип памяти GDDR5
Объем памяти 2 гигабайта
Пропускная способность памяти 160 гигабайт в сек.
Теоретическая максимальная скорость закраски 25,6 гигапикселей в сек.
Теоретическая скорость выборки текстур 70,4 гигатекселей в сек.
Два разъёма CrossFireX
Шина PCI Express 2.1
Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
Энергопотребление от 20 до 200 Вт (типичное энергопотребление в играх — до 140 Вт)
Два 6-штырьковых разъёма питания
Двухслотовый дизайн
Рекомендованная цена для рынка США $299

Применение отработанного 40-нанометрового техпроцесса всё же позволило компании AMD выпустить новый топовый GPU, пусть и не в таком виде, каким он мог быть на 32 нм. Сложность Cayman по сравнению с Cypress выросла менее чем на четверть, как и площадь ядра, но некоторые характеристики, влияющие на производительность, остались практически на том же уровне. Это и количество ALU, и неизменное число блоков ROP, да и пропускная способность видеопамяти не сильно выросла. Но всё же, во многом благодаря повышенным тактовым частотам и возросшей эффективности нового чипа AMD, он должен в среднем превзойти Cypress.

Принцип наименования моделей был несколько изменён с предыдущего поколения, о чём мы писали ранее. По сравнению с предыдущей серией, у топовых решений поменялась не только первая, но и вторая цифра индекса. Radeon HD 6970 и HD 6950 являются наиболее производительными одночиповыми решениями и должны заместить видеокарты HD 5870 и HD 5850, становясь в линейке выше выпущенных недавно решений семейства HD 6800. Что касается сравнения с конкурентом, то по указанным выше рекомендованным ценам уже должно быть понятно, что HD 6970 должен быть на уровне или несколько производительнее Geforce GTX 570, а вот HD 6950 конкурировать пока особо не с чем.

Два варианта серии, как это принято у видеокарт AMD, отличаются как тактовыми частотами видеочипа и памяти, так и отключенной частью исполнительных блоков у младшей модели. На обе видеокарты новой серии устанавливается память типа GDDR5 одинакового объёма в 2 гигабайта. На наш взгляд, это решение может быть обосновано скорее маркетинговыми причинами, ведь оптимальным объёмом памяти на сегодняшний день до сих пор является 1 гигабайт. Но, так как у конкурента на топовых моделях стоит 1,25—1,5 ГБ, ставить меньший объём компании AMD показалось неправильным.

Хотя также вполне возможно и то, что для топовых моделей такой объём и оправдан, так как в каких-то случаях нехватка 1 ГБ памяти всё-таки будет наблюдаться, да и для игр на трёх мониторах (Eyefinity) экранный буфер такого объёма будет весьма полезен. К слову, партнёры компании в будущем могут выпустить и модель Radeon HD 6950 с 1 ГБ видеопамяти, так как стоимость её будет ниже, а супервысокие разрешения на трёх мониторах нужны далеко не всем игрокам.

Обе видеокарты имеют двухслотовую систему охлаждения, закрытую привычным для всех современных плат AMD пластмассовым кожухом по всей длине карты. Энергопотребление младшей карты ниже, что позволило обойтись в её случае двумя 6-штырьковыми разъёмами питания. Кстати, об энергопотреблении… Более подробно обо всех изменениях будет написано ниже, а тут мы просто расскажем о том, что кроме максимального энергопотребления AMD теперь указывает и типичное потребление в играх (typical gaming power) — показатель потребления, замеренный при тестировании в наборе из 25 популярных игр.

Архитектура Cayman

При проектировании Cayman (а именно такое кодовое имя получил новый GPU компании) основными задачами инженеров AMD было создание эффективной графической и вычислительной архитектуры с новыми возможностями GPGPU, значительное увеличение производительности геометрических блоков, улучшения в алгоритмах, влияющих на качество рендеринга (текстурная фильтрация и полноэкранное сглаживание), а также улучшенное управление питанием.

Судя по всему, архитектуру Cayman можно назвать промежуточным решением между архитектурой Cypress и так и не рождённой 32-нанометровой архитектурой, так как в состав нового GPU были включены лишь некоторые возможности из неё. Интересно, что цель инженеров по размеру Cayman была +15% к площади Cypress, что позволило потратить эти дополнительные транзисторы на некоторые новые вычислительные и графические возможности, о которых мы расскажем ниже. Итак, посмотрим, что получилось у AMD.

При взгляде на схему чипа, сразу же обращают на себя внимание два блока по обработке геометрии и тесселяции (graphics engine, включающий растеризатор, тесселятор и некоторые другие блоки), а также сдвоенный диспетчер. Это одно из важнейших нововведений в Cayman, к которому явно сподвигло отставание по скорости обработки геометрии от конкурента, уже почти год имеющего распараллеленный графический конвейер.

Важнейшим архитектурным изменением стала суперскалярная VLIW4 архитектура вычислительных процессоров, в отличие от VLIW5 в предыдущей. С одной стороны это может показаться ухудшением, ведь каждый из имеющихся процессоров теперь может выполнять меньше операций параллельно. Но с другой — это может увеличить эффективность использования (КПД) потоковых процессоров, так как подобрать четыре независимые команды явно проще, чем пять.

В целом, новый графический процессор включает 24 SIMD-ядра, каждое из которых состоит из 16 процессоров, умеющих вычислять до четырех команд одновременно. Другими словами, всего вычислительных блоков в Cayman стало 24×16×4=1536 штук, что даже несколько меньше, чем у Cypress. Но так как КПД использования этих блоков явно должен увеличиться, то и производительность также вырастет, скорее всего.

Каждое SIMD-ядро нового графического процессора имеет по четыре блока текстурирования, как и в предыдущих GPU, то есть общее число текстурных процессоров — 96 TMU. Это несколько больше, чем у Cypress, и заметно больше, чем имеет топовый чип конкурента. Так, преимущество по текстурированию должно остаться за AMD. Другие численные характеристики мало отличаются от тех же HD 5800 и HD 6800, чип имеет четыре 64-битных контроллера памяти и 256-битную шину в целом, а также 32 блока ROP. Хотя они всё же отличаются от тех, что используются в предыдущих GPU, и об этом будет написано далее.

Архитектура потоковых процессоров

Новые потоковые процессоры отличаются от предыдущих тем, что умеют выполнять одновременно до четырёх независимых инструкций (4-way co-issue), и все четыре исполнительных устройства ALU в процессоре имеют одинаковые возможности, в отличие от предыдущей архитектуры. Напомним, что каждый потоковый процессор Cypress имеет четыре блока ALU + блок специального назначения SFU (также называемый «T-unit»), служащий для выполнения трансцендентных функций (синус, косинус, логарифм и т. д.), а Cayman выполняет такие команды при помощи трёх из четырёх «обычных» ALU.

Всё вместе это теоретически даёт лучший показатель эффективности использования потоковых процессоров, по сравнению с VLIW5. Хотя VLIW5 обеспечивает достаточно высокий КПД во многих случаях, но средняя загрузка ALU получается явно ниже 100%, и часто лишь три или четыре блока из пяти заняты работой. Снижение количества ALU в каждом процессоре увеличивает их эффективность, и, по оценке компании AMD, улучшение соотношения скорости вычислений и площади чипа составляет порядка 10%. Плюс к этому, дополнительным бонусом идёт упрощение управляющих блоков: шедулера и управление регистрами.

Ещё одной важной деталью перехода от VLIW5 к VLIW4 является то, что для асимметричной архитектуры сложнее оптимизировать и скомпилировать эффективный код. А для симметричного VLIW4 блока работа компилятора упрощается. И в этом мы видим пока что нераскрытый потенциал Cayman — скорее всего, компилятор пока оптимизирован для нового GPU недостаточно и в будущем весьма вероятны приросты по мере оптимизации компилятора для новой архитектуры.

Новая архитектура VLIW4 привела к увеличению производительности вычислений с двойной точностью. 64-битные вычисления теперь исполняются лишь вчетверо медленнее, чем 32-битные. А у решений предыдущей архитектуры это соотношение было ниже — 1/5. Такое изменение позволило повысить пиковую производительность 64-битных вычислений нового Radeon HD 6970 до 675 GFLOPS (для сравнения — у HD 5870 этот показатель равен 544 GFLOPS).

Изменения в блоках ROP

Блоки ROP в новом чипе компании AMD также получили некоторые усовершенствования. Cayman теперь умеет значительно быстрее обрабатывать данные в некоторых форматах, в числе которых 16-битный целочисленный (вдвое быстрее) и одно- или двухкомпонентный 32-битный (ускорение в два-четыре раза, в зависимости от количества компонентов). Это улучшение важнее всего для широко распространённых сейчас случаев отложенного (deferred) рендеринга, хотя применение 32-битных буферов в играх пока что явно ограничено.

Неграфические вычисления на GPU

Пожалуй, больше всего изменений в Cayman произошло как раз в вычислительных возможностях. Прежде всего нужно отметить асинхронную отправку команд на выполнение и одновременное исполнение нескольких вычислительных процессов (kernel), каждый из которых имеет свою очередь команд и свою область защищённой виртуальной памяти. По сути, в Cayman появились возможности вычислений по принципу MPMD (Multiple Processor/Multiple Data) — когда несколько процессоров выполняют множество потоков данных.

В предыдущих архитектурах компании AMD была возможность одновременного запуска и распределения нескольких процессов (kernel), но они имели лишь один конвейер команд, что затрудняло одновременную работу вычислительных и графических приложений. GPU новой архитектуры способен эффективно выполнять несколько потоков команд одновременно. Потоки имеют свои отдельные кольцевые буферы и очереди, а очередность исполнения команд независима и асинхронна, и выполняются они в зависимости от приоритета. Это позволяет запускать вычисления и получать итоговый результат вне очереди.

Также для каждого kernel новый чип предоставляет независимую виртуальную память, и все потоки команд теперь защищены друг от друга. А в дополнение к асинхронной подаче команд, чип имеет два двунаправленных контроллера прямого доступа к памяти (DMA), что поможет увеличить пропускную способность в обоих направлениях.

Но и это ещё не все «вычислительные» изменения в Cayman. Появилась возможность выборки данных из памяти в обход ALU напрямую в локальную память, а оптимизированные чтение и комбинированная запись данных увеличила производительность подсистемы ввода-вывода. Также в новом GPU было улучшено управление потоком передачи данных (flow control) и многое другое.

Параллельная обработка геометрии

В своих материалах мы не раз упоминали, что одним из основных архитектурных преимуществ конкурирующих решений от Nvidia является распараллеленная обработка геометрии, применяемая во всех их современных решениях, которые весьма эффективны при использовании тесселяции. геометрические примитивы в топовых чипах конкурента AMD обрабатываются одновременно 16-ю блоками, в отличие от одного блока у Cypress и Barts, равно как и остальных предшествующих чипах.

Соответственно, AMD нужно было срочно улучшить производительность геометрических блоков. Частичный шаг был сделан ещё в Barts, оптимизации которого привели к повышению скорости обработки геометрии и тесселяции в полтора раза в лучшем случае. Но даже тесселятор седьмого поколения всё ещё серьёзно уступал тесселяторам Fermi первого же поколения.

Блоки обработки геометрии и тесселяции в Cayman названы уже восьмым поколением, и они получили установку геометрических примитивов (geometry setup) удвоенной скорости, улучшенную буферизацию геометрических данных и двойной блок обработки геометрии. Именно так, AMD тоже пришлось распараллеливать работу над геометрическими данными, хотя и не настолько радикально, как это сделано в GPU конкурента.

Двойной блок геометрии в Cayman обрабатывает два примитива за такт, то есть скорость трансформации и отбрасывания задних граней (backface culling) возросла вдвое, а нагрузка между блоками распределяется при помощи разбиения на тайлы. Вместе с улучшением буферизации, по данным AMD, это приводит к росту производительности тесселяции у топового решения Radeon HD 6970 до трёх раз, по сравнению с HD 5870.

Но всё же, как видите, чаще всего скорость обработки геометрии и тесселяции возросла вдвое, а не втрое. Даже по данным самой AMD. К слову, они приводят и цифры из игр и бенчмарков с применением тесселяции, и приросты там достигают впечатляющих цифр порядка 30—70%, в зависимости от количества оттесселированных поверхностей и степени разбиения примитивов. Мы проверим эти цифры в следующей части материала, посвящённой исследованиям производительности новых решений в синтетических тестах и некоторых из игровых, которые также используют тесселяцию.

Улучшения в качестве рендеринга

Одной из задач новой архитектуры было повышение качества рендеринга. Это касается как улучшения существующих алгоритмов текстурной фильтрации и сглаживания, так и появления новых возможностей, вроде нового типа полноэкранного сглаживания — морфологического (MLAA — MorphoLogical Anti-Aliasing).

Часть из новых возможностей доступна и на младших представителях серии — видеокартах Radeon HD 6800, но есть одно аппаратное нововведение, которое появилось именно в серии HD 6900, в чипе Cayman. Это улучшенный метод полноэкранного сглаживания, названный Enhanced Quality Anti-Aliasing (EQAA). Если совсем коротко, то это аналог Coverage Sampling Anti-Aliasing (CSAA), имеющийся у Nvidia ещё со времён чипа G80 (серия Geforce 8800), о котором мы рассказывали ещё несколько лет назад.

Суть метода в том, что цвета отсчётов и глубина хранятся отдельно от информации об их местоположении, и на один пиксель может приходиться по 16 отсчетов при 8 вычисленных значений глубины, что экономит пропускную способность. Метод позволяет обойтись передачей и хранением одного значения цвета или Z на каждый субпиксель, уточняя усредненное значение экранного пикселя за счёт более подробной информации о том, как этот пиксель перекрывает края треугольников. Понимание этого запутанного объяснения вам облегчит следующая картинка:

В предыдущих чипах компании AMD (включая серию HD 6800) число рассчитанных семплов и сохранённых было одинаковым. В решениях серии HD 6900 эти два значения можно изменять независимо друг от друга, и число выборок на пиксель и число сохранённых в буфере может быть разным. Это позволяет получить качество выше, чем при обычном мультисэмплинге (MSAA) при сохранении сравнительно высокой производительности.

EQAA позволяет обеспечивать качество сглаживания заметно выше, чем у MSAA 4х, лишь с небольшой потерей производительности. По оценке компании AMD, разница в производительности между режимами с включенным и выключенным EQAA в играх составляет единицы процентов, что отлично соотносится с результатами видеокарт Nvidia.

Дополнительным положительным фактором является то, что метод совместим с адаптивным сглаживанием (Adaptive AA), суперсэмплингом (Super-Sample AA) и морфологическим сглаживанием, о котором мы рассказывали в статье о Radeon HD 6800. Но каким образом включается этот самый EQAA? AMD и тут переняла опыт конкурента, введя в настройки драйвера аналогичные возможности по подмене метода сглаживания (к примеру, с обычного MSAA на EQAA, но не обязательно именно так).

Об остальных улучшениях качества рендеринга у новых решений AMD мы подробно рассказывали в статье о семействе Radeon HD 6800, как и о «морфологическом» сглаживании и об улучшениях текстурной фильтрации. Morphological Anti-Aliasing — это новый метод сглаживания, известный нам по некоторым мультиплатформенным играм. Это фильтр постобработки, применяемый к финальной картинке при помощи вычислительного или пиксельного шейдера.

Данный метод сглаживает все пиксели сцены, а не только края полигонов и полупрозрачных текстур как MSAA, и поэтому после него может отмечаться излишняя замыленность картинки. Зато этот метод теоретически быстрее суперсэмплинга, так как он обрабатывает только нужные участки, на которых фильтр нашёл резкие переходы цвета. Отличие от ещё одного метода, известного как edge-detect CFAA в том, что фильтр применяется ко всем граням, а не только краям треугольников.

Все эти методы можно смешивать и друг с другом. Иными словами, EQAA полностью совместим и с так называемыми «custom resolve» фильтрами и «морфологическим» сглаживанием и все они могут применяться одновременно. Что позволит повысить качество рендеринга в случае излишка производительности, часто имеющегося у топовых видеокарт.

Технология AMD PowerTune

Одним из наиболее интересных изменений в Cayman, напрямую не связанным с 3D-графикой, является технология, получившая название PowerTune. Собственно, к гибкому управлению тактовой частотой, напряжением и питанием GPU дело уже давно шло. Те же центральные процессоры давно умеют плавно или ступенчато изменять производительность и «прожорливость», снижая некоторые параметры в простое и повышая при нагрузке. Да и видеочипы тоже умеют изменять указанные параметры, но до сих пор делали это ступенчато и не имели пределов, за которые нельзя было бы выйти.

Обычные игры и другие приложения, использующие вычисления на GPU, редко когда предъявляют повышенные требования к питанию и не подходят к опасным пределам энергопотребления, превышающим возможности системы. В отличие от тестов стабильности, вроде Furmark и OCCT, которые выжимают из системы всё до капли. Ещё в семействе Evergreen (серия Radeon HD 5000) был некий зачаток ограничителя производительности при превышении определённого уровня потребления, а в HD 6900 эта система перешла на качественно иной уровень.

Новый GPU имеет специальные датчики во всех блоках чипа, которые отслеживают параметры загрузки, таким образом графический процессор постоянно измеряет нагрузку и энергопотребление и не позволяет выйти последнему за определённый порог, автоматически регулируя частоту и напряжение так, чтобы параметры оставались в рамках указанного теплопакета. Эта технология помогает установить высокие частоты GPU и при этом не бояться, что видеокарта выйдет за безопасные пределы по энергопотреблению. AMD приводит следующие приложения в виде примера:

Как видите, наиболее требовательными 3D-приложениями являются средства тестирования стабильности и некоторые из синтетических тестов. А вот игры, даже самые тяжёлые, совсем не требуют максимальной энергии от GPU и не выходят за установленные рамки.

В отличие от ранних технологий управления питанием, PowerTune обеспечивает прямой контроль над энергопотреблением GPU, по сравнению с косвенным управлением при помощи изменения частот и напряжений. И более не требуется ставить ограничитель для избранных приложений, технология будет работать с тем же успехом для всех программ, в т. ч. и будущих.

Для компании AMD технология полезна сразу по нескольким причинам: она предохранит видеокарты от выхода из строя в некоторых случаях (например, нерадивые и невнимательные любители разгона) и позволит выжать максимальную производительность из GPU без проблем с питанием и охлаждением. Важно и то, что данная технология позволяет пользователю самому ограничивать потребление при помощи средств AMD OverDrive, как это показано на скриншоте:

Естественно, что регулировать параметр максимального потребления можно лишь в определённых пределах и с перекладыванием ответственности на плечи пользователя и лишения последнего каких-либо гарантий. В некоторых случаях будет полезно не только повысить этот предел, но и снизить его, добившись снижения потребления в случае отсутствия необходимости в высокой производительности.

Изменение тактовой частоты GPU и полученная при этом производительность при разных уровнях максимального потребления наглядно отображены на следующем графике. На нём указано изменение частоты GPU видеокарты Radeon HD 6950 в тесте Perlin Noise из набора 3DMark Vantage в трёх режимах: по умолчанию и с повышенным пределом по питанию на 5% и 10%. Этот график соответствует тому, что получится при работе наиболее требовательных к питанию приложений:

В режиме по умолчанию GPU не может постоянно работать на частоте в 800 МГц, не превысив установленной AMD границы потребления, и показывает результат на уровне 140 FPS. При добавлении 5% к максимальному потреблению частота GPU становится выше, но всё ещё часто не достигает максимально положенных 800 МГц, и в результате достигается скорость 155 FPS. В случае же добавленных 10% к пределу потребления, чип всегда работает на частоте около 800 МГц и не достигает изменённой границы потребления, показывая при этом 162 средних кадров в секунду.

Если рассматривать обратную ситуацию, когда нужно снизить потребление, то и в таком случае технология будет полезна. AMD приводит пример игры Aliens vs Predator и трёх режимов: по умолчанию, -10% от максимального потребления и -20%. Если в режимах по умолчанию и -10% разница получилась небольшой, то в последнем случае, при снижении потребления на 30 Вт можно получить вполне комфортные 40 FPS вместо 50 FPS при максимальном потреблении:

Таким образом, каждый пользователь может настроить PowerTune под себя (при условии отказа от гарантий, разумеется) и выбрать или меньшее энергопотребление системы, или более высокую производительность в тех приложениях, в которых GPU становится весьма требовательным к питанию. Можно даже вручную настраивать меньшее потребление для постоянной работы и максимальное — для требовательных приложений.

Другие изменения

Из других интересных отличий видеокарт топового семейства Radeon HD 6900 хотелось бы отметить следующую полезную особенность — наличие двух микросхем BIOS на карте и защиту от перезаписи для одной из них, имеющей заводские настройки. Для этого на плате рядом с CrossFire разъёмами расположен микропереключатель.

Переключатель BIOS служит для обеспечения работоспособности видеокарты в случае каких-либо проблем у пользователя, возникших в процессе перепрошивки. Данный переключатель определяет, с какого образа будет загружаться видеокарта: 1 — незащищённая от записи микросхема BIOS с возможностью пользовательской перепрошивки, 2 — не перезаписываемая пользователем копия BIOS с заводскими настройками.

Эта функциональность тоже призвана помочь в решении проблем вышедших из строя видеокарт. Ведь теперь даже в случае неудачной попытки прошивки BIOS пользователь всегда сможет воспользоваться вторым образом. Можно только похвалить AMD за такое решение проблем пользователей. Наконец-то можно будет выбросить запасную PCI-видеокарту, бережно хранимую многими энтузиастами для таких случаев.

Всё новое семейство видеокарт AMD — и HD 6800, и HD 6900, — поддерживает DisplayPort 1.2 в рамках улучшенной мультимониторной технологии AMD Eyefinity Multi-Display Technology. Её отличие от предыдущих — в возможности вывода сразу нескольких каналов по одному разъёму DisplayPort, что позволяет (точнее — позволит в будущем) подключить большее количество мониторов к одной видеокарте. Для подключения нескольких мониторов при помощи одного разъёма будет необходим специальный хаб, приобретаемый отдельно.

Cayman содержит и новый блок обработки видео Unified Video Decoder 3, самой интересной новой возможностью которого нам видится появление поддержки аппаратного декодирования формата DivX/XviD, который ранее не ускорялся на GPU. Но не только в декодировании этого формата заключаются улучшения в UVD3, он также теперь декодирует MPEG-2 полностью на GPU и поддерживает кодеки с двумя потоками для возможности проигрывания 3D-дисков Blu-ray.

Более подробно об изменениях в технологиях вывода изображения, включая возможности Eyefinity, технологии AMD HD3D и новом поколении блока обработки видео Unified Video Decoder 3 вы можете прочитать в теоретическом обзоре решений семейства Radeon HD 6800.

Выводы по теоретическим данным

Подводя итоги теоретической части обзора новых видеокарт серии Radeon HD 6900, можно сказать, что компания AMD серьёзно изменила графическую архитектуру, реализовав своевременные модификации по скорости обработки геометрии, а также сделала ещё один шаг в сторону более эффективных вычислений на GPU. Всё это усложнило чип Cayman, но новые решения остаются энергоэффективными и должны стать вполне конкурентоспособными в своём ценовом диапазоне.

Новая VLIW4 архитектура потоковых процессоров вместе с улучшениями, направленными на ускорение вычислений на GPU, должна усилить позиции компании AMD в этой сфере, а удвоение блоков геометрической обработки позволит сократить отставание в некоторых играх и бенчмарках с использованием тесселяции. Весьма любопытной показалась и PowerTune — продвинутая технология управления питанием, которая позволит снизить риск выхода из строя видеокарт по причине выхода энергопотребления за рамки соответствующих стандартов.

Не обошлось и без улучшений качества рендеринга. Как и менее дорогие решения на чипе Barts, семейство Radeon HD 6900 поддерживает качественную текстурную фильтрацию и новый метод полноэкранного сглаживания MLAA. Кроме этого, был введён ещё более качественный метод EQAA — улучшенный мультисэмплинг с увеличенным количеством выборок, аналогичный применяемому конкурентом.

Кстати, о конкуренции. Конкурировать новой линейке компании AMD придётся как с младшим решением топового сегмента в лице Geforce GTX 570, так и с будущими видеокартами верхнего среднего ценового диапазона, которые должны сменить Geforce GTX 460, в том числе и фабрично разогнанные модели, которых появилось в продаже довольно много. Вероятно, вскоре мы увидим давно известную нам картину, когда однозначно лучшей видеокарты в любом сегменте не будет, а все решения на рынке будут обладать своими преимуществами. И похоже, что семейство HD 6900 покажет хорошую производительность для своей цены.

Что касается сравнительной производительности новых решений, то отметим, что нас слегка настораживает небольшая разница между HD 6950 и HD 6970 по количеству исполнительных блоков — менее 10% без учёта дополнительной разницы в частотах, которая также не слишком велика. Да и разница между моделями в пропускной способности видеопамяти не поражает воображение, не говоря о производительности блоков ROP.

Почему это не очень хорошо? С учётом явного избытка ALU и TMU, а также частых случаев ограничения скорости рендеринга в играх филлрейтом и геометрической производительностью, всё это может привести к очень слабой разнице (порядка 10%) между двумя представленными сегодня моделями компании AMD и в игровых тестах. Что косвенно подтверждается в том числе и небольшой разницей в их рекомендованных ценах. Но возможности подвинуть HD 6950 ещё ниже у AMD просто нет, так как там уже находится HD 6870, а повысить производительность HD 6970 не даёт необходимость обеспечения приемлемого выхода годных GPU, работающих на повышенной частоте.

С этими тревогами мы разберёмся в других частях. Следующая часть традиционно посвящена практическому исследованию скорости рендеринга видеокарт AMD Radeon HD 6970 и HD 6950 в синтетических тестах. В ней мы определим, как производительность новых решений на основе чипа Cayman соотносится со скоростью других решений компании AMD, а также конкурирующих видеокарт компании Nvidia.

AMD Radeon HD 6950/6970 — Часть 2: видеоплаты и синтетические тесты

15 декабря 2010 Г.

Алексей Берилло

Андрей Воробьев

AMD Radeon HD 6950/6970: �� Geforce GTX 570/580, ��

AMD Radeon HD 6950/6970:

�� Geforce GTX 570/580, ��

��

�� , �� , �� Nvidia ��, ��, �� , �� -�� , �� . Geforce GTX 570 � 580 �� .

� �� AMD? �� -�� . �� AMD �� AMD, �� . �� , �� Radeon HD 6950, �� , �� GTX 570, �� . �� Radeon HD 6970 �� GTX 580, �� . �� , ��! �� 10% — �� 10% ��? �� ?

�� . �� , �� .

�� 1: ��

�� AMD �� . �� — �� Radeon HD 5800 �� 2009 ��, � �� AMD �� DirectX 11, �� , �� .

�� 2010 ��, �, ��, �� . �� Radeon HD 6800, �� HD 5800. �� Barts �� Evergreen, �� Cypress, � �� GPU �� .

� �� AMD �� . ��, � �� -�� , �� , �� TSMC � �� 32-�� . ��, �� AMD �� 32 ��, �� , �� 40 ��. ��, � �� GPU.

�� AMD, �� . �� Cypress � �� AMD �� GPU, � �� , �� , � �� Radeon HD 5970 �� , �� , �� GPU. �� -�� , �� .

� �� , �� DirectX 11 �� . �� Steam Survey, �� 30 �� 73% �� GPU � �� DirectX 10, � �� 13% �� DirectX 9.

�� AMD. ��, �� , �� , �� , �� , �� Radeon HD 4850 � Geforce GTX 260, �� . �� AMD � �� Nvidia.

�� , �� HD 5800 �� : HD 6800 � HD 6900, �� Barts � Cayman. �� HD 5700 �� , HD 6800 �� (�� HD 5800), � �� HD 5800 � �� HD 6900.

�� , �� Radeon HD 6800 �� Geforce GTX 460, � �� HD 5970 �� , �� GTX 580. � �� HD 6900 �� — �� , HD 6970 �� GTX 570, � HD 6950 � �� .

�� «�� » �� GTX 570 � GTX 460, � �� GTX 470, �� . �� , �� Nvidia �� GF104 (GF114?) �� 384 �� , 256-�� . �, �� , �� Radeon HD 6950, �� GPU �� 86% �� .

�� Cayman �� GPU, �� :

[22.10.10] AMD Radeon HD 6870 � HD 6850: ��
[23.09.09] ATI Radeon HD 5870: �� — ATI (AMD) �� 3D-��
[20.04.09] ATI Radeon HD 4870 (RV770): �� 3D-�� AMD
[30.06.08] ATI Radeon HD 4850 (RV770): �� 2,5 ��!

�� Radeon HD 6900, �� «Cayman».

�� Radeon HD 6900

�� «Cayman»
�� 40 ��
2,64 ��. �� (�� , �� Cypress � � 1,5 �� Barts)
�� 389 ��² (� �� , �� Barts)
�� : ��, �� .
�� DirectX 11, � �� — Shader Model 5.0
256-�� : �� 64 �� GDDR5
�� 880 �� (�� Radeon HD 6970)
24 SIMD-��, �� 384 �� , � � �� 1536 �� ALU �� (�� , �� FP32 � FP64 � �� IEEE 754)
24 �� , � �� FP16 � FP32
96 �� , � �� FP16-��
32 �� ROP � �� 16 �� , � �� FP16- �� FP32-�� . �� 32 �� (� �. �. �� FP16), � � �� (Z only) — 128 ��
�� RAMDAC, �� Single Link �� Dual Link DVI, � �� HDMI 1.4a � DisplayPort 1.2

�� Radeon HD 6970

�� 880 ��
�� 1536
�� — 96, �� — 32
�� 5500 �� (4×1375 ��)
�� GDDR5
�� 2 ��
�� 176 �� .
�� 28,2 �� .
�� 84,5 �� .
�� CrossFireX
�� PCI Express 2.1
��: DVI Dual Link, DVI Single Link, HDMI 1.4a, �� mini DisplayPort 1.2
�� 20 �� 250 �� (�� — �� 190 ��)
�� 8-�� 6-��
��
�� $369

�� Radeon HD 6950

�� 800 ��
�� 1408
�� — 88, �� — 32
�� 5000 �� (4×1250 ��)
�� GDDR5
�� 2 ��
�� 160 �� .
�� 25,6 �� .
�� 70,4 �� .
�� CrossFireX
�� PCI Express 2.1
��: DVI Dual Link, DVI Single Link, HDMI 1.4a, �� mini DisplayPort 1.2
�� 20 �� 200 �� (�� — �� 140 ��)
�� 6-��
��
�� $299

�� 40-�� AMD �� GPU, �� , �� 32 ��. �� Cayman �� Cypress �� , �� , �� , �� , �� . �� ALU, � �� ROP, �� . �� , �� AMD, �� Cypress.

�� , � �� . �� , � �� , �� . Radeon HD 6970 � HD 6950 �� HD 5870 � HD 5850, �� HD 6800. �� , �� , �� HD 6970 �� Geforce GTX 570, � �� HD 6950 �� .

�� , �� AMD, �� , �� . �� GDDR5 �� 2 ��. �� , �� , �� 1 ��. ��, �� 1,25—1,5 ��, �� AMD �� .

�� , �� , �� -�� 1 �� -�� , �� (Eyefinity) �� . � ��, �� Radeon HD 6950 � 1 �� , �� , � �� .

�� , �� AMD �� . �� , �� 6-�� . ��, �� … �� , � �� , �� AMD �� (typical gaming power) — �� , �� 25 �� .

�� Cayman

�� Cayman (� �� GPU ��) �� AMD �� GPGPU, �� , �� , �� (�� ), � �� .

�� , �� Cayman �� Cypress � �� 32-�� , �� GPU �� . ��, �� Cayman �� +15% � �� Cypress, �� , � �� . ��, ��, �� AMD.

�� , �� (graphics engine, �� , �� ), � �� . �� Cayman, � �� , �� .

�� VLIW4 �� , � �� VLIW5 � ��. � �� , �� . �� — �� (��) �� , �� , �� .

� ��, �� 24 SIMD-��, �� 16 ��, �� . �� , �� Cayman �� 24×16×4=1536 ��, �� , �� Cypress. �� , �� , �� .

�� SIMD-�� , �� GPU, �� — 96 TMU. �� , �� Cypress, � �� , �� . ��, �� AMD. �� HD 5800 � HD 6800, �� 64-�� 256-�� , � �� 32 �� ROP. �� , �� GPU, � �� .

��

�� , �� (4-way co-issue), � �� ALU � �� , � �� . ��, �� Cypress �� ALU + �� SFU (�� «T-unit»), �� (��, ��, �� . �.), � Cayman �� «��» ALU.

�� , �� VLIW5. �� VLIW5 �� , �� ALU �� 100%, � �� . �� ALU � �� , �, �� AMD, �� 10%. �� , �� : �� .

�� VLIW5 � VLIW4 �� , �� . � �� VLIW4 �� . � � �� Cayman — �� , �� GPU �� .

�� VLIW4 �� . 64-�� , �� 32-��. � � �� — 1/5. �� 64-�� Radeon HD 6970 �� 675 GFLOPS (�� — � HD 5870 �� 544 GFLOPS).

�� ROP

�� ROP � �� AMD �� . Cayman �� , � �� 16-�� (�� ) � ��- �� 32-�� (�� -�� , � �� ). �� (deferred) ��, �� 32-�� .

�� GPU

��, �� Cayman �� . �� (kernel), �� . �� , � Cayman �� MPMD (Multiple Processor/Multiple Data) — �� .

� �� AMD �� (kernel), �� , �� . GPU �� . �� , � �� , � �� . �� .

�� kernel �� , � �� . � � �� , �� (DMA), �� .

�� «��» �� Cayman. �� ALU �� , � �� -��. �� GPU �� (flow control) � �� .

��

� �� , �� Nvidia �� , �� , �� . �� AMD �� 16-� ��, � �� Cypress � Barts, �� .

��, AMD �� . �� Barts, �� . �� Fermi �� .

�� Cayman �� , � �� (geometry setup) �� , �� . �� , AMD �� , �� , �� GPU ��.

�� Cayman �� , �� (backface culling) �� , � �� . �� , �� AMD, �� Radeon HD 6970 �� , �� HD 5870.

�� , �� , �� , � �� . �� AMD. � ��, �� , � �� 30—70%, � �� . �� , �� , �� .

��

�� . �� , �� , �� — �� (MLAA — MorphoLogical Anti-Aliasing).

�� — �� Radeon HD 6800, �� , �� HD 6900, � �� Cayman. �� , �� Enhanced Quality Anti-Aliasing (EQAA). �� , �� Coverage Sampling Anti-Aliasing (CSAA), �� Nvidia �� G80 (�� Geforce 8800), � �� .

�� , �� , � �� 16 �� 8 �� , �� . �� Z �� , �� , �� . �� :

� �� AMD (�� HD 6800) �� . � �� HD 6900 �� , � �� . �� , �� (MSAA) �� .

EQAA �� , �� MSAA 4�, �� . �� AMD, �� EQAA � �� , �� Nvidia.

�� , �� (Adaptive AA), �� (Super-Sample AA) � �� , � �� Radeon HD 6800. �� EQAA? AMD � �� , �� (� ��, � �� MSAA �� EQAA, �� ).

�� AMD �� Radeon HD 6800, �� «��» �� . Morphological Anti-Aliasing — �� , �� . �� , �� .

�� , � �� MSAA, � �� . �� , �� , �� . �� , �� edge-detect CFAA � ��, �� , � �� .

�� . �� , EQAA �� «custom resolve» �� «��» �� . �� , �� .

�� AMD PowerTune

�� Cayman, �� 3D-��, �� , �� PowerTune. ��, � �� , �� GPU �� . �� «��», �� . �� , �� , �� .

�� , �� GPU, �� , �� . � �� , �� Furmark � OCCT, �� . �� Evergreen (�� Radeon HD 5000) �� , � � HD 6900 �� .

�� GPU �� , �� , �� , �� , �� . �� GPU � �� , �� . AMD �� :

�� , �� 3D-�� . � �� , �� , �� GPU � �� .

� �� , PowerTune �� GPU, �� . � �� , �� , � �. �. � ��.

�� AMD �� : �� (��, �� ) � �� GPU �� . �� , �� AMD OverDrive, �� :

��, �� -�� . � �� , �� , �� .

�� GPU � �� . �� GPU �� Radeon HD 6950 � �� Perlin Noise �� 3DMark Vantage � �� : �� 5% � 10%. �� , �� :

� �� GPU �� 800 ��, �� AMD �� , � �� 140 FPS. �� 5% � �� GPU �� , �� 800 ��, � � �� 155 FPS. � �� 10% � �� , �� 800 �� , �� 162 �� .

�� , �� , �� . AMD �� Aliens vs Predator � �� : �� , -10% �� -20%. �� -10% �� , �� , �� 30 �� 40 FPS �� 50 FPS �� :

�� , �� PowerTune �� (�� , ��) � �� , �� , � �� GPU �� . �� — �� .

��

�� Radeon HD 6900 �� — �� BIOS �� , �� . �� CrossFire �� .

�� BIOS �� -�� , �� . �� , � �� : 1 — �� BIOS � �� , 2 — �� BIOS � �� .

�� . �� BIOS �� . �� AMD �� . ��-�� PCI-��, �� .

�� AMD — � HD 6800, � HD 6900, — �� DisplayPort 1.2 � �� AMD Eyefinity Multi-Display Technology. Ÿ �� — � �� DisplayPort, �� (�� — �� ) �� . �� , �� .

Cayman �� Unified Video Decoder 3, �� DivX/XviD, �� GPU. �� UVD3, �� MPEG-2 �� GPU � �� 3D-�� Blu-ray.

�� , �� Eyefinity, �� AMD HD3D � �� Unified Video Decoder 3 �� Radeon HD 6800.

��

�� Radeon HD 6900, �� , �� AMD �� , �� , � �� GPU. �� Cayman, �� .

�� VLIW4 �� , �� GPU, �� AMD � �� , � �� . �� PowerTune — �� , �� .

�� . �� Barts, �� Radeon HD 6900 �� MLAA. �� , �� EQAA — �� , �� .

��, � ��. �� AMD �� Geforce GTX 570, �� , �� Geforce GTX 460, � �� , �� . ��, �� , �� , � �� . � ��, �� HD 6900 �� .

�� , �� , �� HD 6950 � HD 6970 �� — �� 10% �� , �� . �� , �� ROP.

�� ? � �� ALU � TMU, � �� , �� (�� 10%) �� AMD � � �� . �� . �� HD 6950 �� AMD �� , �� HD 6870, � �� HD 6970 �� GPU, �� .

� �� . �� AMD Radeon HD 6970 � HD 6950 � �� . � �� , �� Cayman �� AMD, � �� Nvidia.