Семейства видеокарт AMD (ATI) Radeon
Справочная информация




Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400

Спецификации чипов семейства R9XX

кодовое имя «Cayman» «Barts» «Turks» «Caicos»
базовая статья здесь здесь - -
технология (нм) 40
транзисторов (млрд) 2,64 1,70 0,72 0,37
универсальных процессоров 1536 1120 480 160
текстурных блоков 96 56 24 8
блоков блендинга 32 8 4
блоков растеризации и тесселяции 2 1
шина памяти 256 128 64
типы памяти GDDR5 GDDR5/DDR3
системная шина чипа PCI Express 2.1 16х
RAMDAC 2×400 МГц
интерфейсы 3×DVI
HDMI
DisplayPort
вершинные шейдеры 5,0
пиксельные шейдеры 5,0
точность вычислений FP32/FP64
форматы текстур FP32, FP16
I8
DXTC, S3TC
3Dc
форматы рендеринга FP32 и FP16
I8
I10 (RGBA 10:10:10:2)
другие
MRT есть
Aнтиалиасинг MSAA 2х—8х
CFAA до 24x
SSAA 2x—8x
MLAA
EQAA до 16x
MSAA 2х—8х
CFAA до 24x
SSAA 2x—8x
MLAA




Спецификации референсных карт на базе чипов семейств R9XX

карта чип блоков ALU/TMU/ROP частота ядра, МГц частота памяти, МГц объем памяти, МБ ПСП, ГБ/c
(бит)
тексту-
рирование, Гтекс
филлрейт, Гпикс TDP, Вт
Radeon HD 6990 «Antilles» 2x(1536/96/32) 830(880) 1250(5000) 2x2048 GDDR5 320 (2x256) 159(169) 53(56) 350(415)
Radeon HD 6970 «Cayman» 1536/96/32 880 1375(5500) 2048 GDDR5 176 (256) 84,5 28,2 250
Radeon HD 6950 «Cayman» 1408/88/32 800 1250(5000) 1024/2048 GDDR5 160 (256) 70,4 25,6 200
Radeon HD 6930 «Cayman» 1280/80/32 750 1200(4800) 1024 GDDR5 153,6 (256) 60,0 24,0 200
Radeon HD 6870 «Barts» 1120/56/32 900 1050(4200) 1024 GDDR5 134 (256) 50,4 28,8 151
Radeon HD 6850 «Barts» 960/48/32 775 1000(4000) 1024 GDDR5 128 (256) 37,2 24,8 127
Radeon HD 6790 «BartsLE» 800/40/16 840 1050(4200) 1024 GDDR5 134 (256) 33,6 13,4 150
Radeon HD 6670 «Turks» 480/24/8 840 1000(4000) 1024 GDDR5 64 (128) 19,2 6,4 66
Radeon HD 6570 GDDR5 «Turks» 480/24/8 650 900-1000(3600-4000) 512/1024 GDDR5 58-64 (128) 15,6 5,2 60
Radeon HD 6570 DDR3 «Turks» 480/24/8 650 900(1800) 512/1024 DDR3 29 (128) 15,6 5,2 44
Radeon HD 6450 GDDR5 «Caicos» 160/8/4 625-750 800-900(3200-3600) 512/1024 GDDR5 26-29 (64) 5-6 2,5-3 27
Radeon HD 6450 DDR3 «Caicos» 160/8/4 625-750 533-800(1066-1600) 512/1024 DDR3 9-13 (64) 5-6 2,5-3 18


Подробности: Cayman, серия Radeon HD 6900

  • Кодовое имя чипа «Cayman»
  • Технология 40 нм
  • 2,64 млрд. транзисторов (почти на четверть больше, чем у Cypress и в 1,5 раза больше Barts)
  • Площадь кристалла 389 мм2 (в полтора раза больше, чем Barts)
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
  • Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
  • 256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой памяти GDDR5
  • Частота ядра до 880 МГц (для Radeon HD 6970)
  • 24 SIMD-ядра, включающих 384 потоковых процессора, и в общем 1536 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка точности FP32 и FP64 в рамках стандарта IEEE 754)
  • 24 укрупненных текстурных блока, с поддержкой форматов FP16 и FP32
  • 96 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16-текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • 32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт (в т. ч. для буферов формата FP16), а в режиме без цвета (Z only) — 128 отсчетов за такт
  • Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 6970

  • Частота ядра 880 МГц
  • Количество универсальных процессоров 1536
  • Количество текстурных блоков — 96, блоков блендинга — 32
  • Эффективная частота памяти 5500 МГц (4×1375 МГц)
  • Тип памяти GDDR5
  • Объем памяти 2 гигабайта
  • Пропускная способность памяти 176 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 28,2 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 84,5 гигатекселей в сек.
  • Два разъёма CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
  • Энергопотребление от 20 до 250 Вт (типичное энергопотребление в играх — до 190 Вт)
  • Один 8-штырьковый и один 6-штырьковый разъёмы питания
  • Двухслотовый дизайн
  • Рекомендованная цена для рынка США $369

Спецификации видеокарты Radeon HD 6950

  • Частота ядра 800 МГц
  • Количество универсальных процессоров 1408
  • Количество текстурных блоков — 88, блоков блендинга — 32
  • Эффективная частота памяти 5000 МГц (4×1250 МГц)
  • Тип памяти GDDR5
  • Объем памяти 2 гигабайта
  • Пропускная способность памяти 160 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 25,6 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 70,4 гигатекселей в сек.
  • Два разъёма CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
  • Энергопотребление от 20 до 200 Вт (типичное энергопотребление в играх — до 140 Вт)
  • Два 6-штырьковых разъёма питания
  • Двухслотовый дизайн
  • Рекомендованная цена для рынка США $299

Применение отработанного 40-нанометрового техпроцесса всё же позволило компании AMD выпустить новый топовый GPU, пусть и не в таком виде, каким он мог быть на 32 нм. Сложность Cayman по сравнению с Cypress выросла менее чем на четверть, как и площадь ядра, но некоторые характеристики, влияющие на производительность, остались практически на том же уровне. Это и количество ALU, и неизменное число блоков ROP, да и пропускная способность видеопамяти не сильно выросла. Но всё же, во многом благодаря повышенным тактовым частотам и возросшей эффективности нового чипа AMD, он должен в среднем превзойти Cypress.

Принцип наименования моделей был несколько изменён с предыдущего поколения. По сравнению с предыдущей серией, у топовых решений поменялась не только первая, но и вторая цифра индекса. Radeon HD 6970 и HD 6950 являются наиболее производительными одночиповыми решениями и должны заместить видеокарты HD 5870 и HD 5850, становясь в линейке выше выпущенных недавно решений семейства HD 6800. Что касается сравнения с конкурентом, то по указанным выше рекомендованным ценам понятно, что по производительности HD 6970 на одном уровне или несколько производительнее GeForce GTX 570, а вот у HD 6950 конкурент на другом чипе — GTX 560 Ti.

Два варианта серии, как это принято у видеокарт AMD, отличаются как тактовыми частотами видеочипа и памяти, так и отключенной частью исполнительных блоков у младшей модели. На обе видеокарты новой серии устанавливается память типа GDDR5 одинакового объёма в 2 гигабайта. Оптимальным объёмом памяти на сегодняшний день до сих пор является 1 гигабайт, но вполне возможно, что для топовых моделей и такой объём оправдан, так как в каких-то случаях нехватка 1 ГБ памяти всё-таки будет наблюдаться, да и для игр на трёх мониторах (Eyefinity) экранный буфер такого объёма будет весьма полезен. К слову, партнёры компании уже выпустили и модель Radeon HD 6950 с 1 ГБ видеопамяти с меньшей стоимостью.

Обе видеокарты имеют двухслотовую систему охлаждения, закрытую привычным для всех современных плат AMD пластмассовым кожухом по всей длине карты. Энергопотребление младшей карты ниже, что позволило обойтись в её случае двумя 6-штырьковыми разъёмами питания. Кроме максимального энергопотребления AMD теперь указывает и типичное потребление в играх (typical gaming power) — показатель потребления, замеренный при тестировании в наборе из 25 популярных игр.

Архитектура Cayman

При проектировании Cayman (а именно такое кодовое имя получил новый GPU компании) основными задачами инженеров AMD было создание эффективной графической и вычислительной архитектуры с новыми возможностями GPGPU, значительное увеличение производительности геометрических блоков, улучшения в алгоритмах, влияющих на качество рендеринга (текстурная фильтрация и полноэкранное сглаживание), а также улучшенное управление питанием.

Судя по всему, архитектуру Cayman можно назвать промежуточным решением между архитектурой Cypress и так и не рождённой 32-нанометровой архитектурой, так как в состав нового GPU были включены лишь некоторые возможности из неё. Интересно, что цель инженеров по размеру Cayman была +15% к площади Cypress, что позволило потратить эти дополнительные транзисторы на некоторые новые вычислительные и графические возможности, о которых мы расскажем ниже. Итак, посмотрим, что получилось у AMD.

При взгляде на схему чипа, сразу же обращают на себя внимание два блока по обработке геометрии и тесселяции (graphics engine, включающий растеризатор, тесселятор и некоторые другие блоки), а также сдвоенный диспетчер. Это одно из важнейших нововведений в Cayman, к которому явно сподвигло отставание по скорости обработки геометрии от конкурента, уже почти год имеющего распараллеленный графический конвейер.

Важнейшим архитектурным изменением стала суперскалярная VLIW4 архитектура вычислительных процессоров, в отличие от VLIW5 в предыдущей. С одной стороны это может показаться ухудшением, ведь каждый из имеющихся процессоров теперь может выполнять меньше операций параллельно. Но с другой — это может увеличить эффективность использования (КПД) потоковых процессоров, так как подобрать четыре независимые команды явно проще, чем пять.

В целом, новый графический процессор включает 24 SIMD-ядра, каждое из которых состоит из 16 процессоров, умеющих вычислять до четырех команд одновременно. Другими словами, всего вычислительных блоков в Cayman стало 24×16×4=1536 штук, что даже несколько меньше, чем у Cypress. Но так как КПД использования этих блоков явно должен увеличиться, то и производительность также вырастет, скорее всего.

Каждое SIMD-ядро нового графического процессора имеет по четыре блока текстурирования, как и в предыдущих GPU, то есть общее число текстурных процессоров — 96 TMU. Это несколько больше, чем у Cypress, и заметно больше, чем имеет топовый чип конкурента. Так, преимущество по текстурированию должно остаться за AMD. Другие численные характеристики мало отличаются от тех же HD 5800 и HD 6800, чип имеет четыре 64-битных контроллера памяти и 256-битную шину в целом, а также 32 блока ROP. Хотя они всё же отличаются от тех, что используются в предыдущих GPU, и об этом будет написано далее.

Архитектура потоковых процессоров

Новые потоковые процессоры отличаются от предыдущих тем, что умеют выполнять одновременно до четырёх независимых инструкций (4-way co-issue), и все четыре исполнительных устройства ALU в процессоре имеют одинаковые возможности, в отличие от предыдущей архитектуры. Напомним, что каждый потоковый процессор Cypress имеет четыре блока ALU + блок специального назначения SFU (также называемый «T-unit»), служащий для выполнения трансцендентных функций (синус, косинус, логарифм и т. д.), а Cayman выполняет такие команды при помощи трёх из четырёх «обычных» ALU.

Всё вместе это теоретически даёт лучший показатель эффективности использования потоковых процессоров, по сравнению с VLIW5. Хотя VLIW5 обеспечивает достаточно высокий КПД во многих случаях, но средняя загрузка ALU получается явно ниже 100%, и часто лишь три или четыре блока из пяти заняты работой. Снижение количества ALU в каждом процессоре увеличивает их эффективность, и, по оценке компании AMD, улучшение соотношения скорости вычислений и площади чипа составляет порядка 10%. Плюс к этому, дополнительным бонусом идёт упрощение управляющих блоков: шедулера и управление регистрами.

Ещё одной важной деталью перехода от VLIW5 к VLIW4 является то, что для асимметричной архитектуры сложнее оптимизировать и скомпилировать эффективный код. А для симметричного VLIW4 блока работа компилятора упрощается. И в этом мы видим пока что нераскрытый потенциал Cayman — скорее всего, компилятор пока оптимизирован для нового GPU недостаточно и в будущем весьма вероятны приросты по мере оптимизации компилятора для новой архитектуры.

Новая архитектура VLIW4 привела к увеличению производительности вычислений с двойной точностью. 64-битные вычисления теперь исполняются лишь вчетверо медленнее, чем 32-битные. А у решений предыдущей архитектуры это соотношение было ниже — 1/5. Такое изменение позволило повысить пиковую производительность 64-битных вычислений нового Radeon HD 6970 до 675 GFLOPS (для сравнения — у HD 5870 этот показатель равен 544 GFLOPS).

Изменения в блоках ROP

Блоки ROP в новом чипе компании AMD также получили некоторые усовершенствования. Cayman теперь умеет значительно быстрее обрабатывать данные в некоторых форматах, в числе которых 16-битный целочисленный (вдвое быстрее) и одно- или двухкомпонентный 32-битный (ускорение в два-четыре раза, в зависимости от количества компонентов). Это улучшение важнее всего для широко распространённых сейчас случаев отложенного (deferred) рендеринга, хотя применение 32-битных буферов в играх пока что явно ограничено.

Неграфические вычисления на GPU

Пожалуй, больше всего изменений в Cayman произошло как раз в вычислительных возможностях. Прежде всего нужно отметить асинхронную отправку команд на выполнение и одновременное исполнение нескольких вычислительных процессов (kernel), каждый из которых имеет свою очередь команд и свою область защищённой виртуальной памяти. По сути, в Cayman появились возможности вычислений по принципу MPMD (Multiple Processor/Multiple Data) — когда несколько процессоров выполняют множество потоков данных.

В предыдущих архитектурах компании AMD была возможность одновременного запуска и распределения нескольких процессов (kernel), но они имели лишь один конвейер команд, что затрудняло одновременную работу вычислительных и графических приложений. GPU новой архитектуры способен эффективно выполнять несколько потоков команд одновременно. Потоки имеют свои отдельные кольцевые буферы и очереди, а очередность исполнения команд независима и асинхронна, и выполняются они в зависимости от приоритета. Это позволяет запускать вычисления и получать итоговый результат вне очереди.

Также для каждого kernel новый чип предоставляет независимую виртуальную память, и все потоки команд теперь защищены друг от друга. А в дополнение к асинхронной подаче команд, чип имеет два двунаправленных контроллера прямого доступа к памяти (DMA), что поможет увеличить пропускную способность в обоих направлениях.

Но и это ещё не все «вычислительные» изменения в Cayman. Появилась возможность выборки данных из памяти в обход ALU напрямую в локальную память, а оптимизированные чтение и комбинированная запись данных увеличила производительность подсистемы ввода-вывода. Также в новом GPU было улучшено управление потоком передачи данных (flow control) и многое другое.

Параллельная обработка геометрии

В своих материалах мы не раз упоминали, что одним из основных архитектурных преимуществ конкурирующих решений от NVIDIA является распараллеленная обработка геометрии, применяемая во всех их современных решениях, которые весьма эффективны при использовании тесселяции. геометрические примитивы в топовых чипах конкурента AMD обрабатываются одновременно 16-ю блоками, в отличие от одного блока у Cypress и Barts, равно как и остальных предшествующих чипах.

Соответственно, AMD нужно было срочно улучшить производительность геометрических блоков. Частичный шаг был сделан ещё в Barts, оптимизации которого привели к повышению скорости обработки геометрии и тесселяции в полтора раза в лучшем случае. Но даже тесселятор седьмого поколения всё ещё серьёзно уступал тесселяторам Fermi первого же поколения.

Блоки обработки геометрии и тесселяции в Cayman названы уже восьмым поколением, и они получили установку геометрических примитивов (geometry setup) удвоенной скорости, улучшенную буферизацию геометрических данных и двойной блок обработки геометрии. Именно так, AMD тоже пришлось распараллеливать работу над геометрическими данными, хотя и не настолько радикально, как это сделано в GPU конкурента.

Двойной блок геометрии в Cayman обрабатывает два примитива за такт, то есть скорость трансформации и отбрасывания задних граней (backface culling) возросла вдвое, а нагрузка между блоками распределяется при помощи разбиения на тайлы. Вместе с улучшением буферизации, по данным AMD, это приводит к росту производительности тесселяции у топового решения Radeon HD 6970 до трёх раз, по сравнению с HD 5870.

Но всё же, как видите, чаще всего скорость обработки геометрии и тесселяции возросла вдвое, а не втрое. Даже по данным самой AMD. К слову, они приводят и цифры из игр и бенчмарков с применением тесселяции, и приросты там достигают впечатляющих цифр порядка 30—70%, в зависимости от количества оттесселированных поверхностей и степени разбиения примитивов. Мы проверим эти цифры в следующей части материала, посвящённой исследованиям производительности новых решений в синтетических тестах и некоторых из игровых, которые также используют тесселяцию.

Улучшения в качестве рендеринга

Одной из задач новой архитектуры было повышение качества рендеринга. Это касается как улучшения существующих алгоритмов текстурной фильтрации и сглаживания, так и появления новых возможностей, вроде нового типа полноэкранного сглаживания — морфологического (MLAA — MorphoLogical Anti-Aliasing).

Часть из новых возможностей доступна и на младших представителях серии — видеокартах Radeon HD 6800, но есть одно аппаратное нововведение, которое появилось именно в серии HD 6900, в чипе Cayman. Это улучшенный метод полноэкранного сглаживания, названный Enhanced Quality Anti-Aliasing (EQAA). Если совсем коротко, то это аналог Coverage Sampling Anti-Aliasing (CSAA), имеющийся у NVIDIA ещё со времён чипа G80 (серия GeForce 8800), о котором мы рассказывали ещё несколько лет назад.

Суть метода в том, что цвета отсчётов и глубина хранятся отдельно от информации об их местоположении, и на один пиксель может приходиться по 16 отсчетов при 8 вычисленных значений глубины, что экономит пропускную способность. Метод позволяет обойтись передачей и хранением одного значения цвета или Z на каждый субпиксель, уточняя усредненное значение экранного пикселя за счёт более подробной информации о том, как этот пиксель перекрывает края треугольников. Понимание этого запутанного объяснения вам облегчит следующая картинка:

В предыдущих чипах компании AMD (включая серию HD 6800) число рассчитанных семплов и сохранённых было одинаковым. В решениях серии HD 6900 эти два значения можно изменять независимо друг от друга, и число выборок на пиксель и число сохранённых в буфере может быть разным. Это позволяет получить качество выше, чем при обычном мультисэмплинге (MSAA) при сохранении сравнительно высокой производительности.

EQAA позволяет обеспечивать качество сглаживания заметно выше, чем у MSAA 4х, лишь с небольшой потерей производительности. По оценке компании AMD, разница в производительности между режимами с включенным и выключенным EQAA в играх составляет единицы процентов, что отлично соотносится с результатами видеокарт NVIDIA.

Дополнительным положительным фактором является то, что метод совместим с адаптивным сглаживанием (Adaptive AA), суперсэмплингом (Super-Sample AA) и морфологическим сглаживанием, о котором мы рассказывали в статье о Radeon HD 6800. Но каким образом включается этот самый EQAA? AMD и тут переняла опыт конкурента, введя в настройки драйвера аналогичные возможности по подмене метода сглаживания (к примеру, с обычного MSAA на EQAA, но не обязательно именно так).

Об остальных улучшениях качества рендеринга у новых решений AMD мы подробно рассказывали в статье о семействе Radeon HD 6800, как и о «морфологическом» сглаживании и об улучшениях текстурной фильтрации. Morphological Anti-Aliasing — это новый метод сглаживания, известный нам по некоторым мультиплатформенным играм. Это фильтр постобработки, применяемый к финальной картинке при помощи вычислительного или пиксельного шейдера.

Данный метод сглаживает все пиксели сцены, а не только края полигонов и полупрозрачных текстур как MSAA, и поэтому после него может отмечаться излишняя замыленность картинки. Зато этот метод теоретически быстрее суперсэмплинга, так как он обрабатывает только нужные участки, на которых фильтр нашёл резкие переходы цвета. Отличие от ещё одного метода, известного как edge-detect CFAA в том, что фильтр применяется ко всем граням, а не только краям треугольников.

Все эти методы можно смешивать и друг с другом. Иными словами, EQAA полностью совместим и с так называемыми «custom resolve» фильтрами и «морфологическим» сглаживанием и все они могут применяться одновременно. Что позволит повысить качество рендеринга в случае излишка производительности, часто имеющегося у топовых видеокарт.

Технология AMD PowerTune

Одним из наиболее интересных изменений в Cayman, напрямую не связанным с 3D-графикой, является технология, получившая название PowerTune. Собственно, к гибкому управлению тактовой частотой, напряжением и питанием GPU дело уже давно шло. Те же центральные процессоры давно умеют плавно или ступенчато изменять производительность и «прожорливость», снижая некоторые параметры в простое и повышая при нагрузке. Да и видеочипы тоже умеют изменять указанные параметры, но до сих пор делали это ступенчато и не имели пределов, за которые нельзя было бы выйти.

Обычные игры и другие приложения, использующие вычисления на GPU, редко когда предъявляют повышенные требования к питанию и не подходят к опасным пределам энергопотребления, превышающим возможности системы. В отличие от тестов стабильности, вроде Furmark и OCCT, которые выжимают из системы всё до капли. Ещё в семействе Evergreen (серия Radeon HD 5000) был некий зачаток ограничителя производительности при превышении определённого уровня потребления, а в HD 6900 эта система перешла на качественно иной уровень.

Новый GPU имеет специальные датчики во всех блоках чипа, которые отслеживают параметры загрузки, таким образом графический процессор постоянно измеряет нагрузку и энергопотребление и не позволяет выйти последнему за определённый порог, автоматически регулируя частоту и напряжение так, чтобы параметры оставались в рамках указанного теплопакета. Эта технология помогает установить высокие частоты GPU и при этом не бояться, что видеокарта выйдет за безопасные пределы по энергопотреблению. AMD приводит следующие приложения в виде примера:

Как видите, наиболее требовательными 3D-приложениями являются средства тестирования стабильности и некоторые из синтетических тестов. А вот игры, даже самые тяжёлые, совсем не требуют максимальной энергии от GPU и не выходят за установленные рамки.

В отличие от ранних технологий управления питанием, PowerTune обеспечивает прямой контроль над энергопотреблением GPU, по сравнению с косвенным управлением при помощи изменения частот и напряжений. И более не требуется ставить ограничитель для избранных приложений, технология будет работать с тем же успехом для всех программ, в т. ч. и будущих.

Для компании AMD технология полезна сразу по нескольким причинам: она предохранит видеокарты от выхода из строя в некоторых случаях (например, нерадивые и невнимательные любители разгона) и позволит выжать максимальную производительность из GPU без проблем с питанием и охлаждением. Важно и то, что данная технология позволяет пользователю самому ограничивать потребление при помощи средств AMD OverDrive, как это показано на скриншоте:

Естественно, что регулировать параметр максимального потребления можно лишь в определённых пределах и с перекладыванием ответственности на плечи пользователя и лишения последнего каких-либо гарантий. В некоторых случаях будет полезно не только повысить этот предел, но и снизить его, добившись снижения потребления в случае отсутствия необходимости в высокой производительности.

Изменение тактовой частоты GPU и полученная при этом производительность при разных уровнях максимального потребления наглядно отображены на следующем графике. На нём указано изменение частоты GPU видеокарты Radeon HD 6950 в тесте Perlin Noise из набора 3DMark Vantage в трёх режимах: по умолчанию и с повышенным пределом по питанию на 5% и 10%. Этот график соответствует тому, что получится при работе наиболее требовательных к питанию приложений:

В режиме по умолчанию GPU не может постоянно работать на частоте в 800 МГц, не превысив установленной AMD границы потребления, и показывает результат на уровне 140 FPS. При добавлении 5% к максимальному потреблению частота GPU становится выше, но всё ещё часто не достигает максимально положенных 800 МГц, и в результате достигается скорость 155 FPS. В случае же добавленных 10% к пределу потребления, чип всегда работает на частоте около 800 МГц и не достигает изменённой границы потребления, показывая при этом 162 средних кадров в секунду.

Если рассматривать обратную ситуацию, когда нужно снизить потребление, то и в таком случае технология будет полезна. AMD приводит пример игры Aliens vs Predator и трёх режимов: по умолчанию, -10% от максимального потребления и -20%. Если в режимах по умолчанию и -10% разница получилась небольшой, то в последнем случае, при снижении потребления на 30 Вт можно получить вполне комфортные 40 FPS вместо 50 FPS при максимальном потреблении:

Таким образом, каждый пользователь может настроить PowerTune под себя (при условии отказа от гарантий, разумеется) и выбрать или меньшее энергопотребление системы, или более высокую производительность в тех приложениях, в которых GPU становится весьма требовательным к питанию. Можно даже вручную настраивать меньшее потребление для постоянной работы и максимальное — для требовательных приложений.

Другие изменения

Из других интересных отличий видеокарт топового семейства Radeon HD 6900 хотелось бы отметить следующую полезную особенность — наличие двух микросхем BIOS на карте и защиту от перезаписи для одной из них, имеющей заводские настройки. Для этого на плате рядом с CrossFire разъёмами расположен микропереключатель.

Переключатель BIOS служит для обеспечения работоспособности видеокарты в случае каких-либо проблем у пользователя, возникших в процессе перепрошивки. Данный переключатель определяет, с какого образа будет загружаться видеокарта: 1 — незащищённая от записи микросхема BIOS с возможностью пользовательской перепрошивки, 2 — не перезаписываемая пользователем копия BIOS с заводскими настройками.

Эта функциональность тоже призвана помочь в решении проблем вышедших из строя видеокарт. Ведь теперь даже в случае неудачной попытки прошивки BIOS пользователь всегда сможет воспользоваться вторым образом. Можно только похвалить AMD за такое решение проблем пользователей. Наконец-то можно будет выбросить запасную PCI-видеокарту, бережно хранимую многими энтузиастами для таких случаев.

Всё новое семейство видеокарт AMD — и HD 6800, и HD 6900, — поддерживает DisplayPort 1.2 в рамках улучшенной мультимониторной технологии AMD Eyefinity Multi-Display Technology. Её отличие от предыдущих — в возможности вывода сразу нескольких каналов по одному разъёму DisplayPort, что позволяет (точнее — позволит в будущем) подключить большее количество мониторов к одной видеокарте. Для подключения нескольких мониторов при помощи одного разъёма будет необходим специальный хаб, приобретаемый отдельно.

Cayman содержит и новый блок обработки видео Unified Video Decoder 3, самой интересной новой возможностью которого нам видится появление поддержки аппаратного декодирования формата DivX/XviD, который ранее не ускорялся на GPU. Но не только в декодировании этого формата заключаются улучшения в UVD3, он также теперь декодирует MPEG-2 полностью на GPU и поддерживает кодеки с двумя потоками для возможности проигрывания 3D-дисков Blu-ray.

Более подробно об изменениях в технологиях вывода изображения, включая возможности Eyefinity, технологии AMD HD3D и новом поколении блока обработки видео Unified Video Decoder 3 вы можете прочитать в теоретическом обзоре решений семейства Radeon HD 6800.



Подробности: Barts, серия Radeon HD 6800

  • Кодовое имя чипа «Barts»
  • Технология 40 нм
  • 1,7 млрд. транзисторов (более чем на четверть меньше, чем у «Cypress»)
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
  • Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
  • 256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой памяти GDDR5
  • Частота ядра до 900 МГц
  • 14 SIMD-ядер, включающих 1120 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка точности FP32 в рамках стандарта IEEE 754)
  • 14 укрупненных текстурных блоков, с поддержкой форматов FP16 и FP32
  • 56 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16-текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • 32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 32 отсчетов за такт (в т. ч. для буферов формата FP16), а в режиме без цвета (Z only) — 128 отсчета за такт
  • Запись результатов до восьми буферов кадра одновременно (MRT)
  • Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 6870

  • Частота ядра 900 МГц
  • Количество универсальных процессоров 1120
  • Количество текстурных блоков — 56, блоков блендинга — 32
  • Эффективная частота памяти 4200 МГц (4×1050 МГц)
  • Тип памяти GDDR5
  • Объем памяти 1024 мегабайта
  • Пропускная способность памяти 134,4 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 28,8 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 50,4 гигатекселей в сек.
  • Поддержка CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
  • Энергопотребление от 19 до 151 Вт (два 6-штырьковых разъёма питания)
  • Двухслотовый дизайн
  • Рекомендованная для рынка США цена $239

Спецификации видеокарты Radeon HD 6850

  • Частота ядра 775 МГц
  • Количество универсальных процессоров 960
  • Количество текстурных блоков — 48, блоков блендинга — 32
  • Эффективная частота памяти 4000 МГц (4×1000 МГц)
  • Тип памяти GDDR5
  • Объем памяти 1024 мегабайта
  • Пропускная способность памяти 128,0 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 24,8 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 37,2 гигатекселей в сек.
  • Поддержка CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
  • Энергопотребление от 19 до 127 Вт (один 6-штырьковый разъём питания)
  • Двухслотовый дизайн
  • Рекомендованная для рынка США цена $179

Применение того же 40-нанометрового техпроцесса, но в отработанном виде позволило компании AMD выпустить решения среднего уровня, примерно соответствующие по производительности предыдущим топовым. Сложность чипов снизилась на четверть, равно как и площадь ядра, а вот многие характеристики, влияющие на производительность, остались почти на том же уровне, во многом из-за повышенных тактовых частот. Естественно, что новый чип стал ещё более эффективен энергетически.

Принцип наименования моделей изменился, о причинах такого решения мы писали выше. По сравнению с предыдущей серией поменялась и первая, и вторая цифры. Radeon HD 6870 и HD 6850 предназначены для смены HD 5870 и HD 5850, хотя они должны быть чуть медленнее их попарно. А новыми верхними моделями стали карты серии HD 6900.

Два варианта серии, как обычно для видеокарт AMD, отличаются тактовыми частотами видеочипа и памяти, а также у младшей модели отключена и часть исполнительных блоков. На обе видеокарты серии устанавливают память типа GDDR5, одинакового объёма — 1 гигабайт. Это оптимальный объём памяти на сегодняшний день, от большего объёма на решениях среднего уровня никакой пользы просто не будет.

А ещё младшее решение отличается дизайном платы, и референсные кулеры у них разные. Обе видеокарты имеют двухслотовую систему охлаждения, закрытую привычным пластмассовым кожухом по всей длине карты. А вот энергопотребление младшей карты ниже, что позволило обойтись в её случае лишь одним 6-штырьковым разъёмом питания.

Архитектура «Barts»

Обновленную архитектуру Cypress мы рассматривали в соответствующей базовой статье. Как вы помните, особенных изменений в нём не было, это в основном развитие идей предыдущих поколений, хотя небольшие модификации затронули практически все блоки чипа. А отличия чипа Barts от Cypress вообще в основном количественные, хотя и не только.

Итак, какие изменения принесла переработанная архитектура в Barts? В основном, увеличенную производительность на каждый Ватт и миллиметр площади, то есть улучшенную эффективность. Хотя AMD называет Barts «вторым поколением DirectX 11», изменений в архитектуре практически нет, они почти исключительно количественные — просто иное количество исполнительных блоков и другой баланс между производительностью и потреблением с себестоимостью.

Да, некоторые оптимизации привели к повышению скорости обработки геометрии и тесселяции — больного места решений AMD, по сравнению с конкурирующими. Но эти улучшения не изменили скорость тесселяции в разы, а лишь в полтора-два раза в лучшем случае.

Нам кажется более интересным улучшение качества полноэкранного сглаживания и текстурной фильтрации, хотя они скорее программные, а не аппаратные. Также любопытна поддержка декодирования DivX и Blu-ray 3D-видео, да и улучшения в AMD Eyefinity и поддержке новых стандартов HDMI 1.4a и DisplayPort 1.2 весьма логичны и своевременны.

Хотя это в основном изменения, связанные не с ядром GPU, а с прочими блоками, которые не относятся к 3D-части чипа, которая наиболее интересна для нас сейчас. Итак, давайте рассмотрим блок-схему нового чипа.

Смотрим, что изменилось. По сути, это только блоки в составе Graphics Engine и общее количество блоков SIMD. Блок тесселяции ныне улучшен (это седьмое поколение, см. далее), растеризаторов стало два (или вдвое увеличен темп обработки примитивов, что также вполне вероятно), а количество блоков SIMD снизилось с 18—20 (у Cypress) до 12—14 штук (у Barts), в зависимости от модели.

Ровно настолько же уменьшилось и общее количество процессоров потоковой обработки, теперь их максимум 1120 штук, в отличие от 1600 у Cypress. Всё остальное осталось прежним, и 256-битная шина памяти с поддержкой GDDR5 видеопамяти, и блоки ROP, и остальное.

Благодаря более высоким тактовым частотам, производительность Radeon HD 6870 оказывается выше, чем у HD 5850 (внимание — ниже, чем у HD 5870 даже теоретически!), при меньшей площади GPU. Но это сравнение по цене, а если сравнивать чипы Barts и Cypress на одной частоте, то анонсированное сегодня решение будет в основном медленнее.

Тесселяция и обработка геометрии

Известно, что относительно слабым местом ранних решений AMD была тесселяция, появляющаяся в DX11-приложениях. И вполне логично, что в Barts частично исправили именно это. Блок тесселяции в данном GPU объявлен уже седьмым поколением тесселятора ATI/AMD (см. слайд ниже). Первый появился ещё в древнем ATI Radeon 8500, второй в консоли Xbox 360 от Microsoft, а далее пошли серии видеокарт AMD. Вероятно, 8-е поколение мы увидим уже в серии HD 6900…

Честно говоря, нам не совсем понятно такое большое количество поколений тесселяторов, особенно если большинство их изменений ограничивались введением совместимости с версиями DirectX и уж тем более исключительно небольшими приростами производительности. А можно вспомнить и решения конкурента, первое же поколение тесселяторов которого превосходит по производительности все существующие семь (а то и восемь) поколений тесселяторов AMD. Так есть ли смысл гордиться этой цифрой?

Впрочем, важнее то, что по данным синтетических тестов компании AMD, скорость тесселяции в HD 6870, по сравнению с HD 5870, увеличилась в полтора-два раза (конечно, мы это проверим в практическом исследовании). Причём, новый чип эффективнее всего справляется со средними уровнями тесселяции, а при высоких скорость почти не выросла. Но это не будет проблемой, так как в играх такие уровни не используются и не будут нужны в ближайшее время. Вот пример увеличения сложности геометрии при разных степенях разбиения:

Это уже камешек в огород конкурента. Действительно, вряд ли кому нужны треугольники размером в один пиксель, а при слишком большой детализации эффективность загрузки других блоков (растеризаторов, к примеру) значительно снижается, да и в целом такая работа недостаточно эффективно выполняется на нынешних GPU. В недостатках высокой степени тесселяции: лишняя работа по шейдингу (overshading), большое количество краёв полигонов, нуждающихся в обработке при мультисемплинге и т. д. В общем, такой подход вызывает лишь растрату ресурсов, на взгляд представителей AMD.

В идеале нужно добиваться наиболее эффективных оттесселированных моделей, чтобы размер каждого треугольника был около 16 пикселей на полигон. Это весьма выгодно для попиксельной обработки, которая ведётся именно такими блоками. Таким образом достигается идеальный баланс между качеством рендеринга и производительностью.

Именно для достижения этой цели служат такие методы, как адаптивная тесселяция, когда высокие уровни разбиения используются для объектов на первом плане и отдельных поверхностей, требующих высокой детализации, а для дальних объектов применяются меньшие уровни тесселяции, что улучшает производительность и почти не сказывается на качестве итоговой картинки.

Улучшения в качестве рендеринга

Как известно, предыдущие чипы AMD сделали правильный шаг в направлении достижения наиболее качественной картинки — в них появилась поддержка нового алгоритма анизотропной фильтрации, текстурные мип-уровни при которой расположены по идеальным окружностям. Также можно отметить возможность включения сглаживания методом суперсемплинга, который заметно улучшает общее качество рендеринга.

Что радует, в серии HD 6800 продолжили вносить изменения, направленные на улучшение качества картинки. С одной стороны, почти все уже забыли об этом, так как качество у решений и AMD и NVIDIA схожее и в целом уже весьма неплохое, но с другой — возможности для улучшения всегда есть. В данном случае компания AMD решила ввести новый режим сглаживания, улучшить качество текстурной фильтрации и (наконец-то!) дать возможности по отключению оптимизаций Catalyst AI.

Новый метод сглаживания — это известный по некоторым мультиплатформенным играм Morphological Anti-Aliasing (MAA). Это не совсем привычный нам метод сглаживания, а скорее фильтр постобработки, применяемый к финальной картинке при помощи вычислительного шейдера. Данный метод сглаживает все пиксели сцены, а не только края полигонов и полупрозрачных текстур как MSAA, хотя в недостатках у него — излишняя замыленность, как видно по картинке.

При этом MAA быстрее суперсемплинга, так как обрабатывает только нужные участки, на которых шейдером найдены резкие цветовые переходы. Производительность и суть алгоритма схожа с методом edge-detect CFAA в драйверах AMD, но сглаживание применяется ко всем резким граням. Что весьма немаловажно, обещается, что метод форсирования MAA из AMD Catalyst Control Center совместим со всеми приложениями DirectX 9/10/11.

Но этот новый метод сглаживания — это полностью программное нововведение. А что инженеры AMD изменили в алгоритмах текстурной фильтрации? По их словам, алгоритм анизотропной фильтрации был переработан для улучшенной обработки «шумных» текстур, в частности — получения более плавных переходов между мип-уровнями текстур при анизотропной фильтрации. При этом обещается отсутствие потерь в производительности и отсутствие зависимости качества фильтрации от угла наклона поверхности, как и было ранее. На скриншоте слева — HD 5800, а справа — HD 6800.

Что не менее важно, так это новый пользовательский интерфейс в AMD Catalyst Control Center, позволяющий изменять качество текстурной фильтрации и даже полностью отключать все оптимизации. Для этого в настройки драйверов внедрили новый ползунок Catalyst AI:

Как видите, Texture Filtering Quality может иметь три значения, и отдельно отключаются оптимизации текстурных форматов (когда один текстурный формат подменяется в драйвере другим, чуть менее качественным, но более быстрым), к которым имели некоторые претензии конкуренты AMD.

Улучшения в технологиях вывода изображения

Полезно отметить поддержку DisplayPort 1.2 новыми решениями AMD, которая включена в улучшенную мультимониторную технологию AMD Eyefinity Multi-Display Technology. Её отличие в возможности вывода сразу нескольких каналов по одному разъёму DisplayPort, что позволит подключить большее количество мониторов к одной видеокарте.

Для подключения нескольких мониторов при помощи одного разъёма будет необходим специальный хаб или соединение мониторов типа «daisy chain». DisplayPort 1.2 обеспечивает поддержку большего количества мониторов, высоких разрешений и частот обновления, в том числе для стереомониторов следующего поколения. К слову, на все мониторы при этом могут выводиться изображения разного разрешения и частоты обновления.



На новых видеокартах AMD установлен порт HDMI версии 1.4a, пригодный для вывода стереокартинки. Для этого используется специальный стандарт передачи стереокадров, поддерживаемый новыми 3D-телевизорами, поэтому никаких проблем с выводом стерео на них не будет (читайте отдельный раздел о поддержке стереорендеринга компанией AMD ниже по тексту).

Немаловажным фактором качества вывода картинки является качественная цветокоррекция при выводе изображения на мониторы с расширенным цветовым охватом. И у серии AMD Radeon HD 6800 есть соответствующий аппаратный движок для этой задачи.

Но мультимониторные технологии и вообще технологии вывода изображения имеют не очень много смысла без соответствующей поддержки. И тут всё в порядке, мониторов с разъемами DisplayPort на рынке уже более трёх десятков, а игр, специально оптимизированных и подготовленных для мультимониторного вывода, — под полсотню (а сотни других игр просто совместимы с технологией Eyefinity). Также в последнее время появились недорогие адаптеры DP to Single-Link DVI, позволяющие подключить несколько недорогих мониторов к одной видеокарте.

В драйверах улучшений не меньше, ко всему, что уже есть в настройках (деление устройств на группы, продвинутый конфигуратор, цветокоррекция для каждого устройства отдельно, компенсация рамок дисплея, поддержка CrossFireX и др.), скоро добавятся новые режимы, такие как группа мониторов 5×1 в портретном режиме, автоматический вывод HydraGrid и т. п.

Технология AMD HD3D

Видя успешное продвижение стереовидения на рынке, AMD не могла остаться в стороне, не выступив с очередной открытой инициативой. Теперь она относится к стереорендерингу. Инициатива была анонсирована на GDC 2010, суть её в сотрудничестве производителей программного и аппаратного обеспечения, предоставлении широкого выбора решений, снижении их стоимости и повышения гибкости.

Инициативу поддержало большое количество компаний. Так, программное обеспечение по конвертации в Stereo 3D выпускается компаниями DDD и iZ3D, проигрыванием 3D-видео занимаются компании Cyberlink, Arcsoft, Roxio и Corel. За аппаратную часть отвечают производители дисплеев: LG, Samsung, CMI и Viewsonic, а производство очков и передатчиков остаётся за компаниями Bit Cauldron, XpanD и RealD.

Собственно, ничего нового инициатива Stereo 3D не предлагает, это всё те же стереомониторы и стереоочки, стереоигры и поддержка Blu-ray 3D, ПО для конвертации контента в стереоформат и т. п. Свою задачу компания AMD видит в предоставлении возможностей технологии AMD HD3D для игр в стереорежиме. Для этого видеодрайверами обеспечивается поддержка четырёхбуферного рендеринга в приложениях DirectX 9, DirectX 10 и DirectX 11, а при помощи партнёров из компаний DDD и iZ3D уже поддерживается более 400 игр в стереоформате.

Так, TriDef 3D Experience от DDD позволяет просматривать в стереоформате фотографии и видео, TriDef Ignition автоматически «конвертирует» порядка четырёх сотен DirectX 9, 10 и 11 игр в стереоформат, а TriDef Media Player делает то же самое с видеоданными с DVD и с видео высокого разрешения. Причем заявлено, что первые стереорешения, основанные на AMD Radeon HD были показаны (где и кому — вопрос отдельный) еще год назад, в октябре 2009-го. Такое решение совместимо со всеми стандартами вывода стереокартинки, всеми типами стереоочков и «безочковых» технологий.

Кстати, об очках. На мероприятии AMD для журналистов выступал Colin Baden, CEO компании Oakley, всемирно известной своей спортивной оптикой и солнцезащитными очками. Он рассказал о модели стереоочков Oakley HDO-3D. Естественно, не обошлось без похвальбы, эти очки были названы «первыми оптически корректными стереоочками на Земле», якобы снижающими эффекты засветки и двоения картинки, заметные во многих случаях, в т. ч. и при использовании очков из комплекта 3D Vision. Было бы интересно сравнить эти варианты вживую, ну а пока остаётся верить (или не верить) на слово.

К слову, компания AMD скоро планирует запустить на сайте портал, посвящённый технологии стереовывода HD3D, помогающий пользователям получить информацию о программных и аппаратных решениях для игр, просмотра фото и видео в стереоформате. При должном старании и средствах может получиться неплохо.

Блок обработки видео Unified Video Decoder 3

Решения Radeon давно славятся своими возможностями по декодированию и обработке видеоданных. Ещё со времён ATI именно у них в этой сфере были одни из лучших решений. Впоследствии и компания AMD продолжила эти традиции. В UVD3 появилась не только поддержка декодирования новых форматов, но и более качественная постобработка видеоданных.

Новые возможности постобработки привели к дальнейшему усилению позиций в известном тесте HQV 2.0. При максимально возможном счёте в 210 баллов, новая видеокарта AMD Radeon HD 6870 набирает 198 баллов, а лучшая из конкурирующих — лишь 138 баллов. Впрочем, это тест самой компании AMD, и к таким результатам всегда нужно относиться осторожно. Не потому что обман, но зачастую лукавство.

Весьма интересной новинкой нам кажется появление поддержки декодирования формата DivX/XviD (читай, MPEG-4). Но не только этот формат получил улучшения, теперь и MPEG-2 декодируется на GPU полностью, да и поддержка кодеков с двумя потоками (Blu-ray 3D) у AMD появилась.

И всё же интереснее то, что свежевышедшие видеокарты компании AMD, благодаря включению в GPU последней модификации блока UVD третьего поколения, умеют ускорять проигрывание видеороликов формата MPEG-4. Это важно не только и не столько из-за самой по себе сниженной загрузки CPU при декодировании, но поможет продлить время автономной работы ноутбуков и нетбуков, снизит шум от вентиляторов домашних кинотеатров на основе ПК (HTPC) и позволит проигрывать файлы MPEG-4 высокого разрешения на бюджетных ПК.

На мероприятии для журналистов была показана демонстрация одновременного декодирования на CPU и GPU. Как видите, при полностью программном декодировании CPU загружен работой более чем на 20%, а при перекладывании работы на GPU производства AMD, центральный процессор системы практически перестаёт выполнять какую-то значимую работу, ибо она становится в 10 раз меньше. Понятно, что всё это делалось и ранее, но не для DivX/XviD-формата.

Неграфические вычисления

В этом смысле в Barts аппаратных изменений нет, зато они есть в программной части. AMD предпочитает называть вычисления на GPU параллельной обработкой (Parallel Processing). И естественно, что ими поддерживаются исключительно индустриальные стандарты — открытый OpenCL и закрытый, но не менее индустриальный DirectCompute из DirectX 11.

OpenCL привлекает AMD как открытый и мультиплатформенный API для так называемых гетерогенных архитектур, что очень неплохо подходит для всё того же AMD Fusion. Именно при помощи OpenCL можно раскрыть вычислительные возможности как CPU, так и GPU. Понятное дело, что AMD была первой компанией, которая представила OpenCL для CPU и GPU одновременно. А в целом OpenCL поддерживается такими крупными компаниями, как Apple, IBM, Intel, NVIDIA, Sony и др.

У DirectCompute другие преимущества: распространение в составе DirectX компанией Microsoft и очень простой метод внедрения вычислений на GPU в уже существующие DirectX приложения, и особенно 3D-игры.

Изменения в параллельных вычислениях AMD произошли скорее с названиями, чем с аппаратной частью. На смену марке ATI Stream пришла технология AMD Accelerated Parallel Processing (APP). На мой взгляд — длинновато, хотя и лучше описывает то, что технология означает, и вполне соответствует повсеместному отказу от марки ATI. В компании решили сделать изменения в марке именно сейчас, при анонсе нового поколения графических карт и выпуске новой линейки, что абсолютно логично.

Теперь пакет SDK называется AMD APP SDK (бывший ATI Stream SDK) и он включает полноценную платформу разработки на OpenCL для GPU и многоядерных x86 CPU, также поддерживается и AMD Fusion. На веб-сайте компании теперь есть раздел OpenCL Zone, названием подозрительно напоминающий CUDA Zone, где разработчики могут найти свежую информацию по OpenCL, учебные материалы по работе с OpenCL, утилиты для разработчиков и различные библиотеки, а также любые другие материалы по теме.

Подробности: Antilles, серия Radeon HD 6990

  • Кодовое имя «Antilles»
  • Технология 40 нм
  • 2 чипа по 2,64 млрд. транзисторов каждый
  • Площадь каждого кристалла 389 мм2
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
  • Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
  • Двойная 256-битная шина памяти: дважды по четыре контроллера шириной по 64 бита с поддержкой памяти GDDR5
  • Частота ядра от 830 до 880 МГц (см. объяснение далее)
  • 2x24 SIMD-ядра, включающих 768 потоковых процессора, и в общем 3072 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка точности FP32 и FP64 в рамках стандарта IEEE 754)
  • 2x24 укрупненных текстурных блока, с поддержкой форматов FP16 и FP32
  • 2x96 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16-текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • 2x32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 64 отсчетов за такт (в т.ч. для буферов формата FP16), а в режиме без цвета (Z only) — 256 отсчетов за такт
  • Для каждого GPU интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2

Спецификации видеокарты Radeon HD 6990 (HD 6990 OC)

  • Частота ядра 830(880) МГц
  • Количество универсальных процессоров 3072
  • Количество текстурных блоков — 2x96, блоков блендинга — 2x32
  • Эффективная частота памяти 5000 МГц (4×1250 МГц)
  • Тип памяти GDDR5
  • Объем памяти 2x2 гигабайта
  • Пропускная способность памяти 2x160 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 53 (56) гигапикселей в сек.
  • Теоретическая скорость выборки текстур 159 (169) гигатекселей в сек.
  • Разъём CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, четыре mini DisplayPort 1.2
  • Энергопотребление от 37 до 375(450) Вт
  • Типичное энергопотребление в играх — до 350(415) Вт
  • Два 8-штырьковых разъёма питания
  • Двухслотовое исполнение;
  • Рекомендованная цена для России — 22999 руб. (для США — $699).

Как мы уже упоминали ранее, в этом поколении видеокарт AMD принцип наименования моделей был изменён. Так как на смену видеокартам HD 5870 и HD 5850 вышли сразу две линейки: HD 6800 и HD 6900, и последняя получила быстрейший GPU, то вполне логично, что и двухчиповая карта на тех же GPU также вошла в серию HD 6900. Но так как индекс 6970 был уже занят топовым одночиповым решением, поэтому новой видеокарте достался индекс 6990. То есть, по сравнению с предыдущей аналогичной платой HD 5970 поменялась не только первая, но и третья цифра индекса.

На новую видеокарту AMD устанавливается память типа GDDR5 и объёмом по 2 гигабайта на каждый GPU. Это решение вполне обосновано для продукта такого уровня, ведь в некоторых игровых приложениях при максимальных настройках, высоком разрешении и включенном сглаживании максимального уровня, объёма памяти в 1 гигабайт на чип сегодня уже не хватает. И ещё больше это относится к рендерингу в стереорежиме или на трёх мониторах в режиме Eyefinity со сверхвысокими разрешениями.

Естественно, что видеокарта имеет двухслотовую систему охлаждения, довольно длинную и закрытую привычным для всех современных плат AMD пластмассовым кожухом по всей длине. Энергопотребление карты с двумя GPU на борту довольно высокое по понятным причинам, поэтому пришлось установить на неё два 8-штырьковых разъёма питания, что ранее в референсных образцах не встречалось (хотя некоторые производители видеокарт такие решения самостоятельно делали).

Архитектура

Так как видеоплата «Antilles» основана на двух GPU семейства «Cayman», то особенно распинаться в данном разделе просто нет никакого смысла — всё уже сделано ранее, в соответствующей статье. Но всё же вкратце повторим основу. Задачей инженеров AMD было создание эффективной графической и вычислительной архитектуры с улучшенными GPGPU возможностями, а также внедрение распараллеленной работы геометрических блоков и улучшения в текстурной фильтрации и полноэкранном сглаживании.

Архитектура Cayman стала промежуточным решением между предыдущей архитектурой Cypress и не рождённой 32 нм архитектурой, которой не суждено выйти на рынок. Но в состав нового GPU всё же вошли некоторые возможности из неё. Дополнительные транзисторы, по сравнению с Cypress, были потрачены на новые вычислительные и графические возможности.

Самое важное в GPU — это два блока graphics engine, включающие растеризатор, тесселятор и другие блоки по обработке геометрии, а также сдвоенный диспетчер. Двойной блок геометрии в топовом GPU компании AMD теперь умеет обрабатывать по два примитива за такт, то есть, скорость трансформации и отбрасывания задних граней выросла вдвое, а вместе с улучшением буферизации — до трёх раз в некоторых случаях, по сравнению с решениями на основе Cypress.

Ещё одним важнейшим архитектурным изменением стала суперскалярная VLIW4 архитектура вычислительных процессоров, в отличие от VLIW5 в предыдущей. Каждый потоковый процессор имеет 4 блока ALU, а не 5, как это было ранее. Такое решение увеличило эффективность использования потоковых процессоров, хотя и снизило при этом потенциальную пиковую производительность. Более подробную информацию об архитектуре Cayman смотрите в базовом обзоре, ссылка на который дана выше.

Питание и охлаждение

При проектировании видеокарт с двумя мощнейшими GPU на одной плате и их серьёзными требованиями по питанию, к соответствующей системе должно быть приковано максимальное внимание. Поэтому в схеме питания Radeon HD 6990 применяются цифровые программируемые регуляторы напряжения производства Volterra нового поколения, а также мощные четырёхфазные силовые индукторы производства Cooper Bussmann серии CL1108.

Всё это привело к увеличению эффективности схемы питания, по сравнению с предыдущими устройствами, используемыми компанией AMD, а значит и сниженной температуре и меньшему потреблению энергии. Кроме того, в деле увеличения эффективности сработала и симметричная схема расположения регуляторов в центре печатной платы.

Эффективное охлаждение столь горячего двухчипового решения — пожалуй, ещё более важная и сложная задача. В кулере Radeon HD 6990 применён новый предустановленный термоинтерфейс с изменяемым фазовым состоянием. Компанией AMD он признан на 8% более эффективным, по сравнению с предыдущими используемыми для этой задачи материалами. Цифра может показаться небольшой, но в деле охлаждения таких экстремальных устройств каждая мелочь на счёту.

Сам же новый кулер использует две испарительные камеры (по одной на каждый GPU) и единственный вентилятор, расположенный между ними по центру платы. Он вполне справляется с приёмом и отведением до 450 Вт тепла, и хотя новая плата размером точно такая же, что и Radeon HD 5970, все вышеперечисленные улучшения привели к тому, что новый кулер обладает заметно лучшей эффективностью, по сравнению с системой охлаждения предыдущего решения.

Технология AMD PowerTune

Поддержка данной технологии на двухчиповой видеокарте Radeon HD 6990 — решение ожидаемое. Именно в случае таких требовательных к питанию плат обязательно нужно проконтролировать энергопотребление и ограничить его в случае чего. Технология впервые была анонсирована вместе с Radeon HD 6970 и HD 6950, и в базовой статье о них мы максимально подробно описали её работу. Поэтому повторим лишь самые важные моменты.

GPU серии Cayman имеют специальные датчики в исполнительных блоках, которые отслеживают параметры загрузки, а графический процессор постоянно контролирует нагрузку и энергопотребление, и не позволяет последнему выйти за определённый порог, автоматически изменяя частоту и напряжение так, чтобы эти параметры оставались в рамках определённого теплопакета. Технология помогает устанавливать сравнительно высокие частоты GPU и при этом не бояться выхода из строя видеокарты по причине превышения безопасных пределов энергопотребления.

Технология полезна по нескольким причинам. Она предохраняет видеокарты от выхода из строя в случае неадекватных экспериментов с разгоном, а также позволяет выжать максимальную производительность из GPU. Кроме того, PowerTune позволяет пользователю самому изменять ограничение потребления при помощи средств AMD OverDrive в определённых рамках (плюс-минус 20%). Естественно, регулирование параметра максимального потребления лишает пользователя каких-либо гарантий.

Важно, что технология PowerTune нацелена на получение максимальной производительности в игровых приложениях, а не тестах стабильности, зачастую неадекватно сильно загружающих сразу все блоки GPU. Как видно на приведённой диаграмме, технология позволяет повысить тактовые частоты GPU именно в играх, поддерживая установленный уровень энергопотребления и не требуя программных решений в коде видеодрайвера, как это сделано в аналогичной (но значительно упрощённой) технологии конкурента.

Переключатель BIOS (Dual-BIOS)

Когда у Radeon HD 6970 и HD 6950 появился переключатель между двумя версиями BIOS, сразу стало понятно, что это не только и не столько решение, направленное на большую надёжность, а решение, позволяющее ставить смелые эксперименты над видеокартой. Причём, не только для пользователей, но и производителей видеокарт. Собственно, так и получилось — некоторые из производителей в качестве второго образа BIOS записывали не просто версию с фабрично увеличенными частотами, но даже образ от старшей модели видеокарты, превращая Radeon HD 6950 в HD 6970.

Логично, что подобное решение появилось и в Radeon HD 6990. Причём, оно даже получило дальнейшее развитие. Переключатель между двумя версиями BIOS в новом решении даже в референсном варианте позволяет включить суперрежим (uber mode) — с увеличенными тактовыми частотами GPU с 830 МГц до 880 МГц и напряжением с номинальных 1.12 В до 1.175 В. Естественно, одновременно значительно возрастает и количество потребляемой энергии, и скорее всего именно для этого режима на плату установили два 8-штырьковых разъёма дополнительного питания.

Позиция переключателя «2» — это номинальный режим с частотой 830 МГц, в таком положении видеокарта поставляется. Режим «1» переключателя BIOS включает фабричный разгон и предназначен для любителей разгона и энтузиастов, понимающих, что в таком режиме потребуется значительно более мощный блок питания и улучшенное охлаждение в корпусе.

Внимание! Несмотря на то, что фабричный разгон теперь включается на абсолютно всех Radeon HD 6990 при помощи переключателя BIOS, это совсем не означает, что компания берёт на себя гарантийные обязательства в случае выхода из строя видеокарты по вине разгона! Гарантия AMD не покрывает такие случаи, и не важно, каким образом видеокарта была разогнана, при помощи программных настроек драйвера в Catalyst Control Center или при помощи переключателя Dual-BIOS.

Видимо, AMD осознаёт, что видеокарты вроде Radeon HD 6990 покупаются лишь энтузиастами и оверклокерами, которые в массе своей знают, как не допустить выхода из строя видеокарты при небольшом (880 МГц) разгоне, но на всякий случай защищается от экстремальных горе-оверклокеров, которые жгут видеокарты, как забывчивая бабуля свои пирожки в духовке.

Хотя даже и для обычных пользователей смысл в таком предразогнанном режиме есть — лишние 5-6% (в реальности чаще всего около 3-4%) к производительности не помешают, если БП хороший и охлаждение в корпусе устроено правильно. Ведь для автоматического разгона теперь нужно всего лишь переместить рычажок переключателя, а всё остальное уже сделано.

Технология AMD Eyefinity

Эта мультимониторная технология от AMD давно известна нашим читателям. По сути, все видеокарты компании поддерживают Eyefinity — лучшую мультимониторную систему на данный момент, поддерживающую до шести мониторов даже в случае одночиповых решений. Единственное, что поддержка шести мониторов одновременно потребует применения специальных хабов, совместимых с многопоточной передачей сигнала по DisplayPort — Multi-Stream Transport.

Но даже без использования хабов любая из двух десятков ныне выпускаемых моделей AMD Radeon поддерживает подключение трёх мониторов в различных конфигурациях. А для поддержки Eyefinity от игр требуется всего лишь уметь работать с нестандартными разрешениями и соотношениями сторон. На данный момент, проверенной поддержкой технологии могут похвастать около 70 игр, а ещё сотни приложений совместимы с ней.

Причем, именно такое мощное решение как Radeon HD 6990 позволит комфортно играть на трёх мониторах с общим разрешением 7680x1600 или пяти расположенных вертикально с разрешением 6000x1920, выдавая 30 кадров в секунду и более даже в тяжёлых играх, что ранее было недоступно для одиночных видеокарт. Хотя такие режимы остаются скорее уделом выставок и различных мероприятий, нежели обычных домашних пользователей, которые скорее предпочтут проектор или огромный телевизор вместо пяти мониторов на бедном столе.

Из-за необходимости эффективного охлаждения, а в частности — максимального отвода нагретого воздуха, пришлось поменять и набор выводов видеосигнала. Ровно половину площади заглушки слота заняли отверстия выхлопа системы охлаждения. А на оставшейся части разместили один разъём Dual Link DVI и четыре разъёма mini DisplayPort 1.2. Таким образом, при всех ограничениях мощного кулера, удалось сохранить максимально возможное количество выводов.

Но ведь для этого нужно искать довольно редкие и не такие уж дешёвые переходники с mini DisplayPort, спросит въедливый читатель? Совсем не обязательно. В комплекте поставки каждой видеокарты Radeon HD 6990 будет приложен комплект таких переходников из трёх штук: пассивный mini DisplayPort — Single Link DVI, активный mini DisplayPort — Single Link DVI и пассивный mini DisplayPort — HDMI.

Такое решение позволило сохранить компактность блока выводов на видеокарте, и одновременно с этим предоставить каждому пользователю новой видеокарты возможность вывести изображение на четыре подходящих приёмника сигнала.

Подробности: Barts LE, серия Radeon HD 6700

  • Кодовое имя чипа «Barts»
  • Технология 40 нм
  • 1,7 млрд. транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
  • Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
  • 256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой памяти GDDR5
  • Частота ядра до 840 МГц
  • 14 (10 активных) SIMD-ядер, включающих 1120 (800 активных) скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка точности FP32 в рамках стандарта IEEE 754)
  • 14 (10 активных) укрупненных текстурных блоков, с поддержкой форматов FP16 и FP32
  • 56 (40 активных) блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16-текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • 32 (16 активных) блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 16 отсчетов за такт (в т. ч. для буферов формата FP16), а в режиме без цвета (Z only) — 64 отсчетов за такт
  • Запись результатов до восьми буферов кадра одновременно (MRT)
  • Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI 1.4a и DisplayPort 1.2

Спецификации карты Radeon HD 6790

  • Частота ядра 840 МГц
  • Количество универсальных процессоров 800
  • Количество текстурных блоков — 40, блоков блендинга — 16
  • Эффективная частота памяти 4200 МГц (4×1050 МГц)
  • Тип памяти GDDR5
  • Объем памяти 1024 мегабайта
  • Пропускная способность памяти 134,4 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 13,4 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 33,6 гигатекселей в сек.
  • Поддержка CrossFireX
  • Шина PCI Express 2.1
  • Разъёмы: DVI Dual Link, DVI Single Link, HDMI 1.4a, два mini DisplayPort 1.2
  • Энергопотребление от 19 до 150 Вт (два 6-штырьковых разъёма питания)
  • Двухслотовый дизайн
  • Рекомендуемая цена для рынка США $149

Применение всё того же чипа Barts в решении такого уровня стало возможным из-за улучшения характеристик 40 нм техпроцесса, а также желательности избавиться от отбракованных чипов. К сожалению, новое решение нельзя назвать особенно энергоэффективным, так как уровень его максимального потребления установлен даже выше, чем у той же Radeon HD 6850. Видимо, это сделано для того, чтобы повысить напряжение на GPU вместе с тактовой частотой, а заодно и использовать большую часть чипов, ранее шедших в мусорную корзину.

Конкурировать новой видеокарте AMD придётся с решениями на основе NVIDIA GeForce GTX 550 Ti, которых вышло довольно много, в том числе и разогнанных, и с разным объёмом видеопамяти. Также придётся повоевать и с вариантами вроде GeForce GTX 460, которые продаются уже давно и успели сильно подешеветь, поэтому при выборе видеокарты этого ценового диапазона на них тоже обязательно будет обращено внимание потенциального покупателя.

Принцип наименования моделей остался тем же, что и у последних решений компании. По сравнению с другими решениями поменялась не только вторая, но и третья цифра в индексе. Она по какой-то странной причине вдруг стала не 7, как это было принято ранее (5870, 6870, 6970), а 9. Видимо, это должно говорить о совсем небольшой разнице в производительности между Radeon HD 6850 и HD 6790.

Вполне логично, что на видеокарту устанавливается один гигабайт памяти типа GDDR5. Это — оптимальный объём памяти на сегодняшний день даже для решений из нижнего ценового диапазона. Что интересно, хотя ширина шины видеопамяти в HD 6790 осталась 256-битной, но количество блоков ROP было урезано вдвое, с 32 до 16. Такое решение уже встречалось нам ранее в предыдущих «обрезанных» продуктах компании AMD.

Несмотря на принадлежность к нижнему ценовому диапазону, новая видеокарта имеет двухслотовую систему охлаждения, закрытую уже привычным для карт AMD пластмассовым кожухом по всей длине (впрочем, речь о референсном дизайне, а производители чаще всего будут делать свои платы и кулеры). Про энергопотребление мы уже говорили, оно довольно высокое. Именно поэтому пришлось установить не один, а целых два 6-штырьковых разъёма дополнительного питания.

Архитектура

Архитектуру графического процессора Barts мы уже рассматривали в соответствующей базовой статье, и за всеми подробностями следует обращаться к ней. Как вы помните, данный чип — это развитие идей предыдущих поколений, и отличия Barts от Cypress в основном количественные, хотя и не только.

Как и в случае последних видеочипов конкурента, в Barts в основном улучшили производительность на каждый потребляемый Ватт и миллиметр площади, то есть улучшили эффективность, по сравнению с предыдущими GPU. Но всё же Barts нельзя назвать совершенно новым чипом, ведь по сравнению с предыдущими он просто имеет иное количество исполнительных блоков и изменённый баланс между производительностью и потреблением.

Небольшие оптимизации привели к повышению скорости обработки геометрии, но это не особенно заметно изменило положение, в задачах тесселяции решения конкурента остаются сильнее. Более интересна поддержка новыми видеочипами с UVD3 декодирования видеоданных форматов DivX, а также Blu-ray 3D-видео, и улучшения в AMD Eyefinity и поддержке DisplayPort 1.2.

Что изменилось в GPU по сравнению с Radeon HD 6870 и HD 6850? По сути, в видеочипе просто отключены некоторые из 14 имеющихся аппаратно блоков SIMD, а также половина блоков ROP. Соответственно уменьшилось и общее количество процессоров потоковой обработки, теперь их лишь 800 штук, в отличие от 1120 у полноценного Barts. А вот блоков ROP стало и вовсе не 32, а лишь 16. Всё остальное осталось прежним, даже 256-битная шина памяти.

Благодаря довольно высоким тактовым частотам и не слишком сильно урезанному по основным исполнительным блокам GPU (филлрейта может не хватать только в редких случаях и с включенным сглаживанием, скорее всего), производительность Radeon HD 6790 должна оказаться почти такой же, что и у HD 6850, и в то же время несколько выше, чем у HD 5770. А заодно и главного соперника в лице GeForce GTX 550 Ti новая модель Radeon должна обойти.



Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400




Дополнительно

ВИКТОРИНА TT

Материнские платы какого форм-фактора можно устанавливать в корпус Thermaltake Versa C22 RGB Snow Edition?

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.