Семейства видеокарт AMD (ATI) Radeon Справочная информация

Спецификации чипов семейства R[V]8XX

кодовое имя	RV870 «Cypress»	RV840 «Juniper»	RV830 «Redwood»	RV810 «Cedar»
базовая статья	здесь	здесь	здесь	-
технология (нм)	40
транзисторов (млрд)	2,15	1,04	0,63	0,29
универсальных процессоров	1600	800	400	80
текстурных блоков	80	40	20	8
блоков блендинга	32	16	8	4
шина памяти	256	128		64
типы памяти	DDR, DDR2, GDDR3, GDDR4, GDDR5
системная шина чипа	PCI-Express 2.1 16х
RAMDAC	2 х 400МГц
интерфейсы	3 x DVI Dual Link HDMI DisplayPort
вершинные шейдеры	5,0
пиксельные шейдеры	5,0
точность вычислений	FP32/FP64	FP32
форматы текстур	FP32, FP16 I8 DXTC, S3TC 3Dc
форматы рендеринга	FP32 и FP16 I8 I10 (RGBA 10:10:10:2) другие
MRT	есть
Aнтиалиасинг	MSAA 2х-8х CFAA до 24x SSAA 2x-8x			MSAA 2х-8х CFAA до 12x SSAA 2x-8x

Спецификации референсных карт на базе чипов семейств R[V]8XX

карта	чип	блоков ALU/TMU/ROP	частота ядра (МГц)	частота памяти (МГц)	объем памяти (МБ)	ПСП (ГБ/c) бит	тексту- рирование (Гтекс)	филлрейт (Гпикс)
Radeon HD 5970	2xRV870 («Hemlock»)	2x(1600/80/32)	725	1000(4000)	2x1024 GDDR5	2x128.0 (2x256)	2x52,2	2x23,2
Radeon HD 5870	RV870 «Cypress»	1600/80/32	850	1200(4800)	1024 GDDR5	153,6 (256)	68,0	27,2
Radeon HD 5850	RV870 «Cypress»	1440/72/32	725	1000(4000)	1024 GDDR5	128.0 (256)	52,2	23,2
Radeon HD 5830	RV870 «Cypress»	1120/56/16	800	1000(4000)	1024 GDDR5	128,0 (256)	44,8	12,8
Radeon HD 5770	RV840 «Juniper»	800/40/16	850	1200(4800)	1024 GDDR5	76.8 (128)	34,0	13,6
Radeon HD 5750	RV840 «Juniper»	720/36/16	700	1150(4600)	512/1024 GDDR5	73,6 (128)	25,2	11,2
Radeon HD 5670	RV830 «Redwood»	400/20/8	775	1000(4000)	512/1024 GDDR5	64,0 (128)	15,5	6,2
Radeon HD 5570	RV830 «Redwood»	400/20/8	650	900(1800)	512/1024 DDR3	28,8 (128)	13,0	5,2
Radeon HD 5450	RV810 «Cedar»	80/8/4	650	800(1600)	512 DDR3	12,8 (64)	5,2	2,6
карта	чип	блоков ALU/TMU/ROP	частота ядра (МГц)	частота памяти (МГц)	объем памяти (МБ)	ПСП (ГБ/c) бит	тексту- рирование (Мтекс)	филлрейт (Мпикс)

Подробности: RV870, серия Radeon HD 5800

Кодовое имя чипа RV870 «Cypress»
Технология 40 нм
2,15 млрд. транзисторов
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой GDDR5
Частота ядра 725-850 МГц
20 SIMD ядер, включающих 1600 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
20 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
80 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
32 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 32 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 128 отсчетов за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI и DisplayPort

Спецификации карты Radeon HD 5870

Частота ядра 850 МГц
Количество универсальных процессоров 1600
Количество текстурных блоков — 80, блоков блендинга — 32
Эффективная частота памяти 4800 МГц (4*1200 МГц)
Тип памяти GDDR5
Объем памяти 1024 мегабайт
Пропускная способность памяти 153,6 гигабайт в сек.
Теоретическая максимальная скорость закраски 27,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 68,0 гигатекселей в сек.
Два CrossFireX разъема
Шина PCI Express 2.0 x16
Разъёмы два DVI-I Dual Link, HDMI, DisplayPort
Энергопотребление от 27 до 188 Вт (два 6-штырьковых разъёма питания)
Двухслотовый дизайн
Рекомендуемая цена $399

Спецификации карты Radeon HD 5850

Частота ядра 725 МГц
Количество универсальных процессоров 1440
Количество текстурных блоков — 72, блоков блендинга — 32
Эффективная частота памяти 4000 МГц (4*1000 МГц)
Тип памяти GDDR5
Объем памяти 1024 мегабайт
Пропускная способность памяти 128 гигабайт в сек.
Теоретическая максимальная скорость закраски 23,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 52,2 гигатекселя в сек.
Два CrossFireX разъема
Шина PCI Express 2.0 x16
Разъёмы два DVI-I Dual Link, HDMI, DisplayPort
Энергопотребление от 27 до 170 Вт (два 6-штырьковых разъёма питания)
Двухслотовый дизайн
Рекомендуемая цена $299

Применение наиболее совершенного на момент выхода этого GPU техпроцесса 40 нм позволило компании AMD выпустить решения с явными преимуществами, по сравнению с 55 нм чипами. Площадь ядра увеличилась незначительно, зато увеличился частотный потенциал и почти все характеристики были удвоены, по сравнению с RV770. Естественно, что новый чип значительно более эффективен энергетически, но карты потребляют практически столько же энергии, что и топовые решения предыдущего поколения (HD 4870 и HD 4890). Правда, они обладают значительно более высокой производительностью...

Принцип маркировки решений остался неизменным, что весьма радует (в отличие от постоянно меняющейся маркировки не скажем кого). По сравнению с предыдущей серией поменялась только первая цифра. Но позиционирование у карт уже несколько иное. Если HD 4870 и 4850 были предназначены для смены HD 3870 и 3850 сразу во время их выпуска, то цена HD 5870 говорит о том, что компанией AMD осваиваются новые ценовые рамки — непривычно высокие для одночиповых решений компании. Ну а HD 5850 сменяет HD 4890, наиболее производительную карту предыдущего поколения. Которое пока не исчезает из производства и продажи, но смещается в нижние ценовые диапазоны.

Два варианта серии, как это привычно для AMD, отличаются тактовыми частотами видеочипа и памяти. И это не единственное отличие между моделями карт, хотя теперь на оба варианта установили один тип памяти — GDDR5, так как с GDDR3 ограничение полосой её пропускания было бы слишком сильным даже для HD 5850. Более важное отличие HD 5850 от HD 5870 заключается в ином количестве активных исполнительных блоков ALU и TMU — в младшей модели их на 11% меньше. Видимо, это было сделано для того, чтобы не выбрасывать чипы, в которых часть ALU/TMU получилась бракованной. Также младшее решение отличается несколько меньшим (хотя всё равно довольно высоким) потреблением энергии, и дизайном платы — она короче. Но референсный кулер и для HD 5850 всё равно двухслотовый.

Объём видеопамяти у обеих карт в референсном виде одинаков — по одному гигабайту. Это и правильно, ведь современные требовательны к объёму набортной памяти, даже если учитывать засилье многоплатформенных игровых приложений. Объём памяти в 1024 мегабайт является оптимальным количеством памяти на данный момент, большего количества набортной памяти просто не требуется, а 512 мегабайт — уже недостаточно для многих приложений.

Архитектура чипа RV870

Обновленная архитектура нового чипа RV870 получила наименование TeraScale 2. В общем, новый чип отличается удвоенной производительностью по основным теоретическим параметрам, по отношению к предыдущему поколению и его пиковая математическая производительность превысила уже планку в два терафлопа, немного не достав до трёх.

Основной целью при разработке чипа было повышение эффективности. Инженеры должны были добиться двукратного преимущества в теоретической производительности, по сравнению с чипом предыдущего поколения. При сложности чипа в 2,15 млрд. транзисторов (более чем вдвое больше, по сравнению с топовым чипом предыдущего поколения), площадь RV870 получилась примерно на треть большей, чем у RV790 — 334 мм². Что вполне приемлемо в условиях 40-нм техпроцесса.

Можно сказать, что кардинальных изменений в чипе нет, это просто развитие идей предыдущих поколений. Но небольшие модификации затронули почти все блоки: потоковые вычислительные блоки, текстурные модули, блоки ROP, контроллеры устройств вывода. Изменения небольшие, поэтому схема чипа изменилась слабо:

Сразу видно, что архитектура RV870 очень похожа на архитектуру RV770, и сходу в ней не найти что-то новое. Но некоторые изменения всё-таки были сделаны. Давайте рассмотрим их подробнее...

Одним из изменений стало удвоение мощности блоков растеризации. Это изменение не скажется на производительности в старых задачах, которые не ограничены скоростью растеризации, но может быть весьма полезным для новых возможностей DirectX 11 и в особенности тесселяции.

Как мы знаем, тесселяция поддерживается чипами AMD довольно давно, но DirectX 11 предъявляет несколько иные требования к аппаратной части, и поэтому блок тесселяции в RV870 был ещё раз доработан. По мнению AMD, это уже шестое поколение аппаратной тесселяции. Мы оставим читателям право самим посчитать все предыдущие поколения, отметим лишь то, что мы пяти поколений не насчитали, если не брать давно и успешно забытый TRUFORM.

Основная часть видеочипа RV870 состоит из двадцати SIMD ядер (ровно вдвое больше, чем у RV770), каждое из которых содержит по 16 блоков суперскалярных потоковых процессоров, всего их в чипе 320 штук. Суперскалярная сущность этих процессоров не меняется со времён RV670, и можно считать, что чип содержит 320*5=1600 скалярных 32-битных потоковых процессоров. Для 64-битных расчётов двойной точности используются эти же блоки, но темп расчётов снижается.

Каждый потоковый процессор содержит четыре исполнительных блока и один блок специальной функциональности, а также блок ветвлений и блок регистров общего назначения. В общем, это то же самое, что и у RV770.

Большое количество потоковых процессоров обеспечивает RV870 высокую производительность на уровне 2,7 терафлоп в вычислениях с одиночной точностью. Как и ранее, суперскалярные потоковые процессоры позволяют AMD довольно эффективно реализовать поддержку вычислений двойной точности (FP64), используя те же вычислительные блоки. В результате, RV870 обладает пиковой скоростью в FP64 расчётах уже до 544 гигафлопов. Это значительно выше, чем у предшественников, и тем более — конкурентов.

AMD отмечает, что увеличилось и количество исполняемых за один такт инструкций (IPC), блоки способны исполнять дополнительную (co-issue) инструкцию MUL, а также зависимую инструкцию ADD за такт. Также появилась новая команда — сумма абсолютных разностей (Sum of Absolute Differences — SAD). Всё это призвано увеличить эффективность вычислений графического и общего назначения.

Как вы помните, в RV770 довольно сильно изменились блоки текстурирования, и на каждый блок SIMD было выделено по 4 текстурных блока. То же самое соотношение сохранилось и в RV870 — всего получилось 80 TMU. Благодаря увеличению числа блоков, увеличилась пиковая производительность текстурирования. Чип способен исполнять до 272 миллиардов неотфильтрованных 32-битных выборок в секунду, что соответствует 68 миллиардам билинейно отфильтрованных текселей за секунду.

Но некоторые незначительные изменения блокам текстурирования всё же потребовались. Поддержка DirectX 11 принесла необходимость поддержки адресации текстур размером до 16384х16384 пикселей, а также новых алгоритмов сжатия для 32-битных и 64-битных HDR буферов (BC6/BC7). Кроме того, текстурные модули теперь умеют считывать данные из сжатых MSAA буферов.

Не только количественными изменениями и тем, что потребовалось для DX11, может похвастать новый чип. На радость пользователям в нём был применён новый алгоритм анизотропной фильтрации. Он отличается улучшенным качеством, при котором мип-уровни расположены по идеальным окружностям. Как замечает AMD, производительность при этом не пострадала. Впрочем, качество и производительность анизотропной фильтрации нового чипа — это вопрос отдельного исследования. Пока же приведём картинку, которую даёт производитель:

Все улучшения в текстурировании имели бы мало смысла без соответствующей поддержки со стороны системы кэширования. По данным AMD, пропускная способность кэша первого уровня увеличилась до 1 терабайта в секунду (480 ГБ/с у RV770), а пропускная способность между L1 и L2 стала равна 435 ГБ/с (против 384 ГБ/с у предыдущих чипов).

Система кэширования осталась прежней: кэш второго уровня привязан к четырём 64-битным каналам памяти, L1 кэши хранят уникальные данные для каждого блока SIMD, что увеличивает эффективность кэширования. Соответственно росту количества блоков TMU был удвоен объём кэша второго уровня, он достиг 128 килобайт на каждый контроллер памяти.

Блоки ROP (Render Back-Ends — RBE) остались практически такими же, что и в RV770. Они обрабатывают такое же количество пикселей за такт, просто блоков ROP теперь стало вдвое больше — вот и вся разница. Все возможности чипа по производительности блендинга также были удвоены по мощности, по сравнению с RV770. При 2x/4x MSAA чип обрабатывает 32 пикселя за такт, при 8x MSAA — 16 пикселей. Цифры справедливы и для 32-битных, и для 64-битных буферов.

Алгоритмы MSAA 2x и 4x почти «бесплатны» с точки зрения работы ROP (остаются вопросы ПСП и эффективности сжатия буфера при MSAA, например). На практике скорость рендеринга с использованием 8x MSAA по данным производителя получается в среднем всего лишь на 10-15% ниже чем при 4x MSAA. Это очень хороший результат, который понравится любителям качественной картинки.

В RV870 была улучшена производительность специфического метода сглаживания CFAA, увеличена производительность одновременной работы с несколькими буферами (MRT), ускорена очистка буфера цвета. Более конкретных данных AMD не сообщает, и мы будем смотреть на практике что у них получилось.

Интересно, что теперь, кроме CFAA, поддерживается и сглаживание методом суперсемплинга, что позволяет сглаживать не только края полигонов, но и текстуры и результат работы пиксельных шейдеров. Причём это не просто программное решение, а заявлен некий эффективный метод с использованием адаптивного антиалиасинга.

Контроллер GDDR5 памяти был оптимизирован в очередной раз, теперь возможна работа с микросхемами этого типа, работающими на скоростях до 5 ГГц. Из улучшений, не связанных с производительностью, отметим Fast GDDR5 Link Retraining, позволяющий быстро переключать напряжение и частоту памяти на лету. В контроллер памяти была добавлена поддержка проверки на ошибки (Error Detection Code — EDC). Пусть это не так важно для графических задач, но при выполнении вычислительных задач на GPU, проверка CRC может быть полезной. В остальном — всё то же самое, что и в RV770, как можно убедиться на картинке, никаких кольцевых шин:

Возможная слабость нового решения — в пропускной способности памяти. Если в случае с RV770 было важно обеспечить низкую себестоимость, и ПСП у GDDR5 на 256-битной шине для него было достаточно, то теперь, с учётом 256-битной шины памяти у RV870, получаем пропускную способность памяти лишь чуть более чем 150 ГБ/с, что незначительно выше, чем у предшественника.

В отличие от всех прочих характеристик, это всего лишь на треть больше, чем у решений на основе чипа RV770, и ПСП вполне может быть одним из основных ограничителей производительности чипа и видеокарт на его основе. Как в графических задачах, так и при вычислениях общего назначения на GPU. Мы постараемся проверить это в следующих частях статьи, посвящённых практическому исследованию производительности.

В аппаратной части нам остаётся просто перечислить другие мелкие модификации, со слов AMD. Новый чип отличает улучшенная производительность при обновлении буфера констант, ускоренная работа геометрических шейдеров, модификации, связанные с профессиональными применениями: улучшенный рендеринг линий и 12-битная субпиксельная точность. Последнее должно помочь в борьбе с конкурентом за рынок профессиональных OpenGL-видеокарт.

Поддержка DirectX 11

Это новая версия графического API, который работает в операционных системах Windows 7 и Windows Vista (после обновления через Windows Update). Нововведений в этой версии было сделано довольно много. Они касаются как улучшений, направленных на увеличение производительности, так и качественных изменений.

На увеличение скорости направлена возможность многопоточного рендеринга, а также новые возможности DirectCompute. Улучшить качество изображения в играх призваны: тесселяция, рендеринг прозрачных полигонов без необходимости сортировки (order-independent), сложная постобработка, новые возможности по фильтрации теней. С точки зрения игр весьма интересно выполнение физических расчётов и алгоритмов AI на видеочипах через DirectCompute.

DirectX 11 отличает программная поддержка всех предыдущих уровней аппаратного обеспечения, начиная с DirectX 10. Хотя старые видеочипы с поддержкой DX10 способны лишь на часть возможностей DirectX 11, некоторые особенности нового API смогут облегчить жизнь разработчикам игр. Хотя, чтобы полностью раскрыть возможности этой версии API, требуется аппаратная поддержка со стороны полноценных DirectX 11 GPU, таких как RV870. Только такие чипы могут обеспечить поддержку DirectCompute11 и улучшенного многопоточного рендеринга. Хотя многопоточность будет работать и на старых чипах при поддержке новых драйверов, но производительность в таком случае может быть ниже, чем на DX11 видеочипах.

Шейдерная модель версии 5.0

В Shader Model 5 предложен новый набор инструкций, с более гибким доступом к данным и большим удобством для разработчика. Набор команд унифицированный, один для шейдеров всех типов: Vertex, Hull, Domain, Geometry, Pixel и Compute. Применена объектно-ориентированная программная модель, функции и подпрограммы в шейдерном коде облегчают разработку графических приложений.

Перечислим некоторые из новых инструкций Shader Model 5.0:

SV_Coverage — даёт информацию о sample coverage для пиксельных шейдеров, применяется при определении краев полигонов в специфических алгоритмах сглаживания.

Gather — выборка сразу четырех значений одной инструкцией, применяется в алгоритмах фильтрации теней и ambient occlusion (глобальная модель затенения).

Инструкции для преобразования типов данных, которые конвертируют значения между 32-битными и 16-битными форматами с плавающей точкой, что упрощает программирование в некоторых случаях.

Битовые операции, помогающие ускорить сжатие и распаковку данных.

DirectCompute

Одной из важнейших особенностей нового графического API является DirectCompute, которая предоставляет доступ к технологии вычислений общего назначения на GPU (ATI Stream Technology для AMD). Эта возможность особенно важна потому, что DirectX API является индустриальным стандартом, который будет использоваться в любом случае.

Поддерживаются несколько уровней аппаратной поддержки: DirectCompute10 — для DirectX 10.0 видеочипов, DirectCompute10.1 и DirectCompute11, соответственно. Игровые применения DirectCompute может найти в обработке и фильтрации изображений, рендеринге полупрозрачных поверхностей без предварительной сортировки (Order Independent Transparency), рендеринге теней, физических эффектах, алгоритмах искусственного интеллекта, трассировке лучей.

Версия DirectCompute11, которая поддерживается RV870, даёт несколько больше возможностей, по сравнению с DirectCompute10, вот некоторые из них:
3D Thread Dispatch — возможность заменить несколько двумерных массивов потоков одним трёхмерным;
максимальное количество потоков в DirectCompute11 увеличено с 768 до 1024, это даёт возможность исполнять одновременно на 33% потоков больше;
объём памяти на группу потоков увеличен с 16 Кб до 32 Кб, данная память используется для передачи данных между потоками;
доступ к общей памяти улучшен, вместо возможности записи в 256 байтную область возможны полноценные чтение и запись в область 32 Кб данных;
атомарные операции, позволяющие каждому потоку использовать защищенные области памяти, что значительно упрощает перенос алгоритмов с CPU на GPU;
вычисления с двойной точностью, необходимые для некоторых алгоритмов вычислений общего назначения;
Gather4 — выборка из видеопамяти со скоростью до четырёх раз большей (при определённых условиях);
и др.

Тесселяция в DirectX 11

Для более удобного применения тесселяции в DirectX 11 были введены новые типы шейдеров: Hull и Domain Shaders. Аппаратно ускоренная тесселяция в DX11 позволяет использовать широкий набор алгоритмов и методов: Catmull-Clark Subdivison, патчи Bezier и N-патчи, Displacement Mapping, адаптивная тесселяция (динамически изменяемый уровень детализации — Level of Detail).

На теме тесселяции мы уже останавливались неоднократно. Вкратце — она даёт возможность получить более детализированные модели при небольших затратах производительности. В основном тесселяция (разбиение модели на большее количество треугольников, если совсем грубо) применяется для поверхностей земли, воды, но иногда и для персонажей. Вы можете убедиться в этом на примере следующей игры серии STALKER, гладкие и округлые поверхности персонажа (как и не самые качественные текстуры) хорошо видны:

Order Independent Transparency (OIT)

Это возможность отрисовки полупрозрачных полигонов без их предварительной сортировки, которая делает рендеринг перекрывающихся полупрозрачных объектов: дыма, огня, воды, стекла и т.п. более эффективным. Вот такую демонстрацию эффекта предлагает нам компания AMD:

Нельзя сказать, чтобы это была совсем уж новая возможность. Рендеринг полупрозрачных поверхностей требует предварительной сортировки, чтобы они корректно отображались, ведь их смешивание (blending) требует определённого порядка отрисовки. Возможности DirectCompute11 лишь упрощают такой рендеринг при помощи сортировки пикселей, позволяя сделать это всего лишь за один проход. При этом используются атомарные операции и append buffers.

Постобработка

При помощи DirectCompute может быть ускорена и усложнена постобработка изображения. Видов постфильтрации очень много: имитация глубины резкости (depth of field), размытие в движении (motion blur), поиск краёв полигонов (edge detection), сглаживание, повышение резкости (sharpening) и т.д.

Для постобработки требуются данные о соседних с обрабатываемым пикселем. Возможности DirectCompute значительно упрощают применение сложных постфильтров, увеличивая производительность и улучшая качество изображения. Например, фильтр constant time filter spreading, который имитирует эффект оптики — глубины резкости, эта новая техника была разработана компанией AMD совместно с Калифорнийским университетом в Беркли. В ней не требуется использование альфа буфера, а в коде используются возможности доступа к общей памяти. В итоге получается меньше артефактов вроде видимых гало и резких силуэтов, а также повышенная скорость обработки, по сравнению с обычными методами с применением пиксельного шейдера.

Постобработка при помощи DirectCompute способна улучшить и алгоритмы отрисовки теней, включая ambient occlusion (AMD называет свой метод HDAO — High Definition Ambient Occlusion). Об этом алгоритме мы уже писали, это модель глобального освещения (затенения), используемая в 3D графике, которая увеличивает реалистичность изображения, вычисляя интенсивность света, доходящего до поверхности.

DirectCompute11 даёт дополнительные возможности получения более реалистичных теней, когда тень становится более размытой по краям по мере удаления (то есть, полутень более реалистична). AMD приводит в пример сравнительные картинки из будущей игры STALKER: Call of Pripyat:

Улучшения и дополнительные форматы текстурного сжатия

В DirectX 11 появилась возможность сжатия 16-битных HDR-текстур, степень сжатия которых достигает 6:1. Это будет весьма кстати в условиях частого применения таких форматов в современных игровых приложениях. Также в этой версии графического API было улучшено качество текстурного сжатия (что подтверждается лучшим параметром SNR — signal-to-noise), и снижены артефакты блочности текстур.

Многопоточный рендеринг

Это одно из долгожданных улучшений в DirectX API, на игровых консолях доступное довольно давно. Теперь не только приложение, DirectX рантайм-код, и драйвер исполняются каждый в своём отдельном потоке, но и такие задачи, как загрузка текстур или компиляция шейдера, могут быть запущены в параллельном основному коду потоке.

Данное нововведение поможет исключить упор в производительность CPU в условиях большого количества вызовов функций отрисовки — их часть наконец-то можно будет переложить в другой поток, который будет исполняться на другом ядре центрального процессора, отличном от того, которое исполняет основной поток рендеринга. Не путать с многопоточностью игрового кода!

Игры с поддержкой DirectX 11

Все перечисленные выше улучшения полезны, но когда они появятся в играх — хороший вопрос. AMD отвечает на него таким образом:
BattleForge от EA Phenomic — сентябрь 2009;
S.T.A.L.K.E.R.: Call of Pripyat от GSC Gameworld — четвертый квартал 2009;
DiRT 2 от Codemasters — четвертый квартал 2009;
Lord of the Rings Online от Turbine — первый квартал 2010;
Aliens vs Predator от Rebellion — первый квартал 2010.

Также готовы к поддержке DX11 и движки Frostbite 2 Engine от EA DICE, и Vision Engine от Trinigy, но конкретные сроки выхода игр на них пока официально не объявлены. В общем, даже из этого оптимистичного списка понятно, что реально аппаратная поддержка DirectX 11 понадобится разве что в 2010 году, и то — улучшения поначалу придётся искать с лупой, скорее всего. Но в целом радует уже одно то, что компания AMD активизировала работу с разработчиками игр.

Aliens vs Predator

Одной из ожидаемых многими игр является проект Aliens vs Predator. AMD и Rebellion в один голос заявляют, что это будет первая высокобюджетная игра с полноценной поддержкой DirectX 11. Игрой поддерживаются DX9 (видимо, консольное наследие сказывается) и DX11 API. Обещаны следующие особенности последней версии API, которые дают ускорение и улучшение картинки: тесселяция моделей персонажей и поверхностей окружения. Их можно наблюдать на следующих картинках:

Разница на этих специально подготовленных картинках видна, хотя и не такая уж огромная (особенно на первом), но посмотрим, что будет в реальности и имеет ли смысл такое увеличение детализации. Также в Aliens vs Predator заявлена быстрая и качественная постобработка с использованием Compute Shaders и более реалистичные тени (в т.ч. ambient occlusion).

А вот тут уже разницу уже сейчас можно начинать искать с лупой... Оставляем это право читателям, надеясь на то, что в реальной игре она будет заметна несколько больше.

Colin McRae DiRT 2

Это ещё одна весьма интересная и ожидаемая игроками игра, в которой применены новые возможности DirectX 11. Видимо поэтому её ПК-версия задерживается до конца года, в то время как консольные версии уже вышли. Вероятно, AMD очень сильно старается, чтобы поддержка DirectX 11 была полноценной.

Представителями разработчика игры заявлено, что движок игры портирован на DirectX 11, в нём используется динамическая тесселяция водных поверхностей, тканей (флаги и т.п.), анимированных моделей окружения. На скриншоте ниже показан wireframe рендеринг поверхности воды, по которой проезжает автомобиль. Выглядит это неплохо, другое дело, что на скорости на такие эффекты внимание как-то не обращаешь:

В игре используется и DirectCompute11 — для оптимизации эффектов постобработки. Новые особенности Shader Model 5.0 помогли получить более качественную фильтрацию карт теней и качественный эффект глубины резкости. Также, что очень радует лично авторов этой статьи, — в игре будет бенчмарк! Вот что значит правильная поддержка производителя графических чипов...

Также можно отметить уже упомянутую и выходящую по планам в этом году игру STALKER: Call of Pripyat. AMD обещает поддержку DX11 и в этом проекте, но пока что непонятно, когда она появится: сразу же вместе с релизом или в последующих патчах, как это было с предыдущими играми серии...

Вычисления общего назначения

Тема вычислений на GPU усиленно продвигается основными производителями видеочипов, которые уделяют вопросу особое внимание. Вычисления на GPU начинают внедряться в обычное ПО, которое используется нами в повседневных задачах, особенно связанных с обработкой изображений и видео.

Как мы уже упоминали выше, Radeon HD 5870 обладает весьма высокой производительностью: до 2,7 терафлоп при вычислениях одиночной точности и 544 гигафлоп при двойной. Этим он выгодно отличается от предыдущих решений компании AMD, а также конкурирующих от NVIDIA. Особенно это касается вычислений двойной точности. И поэтому чип очень привлекательный для вычислений на GPU.

Чип аппаратно полностью поддерживает все возможности DirectCompute11 и OpenCL 1.0, и некоторые возможности сверх этого. Поддерживается буфер экспорта из памяти (Memory Export), операции scatter до 64 32-битных значений за такт, что вдвое больше, чем у чипов предыдущего поколения RV770/RV790.

Дополнительная функциональность, превышающая возможности OpenCL 1.0, включает: 32-битные атомарные операции, общая память емкостью 32 Кб, глобальная общая память емкостью 64 Кб, глобальная синхронизация, append/consume buffers.

Компания AMD всегда особенно выделяет поддержку OpenCL — открытого API для кроссплатформенных приложений для высокопроизводительных расчётов на CPU и GPU. OpenCL даёт возможность параллельной разработки и использования как центральных универсальных процессоров, так и графических чипов одними и теми же командами одного и того же API. AMD первой выпустила вариант OpenCL для CPU, и для них очень важно поддерживать и CPU и GPU в равной степени, ведь они производят как то, так и другое.

Очень приятно, что всё больше обычных программ приобретают поддержку вычислений на GPU. Так, мультимедийное ПО, которое обладает поддержкой технологии ATI Stream, включает такие известные приложения от Cyberlink как MediaShow 5, MediaShow Espresso, PowerDirector 8 (начиная с версии 8.1 обладает поддержкой DirectCompute 11) и PowerDirector 7, а также ArcSoft SimHDT плагин для TotalMedia Theatre и Roxio Creator 2010.

Например, PowerDirector 8 ускоряет около 20 эффектов при помощи видеочипов AMD, и новейшие решения обеспечивают более чем двукратное ускорение этой обработки, по сравнению с CPU. Компания Cyberlink считает, что разработка ПО исключительно под DirectCompute более эффективна, чем принятый до этого подход с использованием нескольких версий API для вычислений общего назначения на GPU.

Естественно, AMD не могла обойти и тему ускорения физических эффектов на GPU, с учётом успешной работы их конкурента в этой области. К сожалению, заявки пока весьма слабые — так называемая «открытая физика» применяется в малом числе игр, и пока не видно резкого увеличения их числа. Наименования этих открытых API (Bullet Physics и Pixelux) довольно слабо известны, хотя их разработки применялись в некоторых вышедших играх.

Указанные пакеты содержат реализацию физики мягких тел, деформируемых объектов, разрушаемых объектов и др. Пока что AMD только работает с этими компаниями для включения в их пакеты поддержки OpenCL, и когда оно будет доступно на рынке, не говоря уже о готовых игровых проектах — неизвестно. Начало положено, ну а мы посмотрим, что получится в итоге.

Технология ATI Eyefinity

Одной из интересных, хотя и не таких уж новых по сути (вспоминаем компанию Matrox, которая некогда выпускала игровые 3D-видеокарты с поддержкой трёх мониторов) возможностей является расширенная поддержка мультимониторных конфигураций. Возможность подключения трёх, а то и шести мониторов к одной видеокарте, может быть полезна как в играх, так и в рабочих применениях. Вот некоторые из вариантов размещения, которые предполагает AMD:

Блок вывода изображения в RV870 был переделан так, что теперь чип поддерживает вывод картинки на устройства вывода в количестве до шести штук (при использовании DisplayPort и специальной версии платы под названием HD 5870 SIX), в разных комбинациях. Количество поддерживаемых мониторов зависит от конкретной конфигурации платы, но может достигать шести или трёх. В чипе есть шесть встроенных TMDS трансмиттеров, и на обычных (не SIX) видеокартах четыре из них обеспечивают работу двух разъёмов Dual Link DVI, так что шесть мониторов к ним подключить не получится, только три.

Мультимониторные конфигурации могут работать в режимах клона и расширения рабочего стола. Одно большое изображение может быть составлено из нескольких мониторов, это применимо как для изображения рабочего стола, так и для полноэкранных видео и 3D-приложений (поддерживается в Windows 7, Windows Vista и Linux).

В целом, в многомониторных конфигурациях нет ничего нового, важнее поддержка приложениями. AMD приводит большой список игр с проверенной поддержкой их технологии Eyefinity. Приложениям достаточно уметь правильно работать с изображением с разным соотношением сторон, в остальном всё нормально работает. И в некоторых случаях смотрится и играется эффектно (нужно попробовать поиграть за такой системой, по фотографии ничего не понятно):

AMD также объявила о совместной работе с производителями мониторов, в частности с компанией Samsung. Они выпускают специальные версии мониторов с размером экрана 23" с поддержкой разрешения 1920x1080, интерфейсов DisplayPort, DVI и VGA, а также — очень тонкой рамкой вокруг экрана (всего лишь 7-8 мм). Впрочем, 7-8 мм нужно удвоить, так как мониторы стоят сторонами друг к другу. И это уже даёт довольно неприятную рамку, мешающую целостному восприятию общей картинки.

В целом же нельзя сказать, что поддержка трёх или шести мониторов — это такое уж важное преимущество. Полезно и востребовано в некоторых (и редких) случаях — вот так будет правильнее. Многие ли игроки решатся на установку трёх мониторов, а не одного большого (FullHD телевизора, к примеру)? А многим ли реально нужно более двух мониторов? В общем, это полезная возможность, конечно, но не более того.

В плане поддержки HDMI тоже есть кое-что новое. Поддерживается версия HDMI 1.3a с форматами Dolby TrueHD и DTS-HD Master Audio, все аудиоформаты Blu-ray, AC-3 и DTS. По сути — это первая видеокарта, на которой можно получить звуковые дорожки форматов Dolby TrueHD и DTS HD по HDMI для передачи на ресивер. Что может и не так уж сильно нужно мощной игровой карте, но в будущих решениях для других ценовых диапазонов может быть полезно.

Видеопоток в HDMI 1.3a может быть в формате Deep Color и x.v.Color. Это даёт большее количество одновременно отображаемых цветов через HDMI при выводе на соответствующие приёмники. Поддерживается широкий цветовой охват: 12-битный и 10-битный форматы цвета, видеосигнал формата wide-gamut xvYCC.

Управление питанием PowerPlay

Технология динамического управления питанием ATI PowerPlay получила хоть и небольшие, но дальнейшие усовершенствования. Суть технологии в том, что специальная управляющая схема в чипе отслеживает его загрузку работой и определяет оптимальный рабочий режим, управляя рабочей частотой чипа, памяти, напряжением питания и другими параметрами, оптимизируя энергопотребление и тепловыделение. В 2D режиме при невысокой загрузке GPU напряжение и частоты будут максимально снижены, как и частота вращения вентилятора, в режиме небольшой 3D нагрузки все параметры установятся на средние значения, а при максимальной работе GPU частоты с напряжением будут выставлены в наибольшее значение.

Сниженное потребление для режима простоя новых карт достигнуто при помощи ещё более низких чем обычно частот и напряжений для чипа и памяти, а также специального режима работы GDDR5 памяти — low power strobe mode. А для того, чтобы не было перегрева модуля VRM, был применен аппаратный контроль над температурой регулятора напряжения. Для многочиповых конфигураций был добавлен специальный режим ультранизкого потребления питания (Ultra Low Power State — ULPS).

Подробности: RV840, серия Radeon HD 5700

Кодовое имя чипа RV840 «Juniper»
Технология 40 нм
1,04 млрд. транзисторов (примерно вдвое меньше, чем у RV870)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
128-битная шина памяти: два контроллера шириной по 64 бита с поддержкой GDDR5 памяти
Частота ядра 700-850 МГц
10 SIMD ядер, включающих 800 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 точности в рамках стандарта IEEE 754, поддержка FP64 вычислений отсутствует)
10 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
40 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
16 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 16 отсчетов за такт (в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 64 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI и DisplayPort

Спецификации карты Radeon HD 5770

Частота ядра 850 МГц
Количество универсальных процессоров 800
Количество текстурных блоков — 40, блоков блендинга — 16
Эффективная частота памяти 4800 МГц (4*1200 МГц)
Тип памяти GDDR5
Объем памяти 1024 мегабайта
Пропускная способность памяти 76,8 гигабайт в сек.
Теоретическая максимальная скорость закраски 13,6 гигапикселей в сек.
Теоретическая скорость выборки текстур 34,0 гигатекселей в сек.
Два CrossFireX разъема
Шина PCI Express 2.1
Разъёмы: DVI-I Dual Link, HDMI, DisplayPort
Энергопотребление от 18 до 108 Вт (один 6-штырьковый разъём питания)
Двухслотовый дизайн
Рекомендуемая цена $159

Спецификации карты Radeon HD 5750

Частота ядра 700 МГц
Количество универсальных процессоров 720
Количество текстурных блоков — 36, блоков блендинга — 16
Эффективная частота памяти 4600 МГц (4*1150 МГц)
Тип памяти GDDR5
Объем памяти 512/1024 мегабайт
Пропускная способность памяти 73.,6 гигабайт в сек.
Теоретическая максимальная скорость закраски 11,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 25,2 гигатекселя в сек.
Два CrossFireX разъема
Шина PCI Express 2.1
Разъёмы: DVI-I Dual Link, HDMI, DisplayPort
Энергопотребление от 16 до 86 Вт (один 6-штырьковый разъём питания)
Двухслотовый дизайн
Рекомендуемая цена $109/$129

Применение до сих пор сложного с точки зрения выхода годных чипов техпроцесса 40 нм, позволило компании AMD выпустить решения среднего уровня, которые примерно соответствуют по производительности предыдущему топовому HD 4870. Сложность у чипов похожая, зато площадь ядра заметно уменьшилась. Почти все характеристики остались на том же уровне, по сравнению с решениями на RV770 (кроме пропускной способности памяти, разве что). Естественно, что новый чип более эффективен энергетически, и новые карты потребляют относительно немного энергии.

Принцип наименования моделей тот же, что и раньше. По сравнению с предыдущей серией среднего диапазона поменялась первая цифра. Radeon HD 5770 и HD 5750 предназначены для смены HD 4870 и HD 4850. И не совсем удачной HD 4770, которая стала экспериментальной по освоению 40-нм техпроцесса. При этом пока остаются проблемы с производством чипов по новому техпроцессу, некоторые из карт предыдущего поколения остаются в продаже, смещаясь в нижние ценовые диапазоны.

Два варианта серии, что привычно для видеокарт AMD, отличаются тактовыми частотами видеочипа и памяти. В данном случае у младшего продукта отключена ещё и часть исполнительных блоков. Так и разница в производительности будет больше, да и брак нужно куда-то девать. Но и это ещё не всё. Хотя на оба варианта устанавливают память типа GDDR5 (чтобы не было ограничения производительности полосой пропускания), у младшего варианта есть две модификации, отличающиеся объёмом видеопамяти: 512 мегабайт и 1 гигабайт.

Один гигабайт локальной памяти для карт уровня HD 5750 нужен не всегда, да и это не позволяет снизить цену, чтобы она приблизилась к $100. И хотя современные игры требовательны к объёму набортной памяти, и объём памяти в 1024 мегабайт является оптимальным количеством для большинства игр, а 512 мегабайт — не всегда достаточно для некоторых приложений, для HD 5750 это логичное и правильное решение. Тем более что никто не отменяет и более дорогой вариант.

Ещё младшее решение отличается иным дизайном платы, а также референсные кулеры у них совершенно не похожие. Если в случае HD 5770 используется аналогичный с применяемым на HD 5850 и 5870 дизайн системы охлаждения, то на HD 5750 поставили упрощённый кулер. Впрочем, он всё равно двухслотовый, да и энергопотребление карты хоть и ниже, но не так уж значительно.

Архитектура RV840 «Juniper»

Обновленная архитектура RV8xx под названием TeraScale 2 уже рассмотрена выше. Отличия младшего чипа Juniper от старшего Cypress, в основном количественные, хотя и не только. Новый чип отличается ровно вдвое урезанными возможностями по всем параметрам: вычислительной производительности, скорости текстурных выборок и блоков ROP. Он примерно соответствует топовому чипу RV770 по этим характеристикам. Видимо, именно такой и была цель инженеров компании.

Хотя кардинальных изменений в RV8xx нет, это развитие идей предыдущих поколений, небольшие модификации затронули практически все блоки чипа: потоковые вычислительные блоки, текстурные модули, блоки ROP, контроллеры устройств вывода. Схема чипа Juniper весьма похожа на ту, что мы видели в разделе Cypress выше:

Основная часть видеочипа RV840 состоит из десяти SIMD ядер, столько же, что и у RV770, каждое из которых содержит по 16 блоков суперскалярных потоковых процессоров. Суперскалярная сущность этих процессоров не меняется со времён RV670, и AMD считает, что чип содержит 10*16*5=800 скалярных 32-битных потоковых процессоров.

Все возможности видеочипа остались прежними. Кроме одной, но важной для расчётов на GPU. Как вы помните, в предыдущих чипах для 64-битных расчётов двойной точности используются эти же математические блоки, только темп расчётов снижается. А вот RV840 «Juniper» не поддерживает вычисления с двойной точностью, исходя из выложенных на сайте AMD спецификаций.

Плохо это, или вполне можно обойтись без двойной точности в сравнительно недорогих чипах? С точки зрения вычислений на GPU это не очень хорошо, конечно. Всегда полезно иметь одинаковые возможности на всех чипах для любого ценового диапазона. С другой стороны, если это помогает снизить себестоимость и цену для конечного пользователя, то на данный момент это — вполне логичное решение. Ведь и одинарная то точность в «домашних» GPGPU задачах редко используется, не говоря уже про двойную...

В общем, сравнительно большое количество потоковых процессоров, в сумме с остальными модификациями (увеличенное количество исполняемых за один такт инструкций, исполнение дополнительной инструкции MUL и зависимой инструкции ADD за такт, новая команда Sum of Absolute Differences) обеспечивает RV840 высокую производительность в вычислениях с одиночной точностью, и графического, и общего назначения.

Все новые чипы семейства RV8xx, в том числе и RV840 «Juniper», отличаются поддержкой нового алгоритма анизотропной фильтрации, который отличается улучшенным качеством. Текстурные мип-уровни теперь расположены по идеальным окружностям. Вот сравнение старого алгоритма и нового (обратите внимание на плавность переходов между мип-уровнями и геометрическую правильность окружностей):

Обо всех остальных изменениях в блоках TMU и ROP вы можете прочитать выше, там всё подробно расписано. Новыми решениями поддерживается и сглаживание методом суперсемплинга, что позволяет сглаживать не только края полигонов, но и текстуры и результат работы пиксельных шейдеров, что улучшает общее качество рендеринга.

Новый чип среднего ценового диапазона обладает теми же контроллерами GDDR5 памяти, которые были оптимизированы в архитектуре RV8xx. В целом, там всё то же самое, что и в Cypress, за исключением сравнительно низкой пропускной способности видеопамяти, что может стать узким местом линейки HD 5700. Впрочем, решение о 128-битной шине также логично, ведь и площадь чипа уменьшилась, и для AMD важнее обеспечить низкую себестоимость. А ПСП у быстрой GDDR5 памяти при 128-битной шине, в общем-то, вполне достаточная для таких видеокарт. Хотя в некоторых случаях можно ожидать отставания по скорости от HD 4870/4890, имеющих значительно большую ПСП за счёт 256-битной шины памяти.

PCI Express 2.1

Хотя системные платы сейчас ограничены поддержкой версии PCI Express 2.0, а выпуск спецификаций версии 3.0 был перенесен PCISIG на позднее время, новое семейство видеокарт AMD отличилось поддержкой стандарта PCI-E версии 2.1. Если судить по их спецификациям, по крайней мере.

Отличий там, как можно предположить из небольшого увеличения версии стандарта, не так уж много. Основной целью будущей версии 3.0 является более высокая производительность, но и 2.1 позволяет ускорить передачу данных в некоторых случаях. И некоторые из планируемых в 3.0 изменений, были реализованы в версии 2.1. Они предназначены для лучшей поддержки устройств, требующих быстрой передачи данных, таких как GPU.

Опишем вкратце основные изменения в PCI Express 2.1, по сравнению с PCI Express 2.0. Internal Error Reporting — теперь информация о внутренних ошибках стала доступной программному коду. Atomic Operations — поддержка атомарных операций, помогающая распределять задачи между ядрами CPU и ускорителями на основе видеочипов. Resizable BAR Capability — возможность определения количества системных ресурсов, выделяемых устройствам. Dynamic Power Allocation — возможность программного управления состояниями питания. ID-based Ordering — снижение простоев, вызванных неоптимальным порядком команд, дающий увеличение производительности. Latency Tolerance Reporting — улучшения в распределении ресурсов. Alternative Routing-ID Interpretation — поддержка большего количества внутренних функций устройств.

Это только часть изменений в новой версии PCI Express. К сожалению, проверить увеличение производительности по сравнению со второй версией PCI-E мы пока не можем — просто нет подходящих системных плат. Как только возможность появится, то обязательно проверим.

Вывод информации, управление питанием и другие особенности

Анонсированные новые решения среднего ценового диапазона от AMD не были обделены и поддержкой интересной технологии одновременного вывода изображения на три устройства под названием Eyefinity. Расширенная поддержка мультимониторных конфигураций в виде подключения трёх, а то и шести мониторов к одной видеокарте, может быть полезна как в играх, так и в рабочих применениях.

Блок вывода изображения в чипах RV8xx был переделан так, что теперь он поддерживает вывод картинки на устройства вывода в количестве до шести штук (при использовании специальных версий видеоплат), в разных комбинациях. Количество поддерживаемых мониторов зависит от конкретной конфигурации платы, оно может достигать шести или трёх. В чипе есть шесть встроенных TMDS трансмиттеров, и на обычных видеокартах четыре из них обеспечивают работу двух разъёмов Dual Link DVI, поэтому к ним можно подключить до трёх мониторов.

Поддержка трёх мониторов, в отличие от двух в предыдущих решениях, — это не такое уж важное преимущество. Вряд ли многие игроки решатся на установку трёх мониторов, покупая видеокарту среднего уровня. Да и проще купить один большой монитор или телевизор. Так что возможность эта хоть и полезная, но назвать её явным преимуществом нельзя.

Зато можно назвать преимуществом новые возможности вывода звука по HDMI. Как и старшее семейство, линейка ATI Radeon HD 5700 поддерживает версию HDMI 1.3a и передачу форматов высококачественного звука (Dolby TrueHD и DTS-HD Master Audio) с дисков Blu-ray по HDMI-подключению. И если в случае дорогих карт серии HD 5800 это не так важно, то на основе сравнительно недорогой HD 5750 уже можно будет сделать HTPC, и там эта возможность будет полезной.

Новыми платами поддерживается технология динамического управления питанием ATI PowerPlay. Сниженное потребление для режима простоя новых карт достигнуто при помощи ещё более низких, чем обычно, частот и напряжений для чипа и памяти, а также специального режима работы GDDR5 памяти. В результате, в простое семейство HD 5700 потребляет лишь 16-18 Вт, и это действительно очень мало. А при максимальной работе GPU частоты с напряжением будут выставлены в наибольшее значение, и потребление уже превысит 80-100 Вт, что тоже неплохо для такой производительности.

Подробности: RV830, серия Radeon HD 5600/5500

Кодовое имя чипа RV830 «Redwood»
Технология 40 нм
0,63 млрд. транзисторов (ещё почти вдвое меньше, чем у RV840)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
128-битная шина памяти: два контроллера шириной по 64 бита с поддержкой памяти GDDR5
Частота ядра 650-775 МГц
5 SIMD ядер, включающих 400 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 точности в рамках стандарта IEEE 754, поддержка FP64 вычислений отсутствует)
5 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
20 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
8 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 8 отсчетов за такт (в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 32 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI и DisplayPort

Спецификации карты Radeon HD 5670

Частота ядра 775 МГц
Количество универсальных процессоров 400
Количество текстурных блоков — 20, блоков блендинга — 8
Эффективная частота памяти 4000 МГц (4*1000 МГц)
Тип памяти GDDR5
Объем памяти 512/1024 мегабайта
Пропускная способность памяти 64,0 гигабайт в сек.
Теоретическая максимальная скорость закраски 6,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 15,5 гигатекселей в сек.
CrossFireX разъем
Шина PCI Express 2.1
Разъёмы: DVI-I Dual Link, HDMI, d-Sub
Энергопотребление от 15 до 64 Вт
Однослотовый дизайн
Рекомендуемая цена $99-129

Спецификации карты Radeon HD 5570

Частота ядра 650 МГц
Количество универсальных процессоров 400
Количество текстурных блоков — 20, блоков блендинга — 8
Эффективная частота памяти 1800 МГц (2*900 МГц)
Тип памяти DDR3
Объем памяти 512/1024 мегабайта
Пропускная способность памяти 28,8 гигабайт в сек.
Теоретическая максимальная скорость закраски 5,2 гигапикселей в сек.
Теоретическая скорость выборки текстур 13,0 гигатекселей в сек.
Шина PCI Express 2.1
Разъёмы: DVI-I Dual Link, HDMI, d-Sub
Энергопотребление до 45 Вт
Однослотовый дизайн
Рекомендуемая цена $85

Подробности: RV810, серия Radeon HD 5400

Кодовое имя чипа RV810 «Cedar»
Технология 40 нм
0.29 млрд. транзисторов (почти в 8 раз меньше, чем у RV870!)
Унифицированная архитектура с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX 11, в том числе и новой шейдерной модели — Shader Model 5.0
64-битная шина памяти
Частота ядра 650 МГц
1 SIMD ядро, включающее 80 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 точности в рамках стандарта IEEE 754, поддержка FP64 вычислений отсутствует)
2 укрупненных текстурных блока, с поддержкой FP16 и FP32 форматов
8 блоков текстурной адресации и столько же блоков билинейной фильтрации, с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
4 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 семплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 4 отсчетов за такт (в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 16 отсчета за такт
Запись результатов до 8 буферов кадра одновременно (MRT)
Интегрированная поддержка RAMDAC, шести портов Single Link или трёх портов Dual Link DVI, а также HDMI и DisplayPort

Спецификации карты Radeon HD 5450

Частота ядра 650 МГц
Количество универсальных процессоров 80
Количество текстурных блоков — 8, блоков блендинга — 4
Эффективная частота памяти 1600 МГц (2*800 МГц)
Тип памяти DDR3
Объем памяти 512 мегабайт
Пропускная способность памяти 12,8 гигабайт в сек.
Теоретическая максимальная скорость закраски 2,6 гигапикселей в сек.
Теоретическая скорость выборки текстур 5,2 гигатекселей в сек.
Шина PCI Express 2.1
Разъёмы: DVI-I Dual Link, HDMI, d-Sub
Энергопотребление от 6 до 20 Вт
Однослотовый дизайн
Рекомендуемая цена $59

После выпуска решений верхнего и среднего ценовых диапазонов в линейке Radeon HD 5000, совершенно логично было ожидать выпуска моделей и для нижнего сектора рынка. Они и вышли в 2010 году, в январе серия пополнилась моделью HD 5670, а в феврале вышли ещё две видеокарты: HD 5570 и HD 5450. Все они призваны конкурировать с довольно удачными моделями для нижнего ценового диапазона от NVIDIA: G 100, GT 220 и GT 240.

Новые модели видеокарт AMD основаны на отлично зарекомендовавшей себя архитектуре RV8x0, рассмотренной выше. Эти GPU получили кодовые наименования: RV830 «Redwood» и RV810 «Cedar». Чип Redwood представляет собой половину от «Juniper», на котором основаны решения HD 57x0, у него вдвое меньше блоков ALU, TMU и ROP. Зато шина памяти и её тип остались неизменными — 128-бит GDDR5. Это касается модели HD 5670, а HD 5570 отличается сниженными частотами и другим типом памяти —DDR3, которая имеет более чем вдвое меньшую пропускную способность. Впрочем, даже при этом решение отлично конкурирует с GT 220.

Самое младшее решение линейки — HD 5450, эта модель основана на чипе RV810. Данный GPU очень маленький физически и урезан очень сильно: имеет лишь 80 ALU, 8 TMU и 4 блока ROP. Понятно, что это самое бюджетное решение, примерно соответствующее Radeon HD 4550 с теми же 8 TMU и 4 ROP, а также 64-битной шиной памяти. Следовательно, и ожидать от него приемлемой 3D-производительности просто глупо.

Зато в чём хороши все новые low-end решения AMD, так это в мультимедийных возможностях. В отличие от решений NVIDIA, все они обеспечивают полноценную поддержку HDMI-портов версии 1.3a, включая передачу многоканального звука форматов, использующихся в дисках Blu-ray У них есть поддержка так называемого Protected Audio Path, который обеспечивает передачу форматов Dolby True HD и DTS HD/DTS HD Master Audio по HDMI-соединению. Старший из бюджетных чипов имеет два видеодекодера, что позволяет проигрывать видео в стереоформате (Blu-ray 3D). Отличия RV810 лишь в том, что он содержит только один блок декодирования HD-видео, и для стерео он не подойдёт.