Семейства видеокарт AMD(ATI) RADEON
Справочная информация




Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400

Спецификации чипов семейства R[V]7XX

кодовое имя RV770 RV730 RV710 RV790 RV740
базовая статья здесь здесь здесь здесь
технология (нм) 55 40
транзисторов (М) 956 514 242 959 826
универсальных процессоров 160*5 64*5 16*5 160*5 128*5
текстурных блоков 40 32 8 40 32
блоков блендинга 16 8 4 16 16
шина памяти 256 128 64 256 128
типы памяти DDR, DDR2, GDDR3, GDDR4, GDDR5
системная шина чипа PCI-Express 2.0 16х
RAMDAC 2 х 400МГц
интерфейсы TV-Out
TV-In (нужен чип захвата)
2 x DVI Dual Link
HDMI
DisplayPort
вершинные шейдеры 4.1
пиксельные шейдеры 4.1
точность пиксельных вычислений FP32/FP64
точность вершинных вычислений FP32/FP64
форматы компонент текстур FP32, FP16
I8
DXTC, S3TC
3Dc
форматы рендеринга FP32 и FP16
I8
I10 (RGBA 10:10:10:2)
другие
MRT есть
Aнтиалиасинг 2х-8х MSAA
CFAA до 24x
генерация Z 2х в режиме без цвета




Спецификации референсных карт на базе чипов семейств R[V]7XX

карта чип
шина
блоков ALU/TMU частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт)
бит
тексель рэйт (Мтекс) филл
рэйт (Мпикс)
RADEON HD 4550 RV710
PEG16х
80/8 600 800(1600) 256/512 DDR3 12.8
(64)
4800 2400
RADEON HD 4650 RV730
PEG16х
320/32 600 500(1000) 512 DDR2 16.0
(128)
19200 4800
RADEON HD 4670 RV730
PEG16х
320/32 750 1000(2000) 512 GDDR3 32.0
(128)
24000 6000
RADEON HD 4850 RV770
PEG16х
800/40 625 1000(2000) 512 GDDR3 64.0
(256)
25000 10000
RADEON HD 4870 RV770
PEG16х
800/40 750 900(3600) 512 GDDR5 115.0
(256)
30000 12000
RADEON HD 4850 X2 2xRV770
PEG16х
2x(800/40) 625 1000(2000) 2x1024 GDDR3 2x64.0
(2x256)
50000 20000
RADEON HD 4870 X2 2xRV770
PEG16х
2x(800/40) 750 900(3600) 2x1024 GDDR5 2x115.0
(2x256)
60000 24000
RADEON HD 4770 RV740
PEG16х
640/32 750 800(3200) 512 GDDR5 51.2
(128)
24000 12000
RADEON HD 4890 RV790
PEG16х
800/40 850 975(3900) 1024 GDDR5 125.0
(256)
34000 13600
карта чип
шина
блоков ALU/TMU частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт) ПСП (Гбайт)
бит
тексель рэйт (Мтекс) филл
рэйт (Мпикс)


Подробности: RV770, серия RADEON HD 4800

  • Кодовое имя чипа RV770
  • Технология 55 нм
  • 956 миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой GDDR3/GDDR5
  • Частота ядра 625-750 МГц
  • 10 SIMD ядер, включающих 800 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 10 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
  • 40 блоков текстурной адресации
  • 160 блоков текстурной выборки
  • 40 блоков билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 16 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 16 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4870

  • Частота ядра 750 МГц
  • Количество универсальных процессоров 800
  • Количество текстурных блоков — 40, блоков блендинга — 16
  • Эффективная частота памяти 3600 МГц (4*900 МГц)
  • Тип памяти GDDR5
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 115 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 12.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 30.0 гигатекселей в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 160 Вт (два 6-штырьковых разъёма)
  • Двухслотовый дизайн
  • Рекомендуемая цена $299

Спецификации карты RADEON HD 4850

  • Частота ядра 625 МГц
  • Количество универсальных процессоров 800
  • Количество текстурных блоков — 40, блоков блендинга — 16
  • Эффективная частота памяти 2000 МГц (2*1000 МГц)
  • Тип памяти GDDR3
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 64 гигабайта в сек.
  • Теоретическая максимальная скорость закраски 10.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 25.0 гигатекселя в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 110 Вт (один 6-штырьковый разъём)
  • Однослотовый дизайн
  • Рекомендуемая цена $199

Архитектура чипа RV770

Основной целью при разработке нового чипа было дальнейшее повышение эффективности. Перед инженерами была поставлена задача: добиться двукратного преимущества в теоретической производительности, по сравнению с чипом предыдущего поколения — RV670. Также, в свете последних тенденций, очень важно было сделать упор на улучшение возможностей чипа по неграфическим вычислениям. Заодно впервые была применена GDDR5 память и перекрыт психологический барьер скорости вычислений в один терафлоп, до которого чуть-чуть не дотянула NVIDIA со своим GT200.

Архитектура RV770 сочетает в себе некоторые решения из предыдущей архитектуры R6xx, но в ней было сделано множество изменений, направленных на улучшение производительности и эффективности. Рассмотрим схему нового чипа:



Сразу видно, что архитектура RV770 претерпела достаточно много изменений, по сравнению с архитектурой, известной нам по чипам R600 и RV670. В ней были сделаны как количественные, так и качественные изменения, устранены многие узкие места. Но давайте остановимся на всех изменениях по порядку...

Основная часть видеочипа RV770 состоит из десяти SIMD ядер, каждое из которых содержит по 16 блоков суперскалярных потоковых процессоров, всего их в чипе 160 штук. Суперскалярность этих процессоров не изменилась со времён RV670, поэтому можно считать, что чип содержит 160*5=800 скалярных 32-битных потоковых процессоров. Для 64-битных расчётов двойной точности используются эти же блоки, снижается только темп расчётов.

Также в чипе проведены другие модификации: изменены текстурные блоки TMU, увеличено их количество, ускорены блоки ROP при сохранении их количества, кардинально изменена архитектура памяти и кэширования, введена поддержка нового типа памяти GDDR5, также сделаны и другие изменения, увеличивающие производительность исполнения геометрических шейдеров и параллельных неграфических расчётов.



Как мы уже сказали, каждое из 10 ядер SIMD содержит по 16 суперскалярных потоковых процессоров (или 80 скалярных) и 16 килобайт локальной памяти для хранения данных и имеет собственный блок управления потоками. Также, в отличие от R6x0 и RV670, блоки TMU «привязаны» к SIMD, каждый из них имеет по четыре выделенных текстурных модуля и свой L1 текстурный кэш. SIMD ядра могут обмениваться друг с другом информацией при помощи 16 килобайт глобальной памяти. Как видите, мощность текстурников в новом чипе промасштабирована вместе с числом шейдерных процессоров, и соотношение между ALU и TMU равно 4:1.



Потоковые процессоры остались, по сути, теми же, что и в RV670, но была увеличена их плотность (на картинке указано в масштабе), что позволило довести число потоковых процессоров до 800 шт при неизменном техпроцессе. А для увеличения энергетической эффективности используется более агрессивный clock gating, позволяющей отключать блоки логики для снижения потребления энергии.

Кроме того, суперскалярный дизайн потоковых процессоров позволил AMD проще и эффективнее реализовать поддержку вычислений двойной точности (FP64), используя те же вычислительные блоки. В результате, даже с учетом того, что в GT200 были добавлены специальные SP для FP64 расчётов, RV770 обладает значительно большей производительностью в таких вычислениях, теоретическая пиковая цифра — до 240 гигафлопов.



А вот блоки текстурирования изменились очень сильно, теперь они привязаны к SIMD, а их эффективность значительно улучшена. Проектировщики убрали выделенный пул TMU, известный по предыдущим поколениям чипов, реализовав решение, очень похожее на то, что мы видим у NVIDIA, с блоками TMU, включенными в состав SIMD ядер.

Была убрана возможность выборок без фильтрации, которая применялась ранее отдельно для вершинных данных. В новом чипе и тексели и вершины выбираются одними и теми же блоками, что также аналогично решению в G8x и далее. С другой стороны, каждый из 40 блоков текстурирования в RV770 стал несколько слабее, чем каждый из 16-ти в RV670, но увеличенное их количество, вместе с повышенными частотами, должно дать приличный прирост скорости текстурирования.

В целом, можно ожидать до 2.5-кратного увеличения производительности при билинейной фильтрации 32-битных текстур, и 1.25-кратного — для 64-битных. Из других особенностей — удвоенная полоса пропускания к текстурному кэшу, по сравнению с RV670 и возможность выборки до 160 текстурных значений Fetch4/Gather4 за один такт, что также должно повлиять на увеличение производительности.



В чипе применен новый дизайн блоков кэширования: вершинный кэш отдельный, кэш второго уровня привязан к четырём 64-битным каналам памяти, L1 кэши хранят уникальные данные для каждого блока SIMD, что увеличивает эффективность кэширования. Также увеличена и пропускная способность: до 480 ГБ/с для текстурного кэша первого уровня, до 384 ГБ/с между кэшем L1 и L2.

Все вышеуказанные изменения в текстурных блоках и кэшировании привели к тому, что текстурирование у RV770, судя по feature тесту из 3DMark Vantage, в два раза более эффективно, чем у конкурирующих чипов NVIDIA (и G92 и GT200). Рассмотрим схему блоков ROP:



Как видно на схеме, качественных изменений в блоках ROP не так много. Зато, хоть блоки ROP и остались в том же количестве, что и в RV670, теперь они умеют обрабатывать за такт вдвое большее количество пикселей в большинстве случаев, что особенно важно при включенном MSAA. Теперь алгоритмы MSAA 2x и 4x вообще почти что «бесплатны», по крайней мере, с точки зрения работы ROP. Вот сравнительная таблица темпа записи пикселей во фреймбуфер в различных режимах:



Почти во всех режимах эффективность ROP удвоена, кроме самого простого — 32-битного цвета без MSAA. Нужно отметить и Custom Filter Anti-Aliasing (CFAA). Уже прошлое поколение видеочипов AMD предлагало специализированные фильтры сглаживания, названные Custom Filter Anti-Aliasing. Мы довольно подробно рассматривали этот метод в предыдущих материалах, и наиболее интересной возможностью по сглаживанию на чипах AMD является метод краевого сглаживания (edge detect), используемый в алгоритмах 12x и 24x CFAA.

Это наиболее качественный метод, который использует шейдерную мощь чипов RV670 и RV770 по обработке изображения, к которому уже был применен MSAA. Метод основан на поиске краёв полигонов (специальный фильтр) и дополнительной фильтрации этих участков изображения. Метод не требует дополнительной видеопамяти по сравнению с режимами 4x и 8x MSAA, а также работает вместе с адаптивным сглаживанием. RV770 отличается небольшими улучшениями, направленными на ускорение этого и других методов, в том числе специальным быстрым линком между ROP и шейдерными процессорами.

Интересно, что по некоторым данным, RV770 не использует шейдерные процессоры при MSAA, как это было сделано в чипах R6xx и RV670. Для стандартных алгоритмов MSAA используются возможности аппаратных блоков ROP, и только для упомянутого программируемого CFAA — шейдерный ресолв.



Из других важных изменений в чипе — смена ранее широко разрекламированной, но так и не ставшей удачной, кольцевой шины памяти (ring bus) на архитектуру с центральным хабом. В RV770 контроллеры памяти расположены по краям чипа, рядом с основными потребителями трафика, а хаб распределяет потоки данных между уже упомянутыми блоками, а также PCI Express, CrossFireX, UVD2, контроллерами вывода.

По оценкам компании, новый дизайн интерфейса памяти вызвал значительное увеличение эффективности использования полосы пропускания. В дополнение к этому, контроллер поддерживает новые модули памяти GDDR5, работающие на эффективно учетверённой частоте до 3.6-4 ГГц и выше, что даёт ПСП до 120 ГБ/с с применением недорогого 256-битного интерфейса.

Себестоимость важна, ведь для повышения ПСП у GDDR3 памяти приходится использовать 512-битную шину, это приводит к тому, что и чип увеличивается, и его упаковка. Да и сами карты становятся больше и сложнее, потребляя всё больше энергии. Переход на использование GDDR5 позволяет увеличить производительность в 2-3 раза при даже меньших размерах чипов при меньшем потреблении энергии.

Компания AMD активно участвовала в разработке стандарта GDDR5, вместе со всеми основными производителями памяти (Hynix, Qimonda и Samsung) и JEDEC. Разработка этого типа памяти заняла около трёх лет от начала разработок до окончательной спецификации, а в AMD — ещё больше. Предполагается, что GDDR5 будет работать на скоростях вплоть до 7 ГГц эффективной (учетверённой) частоты. Первые чипы, поддерживающие напряжение 1.5 В (в отличие от 2.0 В для GDDR3) и имеющие плотность 0.5-2 Гбит, предлагают скорость до 1000*4=4.0 ГГц.

В архитектурной части остаётся привести схему чипа, где указаны занимаемые различными блоками площади GPU. Как видно, большую часть чипа занимают 800 потоковых процессоров, значительные части чипа остались за текстурными процессорами и различными контроллерами. А оставшаяся часть, судя по всему, занята блоками ROP, кэшами второго уровня и другой вспомогательной логикой.

Точно как и в GT200, в RV770 была увеличена эффективность исполнения геометрических шейдеров, а точнее — производительность создания вершинных данных. Вчетверо увеличено количество поддерживаемых потоков исполнения геометрических шейдеров, и сгенерированные в них вершины могут храниться на чипе в большем количестве.

Заявлено, что модификации подвергся и блок тесселяции. Теперь он совместим (что бы это ни значило) с DirectX 10 и 10.1, и также поддерживает instancing. На скорость исполнения геометрических шейдеров мы обязательно посмотрим в наших синтетических тестах в следующей части статьи, а про тесселяцию подробнее написано в базовом материале R600.

Подводя итоги, чип можно назвать RV-«работа над ошибками»-770. Как мы видим, были исправлены все явные ошибки и недостатки дизайна RV670. Блоки ROP хоть и остались в неизменном количестве, но теперь они работают вдвое быстрее, выполняя за такт вдвое большее количество работы в большинстве случаев. Это привело к тому, что алгоритмы MSAA 2x и 4x для серии RADEON HD 4800 почти «бесплатные» с точки зрения работы ROP, хотя ограничения ПСП всё же могут снизить производительность.

Но это не единственные изменения, работа над ошибками продолжилась и для TMU, которые были переработаны полностью. Убран выделенный пул TMU, а новое решение включает блоки TMU в состав каждого из десяти SIMD ядер. Из других важных изменений можно отметить смену кольцевой шины памяти ring bus на хабовую архитектуру. Интересно, что почти все исправления приводят чип RV770 ближе к тому, что мы видим в решениях NVIDIA. Похоже, в ATI(AMD) научились признавать свои ошибки и исправлять их. Похвально, остаётся проверить скорость новых решений на практике.

Неграфические вычисления

Немудрено, что оба основных производителя видеочипов в последнее время уделяют особое внимание неграфическим вычислениям на видеокартах. Постепенно, вычисления на GPU начинают внедряться и в научные сферы, и в обычное ПО, которое используется нами в повседневных задачах. Так, уже вышли или скоро выйдут обновленные версии решений по обработке изображений (Adobe Photoshop), обработке и перекодированию видеоданных (Adobe Premier, Cyberlink PowerDirector). А аппаратное ускорение физических расчётов в играх уже используется в NVIDIA PhysX.

Для того чтобы увеличить производительность и гибкость неграфических параллельных расчётов, в RV770 было сделано несколько изменений:

  • Ускоренные расчёты с плавающей точкой (FP64). Пиковая производительность текущих решений на основе чипа RV770 достигает 240 гигафлопов, что примерно в пять раз превышает производительность самого быстрого CPU с четырьмя ядрами. Точность расчётов соответствует требованиям стандарта IEEE 754.
  • Увеличенная производительность случайной записи и чтения (MemExport/MemImport). Операции scatter и gather выполняются на удвоенной скорости, по сравнению с RV670, максимальная производительность — шестнадцать 64-битных операций экспорта или восемь 128-битных за один такт.
  • Быстрое создание вычислительных потоков, означающее сниженные накладные расходы для параллельных вычислений.
  • Обмен данными между вычислительными потоками. На каждый блок SIMD выделена локальная память, отдельная от текстурного кэша, также возможен глобальный обмен данными между всеми блоками SIMD. По данным компании, эти изменения вызвали семикратный прирост производительности в расчётах быстрого преобразования Фурье (FFT).
  • Быстрые операции битового сдвига, доступные всем блокам SP. По сравнению с предыдущим поколением, достигнуто увеличение производительности в 12.5 раз. Это изменение ускоряет задачи обработки и кодирования видеоданных, а также алгоритмов сжатия и шифрования.



Компания AMD приводит такой график относительной производительности RV670 и RV770 в синтетических расчётных задачах. Средняя разница в скорости между двумя поколениями равна 2.5-3 раза (что примерно соответствует увеличенному числу потоковых процессоров), но максимальный прирост был получен в алгоритме быстрого преобразования Фурье (FFT) — разница в скорости составила семь раз. Почти в 4 раза ускорилось шифрование по алгоритму AES. Вот это уже — влияние изменений в архитектуре.

Технология ATI Avivo

В RV770 встроен чип обработки видеоданных Unified Video Decoder второго поколения (UVD 2). Он аппаратно декодирует видеоданные во всех важнейших форматах: H.264, VC-1 и MPEG2, имеет возможность одновременного декодирования двух полноформатных (1080p) потоков, улучшенные возможности по постобработке видео, в дополнение к ранее известным добавились масштабирование DVD видео до HD разрешений, а также динамическая регулировка контрастности.



Из других важных нововведений — поддержка 24- и 30-битных устройств вывода изображения на разрешениях до 2560x1600 по новому разъему DisplayPort. Никуда не делась и поддержка HDMI вывода при помощи специальных переходников DVI-2-HDMI, поддерживающего разрешения до 1920x1080. А из реальных улучшений можно отметить звуковой контроллер. Теперь он поддерживает несжатый поток стереозвука с частотой дискретизации 48 кГц или восьмиканальный (7.1) поток формата AC3 с битрейтом до 6.144 Мбит/с.

Произошел новый всплеск интереса к аппаратно ускоренному кодированию и перекодированию видеоданных из одного формата в другой. У AMD это называется Accelerated Video Transcoding (AVT), поддерживаются форматы H.264 и MPEG2. Заявлено перекодирование видеопотоков формата 1080p быстрее, чем 30 FPS — то есть, быстрее реального времени, «на лету».

По сути, скоростные характеристики кодирования на GPU заявлены примерно те же, что и у NVIDIA — перекодирование часового ролика видео в формате 1080p заняло почти 10 часов на универсальном процессоре Core 2 Duo E8500 и 32 минуты на решении из серии RADEON HD 4800. То есть, новые GPU около 20 раз быстрее, чем довольно быстрые двухъядерники. Для полного счастья вскоре должен выйти Cyberlink PowerDirector 7 с поддержкой кодирования при помощи видеочипов.

Управление питанием PowerPlay

Технология динамического управления питанием ATI PowerPlay, пришедшая с видеочипов для ноутбуков, получила дальнейшие усовершенствования. Напомним, что суть технологии в том, что специальная управляющая схема в чипе отслеживает его загрузку работой и определяет оптимальный рабочий режим, управляя рабочей частотой чипа, памяти, напряжением питания и другими параметрами, оптимизируя энергопотребление и тепловыделение. Так, в 2D режиме при невысокой загрузке GPU напряжение и частоты будут максимально снижены, как и частота вращения вентилятора, в режиме небольшой 3D нагрузки все параметры установятся на средние значения, а при максимальной работе GPU частоты с напряжением будут выставлены в наибольшее значение.

Для управления питанием на чип интегрирован соответствующий микроконтроллер, постоянно проводящий мониторинг температурных датчиков и активность шин, как внутричиповых, так и внешней PCI Express. Управляет всем драйвер, контролируются и изменяются частоты чипа и памяти, напряжения, обороты вентилятор, также могут быть отключены простаивающие блоки GPU. За счёт обновленной технологии управления питанием и других модификаций в чипе, по сравнению с предыдущим поколением видеокарт, было достигнуто двукратное увеличение эффективности, выраженное в производительности на Ватт.

Подробности: RV730, серия RADEON HD 4600

  • Кодовое имя чипа RV730
  • Технология 55 нм
  • 514 миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 128-битная шина памяти: два контроллера шириной по 64 бита с поддержкой памяти DDR2/DDR3/GDDR2/GDDR3
  • Частота ядра 600-750 МГц
  • 8 SIMD ядер, включающих 320 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 8 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
  • 32 блока текстурной адресации
  • 128 блоков текстурной выборки
  • 32 блока билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 8 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 8 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 32 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4670

  • Частота ядра 750 МГц
  • Количество универсальных процессоров 320
  • Количество текстурных блоков — 32, блоков блендинга — 8
  • Эффективная частота памяти 2000 МГц (2*1000 МГц)/1800 МГц (2*900 МГц)
  • Тип памяти GDDR3/DDR3
  • Объем памяти 512 мегабайт/1 гигабайт
  • Пропускная способность памяти 32.0/28.8 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 6.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 24.0 гигатекселей в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление менее 75 Вт (без дополнительных разъёмов)
  • Однослотовый дизайн
  • Рекомендуемая цена $79

Спецификации карты RADEON HD 4650

  • Частота ядра 600 МГц
  • Количество универсальных процессоров 320
  • Количество текстурных блоков — 32, блоков блендинга — 8
  • Эффективная частота памяти 1000 МГц (2*500 МГц)
  • Тип памяти DDR2
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 16.0 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 4.8 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 19.2 гигатекселей в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление менее 60 Вт (без дополнительных разъёмов)
  • Однослотовый дизайн
  • Рекомендуемая цена $69

Подробности: RV710, серия RADEON HD 4500

  • Кодовое имя чипа RV710
  • Технология 55 нм
  • 242 миллиона транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 64-битная шина памяти: один контроллер шириной 64 бита с поддержкой памяти DDR2/DDR3/GDDR2/GDDR3
  • Частота ядра 600 МГц
  • 2 SIMD ядра, включающих 80 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 2 укрупненных текстурных блока, с поддержкой FP16 и FP32 форматов
  • 8 блоков текстурной адресации
  • 32 блоков текстурной выборки
  • 8 блока билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 4 блока ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 4 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 16 отсчетов за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4550

  • Частота ядра 600 МГц
  • Количество универсальных процессоров 80
  • Количество текстурных блоков — 8, блоков блендинга — 4
  • Эффективная частота памяти 1600 МГц (2*800 МГц)
  • Тип памяти DDR3
  • Объем памяти 256/512 мегабайт
  • Пропускная способность памяти 14.4 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 2.4 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 4.8 гигатекселей в сек.
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление менее 25 Вт (без дополнительных разъёмов)
  • Однослотовый дизайн, пассивное охлаждение
  • Рекомендуемая цена $29-35

Архитектура чипов RV730 и RV710

По сути, всю теорию о новой архитектуре AMD можно получить из нашей базовой статьи по RV770. GPU для решений нижних ценовых диапазонов, которые мы сегодня рассматриваем, отличаются от RV770 лишь количественно (впрочем, небольшие нюансы есть и здесь). Текущая архитектура хорошо масштабируется в обе стороны, что мы и видим сейчас на примере low-end решений. Схемы чипов RV730 и RV710 выглядят так:





По схеме видно, что RV730 отличается от RV760 количеством разнообразных исполнительных блоков: ALU, ROP, TMU, во всем остальном повторяя старшее решение. У RV710 отличий несколько больше, они не только количественные (блоков ALU, ROP и TMU ещё меньше), но есть и одно качественное — кэш первого уровня совмещает кэширование вершинных и пиксельных данных, в отличие от раздельных у старших решений. Основные количественные изменения: число шейдерных процессоров в RV730 снижено до 64 (320 ALU) а в RV710 до 16 (80 ALU), число блоков текстурирования до 32 и 8, соответственно. Но в этот раз блоков ROP у младших чипов разное количество — 8 и 4 для RV730 и RV710, соответственно. Кстати, из других отличий RV730/RV710 от RV770 — разное количество как SIMD ядер, так и количества потоковых процессоров внутри каждого ядра (восемь ALU вместо шестнадцати).

Естественно, все эти изменения сделаны для снижения количества транзисторов и площади чипов, что понятным образом скажется на производительности относительно быстрейшего GPU линейки. Обо всех остальных архитектурных особенностях RV7xx вы можете узнать из базового материала, ссылка на который приведена выше. Также, у младших чипов вместо 256-битной шины сделана поддержка 128-битной и 64-битной для RV730 и RV710, соответственно, а вот всё остальное, написанное в основном материале, относится и к ним тоже.

Наиболее важное изменение новых GPU заключается в том, что в отличие от RV770, соотношение между количеством блоков TMU и ALU здесь иное. Хотя каждое SIMD ядро имеет по четыре выделенных текстурных модуля, число ALU внутри SIMD отличается, и соотношение между ALU и TMU теперь стало не 4:1, а 2:1. То есть, число текстурных модулей в RV730, по сравнению с RV770, снизилось незначительно (с 40 до 32), а вот число ALU сильнее — с 800 до 320. Получается, что в AMD сделали ещё один шаг в обратную от архитектуры R6xx и RV6xx сторону. И хотя каждый из 32 и 8 блоков текстурирования в RV730 и RV710 несколько слабее, чем в RV6xx, их увеличенное количество и эффективность должны дать прирост скорости текстурных выборок.

Поговорим немного о применении нового для видеокарт типа памяти на решениях серий HD 4600 и HD 4500. Для так называемых mainstream видеокарт, компанией AMD впервые использованы микросхемы памяти DDR3 (не путать с GDDR3!). Несмотря на то, что она обеспечивает ту же производительность, что и GDDR3 (на равных частотах, естественно), предполагается, что в ближайшем будущем стоимость DDR3 памяти сравняется со стоимостью микросхем DDR2, которые сейчас крайне дёшевы. Соответственно, за счёт этого у производителей видеокарт будет возможность комплектации видеокарт большими объемами сравнительно быстрой видеопамяти.

Технология ATI Avivo

Как и в старший чип серии, в RV730 и RV710 встроен модуль обработки видеоданных Unified Video Decoder второго поколения (UVD 2). Он появился в решениях серии Radeon HD 3000 и позднее был без существенных изменений перенесен в HD 4000. UVD2 аппаратно декодирует видеоданные во всех наиболее распространённых форматах: H.264, VC-1 и MPEG-2. В новых решениях серии HD 4000 видеопроцессор был модифицирован для поддержки одновременного декодирования двух полноформатных (1080p) потоков видео для обеспечения возможностей, которые иногда встречаются на дисках Blu-ray. Также добавились улучшенные возможности по постобработке видео, такие как масштабирование DVD видео до HD разрешений, а также динамическая регулировка контрастности.

Улучшенное масштабирование

Технология ATI Avivo в серии Radeon HD 4000 включает в себя высококачественное масштабирование видеоданных из низкого разрешения (например, DVD) в более высокие HD (720p, 1080p). Таким образом, стандартные DVD с разрешением 720x480 или 720x576 при выводе на HD устройства вывода с разрешением 1920x1080 или 1920x1200 с ATI Avivo HD масштабированием обеспечат лучшее качество, чем с обычно применяемым программным масштабированием плееров. Вот пример, который приводит в презентациях компания AMD:



В целом, хорошо видно, что чёткость на левой части картинки выше, чем на правой, как по вертикали, так и по горизонтали. В будущих исследованиях скорости и качества декодирования видео при помощи GPU, мы постараемся рассмотреть этот вопрос более подробно.

Динамическая регулировка контрастности

Контрастность сильно влияет на восприятие визуальных данных. Изображения с низкой контрастностью обычно выглядят тусклыми и менее чёткими, когда мелкие детали в некоторых участках изображения плохо различимы. И хотя большинство плееров позволяет подстраивать контрастность, эти настройки не меняются от сцены к сцене, хотя оптимальные настройки контрастности для разных сцен будут разными.

В ATI Avivo HD есть возможность динамического изменения контрастности видеопотока. При помощи специальных алгоритмов постобработки, контрастность изображения автоматически подстраивается, постоянно адаптируясь к изменению параметров изображения. Это обеспечивает улучшенное восприятие видео человеком, в результате давая большее количество деталей и чёткость (слева — фрагмент картинки с включенной обработкой):

Подробности: R700, серия RADEON HD 4800 X2

  • Кодовое имя карты R700 (два чипа RV770)
  • Технология производства 55 нм
  • Два чипа по 956 миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • Две 256-битные шины памяти, по четыре контроллера шириной по 64 бита с поддержкой типов памяти GDDR3 и GDDR5
  • Частота ядра 750 МГц (для HD 4870 X2)
  • 2 x 10 SIMD ядер, включающих 2 x 800 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 2 x 10 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
  • 2 x 40 блоков текстурной адресации
  • 2 x 160 блоков текстурной выборки
  • 2 x 40 блоков билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 2 x 16 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 32 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 128 отсчетов за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4870 X2

  • Частота ядер 750 МГц
  • Количество универсальных процессоров 1600 (2 x 800)
  • Количество текстурных блоков — 2 x 40, блоков блендинга — 2 x 16
  • Эффективная частота памяти 3600 МГц (4*900 МГц)
  • Тип памяти GDDR5
  • Объем памяти 2 x 1024 мегабайт
  • Пропускная способность памяти 2 x 115 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 2 x 12.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 2 x 30.0 гигатекселей в сек.
  • Поддержка CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление 286 Вт (8-штырьковый и 6-штырьковый разъёмы)
  • Двухслотовый дизайн
  • Рекомендуемая цена $549

Спецификации карты RADEON HD 4850 X2

  • Частота ядер 625 МГц
  • Количество универсальных процессоров 1600 (2 x 800)
  • Количество текстурных блоков — 2 x 40, блоков блендинга — 2 x 16
  • Эффективная частота памяти 2000 МГц (2*1000 МГц)
  • Тип памяти GDDR3
  • Объем памяти 2 x 1024 мегабайт
  • Пропускная способность памяти 2 x 64 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 2 x 10.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 2 x 25.0 гигатекселей в сек.
  • Поддержка CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление 230 Вт (8-штырьковый и 6-штырьковый разъёмы)
  • Двухслотовый дизайн
  • Рекомендуемая цена $399

Архитектура

Итак, переходим к самой скучной части. Ничего нового к ранее написанному добавить мы не можем, чип RV770 остался тем же самым, и его архитектура была подробно описана нами в соответствующем материале. Поговорим о некоторых особенностях мультичиповой связки. Помните, во времена HD 3870 X2 мы упоминали, что она не обладает поддержкой шины PCI Express 2.0, несмотря на то, что это было одним из основных нововведений в RV670? В той видеокарте для обеспечения работы двух чипов и их связи между собой использовался специальный PCI Express мост PLX PEX 8547, поддерживающий 48 линий PCI-E версии 1.1. И тогда ожидалось, что в будущем AMD интегрирует подобную логику PCI Express моста в следующие модели GPU.

Давайте разберёмся, что же сделали в HD 4870 X2. Между двумя GPU всё так же стоит чип-коммутатор, который связывает между собой графические процессоры. Судя по всему, это чип из так называемого второго поколения PCI Express мостов, произведённый всё той же компанией PLX Technology, которая является одним из ведущих производителей решений с интерфейсом PCI Express для подсистем ввода-ввода и внутренних соединений. Так как ничего похожего по маркировке в линейке компании нет (см. фото в следующей части статьи), возможно, что чип изготовлен специально для AMD. Хотя по характеристикам он очень похож на PEX8647, что подтверждается документацией на сайте компании.

Второе поколение мостов PLX было анонсировано в начале 2008, и оно отличается сравнительно низким временем задержки (140 нс), очень низким энергопотреблением (в среднем порядка 3.8 Вт), решения гибко конфигурируются. Применённый мост обеспечивает три PCI-E порта с поддержкой версии 2.0 и по 16 линий на каждый из них. Для связи с каждым RV770 отводится по 16 линий PCI-E и столько же для передачи данных между системной платой и видеокартой. От чипа PEX8547, используемого в HD 3870 X2, новая модель отличается поддержкой PCI Express 2.0, меньшими размерами корпуса и лучшей экономичностью (старое решение потребляло около 5 Вт).

Рассмотрим схему соединений между чипами и системной платой, представленную компанией AMD. На ней сравниваются HD 3870 X2 и HD 4870 X2:



Сразу же привлекают внимание теоретические цифры общей пропускной способности, которые отличаются у разных поколений в три раза: 21.8 ГБ/с против 6.8 ГБ/с (естественно, это суммирование по всем направлениям). Что же, давайте разберёмся, откуда взялась такая разница. Во-первых, в этом «виноват» мост, поддерживающий PCI Express 2.0 вместо 1.1. Это добавило бОльшую часть пропускной способности, удвоив её на всех направлениях. Внешний линк с пропускной способностью 0.9 ГБ/с не изменился, а вот тот самый секретный sideport, который был упомянут ещё в ранних диаграммах RV770, оказался дополнительным портом (похожим на 16-канальным PCI-E 2.0, судя по пропускной способности), предназначенным исключительно для связи между чипами, минуя мост-коммутатор и системную плату.

Даст ли это какие-то серьёзные преимущества? Вряд ли. Просто потому, что основная часть ограничений связана не с ПС между чипами, а с особенностями применяемых алгоритмов. Ну да, обмен данными (те же внеэкранные буферы рендеринга) по идее должен стать быстрее, но это вряд ли является основным ограничением производительности AFR рендеринга. Было бы интересно сравнить производительность одной HD 4870 X2 и двух HD 4870 (обязательно с 1 ГБ видеопамяти и одинаковых частотах) в CrossFire, чтобы оценить вклад этого межчипового канала. Но AMD в своих документах предпочитает сравнивать скорость новой карты с 512 МБ вариантами HD 4870 в CrossFire, получая приросты за счёт нехватки последними видеопамяти в тяжёлых режимах.

Кроме того, что HD 4870 X2 сама по себе работает как двухчиповая система, возможности технологии ATI CrossFireX позволяют объединять две такие платы в одной системной плате. И по заявлениям компании AMD, в высоких разрешениях с антиалиасингом и анизотропной фильтрацией обеспечивается высокая эффективность мультичипового рендеринга, с приростом до 75-80% от каждого чипа.

Подробности: RV790, серия RADEON HD 4800

  • Кодовое имя чипа RV790
  • Технология 55 нм
  • 959 (в отличие от 956 у RV770) миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 256-битная шина памяти: четыре контроллера шириной по 64 бита с поддержкой GDDR3/GDDR5
  • Частота ядра 850 МГц
  • 10 SIMD ядер, включающих 800 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 10 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
  • 40 блоков текстурной адресации
  • 160 блоков текстурной выборки
  • 40 блоков билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 16 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 16 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4890

  • Частота ядра 850 МГц
  • Количество универсальных процессоров 800
  • Количество текстурных блоков — 40, блоков блендинга — 16
  • Эффективная частота памяти 3900 МГц (4*975 МГц)
  • Тип памяти GDDR5
  • Объем памяти 1024 мегабайт
  • Пропускная способность памяти 125 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 13.6 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 34.0 гигатекселей в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 190 Вт (60 Вт в простое)
  • Двухслотовый дизайн
  • Рекомендуемая цена $259

Небольшие модификации чипа, о которых написано ниже, позволили компании AMD выпустить более производительное решение, находящееся в линейке над старыми моделями RADEON HD 4870. HD 4890 отличается от них улучшенными скоростными характеристиками и, кроме повышенной производительности, также потребляет значительно меньше энергии в режиме простоя, по сравнению со своими предшественниками. Хотя в этом скорее заслуга не нового чипа, а значительно меньших рабочих частот в 2D режиме по сравнению с RV770.

В отличие от предыдущих решений серии 4800, на HD 4890 уже не устанавливается 512 мегабайт памяти, таких моделей нет. Единственная модификация предлагает гигабайт видеопамяти, что на данный момент является оптимальным объёмом для видеокарт верхнего среднего ценового диапазона. Так как 512 МБ уже в некоторых условиях недостаточно, а 1 ГБ хватит ещё очень надолго.

Наименование новой модели претерпело вполне логичные изменения. AMD выпустила слегка ускоренную по сравнению с HD 4870 карту под именем HD 4890. Такое изменение номера модели понятно покупателям, и ясно говорит о том, что карта является более производительной, но из того же семейства.

Архитектура и особенности решения

Архитектурно чип RV790 — это тот же RV770, просто немного переработанный для достижения больших тактовых частот. В технических характеристиках сразу же привлекает внимание увеличившееся на 3 млн. число транзисторов, а также то, что площадь чипа RV790 стала заметно больше, чем у RV770.

Понятно, что весьма удачный RV770 не нужно особо исправлять, чип сбалансированный и всё в нём к месту. Увеличивать количество исполнительных блоков без перехода на 40 нм, который ещё не готов для производства очень сложных GPU, просто нет смысла из-за принятой стратегии выпуска двухчиповых решений для верхнего ценового сегмента.

Поэтому было решено ускорить чип, добившись его работы на повышенных частотах. Инженеры компании переработали структуру RV770, переделав внутренние цепи и выводы чипа. А по периметру GPU был добавлен так называемый decap ring из фильтрующих (блокировочных) конденсаторов, которые помогают разделять сигналы, снижая шумы от соседних цепей. Эти изменения и повлекли небольшое увеличение количества транзисторов, в большей степени оказав влияние на увеличившуюся площадь ядра.

В результате, RV790 действительно лучше работает на более высоких тактовых частотах, по сравнению с RV770, чему дополнительно помогло и небольшое повышение рабочего напряжения. Референсная тактовая частота стала на 100 МГц выше, а партнёрам компании дали возможность выпуска разогнанных моделей с частотами порядка 900 МГц и выше. Которые, при известном везении, у энтузиастов разгона смогут работать и на частоте в 1 ГГц. Но это будут уже нестандартные условия эксплуатации, и не каждый экземпляр будет так работать без дополнительных телодвижений (смена системы охлаждения, повышение напряжения и т.п.).

Подробности: RV740, серия RADEON HD 4700

  • Кодовое имя чипа RV740
  • Технология 40 нм
  • 826 (в отличие от 956-959 у RV770 и RV790) миллионов транзисторов
  • Унифицированная архитектура с массивом общих процессоров для потоковой обработки вершин и пикселей, а также других видов данных
  • Аппаратная поддержка DirectX 10.1, в том числе и новой шейдерной модели — Shader Model 4.1, генерации геометрии и записи промежуточных данных из шейдеров (stream output)
  • 128-битная шина памяти: два контроллера шириной по 64 бита с поддержкой GDDR3/GDDR5
  • Частота ядра 750 МГц
  • 8 SIMD ядер, включающих 640 скалярных ALU для расчётов с плавающей точкой (целочисленные и плавающие форматы, поддержка FP32 и FP64 точности в рамках стандарта IEEE 754)
  • 8 укрупненных текстурных блоков, с поддержкой FP16 и FP32 форматов
  • 32 блока текстурной адресации
  • 128 блоков текстурной выборки
  • 32 блока билинейной фильтрации с возможностью фильтрации FP16 текстур на полной скорости и поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
  • Возможность динамических ветвлений в пиксельных и вершинных шейдерах
  • 16 блоков ROP с поддержкой режимов антиалиасинга с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16 или FP32 формате буфера кадра. Пиковая производительность до 16 отсчетов за такт (в т.ч. и для режимов MSAA 2x/4x, в т.ч. для буферов формата FP16), в режиме без цвета (Z only) — 64 отсчета за такт
  • Запись результатов до 8 буферов кадра одновременно (MRT)
  • Интегрированная поддержка двух RAMDAC, двух портов Dual Link DVI, HDMI, HDTV, DisplayPort

Спецификации карты RADEON HD 4770

  • Частота ядра 750 МГц
  • Количество универсальных процессоров 640
  • Количество текстурных блоков — 32, блоков блендинга — 16
  • Эффективная частота памяти 3600 МГц (4*800 МГц)
  • Тип памяти GDDR5
  • Объем памяти 512 мегабайт
  • Пропускная способность памяти 51.2 гигабайт в сек.
  • Теоретическая максимальная скорость закраски 12.0 гигапикселей в сек.
  • Теоретическая скорость выборки текстур 24.0 гигатекселей в сек.
  • Два CrossFireX разъема
  • Шина PCI Express 2.0 x16
  • Два DVI-I Dual Link разъема, поддерживается вывод в разрешениях до 2560х1600
  • TV-Out, HDTV-Out, поддержка HDCP, HDMI, DisplayPort
  • Энергопотребление до 80 Вт
  • Двухслотовый дизайн
  • Рекомендуемая цена для рынка США — $99

RADEON HD 4770 — это самое быстрое решение среди видеокарт с ценой в $100. В будущем ожидается и менее производительное решение HD 4750, которое будет ещё дешевле. Ну а RADEON HD 4770 пришёл на смену HD 4830, основанному на чипе RV770, который стал невыгодным при производстве, если продавать его в розницу за $100.

Во многом именно производство нового чипа по техпроцессу 40 нм и позволило компании AMD выпустить недорогое, но весьма производительное решение, превосходящее по теоретическим параметрам старую модель RADEON HD 4830. Новая видеокарта отличается от устаревшей улучшенными скоростными характеристиками и потребляет значительно меньше энергии. В этом заслуга и нового 40 нм чипа и установленной на плату GDDR5 памяти.

Вполне логично, что на HD 4770 решили устанавливать именно 512 мегабайт памяти. Хотя для новых решений предпочтительнее уже один гигабайт видеопамяти, для данного ценового диапазона установка такого количества GDDR5 памяти неоправданна. До сих пор именно 512 МБ является оптимальным объёмом для видеокарт такого уровня, на которых обычно не применяется сглаживание с большим количеством выборок.

Архитектура и особенности решения

Основные теоретические особенности новой архитектуры AMD остались неизменными, их можно узнать в базовой статье по RV770. GPU для нижнего ценового диапазона отличается от RV770 только количественно, разве что с некоторыми особенностями, которые мы рассмотрим далее. Ранее мы уже убеждались, что архитектура R7xx хорошо масштабируется, и вот теперь ещё раз видим это по схеме RV740:

Итак, RV740 отличается от RV770/RV790 количеством исполнительных блоков ALU и TMU, а также уменьшенным вдвое количеством 64-битных контроллеров памяти. Новый чип полностью повторяет структуру RV770, точнее, его варианта RV770LE, который используется в RADEON HD 4830, и часть исполнительных блоков которого отключена. Основные количественные изменения: число шейдерных процессоров в RV740 снижено до 640 ALU, число блоков текстурирования до 32 TMU. А вот блоки ROP в этот раз для младшего чипа не стали урезать.

В последствиях перехода на новый техпроцесс и снижения стоимости такого мощного решения нужно особо отметить ещё и переход от 256-битной шины памяти к 128-битной. Площадь чипа на 40 нм гораздо меньше, чем на 55 нм, и поэтому разводка 256-битной шины на RV740 просто невозможна. Да и для снижения себестоимости производства печатной платы переход на 128-бит также полезен.

Но как не потерять в пропускной способности видеопамяти, ведь она очень важна для современных приложений, особенно при использовании полноэкранного сглаживания и активной постобработки? У AMD решение этого вопроса давно есть! Это применение GDDR5 памяти, которая используется компанией с середины прошлого года в RADEON HD 4870.

Память типа GDDR5 обеспечивает вдвое большую ПСП по сравнению с GDDR3, и поэтому HD 4770 почти не потерял в пропускной способности, по сравнению с HD 4830. Так, используемая в HD 4770 память типа GDDR5 обеспечивает эффективную частоту 3200 МГц, тогда как физическая частота составляет лишь 800 МГц. В итоге ПСП у RADEON HD 4770 превышает 51 ГБ/с, тогда как у 256-битного HD 4830 с GDDR3 она лишь чуть больше — около 58 ГБ/с.

Несмотря на то, что чипы памяти GDDR5 стоят дороже, чем GDDR3, особенно в начале её широкого применения, узкая ширина шины памяти позволяет упростить дизайн PCB, и получить преимущество, так что в перспективе это правильное решение. Ещё один плюс этого типа памяти в том, что RADEON HD 4770 использует второе поколение GDDR5, с напряжением чипов 1.5 В, и при этом GDDR5 потребляет меньше питания, по сравнению с чипами предыдущего поколения.

По сравнению с RV770LE, у RV740 есть важное преимущество в тактовой частоте чипа, в модели HD 4770 он работает на 750 МГц, поэтому теоретические цифры производительности (математическая производительность и скорость текстурирования) превышают таковые для HD 4830 на 30%. А это уже близко к производительности HD 4850.

Но и это ещё не все преимущества нового решения перед RADEON HD 4830. Несмотря на сниженную общую ширину шины памяти, RV740 содержит всё те же 16 блоков ROP, сгруппированные по четыре в укрупнённые блоки. Интересно, что ранее на каждый из таких Render Back-End (RBE) в чипе был один 64-битный контроллер памяти. Теперь же, несмотря на наличие четырёх блоков RBE, количество контроллеров памяти снизилось до двух, как вы можете увидеть на схеме GPU.

Что это даёт? Теоретическую цифру пикового филлрейта, равную таковому для HD 4870. То есть, больше чем у HD 4830 и даже HD 4850. С учётом того, что некоторые из реальных приложений иногда упираются в производительность блоков ROP, в отдельных игровых тестах можно ожидать даже преимущества над HD 4850.

Новый 40 нм технологический процесс

Применение технологического процесса с 40 нм нормами производства выгодно для производителей GPU. Он обеспечивает значительно меньший размер чипа при сохранении той же сложности, и снижение себестоимости производства в перспективе. При 40 нм техпроцессе плотность транзисторов на чипе намного выше той же цифры для 55 нм, теоретически 40 нм чип будет примерно на 40% меньше по площади по сравнению с аналогичным чипом, произведённым по 55 нм технологическому процессу.

Например, чип RV740 имеет площадь около 140 кв.мм, что значительно меньше, чем площадь RV770, произведённого по 55 нм нормам, равная примерно 260 кв.мм. Понятно, что тут повлияло и уменьшение количества исполнительных блоков, присутствующих в GPU, но смена техпроцесса имела значительно больший эффект.

Что касается себестоимости производства GPU, то её снижение будет достигнуто лишь в перспективе потому, что в начале освоения действительно массового производства более выгодным зачастую бывает предыдущий технологический процесс, который обкатан и отработан. А новые нормы означают сравнительно большое количество брака поначалу, а также не такую уж низкую стоимость для заказчиков.

Теоретически, в преимуществах «тонкого» техпроцесса должно быть и меньшее энергопотребление с тепловыделением. Транзисторы при 40 нм производстве расположены ближе друг к другу, и теоретически требуют меньше энергии. Однако на практике разница оказывается совсем не такой большой, как разница в плотности, к примеру. Так, максимальное потребление у RADEON HD 4770 составляет 80 Вт, а у RADEON HD 4830 — 110 Вт.



Справочная информация о семействе видеокарт Radeon X
Справочная информация о семействе видеокарт Radeon X1000
Справочная информация о семействе видеокарт Radeon HD 2000
Справочная информация о семействе видеокарт Radeon HD 4000
Справочная информация о семействе видеокарт Radeon HD 5000
Справочная информация о семействе видеокарт Radeon HD 6000
Справочная информация о семействе видеокарт Radeon HD 7000
Справочная информация о семействе видеокарт Radeon 200
Справочная информация о семействе видеокарт Radeon 300
Справочная информация о семействе видеокарт Radeon 400




Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.