Видеоускоритель AMD Radeon R9 Fury X

Новый флагман AMD с поддержкой HBM

Содержание

Представляем базовый детальный материал с исследованием AMD Radeon R9 Fury X.

Справочные материалы

Объект исследования: Ускоритель трехмерной графики (видеокарта) AMD Radeon R9 Fury X 4096 МБ 4096-битной HBM PCI-E

Сведения о разработчике: Компания ATI Technologies (торговая марка ATI) основана в 1985 году в Канаде как Array Technology Inc. В том же году была переименована в ATI Technologies. Штаб-квартира в г. Маркхам (Торонто). C 1987 года компания сконцентрировалась на выпуске графических решений для ПК. Начиная с 2000 года основным брендом графических решений ATI становится Radeon, под которым выпускаются GPU как для настольных ПК, так и для ноутбуков. В 2006 году компанию ATI Technologies покупает компания AMD, в которой образуется подразделение AMD Graphics Products Group (AMD GPG). C 2010 года AMD отказывается от бренда ATI, оставив лишь Radeon. Штаб-квартира AMD в Саннивейл (Калифорния), а у AMD GPG остается главным офисом бывший офис AMD в Маркхаме (Канада). Своего производства нет. Общая численность сотрудников AMD GPG (включая региональные офисы) около 2000 человек.

Часть 1: Теория и архитектура

Анонс графических решений новой линейки от компании AMD, который состоялся несколько недель назад, был не совсем типичным, так как абсолютно новым графическим процессором под кодовым именем Fiji оснащены лишь топовые решения нового подсемейства Fury, а остальные видеокарты с новыми наименованиями довольствуются уже известными нам графическими процессорами. Тем интереснее рассмотреть именно новое топовое решение компании AMD, сравнив его как с предыдущим GPU аналогичного позиционирования, так и с лучшими решениями конкурента.

Итак, в нашем материале мы рассматриваем самую долгожданную новинку этого сезона от компании AMD — решение под наименованием Radeon R9 Fury X. Видеокарта этой модели предназначена для энтузиастов, она предлагает максимальную производительность и функциональность, на которую способны видеочипы AMD. В свое время, выпуск модели Geforce GTX Titan позволил компании Nvidia основать элитную категорию видеокарт с ценой до $1000 и выше. И, судя по всему, несмотря на дороговизну видеокарт линейки Titan, шаг по выпуску элитной линейки оказался весьма успешным для компании Nvidia, поэтому и AMD решила копнуть в эту же сторону.

С выходом Radeon R9 Fury X на рынок, компания создала основу для подобной же элитной подсерии в линейке своих графических решений с собственным именем и повышенной ценой. Серия AMD Radeon R9 Fury состоит из нескольких моделей, в ее рамках выйдет еще два-три продукта, но топовой одночиповой стала модель Fury X — очень компактная видеокарта с высочайшей 3D-производительностью.

С технической стороны, самое интересное в Fury X то, что это — первое решение с применением нового типа памяти High Bandwidth Memory, о котором мы уже подробно писали. Оснастить свое очередное топовое решение HBM-памятью компания AMD решила ещё пару лет назад, и они работали в этом направлении вместе с компанией Hynix, чтобы получить большую пропускную способность памяти (ПСП), которая требуется при рендеринге в высоких разрешениях. Память стандарта HBM по всем параметрам превосходит GDDR5-память, предлагая большую пропускную способность при меньшем потреблении энергии и значительно меньшем физическом размере, что помогает при освоении форм-факторов меньшего размера.

Графический процессор Fiji, на котором основана новая модель видеокарты, использует старый проверенный 28 нм техпроцесс от TSMC, так как «переходный» 20 нм процесс не оправдал ожиданий, не обеспечив особых улучшений по сравнению с 28 нм, а массового производства больших чипов с применением ещё более «тонких» техпроцессов можно ожидать лишь в следующем году. В итоге 28 нм технологический процесс и для AMD и для Nvidia стал одним из самых «долгоиграющих», на его основе компании производят свои графические процессоры вот уже несколько лет.

Для компании AMD успех новой топовой модели на рынке является критически важным. С технологической точки зрения Fury X важна как первая видеокарта с применением памяти стандарта HBM, так как опыт, полученный в результате проектирования и подготовки этой модели к производству, может стать ключевым и в будущем, когда все станут применять аналогичную память следующих поколений. С рыночной же точки зрения, топовая карта важна для компании по той причине, что именно на нее обращают внимание энтузиасты и журналисты, и выпуск конкурентоспособного топового продукта просто необходим, хотя прямые прибыли с продаж таких решений составляют малую часть общей прибыли компании.

Главное для Fury X — выступить на очень хорошем уровне, а еще лучше — завоевать звание лучшей топовой игровой видеокарты. И хотя большинство покупателей никогда не купят видеокарту за $650, но лидерство в топовом сегменте всегда влияет на продажи во всех остальных рыночных диапазонах опосредованно, хотя и с некоторой инерцией. Положительный эффект от конкурентоспособного топового решения повысит продажи видеокарт всех уровней, что скажется и на общей доле рынка. А ведь дела у компании AMD на рынке дискретных видеокарт в последние кварталы шли совсем плохо, они скатились к уровню многолетней давности и улучшение финансовых и рыночных показателей необходимо компании. В нашем материале мы постараемся разобраться, достаточно ли хорошей оказалась попытка AMD.

Основой модели Radeon R9 Fury X является графическое ядро Fiji, имеющее архитектуру GCN 1.2 и во многих деталях схожее с некоторыми из ранее вышедших решений компании AMD. Поэтому, перед прочтением теоретической части статьи, желательно ознакомиться с предыдущими материалами по видеокартам прошлых поколений:

Графический ускоритель Radeon R9 Fury X
Кодовое имя	«Fiji»
Технология производства	28 нм
Количество транзисторов	8,9 млрд.
Архитектура	Унифицированная, с массивом общих процессоров для потоковой обработки многочисленных видов данных: вершин, пикселей и др.
Аппаратная поддержка DirectX	Уровень возможностей Feature Level 12_0 и шейдерной модели Shader Model 5.0
Шина памяти	4096-битная: восемь контроллеров памяти с поддержкой стандарта High Bandwidth Memory
Частота графического процессора, МГц	1050
Вычислительные блоки	64 вычислительных блока GCN, включающих 256 SIMD-ядер, состоящих в общем из 4096 ALU для расчетов с плавающей запятой (поддерживаются целочисленные и плавающие форматы, с точностью FP32 и FP64)
Блоки текстурирования	256 текстурных блоков, с поддержкой трилинейной и анизотропной фильтрации для всех текстурных форматов
Блоки растеризации (ROP)	64 блока ROP с поддержкой режимов сглаживания с возможностью программируемой выборки более чем 16 сэмплов на пиксель, в том числе при FP16- или FP32-формате буфера кадра. Пиковая производительность до 64 отсчетов за такт, а в режиме без цвета (Z only) — 256 отсчетов за такт
Поддержка мониторов	Интегрированная поддержка до шести мониторов, подключенных по интерфейсам DVI, HDMI и DisplayPort

Спецификации видеокарты Radeon R9 Fury X
Частота ядра, МГц	1050
Количество универсальных процессоров	4096
Количество текстурных блоков	256
Количество блоков блендинга	64
Эффективная частота памяти, МГц	1000 (2×500)
Тип памяти	HBM 4096-бит
Объем памяти, ГБ	4
Пропускная способность памяти, ГБ/с	512
Вычислительная производительность (FP32), Терафлопс	8,6
Теоретическая максимальная скорость закраски, Гигапикселей/с	67,2
Теоретическая скорость выборки текстур, Гигатекселей/с	268,8
Шина	PCI Express 3.0
Разъемы	один HDMI 1.4a и три DisplayPort 1.2a
Типичное энергопотребление, Вт	275
Дополнительное питание	Два 8-контактных разъема
Число слотов, занимаемых в системном корпусе	2
Рекомендуемая цена	для рынка США — $649

Мы уже отметили, что рассматриваемой моделью компания AMD открыла новое подсемейство элитных видеокарт Fury, номинально входящих в линейку Radeon 300. Топовое решение подсемейства получило наименование Fury X — суффикс «X» указывает на экстремальное (в данном случае — одночиповое) решение. Выбор имени Fury компания не пыталась как-то обосновать. Вероятно, это имя взяли от успешных в свое время видеокарт семейства ATI Rage Fury, вышедших в конце 1990-х годов. Кроме того, Фурии — это богини мести в древнеримской мифологии, а Титаны — боги из древнегреческой мифологии.

Модель Radeon R9 Fury X заняла свое положение в самой верхней части продуктовой линейки компании, а установленная рекомендованная цена Radeon R9 Fury X равна $649 — ровно на уровне прямого конкурента в лице Geforce GTX 980 Ti от Nvidia, который был анонсирован в конце мая в виде превентивного удара по будущему (на тот момент) решению AMD. Конкурирующее решение предложило производительность, близкую к той, что имеет элитная модель Geforce GTX Titan X, за куда меньшие деньги, и Fury X теперь приходится соперничать именно с игровой GTX 980 Ti.

Один из самых спорных моментов в характеристиках новой модели — наличие лишь 4 ГБ видеопамяти, чего пока что хватает даже для высоких разрешений при максимальных настройках качества, но в ряде современных игр при 4K-разрешении рендеринга, а также включении полноэкранного сглаживания и высоких настройках качества, уже сейчас требуется еще больший объем. И AMD была бы рада предложить вариант с 8 ГБ, но увы — первое поколение HBM-памяти просто не позволяет сделать его. Подробнее обо всех тонкостях, связанных с HBM-памятью, читайте ниже в специальном разделе нашего материала.

Сама по себе видеокарта очень компактна по размерам — длина печатной платы Radeon R9 Fury X равна всего лишь 7.5 дюймов (около 190 мм), что значительно меньше типичных референсных карт верхнего ценового диапазона. Небольшая плата сочетается с большим радиатором системы водяного охлаждения. Сочетание СВО с HBM-памятью позволило уменьшить физические размеры и число компонентов на плате (в схеме питания, в частности). Можно сравнить площади GPU и RAM на Radeon R9 290X и R9 Fury X:

В типичных игровых условиях видеокарта Radeon R9 Fury X потребляет около 275 Вт, но так как она оснащена парой 8-контактных разъемов питания PCI-E, то может получать от блока питания до 375 Вт, то есть, намного больше. С точки зрения интерфейсов ввода-вывода, Radeon R9 Fury X способен выводить информацию на шесть дисплеев (при использовании хаба DisplayPort 1.2 MST), подключенных по разъемам DVI (требуется переходник), HDMI 1.4a и DisplayPort 1.2a.

Среди разъемов на плате есть один видеовыход формата HDMI и три DisplayPort. От устаревшего разъема DVI решили избавиться совсем, хотя в Radeon HD 7970 и Radeon R9 290X они ещё были, а иногда и по два. И пользователям старых мониторов с DVI-интерфейсами теперь придется использовать переходники: пассивные, если достаточно Single Link, и более дорогие для Dual Link соединений.

Увы, но по причине отсутствия поддержки HDMI 2.0, новинка поддерживает вывод изображения в разрешении 4K при 60 Гц только по DisplayPort. Вероятно, со временем также появится возможность применения активных переходников с DisplayPort на HDMI 2.0, но пока что такие конфигурации не работают.

Архитектурные и функциональные особенности

Так как модель Radeon R9 Fury X основана на графическом процессоре Fiji, который принадлежит к давно известной архитектуре Graphics Core Next (GCN), то о многих деталях вы можете узнать из наших ранних материалов. Указанная архитектура лежит в основе всех современных решений компании AMD, и даже последние GPU отличаются лишь некоторыми модификациями в вычислительных способностях и дополнительными графическими возможностями, важными для поддержки DirectX 12.

Как и предыдущий топовый чип Hawaii, новый GPU не является первенцем полностью новой архитектуры, а лишь использует последнюю версию нынешней Graphics Core Next (ее можно назвать GCN 1.2 или GCN третьего поколения). В Fiji было сделано небольшое количество изменений по сравнению с тем же прошлогодним Tonga, и новинку вполне можно отнести к поколению GCN 1.2. Из базовых изменений, появившихся в Fiji, основанном на последней версии архитектуры Graphics Core Next, можно отметить все то, что мы уже видели в чипе Tonga, на котором базируется видеокарта модели Radeon R9 285.

Новый топовый графический процессор включает в себя все доработки GCN 1.2, в том числе улучшенную производительность обработки геометрии и тесселяции (по этим показателям Fiji на уровне с Hawaii и Tonga и быстрее чем Tahiti), новые методы сжатия данных без потерь в кадровом буфере, некоторые мультимедийные 16-битные инструкции, а также увеличенный объем кэш-памяти второго уровня до 2 МБ. С точки зрения вычислительных возможностей, новый GPU получил улучшенное планирование и распределение задач и несколько новых инструкций для параллельной обработки данных.

Наиболее «громким» архитектурным улучшением является появление значительно улучшенных алгоритмов сжатия данных кадрового буфера без потерь — для этого блоки ROP были специальным образом модифицированы. Именно операции (в основном записи) с кадровым буфером являются наиболее требовательными к пропускной способности памяти, ведь GPU записывает в буфер очень большое количество пикселей каждый кадр. Так что увеличение эффективности этой работы приводит к меньшей требовательности к ПСП и увеличивает так называемую эффективную ПСП.

В случае чипов архитектуры GCN 1.2, новые методы сжатия данных буфера кадров обеспечивают степень сжатия до 8:1, а в среднем это выливается в 40% улучшения по эффективности использования ПСП. Так, Radeon R9 285 с 256-битной шиной имеет схожую эффективную ПСП с Radeon R9 280, имеющим 384-битную шину памяти. Ну а в случае топового чипа Fiji, эффективная ПСП выросла до сверхвысоких значений, так как чип содержит 4096-битную память стандарта HBM, но об этом — чуть позже.

Также в рамках архитектуры GCN 1.2 были сделаны некоторые изменения и в вычислительных блоках: улучшения планирования и распределения задач между исполнительными блоками в рамках гетерогенной архитектуры HSA, внедрение новых 16-битных инструкций, позволяющих повысить скорость и снизить энергопотребление, а также улучшения по параллельной обработке данных, что наиболее важно в случае топового графического процессора Fiji. Как и другие продукты архитектуры GCN 1.2, новый GPU имеет возможность ограниченного обмена данными между разными линиями SIMD, открывающую возможность для новых эффективных алгоритмов в OpenCL-программах.

Ну а для простых энтузиастов самыми важными архитектурными изменениями стали уже упомянутое сжатие данных кадрового буфера и ускорение геометрической обработки и тесселяции. Это улучшение было сделано еще в Hawaii, ничего не изменилось и в Tonga. А вот теперь в случае Fiji работа геометрического конвейера была дополнительно оптимизирована, что должно положительно сказаться в задачах с большим количеством геометрии и с применением тесселяции.

Общая схема графического процессора Fiji весьма схожа с той, что мы видели еще в чипе Hawaii, вышедшем в далеком уже 2013 году. Оба этих GPU разделены на четыре шейдерных движка Shader Engine, каждый из которых имеет свой собственный процессор для обработки геометрических данных и растеризатор, а также по четыре укрупненных блока ROP, способных обработать по 16 пикселей за такт (всего получается 64 блока ROP в каждом из этих чипов). GPU имеет единый командный процессор и восемь движков асинхронных вычислений Asynchronous Compute Engine, которые были модифицированы с учетом изменений в GCN 1.2.

По сравнению с Hawaii, в плане организации инженеры компании AMD в чипе Fiji не тронули ничего, просто разместив большее количество вычислительных блоков Compute Unit в каждом движке Shader Engine (16 вместо 11), но оставили без изменений количество самих движков (вероятно, это — архитектурное ограничение GCN в ее нынешнем виде) и количество других исполнительных блоков в их составе.

С учетом того, что каждый CU содержит по 64 ALU, получается 1024 ALU на каждый Shader Engine и 4096 потоковых процессора на весь Fiji. Соответственно же было увеличено и количество текстурных блоков, ведь на каждый CU в видеочипах архитектуры GCN приходится по четыре блока TMU, поэтому всего в новом GPU их стало 256 штук, в отличие от 176 TMU в Hawaii.

Соответственно, теоретические значения скорости вычислений и обработки текстур в Fiji выросли, а вот пиковые значения скорости обработки геометрии и скорости заполнения (филлрейт, производительность блоков ROP) остались практически на том же уровне, с поправкой лишь на разную частоту GPU. Возможно, в некоторых случаях может наблюдаться упор общей производительности в скорость заполнения сцены или обработки геометрии, но это сильно зависит от условий (сложности сцены и значения overdraw для нее, а также разрешения и полноэкранного сглаживания и т.д.).

Но представители AMD уверяют, что в случае Hawaii ограничителем чаще всего служит пропускная способность памяти (ПСП), а производительности блоков ROP вполне достаточно в большинстве случаев, и скорость рендеринга в их возможности упирается крайне редко. Но ведь в Fiji применяется более быстрая HBM-память с широкой шиной, а также внедрены новые методы сжатия данных в экранном буфере, да и сами блоки ROP в Fiji получили более широкие возможности по работе с данными формата 16-бит на цвет. Так что, скорее всего, количество случаев упора общей производительности в возможности блоков ROP только увеличится. А повысить количество блоков ROP в новом чипе не представлялось возможным, так как GPU и так получился достаточно крупным.

Исходя из количества ALU в 4096 штуки, а также максимальной частоты GPU, равной 1050 МГц, можно получить теоретическую производительность вычислений одиночной точности (FP32) в 8,6 терафлопс. А вот с вычислениями двойной точности в новом чипе дела обстоят значительно хуже, чем в том же Hawaii — тут AMD пришлось пойти примерно в том же направлении, что выбрала Nvidia для своего старшего Maxwell, сместив акцент в сторону игрового применения в ущерб профессиональным вычислениям.

Хотя разные чипы архитектуры GCN умеют исполнять FP64-вычисления с темпом от 1/2 до 1/16 от скорости FP32-вычислений, для Fiji компания AMD выбрала минимальное значение (1/16), что дает скорость FP64 около 538 мегафлопс. Сравните это с возможностями Hawaii, который выполняет вычисления с двойной точностью лишь вдвое медленнее вычислений одинарной точности. Даже менее сложные дешевые чипы GCN имеют темп в 1/8! Так что Fiji стал таким же «игровым», как и GM200. Похоже, что AMD взяла пример (хороший или нет — зависит от точки зрения) с Nvidia, обрезавшей свой топовый GPU еще сильнее. И в итоге, оба топовых игровых чипа от AMD и Nvidia являются больше игровыми, чем профессионально-вычислительными.

Да и в остальном графический процессор Fiji является не совсем типичным видеочипом для AMD. В этот раз компания выпустила довольно большой GPU — площадью почти 600 мм²! А ведь они вот уже несколько лет стараются избегать подобных больших и сверхгорячих видеочипов, так как они слишком дороги в разработке и производстве, да и времени от начала разработки до выхода на рынок требуют больше из-за сложностей и проектирования и сниженного выхода годных чипов. Не говоря уже о том, что с большими GPU и риск неудач выше. Хотя, конечно же, сейчас 28 нм техпроцесс уже отлично отработан и особых проблем производителям видеочипов не доставляет.

Но даже Hawaii в свое время уже был немаленьким с его 438 мм², а уж в виде Fiji впервые за несколько лет у AMD получился GPU, лишь незначительно менее сложный, по сравнению с конкурирующим чипом Nvidia по количеству транзисторов и размеру кристалла. Так, Fiji имеет размер ядра в 596 мм², что лишь на 5 мм² меньше размера GM200 разработки компании Nvidia. Кстати, цифра около 600 мм² весьма интересна — похоже, что тайваньская TSMC просто не способна массово производить еще большие чипы, и обе компании рассчитывали получить максимум с учетом этого ограничения. Тем более интересно, каких успехов они достигли в итоге по скорости и функциональности по сравнению друг с другом.

Снижение темпа FP64-вычислений позволило значительно упростить вычислительные блоки в Fiji, и количество блоков CU увеличилось с 44 до 64, поэтому вместо 2816 вычислительных блоков ALU в новом GPU их стало ровно 4096. С ростом вычислительной и текстурной производительности, по сравнению с Hawaii, остальные параметры производительности изменились не сильно. К примеру, количество геометрических движков, равно как и теоретическая скорость обработки геометрии, остались прежними (чуть больше из-за повышенной частоты видеочипа в Radeon R9 Fury X по сравнению с Radeon R9 290X). Но в архитектуре GCN 1.2 также были сделаны улучшения, предназначенные для ускорения обработки геометрии, и Fiji по этому показателю должен быть быстрее Hawaii даже при равных пиковых показателях. Мы обязательно проверим это в наших синтетических тестах.

Хотя сам по себе GPU архитектурно изменился очень мало, в нем есть несколько изменений, связанных с применением нового типа памяти. Графический процессор Fiji включает восемь контроллеров памяти HBM, каждый из которых обслуживает половину HBM-стека (всего их на чипе четыре), и каждый контроллер связан со своими восемью блоками ROP и разделом кэш-памяти второго уровня объемом 256 КБ.

Fury X получил на 60% большую пропускную способность видеопамяти, по сравнению с R9 290X (4096-битная шина с 512 ГБ/с против 512-битной шины с 320 ГБ/с). Вместе с улучшениями по сжатию цветовой информации кадрового буфера, это дает вдвое большую эффективную ПСП — а этот показатель является одним из ключевых для современных графических процессоров в рамках реальных приложений. Конечно, сжатие будет хорошо работать в 3D-рендеринге, но вряд ли в вычислительных задачах, но в любом случае применение HBM-памяти дает неплохой прирост в ПСП. Но даже при такой высокой ПСП, кэш-память все равно в разы быстрее, и поэтому в новом GPU был увеличен и объем кэш-памяти второго уровня: Fiji имеет 2 МБ L2-кэша, по сравнению с 1 МБ у предшествующего топового решения.

Важные изменения произошли в плане обработки видеоданных — соответствующий блок Unified Video Decoder (UVD) имеет те же возможности, что и блоки APU семейства «Carrizo» и умеют аппаратно ускорять декодирование видеоданных в формате H.265 (HEVC). По части кодирования видеоданных, возможности блока VCE в Fiji не изменились, он все также умеет кодировать визуальный ряд в формат H.264, а вот блок декодирования видео получил полную аппаратную поддержку декодирования видеоданных в формате H.265, став первым дискретным GPU с подобной поддержкой.

Также AMD отмечает улучшенный скейлер и технологию Eyefinity — возможность вывода картинки на шесть устройств вывода изображения. К сожалению, ожидаемая многими поддержка HDMI 2.0 в новом GPU отсутствует. И это — довольно существенный недостаток, ведь самые доступные устройства с 4K-разрешением — это телевизоры, в которых чаще всего есть HDMI 2.0 порты и нет DisplayPort. Напомним, что конкурирующие видеокарты Nvidia получили поддержку HDMI 2.0 во всех GPU второго поколения архитектуры Maxwell.

Среди достоинств Fiji остается отметить поддержку технологии TrueAudio, которой также обладает чип Fiji. Эта технология появилась в графических процессорах семейства GCN 1.1, она предлагает аппаратное ускорение обработки аудиоданных на нескольких DSP от Tensilica, аналогичных тем, что включены в состав основного чипа консоли Sony PlayStation 4. Несмотря на все прелести аппаратной обработки звука в виде разгрузки основного CPU от этих задач, поддержка TrueAudio в играх ограничивается несколькими играми, вышедшими под эгидой специальной технической и маркетинговой программы AMD, а вероятность увидеть ее в других играх не слишком велика.

Конструктивные особенности и система охлаждения

Неудивительно, что компания AMD решила использовать при создании Radeon R9 Fury X такие же высокие стандарты для своей элитной серии Fury, как и Nvidia в Titan. Корпус видеокарты выполнен из нескольких частей, собранных вокруг печатной платы, а при его изготовлении применяются алюминиевые сплавы с разной обработкой поверхности, в итоге она выглядит и ощущается солидно, как и требуется от топового решения.

Фронтальная панель платы Radeon R9 Fury X, закрывающая компоненты на плате — съемная. Она закреплена четырьмя винтами и может заменяться панелью, сделанной из другого материала и с собственным рисунком — для возможности придания карте персонализированного вида. В случае видеокарты, которая обычно помещена внутрь корпуса так, что ее фронтальная поверхность не будет видна, это не так уж важно, но в целом — идея оригинальная и интересная.

Для большего визуального эффекта на плату решили поместить несколько светодиодов, а также красный светящийся логотип — аналогично двухчиповой модели прошлого поколения Radeon R9 295X2, новинка имеет на борту красную светящуюся надпись RADEON. Также новая топовая видеокарта компании AMD содержит несколько светодиодов, сигнализирующих о режиме работы GPU и размещенных над разъемами дополнительного питания PCI Express.

Линейка из восьми светодиодов GPU Tach показывает интенсивность загрузки графического процессора работой в данный момент. То есть, в игровом режиме все восемь светодиодов будут гореть, а в режиме рабочего стола горит лишь один из них. Цвет этих светодиодов выбирается пользователем из красного или голубого при помощи переключателя на задней стороне платы. А еще один зеленый светодиод, расположенный рядом с ними, показывает активность режима пониженного энергопотребления AMD ZeroCore.

Для обеспечения охлаждения мощнейшего графического процессора компании AMD было решено применить систему водяного охлаждения, которая обеспечивает работу GPU при типичной игровой нагрузке при температуре около 50 градусов. Системы водяного охлаждения уже давно стали нормой в системах, предназначенных для энтузиастов, а модель Radeon R9 295X2 стала первой видеокартой с референсным кулером такого типа — с системой водяного охлаждения замкнутого цикла.

Так как новый GPU очень требователен к питанию и выделяет много тепла, то немудрено, что и для Radeon R9 Fury X была выбрана аналогичная система производства компании Cooler Master. Кулер имеет радиатор и вентилятор размера 120 мм, а их совместная толщина равна 60 мм, что довольно много. В результате, СВО спокойно отводит до 500 Вт тепла, что намного превышает указанную цифру типичного энергопотребления для Fury X, равную 275 Вт — запас оставлен очень большой.

Хотя ранее мы уже видели не одну видеокарту с системами водяного охлаждения, но именно сочетание ее с памятью типа HBM позволило заметно уменьшить физические размеры печатной платы и корпуса видеокарты. Новая память также позволила снизить число компонентов в системе питания платы. Поэтому новинка сильно отличается от привычных топовых видеокарт с воздушным охлаждением, занимающих пару-тройку слотов по всей длине. Длина печатной платы Radeon R9 Fury X равна всего лишь 7.5 дюймов (порядка 190 мм), что значительно меньше типичных референсных карт верхнего ценового диапазона.

Все компоненты на плате (GPU, VRM и чипы памяти) охлаждаются единой системой, укомплектованной 120 мм радиатором и качественным вентилятором соответствующего размера производства Nidec. Кулер охлаждает сам GPU и соответствующие компоненты, в том числе MOSFET в модуле регулятора напряжения (VRM) — для этого проложена специальная трубка. Сам видеочип с помещенными на него микросхемами HBM охлаждается основным блоком помпы.

Применяемый кулер способен отвести до 500 Вт тепла, хотя модель получает питание по паре 8-контактных разъемов PCI-E, позволяющих передать до 375 Вт, а шестифазный модуль регулятора напряжения VRM способен обеспечить схемы током до 400 А — здесь виден большой запас для энтузиастов разгона, так как типичная величина энергопотребления платы Fury X, указанная компанией AMD, гораздо ниже — всего лишь 275 Вт.

Так как в системе охлаждения Radeon R9 Fury X применяется качественный вентилятор большого размера, то кулер обеспечивает довольно низкий уровень шума в 32 дБА — это значительно меньше, чем у воздушного охлаждения с типичными 40-45 дБА. Хотя от первых пользователей видеокарт Fury X появились претензии к шуму, исходящему от помпы, а не вентилятора — но эту проблему AMD обещала решить в следующих партиях производимых для рынка плат.

Большинство энтузиастов, покупающих подобные видеокарты, интересуются разгоном, в том числе и экстремальным. И компания AMD облегчила часть задачи, укомплектовав свою топовую одночиповую карту мощным кулером и системой питания с большим запасом. Чаще всего разгон ограничивает именно недостаток охлаждения или питания, а Radeon R9 Fury X была спроектирована так, чтобы минимизировать эти ограничения, что должно порадовать любителей разгона.

Используя страницу AMD Overdrive в панели управления AMD Catalyst Control Center, пользователю дается возможность установки тактовых частот, целевой температуры, скорости вращения вентилятора и пределов по питанию — чтобы регулировать скорость видеокарты. Пока что с разгоном видеопамяти нового стандарта HBM не все понятно, но зато ее разгон с 500 до 600 МГц дает ощутимое ускорение в играх:

Надо сказать, что на момент выхода карты ее возможности для оверклокинга серьезно ограничены, компания AMD не дала возможности повышения напряжения и разгона HBM-памяти, можно повысить только частоту GPU и предел общего потребления энергии, но задел имеется весьма серьезный. Этому поможет и переключатель Dual BIOS, как и в топовых картах предыдущего поколения, позволяющий выбирать между фиксированным референсным образом BIOS и модифицированным, и в будущем весьма вероятно появление рекордов производительности, полученных экстремальными оверклокерами, использующими все указанные выше возможности видеокарты Radeon R9 Fury X.

Новый стандарт памяти High Bandwidth Memory

Как мы уже упоминали, главным нововведением видеокарты AMD Radeon R9 Fury X стало применение видеопамяти нового стандарта — High Bandwidth Memory (HBM). До сих пор в видеокартах применялась лишь GDDR5-память, которая является эволюционным развитием давно известных стандартов, и хотя и имеет улучшенные характеристики по производительности и энергопотреблению по сравнению с GDDR3/GDDR4, но улучшения эти не столь значительны.

Основам ранее применяемых стандартов DRAM уже много лет, и модификации позволили повысить пропускную способность далеко не настолько, насколько выросла производительность GPU за это время. За двадцать лет улучшения стандартов позволили поднять пропускную способность памяти (ПСП) всего лишь примерно в 50 раз, в то время как скорость вычислений графических процессоров за это время выросла много больше. Поэтому индустрии потребовались новые типы памяти, которые дадут совершенно иные возможности.

В стандарте GDDR5 тот тип памяти достиг своего предела, и хотя небольшие возможности для роста ПСП еще есть, но они требуют больших усилий и не изменят ситуацию кардинально. При этом вопрос высокого потребления не решится, а ведь энергоэффективность — главный параметр для любого современного чипа. Уже текущие поколения GDDR5-памяти потребляют слишком много энергии из-за сложных механизмов тактования и работы на очень высокой частоте, а любые улучшения производительности GDDR5 связаны с дальнейшим повышением частоты и сложности, а значит, и энергопотребления.

Также GDDR5-чипы занимают слишком много места на плате и требуют применения нескольких каналов памяти, что усложняет и сам графический процессор. Особенно если говорить о топовых GPU с 384-битной или даже 512-битной шиной памяти. Хотя сам по себе размер видеокарт не имеет слишком большое значение для игровых ПК, но в последнее время появляется много компактных корпусов в новых форм-факторах, применять в которых нынешние видеокарты не получится.

Чтобы решить все эти проблемы, компании AMD и Hynix еще в 2011 году анонсировали совместные планы по разработке и внедрению нового стандарта памяти — High Bandwidth Memory. Новый тип памяти стал огромным шагом вперед по сравнению с применяющейся до сих пор GDDR5-памятью, и среди главных преимуществ HBM значатся серьезное увеличение пропускной способности и увеличение энергетической эффективности (снижение потребления вместе с ростом производительности).

Напомним, что компания AMD, как и компания ATI в прошлые годы, в последнее время является лидером по освоению новых типов графической памяти. Хотя продукты с поддержкой GDDR2 и GDDR3 первыми выпустили не они, именно эта компания первой оснастила свои решения видеопамятью последних двух существующих стандартов: GDDR4 и GDDR5. Соответственно, в 2011 году в партнерстве с Hynix они решили продолжить инициативу по приоритетной разработке и внедрению новых стандартов видеопамяти в будущих GPU. И вот, после четырех лет разработки компании наконец-то представили графический процессор, оснащенный совершенно новым типом графической памяти.

Стандарт HBM отличается тем, что вместо массива очень быстрых чипов памяти (7 ГГц и выше), соединенных с графическим процессором по сравнительно узкой шине от 128 до 512 бит, применяются очень медленные чипы памяти (порядка 1 ГГц эффективной частоты), но ширина шины памяти при этом получается шире в несколько раз. Как и в случае с GDDR5, ширина шины для различных GPU будет разной и она зависит как от поколения стандарта HBM (первого или второго на данный момент), так и конкретного воплощения.

В случае Radeon R9 Fury X применяются четыре стека (stacks, стопок или пачек) чипов памяти, каждый из которых состоит из четырех микросхем и дает 1024-битный интерфейс памяти. То есть в итоге на GPU получаются широченная по меркам GDDR5-памяти шина в 4096 бит. Естественно, что при этом чипам памяти не обязательно работать на таких же высоких частотах, как в случае GDDR5 — сравнительно низкой частоты будет достаточно, чтобы по полосе пропускания памяти (ПСП) обойти привычные интерфейсы.

4096-битная шина памяти требует значительно большее количество соединений, по сравнению с привычной GDDR5, и все они должны поместиться физически, чтобы такая шина работала. Именно эти параллельные соединения и являются главной проблемой в соединении GPU с HBM-памятью, и для успешного решения задач по их размещению в новом типе памяти применяется несколько новых технологий.

Самым важным вопросом является эффективная разводка 4096-битной шины памяти. Ведь даже самые последние технологии производства чипов имеют свои ограничения, и графические процессоры никогда не переходили предел в 512 бит, даже в самых последних топовых графических чипах вроде Hawaii. Организовать еще более широкую шину памяти на больших GPU теоретически возможно, но решение этой сложной задачи будут ограничивать физические возможности по размещению такого количества соединений и на печатной плате и в самом чипе, не говоря уже о необходимом количестве контактов на корпусах типа BGA.

Решением части этой задачи стала разработка специального слоя, который способен вместить соединения большой плотности — кремниевой подложки (interposer). Этот слой похож на обычный кремниевый кристалл, в котором вместо некоей внутренней логики размещены металлические слои для передачи сигналов и питания между различными компонентами — получается некий переходник. При производстве interposer используются возможности современных литографических процессов, позволяющих разместить очень тонкие проводники, которые практически невозможно вместить на традиционных печатных платах.

Использование слоя-переходника решает часть фундаментальных проблем по размещению широкой шины памяти, а также дает и другие преимущества. Так, вместе с решением проблемы маршрутизации проводников, эта кремниевая подложка позволяет разместить чипы памяти очень близко к GPU, но не прямо на кристалле, как применяется в случаях некоторых мобильных систем-на-чипе. А если поместить микросхемы памяти близко к графическому чипу, то и длинных соединений между ними не требуется, что упрощает конструкцию и предъявляет менее жесткие требования по питанию.

Помещение чипов памяти вместе с основной логикой также выигрывает в повышении степени интеграции — большее количество функциональной логики можно собрать в одной упаковке, что уменьшает количество необходимой внешней обвязки. В итоге, компания AMD выпустила первый массовый продукт, использующий слой interposer, и стала первой компанией, выпустившей решение с применением stacked DRAM и интеграцией чипов HBM и GPU.

Конечно, у решения с промежуточным слоем есть и свои недостатки — усложнение конструкции и повышение себестоимости производства. Естественно, что никто из AMD не говорит о стоимости производства первых чипов с HBM, но очевидно, что добавление дополнительного слоя, а также его соединение и тестирование всего продукта, включающего сложнейшую логику, может лишь увеличить его себестоимость, особенно в самом начале его производства. И особенно — по сравнению с давно отработанными технологиями производства традиционных печатных плат и чипов без кучи слоев, соединенных друг с другом.

Рассматривая весь «бутерброд» в разрезе, можно увидеть, что интерпозер становится новым слоем между традиционной упаковкой и чипами DRAM с дополнительной управляющей логикой, смонтированными прямо на интерпозере. Для связи чипов памяти и логики с интерпозером используются специальные соединения типа microbump и TSV (through-silicon vias), далее интерпозер соединяется с основным кристаллом, а тот уже привычно соединен с печатной платой контактами BGA.

Само по себе присоединение чипа с HBM-памятью к печатной плате несколько упрощается, так как в данном случае на PCB не будет никаких соединительных линий к микросхемам памяти, остаются только линии для передачи данных (по шине PCI Express и т. п.), а также для питания графического процессора и микросхем памяти. Часть этих сложностей переходит на слой интерпозера, поэтому его тестирование при производстве становится одной из самых важных задач.

Еще один важный технологический момент в присоединении чипов HBM-памяти друг к другу заключается в создании соединений типа through-silicon vias (TSV). Обычные типы соединений позволяют соединить два слоя вместе, а TSV расширяет эти возможности, соединяя и дальнейшие кремниевые слои. С точки зрения производственного процесса, соединения типа TSV сложнее в производстве и объединение чипов DRAM в стеки является непростой технологической задачей. К стопке чипов памяти снизу присоединено еще и логическое ядро, которое отвечает за работу всех чипов DRAM в стеке и управляет шиной HBM между стеком и GPU.

Главным ограничителем для дальнейшего роста производительности сейчас являются возможности по изготовлению слоя интерпозера — в нем нужно сделать много очень маленьких соединений для нескольких слоев памяти. Именно поэтому количество слоев пока что ограничено четырьмя, а размещения восьми слоев придется немного подождать — в HBM второго поколения уже будет восемь слоев (и вдвое больше ПСП при прочих равных условиях, соответственно). В остальном HBM2 будет мало отличаться от HBM1, разве что еще ожидается поддержка коррекции ошибок ECC, важная для применения в профессиональных решениях.

Но второе поколение появится лишь в следующем году, а что дает применение HBM в Radeon R9 Fury X? Первое поколение HBM, которое применяется в новом топовом GPU от AMD, позволяет использовать 1024-битные стеки из четырех чипов, работающих с частотой до 500 МГц, которая соответствует эффективной частоте в 1 ГГц для DDR-памяти. То есть каждый стек способен обеспечить до 128 ГБ/с полосы пропускания видеопамяти. Это дает нам итоговую пропускную способность в 512 ГБ/с.

Конечно же, это заметно больше, чем 320 ГБ/с у Radeon R9 290X и 336 ГБ/с у лучшей карты конкурента Geforce GTX Titan X, но обеспечивает лишь до 60% прироста в ПСП — не слишком много для абсолютно нового типа памяти с такой широкой шиной, ведь чисто теоретически можно предположить появление GPU с 512-битной шиной и применением очень быстрой GDDR5-памяти, которая по ПСП не уступит первому варианту HBM-памяти. Представители AMD также утверждают, что и задержки доступа к памяти в случае с HBM получаются чуть ниже — на 15-20% по сравнению с GDDR5. Это не так уж важно для графических задач, но очень важно для CPU и некоторых вычислительных задач на GPU.

Но, кроме повышения ПСП и небольшого снижения задержек, применение HBM обеспечивает и снижение потребления энергии всей подсистемой памяти. В текущем топовом решении Radeon R9 290X до 15-20% из 250 Вт общего потребления энергии, расходуется на питание чипов GDDR5 — то есть, до 37,5-50 Вт в абсолютных цифрах. По другим данным AMD следует, что GDDR5 обеспечивает 10,66 ГБ/с ПСП на 1 Вт, и потребление GDDR5-памяти получается несколько ниже — 30 Вт. HBM же память дает более 35 ГБ/с на ватт, то есть обеспечивает более чем втрое лучшую энергоэффективность, по сравнению с GDDR5.

Преимущество в энергоэффективности позволяет улучшить производительность и/или сэкономить энергию. Последнее важно для мобильных решений, а для топового GPU можно повысить его мощность при отсутствии роста потребления энергии. Если взять значение итогового ПСП в 512 ГБ/с при четырех стеках HBM-памяти, то такие чипы будут потреблять около 15 Вт против 30 Вт у 320 ГБ/с GDDR5 в случае Radeon R9 290X. Разницу в 15 или даже 20-25 Вт (с учетом разницы в ПСП) можно потратить на увеличение производительности самого GPU, ведь технология управления питанием PowerTune ограничивает общее потребление видеокартой, и большая доля питания, выделенная для GPU, позволяет компании AMD повысить тактовые частоты и напряжение для топового графического процессора с применением HBM.

Резкое увеличение ПСП будет полезно в любом случае, и применение HBM лишь улучшит итоговую производительность. Но тут есть одна оговорка — даже имея преимущество по ПСП, предшествующие решения компании AMD были или не быстрее соперничающих видеокарт Nvidia, или даже несколько медленнее их. Но так как новый GPU компании AMD основан на архитектуре GCN 1.2, то ситуация заметно улучшилась, так как именно в этой версии архитектуры были внедрены новые методы сжатия данных буфера кадра, исправляющие ситуацию с недостаточной эффективностью использования имеющейся ПСП. И новый топовый графический процессор AMD получил не только высокую ПСП, но и улучшенную эффективность ее использования, что особенно важно в высоких разрешениях.

А еще одним преимуществом памяти стандарта HBM, отмечаемым компанией AMD в своих материалах, является компактный физический размер всего устройства — GPU вместе с чипами DRAM занимает очень мало места, по сравнению с привычными для нас форм-факторами с большой печатной платой, отдельным GPU и микросхемами памяти, размещенными на ней на некотором отдалении. Замена чипов GDDR5-памяти на маленькие HBM-стеки дает уменьшение размеров всей видеоплаты.

Так, каждый гигабайт GDDR5-памяти, состоящий из четырех двухгигабитных микросхем, занимает до 672 мм², а такое же количество HBM-памяти в виде HBM-стеке займет лишь 35 мм² — почти в 20 раз меньше! Даже если пересчитать цифры с применением четырехгигабитных микросхем, то разница по занимаемой площади останется почти на порядок.

Даже если брать площадь, занимаемую на PCB всеми микросхемами, то получается, что упаковка GPU с HBM-памятью займет порядка 4900 мм² против 9900 мм² у видеокарты Radeon R9 290X предыдущего поколения. Дополнительную экономию места можно использовать в разных целях, особенно учитывая еще и то, что стеки HBM-памяти не нуждаются в отдельной сложной подсистеме питания — разница на практике будет еще больше.

Вроде бы все замечательно, но есть некоторые вопросы к обеспечению охлаждения, так как в случае подобного решения чипы DRAM и сам GPU будут в одной упаковке, которая накрыта единой теплоотводящей крышкой, покрывающей и HBM-стеки и ядро GPU. Обеспечивается ли достаточно эффективное охлаждение для всей системы в таком случае, и как повлияет на работу чипов памяти соседство с крайне горячим ядром графического процессора?

Ну а главным предположительным минусом предполагаемой конфигурации из четырех стеков HBM-памяти может стать общий объем видеопамяти — ведь четыре стека по 1 ГБ дают лишь 4 ГБ в целом. Оснащение нового топового продукта AMD лишь 4 ГБ памяти, пусть и очень быстрой, потенциально может стать проблемным, ведь решения конкурента имеют больше видеопамяти, хотя и медленной GDDR5. Судя по всему, текущий дизайн позволяет разместить вокруг GPU всего лишь четыре стека, что и ограничивает общий объем четырьмя гигабайтами.

Правда, объем видеопамяти в 4 ГБ до сих пор очень часто применяется даже в топовых решениях, и его пока что вполне достаточно в большинстве игр при любых настройках. Но самые современные игры, вроде GTA V, уже частенько могут использовать больше видеопамяти, особенно в самых высоких разрешениях типа 4K. И при нехватке видеопамяти под буферы, игровые текстуры будут то загружаться в память, то освобождать ее, что вызовет снижение производительности и неплавность в частоте кадров. А ведь сейчас именно 4K и VR являются главными двигателями индустрии, и все они лишь увеличивают требования к объему видеопамяти, как и многомониторные конфигурации, поддержкой которых славятся решения компании AMD.

Получается, что даже для игрового решения наличие лишь 4 ГБ HBM-памяти может быть спорным, не говоря уже о профессиональном применении. Хотя пока что ситуации с нехваткой этого объема видеопамяти весьма редки, топовая видеокарта с такой ценой должна иметь некий запас прочности, чтобы не устареть за пару следующих лет. А с учетом наличия 8 ГБ общей памяти у главных игровых консолей текущего поколения, объема видеопамяти в 4 ГБ может вскоре не хватить в большем количестве игр.

Возможно, в AMD решились на применение такой памяти несколько рановато, и нужно было подождать коммерческой доступности второго поколения HBM-памяти, ведь его главное отличие в том, что будет удвоено число чипов DRAM на стек, а значит возрастет объем до 2 ГБ на стек, что позволит выпустить графический чип с 8 ГБ видеопамяти. Но это будет возможно лишь в будущем году, и второе поколение будет доступно не только для AMD, а они явно хотели стать первыми в освоении новой памяти.

Мало того, компания AMD стала не просто первым производителем графического процессора с памятью стандарта HBM, но и единственным производителем, освоившим HBM память первого поколения. Ведь стандартом, одобренным комитетом JEDEC, станет лишь второе поколение — HBM2, а HBM первого поколения будет использоваться исключительно совместно AMD и Hynix. И до появления продуктов, использующих второе поколение HBM, у AMD есть около года форы по применению этой технологии. Вполне возможно, что и второе поколение HBM2 они освоят быстрее конкурента — ведь опыт по работе с HBM-стеками у них уже будет довольно большой.

Программные технологии

Поговорим о программных технологиях, улучшенных и появившихся с выходом Radeon R9 Fury X. Мы писали о некоторых из них еще в декабре прошлого года, когда вышли драйверы с кодовым именем Omega, именно в них появилась поддержка виртуального разрешения Virtual Super Resolution — рендеринг в более высоком разрешении и последующее приведение картинки к меньшему разрешению устройства вывода.

Хотя это был ответ на аналогичную решению конкурента технологию DSR, они заметно отличаются друг от друга подходом. Nvidia применяет для изменения разрешения специальный шейдер, дающий более гибкий подход, позволяющий изменять качество фильтрации, но при некотором падении производительности. Технология VSR от AMD же работает прямо через контроллеры дисплея, поэтому не приводит к падению производительности, но не дает таких гибких возможностей по фильтрации и настройке качества картинки, как DSR.

Так как возможности VSR ограничены применяемыми контроллерами дисплея, то именно последние поколения графических процессоров AMD имеют лучшие возможности для использования виртуальных разрешений. Так, контроллеры прошлого поколения (семейства GCN 1.1) не могут работать в разрешении 4K, и тот же Radeon R9 290X ограничен максимальным виртуальным разрешением в 3200x1800 пикселей, а вот GCN 1.2 чипы (Tonga и Fiji) поддерживают снижение разрешения с 4K-разрешения, что будет востребовано именно в Radeon R9 Fury X, так как Radeon R9 285 слишком слаб для подобных фокусов.

В случае Radeon R9 Fury X и 1080p-мониторов поддерживаются режимы 3200x1800 и 3840x2160 пикселей, 2560x1600 и 3840x2400 для мониторов с разрешением 1200p, и только 3200x1800 для разрешения 1440p. Так что тут хорошо заметен недостаток гибкости VSR, по сравнению с DSR, позволяющей менять виртуальное разрешение в куда более широких пределах. Ну хоть аналог 2x2 суперсэмплинга (правда, с прямой пиксельной решеткой) есть, в виде виртуального разрешения 4K для FullHD-мониторов — один из самых качественных вариантов.

Из новых программных технологий можно отметить возможность ограничения частоты кадров при рендеринге — Frame Rate Targeting Control (FRTC). Эта новая возможность появилась в свежих драйверах компании AMD и она позволяет пользователю установить максимальную частоту кадров для 3D-приложений, запущенных в полноэкранном режиме. Хотя утилиты вроде MSI Afterburner уже давно предлагают подобную функциональность, официальная поддержка в драйверах AMD для большинства пользователей будет удобнее.

В результате ограничения FPS, плата будет работать со сниженной нагрузкой, обеспечивая снижение энергопотребления, тепловыделения и шума от системы охлаждения. При установленном ограничении FPS в не слишком требовательных играх, графический процессор будет потреблять меньше энергии, так как станет простаивать часть времени, что также вызовет и снижение потребления энергии с тепловыделением — а это, в свою очередь, приведет к снижению шума от системы охлаждения. На диаграмме приведены реальные примеры из пары игр:

Причем, FRTC работает не только именно для 3D-сцен, но и в случае игровых заставок, загрузочных экранов и меню, когда FPS зачастую составляет сотни кадров в секунду. При помощи ограничителя FPS можно установить достаточно высокий предел частоты кадров, чтобы не терять в «отзывчивости» игры, но снизить FPS в случае заставок и меню, когда ресурсы расходуются бессмысленно.

В текущем виде технология Frame Rate Targeting Control работает только в DirectX 10 и DirectX 11 приложениях, а максимальную частоту кадров можно установить в рамках от 55 до 95 FPS. AMD пока что рекламирует поддержку FRTC лишь для новой серии своих видеокарт, так что пока точно неизвестно, будет ли она включена для решений предыдущего поколения Radeon 200, хотя они основаны ровно на тех же чипах, что и Radeon 300.

В своих материалах компания AMD также старательно упоминает поддержку вскоре выходящего графического API от компании Microsoft новой версии — DirectX 12. Это — новая версия известного графического API, детали которой схожи с тем, что было сделано в «консольных» графических API какое-то время назад — обеспечение прямого контроля за ресурсами GPU. Такой подход позволяет лучше раскрыть все возможности CPU, GPU и гибридных чипов вроде APU, и, в конечном итоге, повысить производительность 3D-приложений и/или улучшить качество картинки.

Видеокарты нового семейства AMD Radeon полностью поддерживают все новые возможности Microsoft DirectX 12 — что входят в так называемый уровень возможностей Feature Level 12.0, включая тайловые ресурсы, которые используются для наложения виртуальных текстур с динамической загрузкой в больших 3D-сценах с уникальными поверхностями. Да и сам API в новой инкарнации стал проще и понятнее, плюс, в этой версии DirectX появилась многопоточная запись буфера команд, позволяющая лучше использовать возможности многоядерных CPU.

Напомним, что в DirectX 11 производительность 3D-рендеринга при большом количестве вызовов функций отрисовки часто ограничена скоростью вычислений одного ядра CPU. В случае же DirectX 12 работа распараллелена на несколько ядер CPU, и в целом скорость рендеринга ограничена возможностями GPU, и практически не упирается в возможности CPU. В результате, появляется возможность использовать больше вызовов draw calls, получая более высокую детализацию сцены и объектов. Ну а освободившиеся ресурсы CPU можно использовать игровым кодом (AI и т.п.).

С DirectX 12 вся работа игрового движка и графического API может быть заметно лучше распределена по всем имеющимся ядрам, что позволяет повысить сложность 3D-сцен. Что касается производительности нового графического API, по сравнению с предыдущей версией, то ее можно оценить в специальном тесте 3DMark API Overhead feature test, измеряющем эффективность API при большом количестве вызовов функции отрисовки:

Как видите, при использовании DirectX 12 и Windows 10, новая топовая видеокарта компании AMD обеспечивает огромный прирост в количестве вызовов draw calls за секунду, по сравнению с DirectX 11 и Windows 8.1, а также почти в полтора раза опережает решение конкурента в DirectX 12 режиме.

Из изменений в DirectX 12 можно упомянуть и асинхронное исполнение шейдеров, когда сложные задачи разбиваются на несколько простых, исполняющихся параллельно. В предыдущей версии DirectX 11 задачи отрисовки теней, просчета освещения, чтения/записи данных и неграфические вычисления выполняются последовательно, при этом зачастую используются разные ресурсы GPU, а остальные простаивают. Задачи могли бы исполняться параллельно, что и было поддержано в DirectX 12. Это позволяет добиться лучшего использования ресурсов GPU, повысить производительность и детализацию и усложнить визуальные эффекты.

К слову, современная графическая архитектура Graphics Core Next включает специальные блоки Asynchronous Compute Engines (ACE), которые помогают выполнять работу по асинхронному выполнению шейдеров на максимальной скорости, поэтому с новым API графические решения компании AMD должны справляться отлично.

Появилась в DirectX 12 и родная поддержка многочиповых конфигураций, состоящих из нескольких GPU. В предыдущих версиях API не было предусмотрено существование подобных конфигураций, состоящих из нескольких GPU, и разработчикам приходилось заниматься распределением работы между GPU в драйверах и играх самостоятельно. Но отсутствие управления аппаратным обеспечением, ограниченные комбинации из нескольких GPU и сложности по распределению работы между несколькими GPU приводили к недостаточно оптимизированной работе таких систем.

А в DirectX 12 появится контроль за использованием ресурсов разработчиками для лучшего распределения работы между GPU, а также стандартная поддержка для конфигураций, состоящих из APU и GPU — разработчики смогут отдавать часть работы в APU. Появление поддержки нескольких видеокарт в DirectX 12 позволяет получить большую производительность от мультичиповых систем и эффективно использовать такие конфигурации, которые просто было невозможно применять ранее в DirectX 11.

Отдельно выделим и поддержку «нового» (относительно, потому что несколько лет назад он был вполне известен и применялся многочиповыми видеосистемами) метода рендеринга — SFR (split-frame rendering). Такой метод отличается тем, что кадр при рендеринге делится на несколько областей (тайлов), отрисовкой которых занимаются разные GPU. В результате получается, что над каждым кадром работают все имеющиеся GPU как будто один более мощный чип, что приводит к снижению задержек при выводе изображения, хотя и не обеспечивается столь эффективное удвоение частоты кадров, как в привычном Alternate Frame Rendering (AFR), известном по существующим видеосистемам CrossFire и SLI.

Пока что новая версия DirectX 12 официально еще не вышла, она ожидается в составе финальной версии операционной системы Microsoft Windows 10, но среди игр, которые получат поддержку новой версии API, компания AMD уже выделяет пару игр, выходящих с их поддержкой: Deus Ex: Mankind Divided и Ashes of the Singularity.

Краткая теоретическая оценка производительности

Чтобы сделать предварительную оценку производительности нового топового решения компании AMD, рассмотрим некоторые цифры и собственные результаты тестов этой компании. Имея 4096 потоковых вычислительных ядер и быстрейшую память стандарта High Bandwidth Memory на борту, Radeon R9 Fury X явно целится в самый верхний ценовой диапазон игровых видеокарт. С непревзойденными параметрами производительности математических вычислений и пропускной способности памяти, новинка от AMD предлагает максимальную производительность в своем классе.

Хотя пиковые значения скорости блоков ROP и геометрических блоков почти не увеличились, оба типа исполнительных блоков должны работать заметно эффективнее в случае Fiji. Исходя из теории, Radeon R9 Fury X должен быть заметно быстрее Radeon R9 290X и R9 390X, основанных на графическом процессоре Hawaii, но разница в скорости будет зависеть от типа нагрузки — больший упор в вычисления, текстурирование, геометрические расчеты или скорость заполнения.

В случае чисто вычислительных нагрузок, 45%-ное увеличение количества ALU и 5% дополнения в тактовой частоте дают Fury X более чем 50% преимущества перед R9 290X (да и R9 390X). В случае же упора в производительность блоков ROP, разница может быть как 5%, если данные в кадровом буфере плохо сжимаются и нет упора в ПСП, так и более 100%, если новые алгоритмы сжатия сработают максимально эффективно. В среднем можно ожидать примерно трети прироста в скорости по сравнению с флагманом предыдущей линейки компании AMD, ну а в высоких разрешениях новая модель Radeon R9 Fury X должна показать еще большую силу.

Так как новая топовая видеокарта Radeon R9 Fury X предназначена для энтузиастов и имеет очень высокую производительность, неудивительно, что AMD сравнивает новинку по скорости с конкурентом в самом высоком разрешении — 4K (3840x2160 пикселей). Сначала рассмотрим скорость 3D-рендеринга Radeon R9 Fury X и Geforce GTX 980 Ti в 3DMark Fire Strike Ultra, традиционно благоволящем к архитектуре GCN:

Как видно на диаграмме, преимущество новой топовой видеокарты AMD есть, хотя и небольшое. Но это был синтетический тест, а что получается в реальных игровых приложениях? На следующей диаграмме Radeon R9 Fury X сражается все с тем же соперником в лице Geforce GTX 980 Ti, в условиях рендеринга в 4K-разрешении при максимальном качестве в самых популярных играх.

Ну что же, по крайней мере по измерениям AMD получается так, что Radeon R9 Fury X оказался в среднем чуть быстрее своего конкурента в играх и 4K-разрешении, а что получается у нас — узнаем в третьей части нашего материала.

Выводы по теоретической части

В лице анонсированной недавно модели Radeon R9 Fury X компания AMD предлагает весьма интересный вариант топовой видеокарты. Что особенно важно, они смогли предоставить полноценный продукт из верхнего ценового диапазона, в то время, как предыдущее одночиповое топовое решение в виде Radeon R9 290X явно проигрывало конкуренту. С выпуском же Fury X компания решила перейти в сегмент элитных решений, отличающихся не только высочайшей производительностью и сложностью, но и повышенной ценой. Основанная на сложнейшем графическом процессоре Fiji первая видеокарта элитной подсерии Fury получилась весьма интересной по многим параметрам.

Новинка интересна и с рыночной и с технической точек зрения. Технически, в AMD было сделано очень много интересного, достаточно отметить даже одно лишь первое в мире применение новейшего типа памяти HBM, которое не просто значительно повышает пропускную способность памяти и снижает потребление энергии, но и дает новые возможности по миниатюризации форм-фактора будущих видеокарт. Но не только сам по себе GPU с HBM получился интересным, качество материалов и сборки видеокарты также отличное, а системы питания и водяного охлаждения весьма эффективны и имеют огромный запас прочности (вот еще бы разобраться с шумными помпами, негативные отзывы на которые поступают от первых пользователей...).

В Fury X инженеры компании сделали все возможное в рамках архитектуры GCN, чтобы успешно конкурировать с топовыми решениями Nvidia на чипах архитектуры Maxwell, включая даже элитное решение Geforce GTX Titan X — если бы калифорнийская компания не выпустила Geforce GTX 980 Ti, то в сражении топов точно победило бы решение AMD — но не по абсолютной производительности, а по соотношению цены и скорости видеокарт. К сожалению для AMD, конкурент чуть раньше выпустил GTX 980 Ti с ровно той же ценой, и теперь новинке предстоит длительная рыночная борьба с этим решением.

При высоких разрешениях вроде 4K, и при условии достаточности 4 ГБ видеопамяти, Fury X предположительно может быть чуть быстрее соперника из-за высочайшей ПСП, но разница между ними в целом не должна быть слишком велика в любых условиях. В меньших разрешениях при снижении влияния значения ПСП очень быстрой HBM-памяти и упоре в производительность других блоков GPU или CPU, новое топовое решение от AMD может быть уже несколько медленнее, чем GTX 980 Ti. Увы, этого недостаточно для явной победы, тем более что современные игры в 4K-разрешении начинают упираться в ограничение объема памяти в 4 ГБ, не обеспечивая достаточно высокой частоты кадров.

На наш взгляд, единственный важный потенциальный недостаток Radeon R9 Fury X — именно в жестко ограниченном объеме видеопамяти типа HBM. На данный момент ее просто нельзя установить больше, ведь первое поколение HBM по сути ограничивает общий объем этой величиной. Впрочем, на данный момент объема в 4 ГБ вполне достаточно в 99% случаев, лишь редкие игры вроде Grand Theft Auto V или Far Cry 4 при максимальных настройках начинают страдать от недостатка памяти для стриминга текстур. Но топовые видеокарты покупаются не на полгода, а за год-полтора-два примеров таких игр может стать куда больше, и это настораживает.

При сравнении двух прямых конкурентов, среди явных достоинств Geforce GTX 980 Ti можно выделить больший объем видеопамяти и меньшее общее энергопотребление. Но и у Radeon R9 Fury X есть свои плюсы: огромная вычислительная производительность, высочайшая ПСП, небольшой физический размер платы, а также очень эффективная и тихая (за минусом шума от помпы у первых экземпляров) система водяного охлаждения. Выбор остается за пользователем, ведь обе платы весьма достойны и имеют свои особенности.

Перед тем, как перейти к синтетическим тестам, скажем пару слов и о других анонсированных видеокартах линейки Radeon R9 Fury: R9 Fury Nano и просто R9 Fury. Первая интересна тем, что предназначена для ПК форм-фактора mini-ITX и потребляет до 175 Ватт по одному 8-контактному разъему питания, а вторая отличается от описанной сегодня Fury X урезанным по скоростным параметрам чипом Fiji, имеющем традиционное воздушное охлаждение, но еще и имеет меньшую цену — примерно на уровне Geforce GTX 980 с 4 ГБ памяти. Мы обязательно рассмотрим их в наших будущих статьях.

Итак, ознакомившись с характеристиками и теоретическими данными о новой видеокарте модели Radeon R9 Fury X, переходим к следующей части нашей статьи, которая посвящена исследованию скорости рендеринга новой видеокарты AMD в нашем наборе синтетических тестов. В продолжении нашего материала мы сравним производительность элитной новинки из верхнего ценового сегмента от AMD с другими платами этой компании, а также со скоростью конкурирующих видеокарт Nvidia.

AMD Radeon R9 Fury X — Часть 2: особенности карты →

Средняя текущая цена (количество предложений) в московской рознице:
Рассматриваемые карты	Конкуренты
R9 Fury X — $788 (на 01.06.16)	R9 290X — $431(33)
R9 Fury X — $788 (на 01.06.16)	GTX 980 Ti — $655 (на 01.06.16)
R9 Fury X — $788 (на 01.06.16)	GTX Titan X — $1095 (на 01.06.16)

Благодарим компанию AMD Russia
и лично Кирилла Погорелова
за предоставленную на тестирование видеокарту

2 блока питания Thermaltake DPS G 1050W/Амур 1200 для тестового стенда предоставлены компанией Thermaltake	Корпус Corsair Obsidian 800D Full Tower для тестового стенда предоставлен компанией Corsair	Модули памяти Corsair Vengeance CMZ16GX3M4X1600C9 для тестового стенда предоставлены компанией Corsair	Corsair Hydro SeriesT H100i CPU Cooler для тестового стенда предоставлен компанией Corsair
Монитор Dell UltraSharp U3011 для тестовых стендов предоставлен компанией Юлмарт	Системная плата Asus Sabertooth X79 для тестового стенда предоставлена компанией Asustek	Системная плата MSI X79A-GD45(8D) для тестового стенда предоставлена компанией MSI	Жесткий диск Seagate Barracuda 7200.14 3 ТБ для тестового стенда предоставлен компанией Seagate
Накопитель SSD OCZ Octane 512 ГБ для тестового стенда предоставлен компанией OCZ Russia	2 накопителя SSD Corsair Neutron SeriesT 120 ГБ для тестового стенда предоставлены компанией Corsair	Монитор Asus ProArt PA249Q для рабочего компьютера предоставлен компанией Asustek	Клавиатура Cougar 700K для рабочего компьютера предоставленa компанией Cougar