Интегрированное графическое ядро в Intel Haswell

Особенности нового поколения и что такое Crystal Well


В новом поколении процессорной архитектуры, Haswell, компания Intel использует несколько модификаций нового графического ядра с кодовыми названиями GT1, GT2, GT3, GT3е. Впрочем, кодовые наименования употреблялись только в период разработки, сейчас для идентификации используются наименования типа Intel HD Graphics HDxxxx. Их сопоставление с индексами на рынке приведено в таблице ниже.

Топовое ядро GT3e более-менее широко применяется только в мобильных решениях. В десктопном сегменте оно представлено только в процессорах форм-фактора BGA, которые распаиваются напрямую на материнские платы. Такое решение больше подходит для встраиваемых систем и вряд ли получит массовое распространение на рынке. В основном настольный сегмент будет довольствоваться ядрами GT1 и GT2.

С одной стороны, использование топовой версии только в мобильных решениях (ну и BGA для десктопов) выглядит логичным: геймеры и все, кому нужна высокая производительность графики, все равно будут использовать дискретные видеокарты, а тем, кому производительность не нужна, хватит любого встроенного решения, в т. ч. и младшей серии. С другой стороны, есть определенные категории пользователей, которые не отказались бы от более производительной графики, но при этом не хотели бы использовать внешний видеоадаптер. Есть и технические моменты: интеграция GT3e в десктопный четырехъядерный кристалл увеличила бы его площадь и тепловыделение, повысила сложность производства и стоимость решения при непонятных рыночных перспективах.

Топовые версии интегрированной графики Haswell получили собственное имя Iris. Точнее, ядро GT3 может, в зависимости от частот, носить наименование HD5000 или Iris 5100, а GT3e — только Iris Pro 5200. То есть собственные имена Iris имеют две модификации. Посмотрим на основные технические характеристики GT3 и GT3e.

Iris Pro 5200 Iris 5100 HD 5000
Частота до 1300 МГц до 1300 МГц до 1100 МГц
Количество конвейеров 40 40 40
eDRAM (Crystal Well) 128 МБ

Количество графических ядер у всех трех модификаций GT3 одинаковое и равняется 40. Отличие между 5000 и 5100 заключается только в максимальных частотах, а вот в GT3e (Iris Pro 5200) появляется еще одно нововведение, с которым мы познакомились на первых же презентационных слайдах Intel — новый кэш L4/высокоскоростной буфер, который получил название Crystal Well. К сожалению, в реальности он появился только у самого топового решения, Iris Pro 5200. К нему мы еще вернемся, а пока перейдем к GT2 и GT1.

Ядро GT1, названное традиционно Intel HD, ориентировано на бюджетный сегмент и встречается в процессорах Intel Pentium G3xxx. Наиболее распространенной на рынке будет версия GT2, она появится и в настольных, и в мобильных процессорах Haswell. У нее тоже три модификации: HD 4200, HD 4400 и HD 4600, плюс две модификации в серверном сегменте — P4600 и P4700.

HD 4200 HD 4400 HD 4600
Частота 850 до 1100 МГц до 1350 МГц
Количество конвейеров 20 20 20

Таким образом, в новом поколении архитектуры Core компания Intel представила всего 9 модификаций графического ядра нового поколения. Формально в Sandy Bridge и Ivy Bridge их было меньше — по три: HD3000, HD2000, Intel HD и HD4000, HD2500, Intel HD соответственно. Но там версии с одинаковым названием в разных процессорах тоже имели разные частоты работы. Поэтому сейчас линейка выглядит более логичной.

Посмотрим, как эволюционировали графические решения на примере Sandy Bridge, Ivy Bridge и Haswell. Первое, на что стоит обратить внимание, это поддержка новых API и увеличение количества унифицированных блоков по сравнению с предыдущей архитектурой.

Sandy Bridge Ivy Bridge Haswell
DirectX 10.1 11.0 11.1
OpenGL 3.1 (3.0) 4 (3.1) 4
OpenCL 1.2 (1.1) 1.2
Версия шейдеров 4.1 5 (4.1) 5
Частота ГП до 1350 МГц до 1350 МГц до 1350 МГц
Количество конвейеров 12 16 (+33%) 20 (+25%) или 40 (+150%)

Как можно заметить, с каждым новым поколением графических адаптеров происходит рост количества конвейеров, в среднем примерно на 30% в каждом последующем поколении. Так что заметный рост производительности нам обеспечен. Что касается поддержки API, то изначально Haswell выглядел заметно интереснее из-за поддержки более современных API. Однако в последних версиях драйверов их поддержку добавили и в Ivy Bridge (в скобках указана поддержка API на момент анонса).

Архитектура графической части Haswell

Перейдем к обзору архитектур трех поколений графических решений: Sandy Bridge (HD2000, HD3000), Ivy Bridge (HD2500, HD4000), Haswell.

HD2000/HD3000 (Sandy Bridge)

HD2500/HD4000 (Ivy Bridge)

Haswell

Как видим, каждое последующее поколение графических адаптеров не только вносит архитектурные изменения в старые функциональные блоки, но и добавляет новые, расширяя архитектуру графического ядра. Правда, стоит отметить, что переход с SB на IB принес больше изменений в архитектуре интегрированной графики, чем переход с IB на Haswell.

С переходом на IB графические ускорители, помимо увеличения количества графических ядер, получили второй текстурный семплер, кэш L3, увеличенные объемы текстурных кэшей L1 и L2. В Haswell архитектурные изменения в основном заключались в увеличении количества графических процессоров, добавлении новых исполнительных блоков, таких как Video Quality Engine (VQE) и Resource Streamer, а также усовершенствовании старых блоков — Texture Sampler, Multi Format Codec. Стоит заметить, что и компоновка исполнительных модулей (EU) изменилась — ранее 16 EU вытягивались в длинную цепочку, теперь же EU располагают сверху и снизу блоков растеризации и кэша L3, по 10 EU. Стоит заметить, что в модификации ядра GT3 не только происходит удвоение EU с 20 до 40, но и дублируется весь блок Slice Common, который содержит в себе блоки растеризации, кэш L3, блоки пиксельных операций. То есть происходит не просто наращивание количества конвейеров, но и удвоение других немаловажных блоков, таких как блоки растеризации, пиксельной обработки и рендера.

Структурная схема графического ядра Haswell

Что ж, рассмотрим нововведения и изменения в архитектуре.

В состав блока Command Streamer теперь входит блок Resource Streamer, который разгружает центральный процессор, беря некоторые функции драйвера на себя. Это позволяет снизить нагрузку на центральный процессор и повысить производительность.

Command Streamer

Переработанный текстурный семплер. По утверждению компании Intel, в некоторых режимах прирост текстурной производительности может достигать четырех раз.

Texture Sampler

Был добавлен блок Video Quality Engine (VQE), отвечающий за качество видео, который позволяет не только улучшить качество видеоизображения, но и снизить потребление электроэнергии. Данный блок уменьшает шумы в видеоизображении, адаптирует цветовую схему и контраст, стабилизирует изображение, а также позволяет производить преобразование частоты кадров видео с 24 fps и 30 fps в 60 fps. Стоит заметить, что увеличение количества кадров в секунду происходит не простым копированием кадров, а интеллектуальным анализом межкадровой оценки движения.

Video Quality Engine

Видеокодек также получил улучшения в виде поддержки новых форматов: кодирование MPEG, улучшение качества кодирования видео, декодирование Motion JPEG, декодирование видео 4К, декодирование SVC (Scalable Video Coding) в AVC, VC1, MPEG2.

Video Codec

Как видим, часть улучшений была направлена на снижение потребления электроэнергии. Графические ядра Haswell позволяют экономить электроэнергию в мультимедийной нагрузке — как видно из слайда, за счет большего распараллеливания ядро Haswell раньше заканчивает работу и раньше погружается в экономичное состояние простоя.

О Crystal Well

Crystal Well представляет собой чип памяти eDRAM объемом 128 МБ, распаянный на одной текстолитовой подложке с процессором. Доступен он только в процессорах с топовой версией интегрированной графики Iris Pro 5200. Данный чип памяти производится, как и процессор, по техпроцессу 22 нм и выступает в качестве промежуточного кэша четвертого уровня. Причем важно отметить, что он кэширует запросы не только видеоускорителя, но и центрального процессора. То есть теоретически производительность центрального процессора при его наличии тоже должна увеличиться.

Что касается скоростных характеристик, то чип eDRAM показывает пропускную способность (ПС) на уровне 50 ГБ/с в каждом направлении, то есть суммарная ПС равняется 100 ГБ/с. Что достаточно хорошо вписывается между ПС оперативной памяти в 25,6 ГБ/с и ПС кэша третьего уровня порядка 180 ГБ/с. При этом латентность такой памяти достаточно невелика — порядка 50-60 нс, тогда как двухканальный ИКП, использующий DDR3-1600, имеет 90-100 нс. Стоит заметить, что кэш L3 в процессорах Haswell имеет латентность около 30 нс. Таким образом, eDRAM достаточно хорошо вписывается по своим скоростным показателям между L3 и ОЗУ.

Физически модуль eDRAM представляет собой отдельный чип с площадью 84 мм², потребляющий до 1 Вт в простое и до 4,5 Вт под нагрузкой. Если бы такой чип устанавливали в десктопные процессоры, то TDP самых «горячих» четырехъядерных процессоров Haswell достиг бы 90 Вт, хотя это все равно значительно ниже, чем у процессоров с сокетом LGA2011 (а можно еще вспомнить AMD, недавно вышедшие процессоры которой имеют TDP 220 Вт). Однако в настольных решениях Crystal Well встречается только в процессорах BGA (т. е. напрямую распаиваемых на материнской плате, а не устанавливаемых в сокет), у которых, скорее всего, система охлаждения будет идти в комплекте.

Тут стоит отметить, что Intel в новом поколении не стала вводить поддержку новых, более скоростных стандартов памяти, так что ее максимальная пропускная способность осталась на уровне 25,6 ГБ/с. Даже HD2500 способна была использовать всю доступную ПС, так что гораздо более мощная HD4600, скорее всего, будет упираться в пропускную способность DDR3-1600, и использование Crystal Well и ей пошло бы на пользу. Не говоря уже о более мощных модификациях встроенной графики. В общем, логично было бы ожидать либо поддержки DDR3-1866 или DDR3-2133, либо более обширного списка процессоров с Crystal Well, либо и того, и другого одновременно. В итоге же мы имеем нераскрытый до конца потенциал нового поколения графических адаптеров.

Прим. ред.: Мне кажется, что корни решений Intel по использованию Crystal Well стоит искать не в технической, а в финансовой плоскости. С технической точки зрения это может быть и перспективное решение, но довольно затратное по финансам: два чипа на одной подложке в любом случае стоят заметно дороже, чем один. И при этом у технологии очень туманные рыночные перспективы. Поэтому сейчас Intel, скорее всего, «пробует воду»: выпустив всего пару моделей, компания будет отслеживать их судьбу на рынке и смотреть, станет решение популярным или нет. С этой точки зрения все выглядит логично: либо BGA, где процессор идет в конкретный продукт с определенным позиционированием, либо мобильные решения, где востребованность интегрированной графики существенно выше из-за отсутствия места и требований по энергопотреблению. Кстати, и спрос в этом сегменте заметно выше.

Что же касается поддержки памяти, то производитель, видимо, ориентировался в основном на DDR3L, а у нее частоты работы не выросли. Плюс, поддержка более быстрой памяти вряд ли принесет дивиденды в реальной жизни, особенно учитывая, что в большинстве случаев память устанавливают производители готовых систем, а они тоже смотрят больше на стоимость, а не на скорость.

Для наглядности приведем сравнение теоретической максимальной производительности.

Частота чипа Частота/шина/тип памяти ПСП Теоретическая производительность
Intel HD2000 (SB) 1250 МГц 1333 МГц/128 бит/DDR3 21,2 ГБ/с 60 GFLOPs
Intel HD3000 (SB) 1350 МГц 1333 МГц/128 бит/DDR3 21,2 ГБ/с 129,6 GFLOPs
Intel HD2500 (IB) 1150 МГц 1600 МГц/128 бит/DDR3 25,6 ГБ/с 110,4 GFLOPs
Intel HD4000 (IB) 1300 МГц 1600 МГц/128 бит/DDR3 25,6 ГБ/с 332,8 GFLOPs
Intel HD4600 (Haswell) 1350 МГц 1600 МГц/128 бит/DDR3 25,6 ГБ/с 432 GFLOPs
Intel Iris Pro 5200 (Haswell) 1300 МГц 1600 МГц/128 бит/DDR3+Crystal Well 25,6+2×50 ГБ/с 832 GFLOPs
AMD A8-3870K (Llano) 600 МГц 1866 МГц/128 бит/DDR3 29,9 ГБ/с 480 GFLOPs
AMD A10-5800K (Trinity) 800 МГц 1866 МГц/128 бит/DDR3 29,9 ГБ/с 614 GFLOPs
AMD A10-6800K (Richland) 844 МГц 2133 МГц/128 бит/DDR3 34 ГБ/с 779 GFLOPs
GeForce GTX 650 (GK107-450-A2) 1058 МГц 5000 МГц/128 бит/GDDR5 80 ГБ/с 812,5 GFLOPs
GeForce GT 640 (GF116) 720 МГц 1782 МГц/192 бит/DDR3 42,8 ГБ/с 414,7 GFLOPs

Для Ivy Bridge указаны частоты для LGA-модификаций.

Из данной таблицы можно сделать следующие наблюдения и выводы:

  • Теоретическая пиковая производительность (в GFLOPs) в каждом поколении графических адаптеров Intel увеличивается на 150%: переход с топовой модификации графического ядра Sandy Bridge HD3000 на топовую HD4000 — +156,8%, переход с HD4000 на топовый Iris Pro 5200 — +150%, а вот переход с топовой HD4000 на среднюю модификацию графического ядра Haswell HD4600 дает прибавку всего лишь около 30%. Впрочем, значительный рост у Intel во многом объясняется изначально низким уровнем производительности. AMD, например, исходно встроили в APU производительные (для своего класса) графические решения, поэтому для них прирост в GFLOPs от поколения к поколению составляет около 30%;
  • Топовый вариант интегрированной графики Intel, Iris Pro 5200, показывает на 6,8% больше пиковой производительности, чем новый AMD A10-6800K, но при этом решение среднего уровня HD4600 уже отстает на 10% от AMD A8-3870K (Llano);
  • Если подобрать конкурентов для Iris Pro 5200 и HD4600 по пиковой производительности из дискретных видеокарт nVidia, то получится, что Iris Pro 5200 на 2,4% производительнее GeForce GTX 650 (GK107-450-A2), а HD4600 на 4,2% превосходит GeForce GT 640 (GF116);
  • Производительность современных графических ускорителей во многом зависит от скорости работы с видеопамятью. Поэтому у интегрированных решений с этим всегда проблемы: мало того, что они работают с по определению более медленной DDR3, так еще и приходится делить ее с центральным процессором. Например, GeForce GTX 650 (GK107-450-A2) имеет ПСП памяти 80 ГБ/с, а что мог предложить Ivy Bridge? Всего лишь 25,6 ГБ/с суммарно на ГП и ядра ЦП. AMD в каждом поколении вводит поддержку более скоростных стандартов памяти, и теперь максимум для ее последнего поколения — 2133 МГц, что позволило достичь 34 ГБ/с. Intel, как мы знаем из обзора архитектуры процессоров Haswell, не стала вводить поддержку новых стандартов памяти, оставшись на уровне DDR3-1600. Поэтому для устранения узкого места в самом производительном решении ей пришлось добавить промежуточный буфер/кэш L4 (Crystal Well) объемом в 128 МБ с пропускной способностью в 50 ГБ/с в каждом направлении (суммарно 100 ГБ/с). Так что при работе с ним ПСП будет превосходить даже ПСП у дискретных решений — другой вопрос, что объем этого буфера небольшой.

Подводя итог, можно сделать некоторые предположения:

Если производительность интегрированной графики Intel будет и дальше расти такими же или хотя бы близкими темпами, то пропускной способности имеющихся на сегодня стандартов памяти следующему поколению будет очень серьезно не хватать — фактически, это «бутылочное горлышко» может съесть весь выигрыш. Так что надо будет либо повышать ПСП, вводя поддержку DDR4 или DDR3 в несколько каналов, либо искать другие решения. Возможно, Crystal Well, который сейчас представляет собой отдельный чип, переедет в основной кристалл (как в свое время переехала интегрированная графика при переходе на Sandy Bridge) и станет полноправной частью ядра Broadwell. Правда, судя по имеющейся информации, в Broadwell будет несколько чипов на одной подложке... В общем, тут пока много вопросов.

Впрочем, AMD также, скорее всего, столкнется с серьезной нехваткой ПСП, и примерные направления развития у нее те же: либо более быстрая память DDR4, либо «вспомнить» свою (ATI) разработку HyperMemory (небольшой кадровый буфер для интегрированной видеокарты, распаянный на материнской плате) и попытаться приспособить ее под современные задачи.

Наконец, не будем забывать про два серьезных козыря нового поколения интегрированной графики Intel: поддержку OpenCL, причем приложений с его поддержкой становится все больше, и новую версию Quicksync, существенно упрощающую работу с кодированием видео.

Выводы

Итак, давайте переходить к выводам. Как и в процессорной части обзора архитектуры Haswell, разобьем вывод на несколько частей.

Десктоп

Покупатели настольных компьютеров с интегрированной графикой Haswell получают ряд серьезных преимуществ. В первую очередь, это серьезно возросшая производительность графической подсистемы, а также улучшения в работе с видео благодаря Quicksync и поддержка OpenCL, позволяющая существенно поднять производительность во многих приложениях. Теоретически, владелец компьютера с HD4600 сможет даже поиграть в некоторые старые игры в высоком разрешении.

Если говорить об апгрейде, то разница с Ivy Bridge слишком мала, чтобы даже задумываться о переходе. Видеоядро Sandy Bridge существенно слабее, но прирост все равно не настолько большой, чтобы оправдать замену процессора и материнской платы. Разве что вам обязательно нужен OpenCL, который встроенной графикой Sandy Bridge не поддерживается.

А вот владельцам процессоров предыдущих поколений стоит всерьез задуматься. И дело не только в росте производительности, но и в серьезном повышении эффективности системы в целом. При том же уровне производительности, что и у старых дискретных решений среднего уровня, покупатели смогут вообще отказаться от внешнего графического адаптера. Это и дешевле, и корпус можно выбрать заметно меньше. Кроме того, энергопотребление системы, а значит — нагрев окружающего пространства и шум вентиляторов охлаждения, будет гораздо меньше.

Серверы и рабочие станции

Необходимости перехода с Xeon E3-12xx и Xeon E3-12xx v2 ради нового графического ядра P4600 нет. Если говорить о рабочих станциях, то хоть какой-то смысл появляется только при переходе с Sandy Bridge из-за отсутствия поддержки в нем OpenCL (и только для редких серверных приложений, которые OpenCL используют).

Мобильные решения

Это, пожалуй, самый интересный и перспективный сегмент, и к тому же самый массовый на сегодняшний день. Тем более что в мобильных системах чистая производительность сейчас не играет решающей роли, а рассматривается лишь как одна из составляющих эффективности системы наряду с энергосбережением и другими факторами.

Для начала посмотрим на основные линейки, GT2 и GT3(e). Для GT2 оценивать имеет смысл основное решение HD 4600.

HD 4600

Современный универсальный видеоадаптер обладает достаточным уровнем производительности для любых задач, кроме узкоспециальных (трехмерное моделирование, например) и игр. Впрочем, если снизить настройки качества графики, то в относительно простые или относительно старые игры играть можно.

Общий уровень производительности превосходит HD 4000, но в обычных задачах (кроме игр) это вряд ли будет заметно. HD 4600 имеет хорошую оптимизацию для работы с видео (Quicksync) и любыми приложениями, умеющими использовать преимущества OpenCL. Причем здесь важен не только рост скорости выполнения задач, но и рост общей энергоэффективности за счет оптимизации. Но в Ivy Bridge поддержка этих технологий тоже есть, поэтому переходить с него на Haswell бессмысленно. А вот переход с Sandy Bridge уже имеет смысл: и скорость заметно выше, и поддержки OpenCL там не было, и по энергоэффективности Haswell далеко впереди. В мобильных системах это важный фактор.

HD/Iris Pro 5x00

Старшая версия интегрированной графики (особенно с Crystal Well) имеет заметно более высокую производительность, что позволяет существенно расширить список доступных задач и игр, включая и относительно современные. Тем более что пока у большинства ноутбуков относительно невысокие разрешения экрана, что облегчает задачу для графического адаптера. Наличие Crystal Well должно увеличивать и производительность системы в целом, хотя тут многое будет зависеть от типа задач.

Таким образом, современный Haswell с интегрированной графикой уровня 5ххх, а особенно с Iris Pro 5200, выглядит гораздо интереснее, чем Ivy Bridge c дискретной графикой младших серий. И речь даже не о чистой производительности (не факт, что разница с Ivy Bridge + дискретная графика будет такой уж разительной), а скорее в росте общей энергоэффективности системы. Плюс, это позволит упростить и удешевить конструкцию ноутбука (выкинув большой чип и всю его систему охлаждения). Таким образом, по общей эффективности ноутбуки с Iris/Iris Pro будут существенно обгонять предыдущее поколение.

Другое дело, что сама по себе рыночная ниша для того же Iris Pro 5200 выглядит довольно узкой: кому графическая производительность не нужна — те остановятся на HD 4600, а кому она очень важна — те так и так выберут современную дискретную графику. То есть этот чип выгодно использовать только в профессиональных моделях, которые должны сочетать высокую производительность и портативность. В остальных случаях особого смысла в нем нет.

Работа в паре с дискретной графикой

Наконец, стоит отметить, что Haswell эффективнее и при совместной работе с внешней графикой. Сейчас политика Intel такова, что графика обязательно должна быть гибридной: в случае, когда нагрузка невелика, работает интегрированный адаптер, а если требуется высокая производительность (в играх и пр.), то подключается мощная дискретная графика. Так вот, чем более мощным и оптимизированным будет интегрированный адаптер, тем больше задач он сможет решать самостоятельно — а это прямой выигрыш в энергопотреблении (т. е. ноутбук будет меньше греться, меньше шуметь, дольше работать от батарей и пр.).

В результате, переход на Haswell объективно выгоден не в силу роста производительности, а из-за того, что существенно растет энергоэффективность системы. И хотя преимущество не настолько велико, чтобы оправдать переход с предыдущего поколения, но в целом интегрированная графика Haswell представляет собой существенный шаг вперед, значительно поднимающий эффективность системы в целом.




Дополнительно

iXBT BRAND 2016

«iXBT Brand 2016» — Выбор читателей в номинации «Процессоры (CPU)»:
Подробнее с условиями участия в розыгрыше можно ознакомиться здесь. Текущие результаты опроса доступны тут.

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.