Процессорное трио AMD


Новинки

После долгого перерыва компания AMD наконец-то радует нас процессорными новинками. Точнее, пока обещаниями о них, но даже обещания достойны обсуждения. Новинки нацелены на все сегменты рынка, где x86-ЦП уже присутствуют. Новых архитектур целых три. Помимо намеренного хронологического наложения (вся тройка выйдет в ближайшие 10-15 месяцев), все они основаны на новых техпроцессах и будут иметь разнообразнейшие приёмы экономии потребляемой энергии. А вот остальное уже различно.Llano

Эти выходящие зимой процессоры описать проще всего: однокристальные мобильные ЦП с 3-4 ядрами общего назначения и северным мостом с мощным (по меркам интегрированной графики) GPU серии HD5000. В соответствии с новой парадигмой AMD Fusion, новые ЦП теперь называются не CPU, a APU — Accelerated Processing Unit, ускоренный (графическим ядром) процессорный элемент. Это предполагает возможное использование GPU в т. ч. и в неграфических приложениях. Архитектура ядер является чуть обновлённой K10 — изменений куда меньше, чем при переходе от K8 к K10, наиболее заметно удвоение кэшей L2 до 1 МБ.

А вот на уровне энергоэффективности AMD обещает большой скачок — чипы будут изготовляться по технологии 32 нм и поддерживать множество методов сохранения энергии: ко всем ранее имевшимся у AMD (и её главного конкурента) добавлены коммутаторы питания для ядер (что на порядок понизит потребление при простое) и цифровое слежение за термоэлектрическими параметрами (для более резвого реагирования на перераспределение вычислительной нагрузки). Также обновлена технология TurboCore, так что тестировать Llano имеет смысл для определения не только энергоэффективности, но и производительности: продвинутый частотный авторазгон может оказаться эффективнее микроархитектурных улучшений.

Llano нужен для замены всех текущих мобильных ЦП AMD и значительного количества настольных моделей — прежде всего, Athlon. Далее уже потеснятся конкуренты Атлонов из стана Intel — остатки линейки Core 2 и более «свежие» Core i3/i5 со встроенным GPU. И хотя Llano окажется чуть быстрее и намного экономней своих предыдущих коллег по K10 (для чего его переведут на новые разъёмы FS1 и FM1), вечно подлатывать эту архитектуру не получится, а почти все заплатки, которые пока ещё не сделаны, как раз и будут добавлены. Таким образом, главным недостатком Llano оказывается тот факт, что далее ему развиваться уже некуда :)Bobcat

Это ядро разработано с нуля специально для мобильных устройств, где экономия энергии намного важнее скорости. Дорогим оно тоже не будет, т. к. AMD сэкономила и на размере чипа. Иными словами, цели, а значит и рыночные ниши те же, что и у Intel Atom (кроме смартфонов, где ARM будет биться до последнего — и AMD c ней связываться явно не собирается). Но в чём AMD хочет быть лучше?

Bobcat — это 15-стадийный 2-путный суперскаляр с внеочередным (OoO) исполнением команд и разнообразными оптимизациями вспомогательных блоков для максимального использования весьма скудных ресурсов. Среди улучшений — развитый предсказатель ветвлений и 2-уровневые буферы преобразования виртуального адреса в физический (TLB), чем ещё недавно могло похвастать лишь ядро K10 и ЦП Intel. AMD также отказалась от давно используемой схемы предварительной разметки границ команд — тут определение длины делается динамически, как у «больших» ЦП Intel. По утверждению AMD, в 89% случаев декодеры смогут поддерживать максимальный темп в 2 мопа/такт.

В «тыле» конвейера применены физические регистровые файлы (PRF), что экономней буферов ROB. Команды общего назначения обрабатываются двумя скалярными АЛУ и умножителем, а адреса в памяти вычисляют два AGU. Векторно-вещественный блок (FPU) имеет лишь 64-битные ФУ — все команды векторной обработки будут исполняться вдвое дольше, чем у настольных ЦП. И хотя обещают малые задержки самих ФУ, но удвоив их разрядность, AMD могла бы значительно улучшить производительность на ватт в векторных вычислениях, даже в обмен на чуть большую площадь ядра.

Оба кэша L1 — по 32 КБ. 2-портовый L1D полностью переработан, снабжён неслабым предзагрузчиком (префетчером) и механизмом перетасовки запросов. Кэш L2 на 512 КБ, предположительно, тактируется (или может тактироваться) на половинной частоте. Разумеется, присутствуют все новейшие и наиэффективнейшие методы экономии энергии. Помимо всего имеющегося у Llano и Atom, Bobcat разменял избыточные параллельные операции на необходимые последовательные и минимизировал ненужные перемещения данных в ядре и кэше.

Реализации новой архитектуры будут 1- и 2-ядерными и максимально интегрированными, включая контроллер памяти DDR3 и новейший графический ускоритель с поддержкой DirectX 11 (на зависть Intel) — рекордный по меркам целевых ниш. Ненужность северного моста чипсета и припаиваемый корпус минимального размера самого APU позволит собрать очень компактную систему. Версия Ontario с частотами 1—1,6 ГГц и TDP 9 или 18 Вт рассчитана на нетбуки, а более быстрая Zacate своими 18—20 ваттами целится на неттопы, играя роль нынешних Sempron.

Выпускаться Bobcat будет на 40-нанометровом техпроцессе компании TSMC, начиная с ноября-декабря. Любопытно, что на этом же техпроцессе той же TSMC в это же время VIA собирается выпустить новые ЦП Nano. Эти 2-ядерные чипы будут иметь частоты до 2 ГГц и потребление до 20 Вт, т. е. — конкуренты моделям Zacate, но лишь с процессорной точки зрения, ибо VIA пока не имеет даже планов встраивать GPU в ЦП. Однако, имея вдвое большие кэши всех видов, 3-путный суперскаляр и 128-битные ФУ, Nano, теоретически, должен обойти Bobcat по быстродействию. AMD же заявляет, что её новичок будет иметь 90% производительности от уровня K10. Выходит, что Nano должен быть даже быстрее K10. Впрочем, такое сравнение мы недавно уже сделали, и с весьма плачевными для тайваньской компании результатами. А значит, никаких 90% от K10 Бобкэту, скорее всего, не видать. Тем интересней проверить, как всё будет на самом деле.Bulldozer

До сих пор очередной новый x86-ЦП если и получал кремниевые улучшения (не считая перевода на новый техпроцесс), то чаще всего эволюционно следующие из текущих моделей. У Intel одно исключение было (Pentium 4), и одно есть (Atom) — остальные ЦП являются сильно модифицированными производными Pentium Pro от 1995 г. У AMD исключений не было, и генеалогия её последних чипов ведётся с 1999 г. и первых Athlon архитектуры K7. Но вот настало время великих перемен и у AMD: во 2-й половине 2011 г. после долгой разработки выйдет совершенно новая архитектура Bulldozer, которая поначалу проникнет в современные модели Phenom и Opteron, а потом спустится «с небес» до ниш, занятых до этого Llano. А если при этом «Бульдозер» окажется хотя бы на уровне новых ЦП Intel архитектуры Sandy Bridge, то и им придётся нелегко, не говоря уже о современных Core i.

Частотное ограничение для современных процессоров, надолго застрявших перед 4-м гигагерцем (несмотря на многочисленные обновления техпроцесса), состоит уже не в способности транзисторов достаточно быстро переключаться, а в ограничении по потребляемой мощности и выделению тепла. Так что теперь и для серверных ЦП пригодится энергосбережение. Intel давно модифицировала под разумную энергоэкономию архитектуры Core всех видов, а AMD снова догоняет. Bulldozer взял энергосберегающие технологии у Llano, как и улучшенную TurboCore.

Если не удается ускоряться частотой, приходится делать это увеличением числа ядер, что приводит к росту площади ЦП и его цены. Intel решила проблему технологией гиперпоточности (HyperThreading) — два виртуальных ядра лучше загружают неиспользуемые ресурсы одного физического ядра, но обычно эффект скромен. AMD же вместо этого попарно объединила ядра в модули. Общими и распределяемыми сделаны те ресурсы модуля, производительность которых почти всегда достаточна для обслуживания двух потоков: кэш L2, весь фронт и FPU. А самые нагруженные работой целочисленные блоки и кэши L1D — раздельны (собственно, именно они теперь и называются ядрами). AMD заявляет, что производительность двух потоков на 80% больше, чем у одного, хотя площадь выделенных одному «ядру» блоков — всего 12% площади модуля. Т. е. максимизируется скорость и на ватт, и на квадратный миллиметр. А при запуске лишь одного потока на модуль ему будут доступны все разделяемые ресурсы: второе «ядро» отключается, и свободные ватты позволят занятым транзисторам разогнаться сильнее, так что и 1-поточная производительность не подкачает.

AMD решила, что негоже внедрять очередной набор SSEx через годы после их появления в ЦП конкурента — Bulldozer будет поддерживать всё, что до сих пор было придумано для x86:

  • все SSE;
  • AES — ускорение шифрования;
  • новейшие дополнения AVX, также ожидаемые в Intel Sandy Bridge — удвоение разрядности векторов до 256 бит, расширение команд до более удобного 3-операндного вида и компактизация кода;
  • XOP — дополнения к AVX самой AMD;
  • группа FMA4 — слитое умножение-сложение.

Поскольку Бульдозеру надо не просто победить K10 и современные Core i, но и хотя бы догнать Sandy Bridge — практически все численные показатели улучшены (в сравнении с K10), включая многочисленные буферы и очереди. Но главное — Bulldozer является первой архитектурой AMD с 4-поточным декодированием команд и макрослиянием (вдогонку Intel).

Предсказатель переходов генерирует предполагаемые последовательности исполнения кода двумя потоками. Если этого кода ещё нет в кэше L1I, он заранее подгружается из L2. До 4 декодированных мопов/такт распределяются в 3 исполнительных кластера — два общего назначения и один FPU. В каждом кластере есть общие для всех ФУ планировщики (как у Intel), PRF (вместо ROB) и 4 порта запуска мопов.

В целочисленных кластерах находятся по 2 АЛУ + 2 AGU (в K10 — 3 + 3) и местный кэш L1D. Последний кардинально переработан — уменьшившись вчетверо до 16 КБ, он стал 3-портовым, выполняя два 128-битных чтения и одну запись за такт. Он также инклюзивен и имеет логику сквозной записи: изменённые данные сразу направляются в L2 через специальный «кэш слияния записей». Ассоциативность L1D наконец-то увеличилась до 4 путей, и, впервые среди известных архитектур, добавлен предсказатель пути, экономящий энергию и время.

Контроллер кэша (LSU) стал полностью внеочерёдным: чтение и запись выполняются в порядке, гарантирующем максимальную скорость и целостность данных. Несколько предзагрузчиков одновременно следят за многочисленными запросами, загружая данные в L2 и оба L1D, и даже пытаются предсказать адреса на первый взгляд совершенно случайных обращений. Алгоритмы оптимизированы для наиболее популярных настольных и серверных приложений.

FPU по вещественным операциям стал вдвое мощней, т. к. вместо стандартного для всех ЦП, начиная с Pentium, набора «1 умножитель + 1 сумматор» (только теперь они векторные) поставлена пара 128-битных блоков FMAC. Каждый из них может выполнить слитое умножение-сложение быстрее, чем отдельные ФУ и, возможно, одновременно запустит и пару таких отдельных команд. Впрочем, т. к. FPU исполняет векторно-вещественные операции двух потоков, на каждый все равно приходятся в среднем те же сегодняшние одно умножение и одно сложение за такт. Два АЛУ вкупе с целочисленными возможностями FMAC тоже дадут ровно вдвое больше сегодняшней пиковой производительности. Т. к. FPU не имеет своего кэша L1D, то вынужден обращаться за данными к соседним кластерам, загружая до 256 бит/такт.

Кэш L2 увеличился в размере до 2 МБ и оснащён более мощным контроллером. Общий для модулей кэш L3 остался эксклюзивным и, скорее всего, для первых версий будет иметь размер из расчёта 2 МБ/модуль. Контроллер памяти, вероятно, пока останется 2-канальным.

Оценить производительность новых ЦП трудно, т. к. на неё влияют много факторов, особенно пока не найденные подводные камни. Но если таковых не окажется, а вся предварительная информация и догадки подтвердятся, то получится, что за такт 4-6-модульные ЦП будут иметь скорость на уровне 8-12-ядерных K10. А т. к. частота ожидается как минимум в 4-5 ГГц (пусть и не сразу), то пиковая вычислительная мощь процессора утроится. Может быть…

Bulldozer сначала выйдет на 32-нанометровом техпроцессе (и для нового разъёма AM3+, совместимого и с нынешними ЦП), но новая архитектура сделана на годы и поколения вперед (если только её не ждёт участь Pentium 4). Выше показан примерный внешний вид чипа «первенца» — 4-модульного (8-ядерного) ЦП Orochi. Но не стоит детально всматриваться в поисках микроархитектурных секретов — хитрые ребята из AMD без стеснения заявили, что специально исказили снимок, чтобы потенциальный противник (и любопытный журналист) не узнал лишнего раньше времени. Ну, насчёт журналистов это мы ещё посмотрим! ;)




27 сентября 2010 Г.

AMD

AMD

AMD - . , , . , x86- . . ( 10-15 ), . .

Llano

: 3-4 ( ) GPU HD5000. AMD Fusion, CPU, a APU — Accelerated Processing Unit, ( ) . GPU . . . K10 — , K8 K10, L2 1 .

AMD — 32 : AMD ( ) ( ) ( ). TurboCore, Llano , : .

Llano AMD — , Athlon. Intel — Core 2 «» Core i3/i5 GPU. Llano K10 ( FS1 FM1), , , , . , Llano , :)

Bobcat

, . , . . AMD . , , , Intel Atom ( , ARM — AMD c ). AMD ?

Bobcat — 15- 2- (OoO) . — 2- (TLB), K10 Intel. AMD — , «» Intel. AMD, 89% 2 /.

«» (PRF), ROB. , AGU. - (FPU) 64- — , . , , AMD , .

L1 — 32 . 2- L1D , () . L2 512 , , ( ) . , . Llano Atom, Bobcat .

1- 2- , DDR3 DirectX 11 ( Intel) — . APU . Ontario 1—1,6 TDP 9 18 , Zacate 18—20 , Sempron.

Bobcat 40- TSMC, -. , TSMC VIA Nano. 2- 2 20 , . . — Zacate, , VIA GPU . , , 3- 128- , Nano, , Bobcat . AMD , 90% K10. , Nano K10. , , . , 90% K10 , , . , .

Bulldozer

x86- ( ), . Intel (Pentium 4), (Atom) — Pentium Pro 1995 . AMD , 1999 . Athlon K7. AMD: 2- 2011 . Bulldozer, Phenom Opteron, « » , Llano. «» Intel Sandy Bridge, , Core i.

, 4- ( ), , . . Intel Core , AMD . Bulldozer Llano, TurboCore.

, , . Intel (HyperThreading) — , . AMD . , : L2, FPU. L1D — (, ). AMD , 80% , , «» — 12% . . . , . : «» , , 1- .

AMD , SSEx — Bulldozer , x86:

  • SSE;
  • AES — ;
  • AVX, Intel Sandy Bridge — 256 , 3- ;
  • XOP — AVX AMD;
  • FMA4 — -.

K10 Core i, Sandy Bridge — ( K10), . — Bulldozer AMD 4- ( Intel).

. L1I, L2. 4 / 3 — FPU. ( Intel), PRF ( ROB) 4 .

2 + 2 AGU ( K10 — 3 + 3) L1D. — 16 , 3-, 128- . : L2 « ». L1D - 4 , , , , .

(LSU) : , . , L2 L1D, . .

FPU , . . , Pentium, «1 + 1 » ( ) 128- FMAC. - , , , . , . . FPU - , . FMAC . . . FPU L1D, , 256 /.

L2 2 . L3 , , 2 /. , , 2-.

, . . , . , , , 4-6- 8-12- K10. . . 4-5 ( ), . …

Bulldozer 32- ( AM3+, ), ( Pentium 4). «» — 4- (8-) Orochi. — AMD , , ( ) . , ! ;)