Процессорное трио AMD

Новинки

После долгого перерыва компания AMD наконец-то радует нас процессорными новинками. Точнее, пока обещаниями о них, но даже обещания достойны обсуждения. Новинки нацелены на все сегменты рынка, где x86-ЦП уже присутствуют. Новых архитектур целых три. Помимо намеренного хронологического наложения (вся тройка выйдет в ближайшие 10-15 месяцев), все они основаны на новых техпроцессах и будут иметь разнообразнейшие приёмы экономии потребляемой энергии. А вот остальное уже различно.

Llano

Эти выходящие зимой процессоры описать проще всего: однокристальные мобильные ЦП с 3-4 ядрами общего назначения и северным мостом с мощным (по меркам интегрированной графики) GPU серии HD5000. В соответствии с новой парадигмой AMD Fusion, новые ЦП теперь называются не CPU, a APU — Accelerated Processing Unit, ускоренный (графическим ядром) процессорный элемент. Это предполагает возможное использование GPU в т. ч. и в неграфических приложениях. Архитектура ядер является чуть обновлённой K10 — изменений куда меньше, чем при переходе от K8 к K10, наиболее заметно удвоение кэшей L2 до 1 МБ.

А вот на уровне энергоэффективности AMD обещает большой скачок — чипы будут изготовляться по технологии 32 нм и поддерживать множество методов сохранения энергии: ко всем ранее имевшимся у AMD (и её главного конкурента) добавлены коммутаторы питания для ядер (что на порядок понизит потребление при простое) и цифровое слежение за термоэлектрическими параметрами (для более резвого реагирования на перераспределение вычислительной нагрузки). Также обновлена технология TurboCore, так что тестировать Llano имеет смысл для определения не только энергоэффективности, но и производительности: продвинутый частотный авторазгон может оказаться эффективнее микроархитектурных улучшений.

Llano нужен для замены всех текущих мобильных ЦП AMD и значительного количества настольных моделей — прежде всего, Athlon. Далее уже потеснятся конкуренты Атлонов из стана Intel — остатки линейки Core 2 и более «свежие» Core i3/i5 со встроенным GPU. И хотя Llano окажется чуть быстрее и намного экономней своих предыдущих коллег по K10 (для чего его переведут на новые разъёмы FS1 и FM1), вечно подлатывать эту архитектуру не получится, а почти все заплатки, которые пока ещё не сделаны, как раз и будут добавлены. Таким образом, главным недостатком Llano оказывается тот факт, что далее ему развиваться уже некуда :)

Bobcat

Это ядро разработано с нуля специально для мобильных устройств, где экономия энергии намного важнее скорости. Дорогим оно тоже не будет, т. к. AMD сэкономила и на размере чипа. Иными словами, цели, а значит и рыночные ниши те же, что и у Intel Atom (кроме смартфонов, где ARM будет биться до последнего — и AMD c ней связываться явно не собирается). Но в чём AMD хочет быть лучше?

Bobcat — это 15-стадийный 2-путный суперскаляр с внеочередным (OoO) исполнением команд и разнообразными оптимизациями вспомогательных блоков для максимального использования весьма скудных ресурсов. Среди улучшений — развитый предсказатель ветвлений и 2-уровневые буферы преобразования виртуального адреса в физический (TLB), чем ещё недавно могло похвастать лишь ядро K10 и ЦП Intel. AMD также отказалась от давно используемой схемы предварительной разметки границ команд — тут определение длины делается динамически, как у «больших» ЦП Intel. По утверждению AMD, в 89% случаев декодеры смогут поддерживать максимальный темп в 2 мопа/такт.

В «тыле» конвейера применены физические регистровые файлы (PRF), что экономней буферов ROB. Команды общего назначения обрабатываются двумя скалярными АЛУ и умножителем, а адреса в памяти вычисляют два AGU. Векторно-вещественный блок (FPU) имеет лишь 64-битные ФУ — все команды векторной обработки будут исполняться вдвое дольше, чем у настольных ЦП. И хотя обещают малые задержки самих ФУ, но удвоив их разрядность, AMD могла бы значительно улучшить производительность на ватт в векторных вычислениях, даже в обмен на чуть большую площадь ядра.

Оба кэша L1 — по 32 КБ. 2-портовый L1D полностью переработан, снабжён неслабым предзагрузчиком (префетчером) и механизмом перетасовки запросов. Кэш L2 на 512 КБ, предположительно, тактируется (или может тактироваться) на половинной частоте. Разумеется, присутствуют все новейшие и наиэффективнейшие методы экономии энергии. Помимо всего имеющегося у Llano и Atom, Bobcat разменял избыточные параллельные операции на необходимые последовательные и минимизировал ненужные перемещения данных в ядре и кэше.

Реализации новой архитектуры будут 1- и 2-ядерными и максимально интегрированными, включая контроллер памяти DDR3 и новейший графический ускоритель с поддержкой DirectX 11 (на зависть Intel) — рекордный по меркам целевых ниш. Ненужность северного моста чипсета и припаиваемый корпус минимального размера самого APU позволит собрать очень компактную систему. Версия Ontario с частотами 1—1,6 ГГц и TDP 9 или 18 Вт рассчитана на нетбуки, а более быстрая Zacate своими 18—20 ваттами целится на неттопы, играя роль нынешних Sempron.

Выпускаться Bobcat будет на 40-нанометровом техпроцессе компании TSMC, начиная с ноября-декабря. Любопытно, что на этом же техпроцессе той же TSMC в это же время VIA собирается выпустить новые ЦП Nano. Эти 2-ядерные чипы будут иметь частоты до 2 ГГц и потребление до 20 Вт, т. е. — конкуренты моделям Zacate, но лишь с процессорной точки зрения, ибо VIA пока не имеет даже планов встраивать GPU в ЦП. Однако, имея вдвое большие кэши всех видов, 3-путный суперскаляр и 128-битные ФУ, Nano, теоретически, должен обойти Bobcat по быстродействию. AMD же заявляет, что её новичок будет иметь 90% производительности от уровня K10. Выходит, что Nano должен быть даже быстрее K10. Впрочем, такое сравнение мы недавно уже сделали, и с весьма плачевными для тайваньской компании результатами. А значит, никаких 90% от K10 Бобкэту, скорее всего, не видать. Тем интересней проверить, как всё будет на самом деле.

Bulldozer

До сих пор очередной новый x86-ЦП если и получал кремниевые улучшения (не считая перевода на новый техпроцесс), то чаще всего эволюционно следующие из текущих моделей. У Intel одно исключение было (Pentium 4), и одно есть (Atom) — остальные ЦП являются сильно модифицированными производными Pentium Pro от 1995 г. У AMD исключений не было, и генеалогия её последних чипов ведётся с 1999 г. и первых Athlon архитектуры K7. Но вот настало время великих перемен и у AMD: во 2-й половине 2011 г. после долгой разработки выйдет совершенно новая архитектура Bulldozer, которая поначалу проникнет в современные модели Phenom и Opteron, а потом спустится «с небес» до ниш, занятых до этого Llano. А если при этом «Бульдозер» окажется хотя бы на уровне новых ЦП Intel архитектуры Sandy Bridge, то и им придётся нелегко, не говоря уже о современных Core i.

Частотное ограничение для современных процессоров, надолго застрявших перед 4-м гигагерцем (несмотря на многочисленные обновления техпроцесса), состоит уже не в способности транзисторов достаточно быстро переключаться, а в ограничении по потребляемой мощности и выделению тепла. Так что теперь и для серверных ЦП пригодится энергосбережение. Intel давно модифицировала под разумную энергоэкономию архитектуры Core всех видов, а AMD снова догоняет. Bulldozer взял энергосберегающие технологии у Llano, как и улучшенную TurboCore.

Если не удается ускоряться частотой, приходится делать это увеличением числа ядер, что приводит к росту площади ЦП и его цены. Intel решила проблему технологией гиперпоточности (HyperThreading) — два виртуальных ядра лучше загружают неиспользуемые ресурсы одного физического ядра, но обычно эффект скромен. AMD же вместо этого попарно объединила ядра в модули. Общими и распределяемыми сделаны те ресурсы модуля, производительность которых почти всегда достаточна для обслуживания двух потоков: кэш L2, весь фронт и FPU. А самые нагруженные работой целочисленные блоки и кэши L1D — раздельны (собственно, именно они теперь и называются ядрами). AMD заявляет, что производительность двух потоков на 80% больше, чем у одного, хотя площадь выделенных одному «ядру» блоков — всего 12% площади модуля. Т. е. максимизируется скорость и на ватт, и на квадратный миллиметр. А при запуске лишь одного потока на модуль ему будут доступны все разделяемые ресурсы: второе «ядро» отключается, и свободные ватты позволят занятым транзисторам разогнаться сильнее, так что и 1-поточная производительность не подкачает.

AMD решила, что негоже внедрять очередной набор SSEx через годы после их появления в ЦП конкурента — Bulldozer будет поддерживать всё, что до сих пор было придумано для x86:

все SSE;
AES — ускорение шифрования;
новейшие дополнения AVX, также ожидаемые в Intel Sandy Bridge — удвоение разрядности векторов до 256 бит, расширение команд до более удобного 3-операндного вида и компактизация кода;
XOP — дополнения к AVX самой AMD;
группа FMA4 — слитое умножение-сложение.

Поскольку Бульдозеру надо не просто победить K10 и современные Core i, но и хотя бы догнать Sandy Bridge — практически все численные показатели улучшены (в сравнении с K10), включая многочисленные буферы и очереди. Но главное — Bulldozer является первой архитектурой AMD с 4-поточным декодированием команд и макрослиянием (вдогонку Intel).

Предсказатель переходов генерирует предполагаемые последовательности исполнения кода двумя потоками. Если этого кода ещё нет в кэше L1I, он заранее подгружается из L2. До 4 декодированных мопов/такт распределяются в 3 исполнительных кластера — два общего назначения и один FPU. В каждом кластере есть общие для всех ФУ планировщики (как у Intel), PRF (вместо ROB) и 4 порта запуска мопов.

В целочисленных кластерах находятся по 2 АЛУ + 2 AGU (в K10 — 3 + 3) и местный кэш L1D. Последний кардинально переработан — уменьшившись вчетверо до 16 КБ, он стал 3-портовым, выполняя два 128-битных чтения и одну запись за такт. Он также инклюзивен и имеет логику сквозной записи: изменённые данные сразу направляются в L2 через специальный «кэш слияния записей». Ассоциативность L1D наконец-то увеличилась до 4 путей, и, впервые среди известных архитектур, добавлен предсказатель пути, экономящий энергию и время.

Контроллер кэша (LSU) стал полностью внеочерёдным: чтение и запись выполняются в порядке, гарантирующем максимальную скорость и целостность данных. Несколько предзагрузчиков одновременно следят за многочисленными запросами, загружая данные в L2 и оба L1D, и даже пытаются предсказать адреса на первый взгляд совершенно случайных обращений. Алгоритмы оптимизированы для наиболее популярных настольных и серверных приложений.

FPU по вещественным операциям стал вдвое мощней, т. к. вместо стандартного для всех ЦП, начиная с Pentium, набора «1 умножитель + 1 сумматор» (только теперь они векторные) поставлена пара 128-битных блоков FMAC. Каждый из них может выполнить слитое умножение-сложение быстрее, чем отдельные ФУ и, возможно, одновременно запустит и пару таких отдельных команд. Впрочем, т. к. FPU исполняет векторно-вещественные операции двух потоков, на каждый все равно приходятся в среднем те же сегодняшние одно умножение и одно сложение за такт. Два АЛУ вкупе с целочисленными возможностями FMAC тоже дадут ровно вдвое больше сегодняшней пиковой производительности. Т. к. FPU не имеет своего кэша L1D, то вынужден обращаться за данными к соседним кластерам, загружая до 256 бит/такт.

Кэш L2 увеличился в размере до 2 МБ и оснащён более мощным контроллером. Общий для модулей кэш L3 остался эксклюзивным и, скорее всего, для первых версий будет иметь размер из расчёта 2 МБ/модуль. Контроллер памяти, вероятно, пока останется 2-канальным.

Оценить производительность новых ЦП трудно, т. к. на неё влияют много факторов, особенно пока не найденные подводные камни. Но если таковых не окажется, а вся предварительная информация и догадки подтвердятся, то получится, что за такт 4-6-модульные ЦП будут иметь скорость на уровне 8-12-ядерных K10. А т. к. частота ожидается как минимум в 4-5 ГГц (пусть и не сразу), то пиковая вычислительная мощь процессора утроится. Может быть…

Bulldozer сначала выйдет на 32-нанометровом техпроцессе (и для нового разъёма AM3+, совместимого и с нынешними ЦП), но новая архитектура сделана на годы и поколения вперед (если только её не ждёт участь Pentium 4). Выше показан примерный внешний вид чипа «первенца» — 4-модульного (8-ядерного) ЦП Orochi. Но не стоит детально всматриваться в поисках микроархитектурных секретов — хитрые ребята из AMD без стеснения заявили, что специально исказили снимок, чтобы потенциальный противник (и любопытный журналист) не узнал лишнего раньше времени. Ну, насчёт журналистов это мы ещё посмотрим! ;)