Линейка процессоров AMD 2010 года:исследуем подробности. Часть 2. Переход с 1 ядра на 2.

1390
1390

Задача в общем виде*

* — данное вступление, для удобства читателей, повторяется в начале каждой статьи этой серии

1188
1188

Наши постоянные читатели, быть может, помнят серию статей, которая выходила в 2009 году под общим заголовком «Влияние различных характеристик на быстродействие процессоров современных архитектур». В ней мы рассматривали некоторое количество сферических процессоров в вакууме, чтобы на основе анализа их быстродействия составить общее впечатление о скорости процессоров реальных и факторах, на неё влияющих. В новом году, после выхода следующей версии методики, мы решили творчески переработать опробованный ранее метод с уклоном в большую реалистичность исследуемых вопросов, то есть моделируя ситуации по возможности реальные. Как и в прошлый раз, начать мы решили с продукции компании AMD, а именно — с самой новой её платформы: Socket AM3. Благо, производитель обещает этой платформе достаточно долгую жизнь, популярность её в пользовательской среде велика, да и название себе компания подобрала более удачное, чем конкурент — с точки зрения сортировки по алфавиту. :)

Нынешняя линейка AMD на первый взгляд кажется несколько хаотичной (мы бы сказали, что и на все последующие тоже…), однако логику производителя понять можно: разумеется, гораздо приятнее бракованный процессор продать, чем выбросить. А т. к. модификаций с различными объёмами и типами кэшей и количеством ядер эта компания выпускает достаточно много, соответственно, есть большой соблазн придумать для экземпляра с «бракованным» ядром или кэшем какое-то название, ядро или часть кэша отключить, а процессор всё-таки продать. :) Благодаря этой замечательной, новаторской политике AMD, в линейке производимых ею AM3-процессоров наблюдается аж три разновидности двухъядерных — с разными объёмами L2-кэша, и даже с наличием L3; две модификации трёхъядерных — с L3 и без него; и снова три модификации четырёхъядерных — с L3 и без него, а также с различными объёмами L3. Кроме того, выпускается для платформы AM3 ещё и одноядерный Sempron. Сведя в одну небольшую таблицу основные технические характеристики CPU для платформы AM3, мы наконец-таки имеем шанс понять, что определённого рода логика в модельном ряде AMD есть:

 SempronAthlon II X2Phenom II X2Athlon II X3Phenom II X3Athlon II X4Phenom II X4Phenom II X6
ядер12233446
кэш L2, КБ10242×512/10242×5123×5123×5124×5124×5126×512
кэш L3, КБ614461444096/61446144

Итак, мы наблюдаем достаточно логичное «путешествие» от 1 ядра к 6, сопровождающееся вариациями на тему объёма L2-кэша, а также наличия или отсутствия L3 и его объёма. При этом объёмом L2 AMD «играется» на относительно слабых процессорах (двухъядерных), а далее в качестве универсального «убыстрятеля всего» используется введение L3. Также можно отметить два одинаково странно смотрящихся процессора: Phenom II X2, который при всего 2 ядрах имеет гигантский L3-кэш, и, наоборот, Athlon II X4 — который при 4 ядрах лишён оного совсем. По идее, первый должен являться идеальным вариантом для старого ПО без многопоточной оптимизации (хотя тогда ему и второе-то ядро не очень нужно…), а второй — процессором для оптимистов, надеющихся на то, что 4-ядерный CPU победит все процессоры с меньшим количеством ядер, невзирая на парусник объём кэша. Так оно будет или не так — посмотрим на результаты…

Соответственно, вырисовываются наиболее интересные сопоставления с точки зрения анализа производительности:

  1. Увеличение количества ядер при одинаковом объёме кэша:
    1. от 1 ядра к 2;
    2. от 2 ядер к 3;
    3. от 3 ядер к 4;
    4. от 4 ядер к 6.
  2. Увеличение количества кэша при одинаковом количестве ядер:
    1. на 2-ядерных процессорах (L2, добавление L3);
    2. на 3-ядерных процессорах (добавление L3);
    3. на 4-ядерных процессорах (добавление L3, разные размеры L3).
  3. Вариации на тему «меньше ядер, но больше кэш*»:
    1. 1-ядерный процессор в сравнении с 2-ядерным;
    2. 2-ядерный процессор в сравнении с 3-ядерным.

* — подразумевается: на одиночное ядро.

Как видите, почвы для исследований — поле непаханое. Правда, для того чтобы мы могли зафиксировать своё внимание именно на влиянии вышеперечисленных факторов, убрав все мешающие, нам понадобилось всё-таки сделать один реверанс в сторону «синтетичности» — независимо от того, существует ли такая модель CPU в реальности, все участники тестов работали на одной частоте ядра: 2,6 ГГц. Впрочем, не так уж всё и плохо: Athlon II X3/X4, Phenom II X3/X4 с такой частотой действительно существуют, не бывает только 2600-мегагерцевых Sempron, Athlon/Phenom II X2 и Phenom II X6.

Тестирование

Как и было сказано выше, тестирование проводилось в соответствии с новейшей методикой 2010 года, с некоторыми незначительными модификациями:

  1. Поскольку задача перед нами стояла достаточно масштабная и интересная, а все участники тестов вели себя весьма пристойно, и необъяснимых с точки зрения логики странностей практически не демонстрировали, нами было принято волюнтаристское решение все опциональные тесты объявить постоянными — таким образом, они присутствуют в основном разделе, и участвуют на общих основаниях в среднем балле.
  2. Поскольку некоторое количество рассмотренных процессоров являются, так сказать «виртуальными», и в реальности не производятся, для данного цикла, для удобства сравнения, был выбран свой собственный эталонный (100-балльный) процессор из числа принимавших участие именно в этой серии тестов: AMD Phenom II X4 810.

Традиционно, мы даём ссылку на XLS-таблицу с подробными результатами всех тестов.

Также некоторым, быть может, покажется неожиданной последовательность поднимаемых в различных сериях вопросов: очевидно, что логическому осмыслению она не поддаётся. :) Здесь вам придётся просто простить нам некую хаотичность в последовательности выхода серий: она обуславливается простым «рабочим моментом» — серии будут выходить в той последовательности, в которой будут становиться доступны рассматриваемые в них результаты. К сожалению, обширность нашей методики тестирования обуславливает один её неизбежный недостаток: тесты идут очень долго. Соответственно, мы решили пожертвовать красотой ради оперативности, и, надеемся, вы нас поймёте. К тому же формат сериала, который условно можно обозначить как «одна статья — один ответ на конкретный вопрос», — вполне располагает к такому подходу: ведь нет «важных» и «неважных» вопросов, каждый из них по-своему интересен, и каждый наверняка найдёт своего читателя.

Приступим к практической части. В этой серии мы рассмотрим переход с одного ядра на два в тех двух вариантах, которые предлагает нам компания AMD: с сохранением объёма кэша второго уровня (1024 КБ на ядро) и с его уменьшением (512 КБ на ядро). Что характерно: одноядерных процессоров Sempron с пониженным до 512 КБ объёмом L2, у AMD в ассортименте для платформы Socket AM3 пока просто нет. Таким образом, мы сможем оценить преимущества в производительности двухъядерной платформы Socket AM3 над одноядерной, а также выяснить, настолько ли первой нужен большой L2.

3D-визуализация

Для начала напомним, что проценты прироста производительности, приведенные во всех таблицах, в обоих случаях считаются относительно одноядерного процессора, а красным цветом мы выделяем результаты, с трудом укладывающиеся в привычную нам картину, и достойные отдельного обсуждения.

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
3ds max
79790%790%
Lightwave
9189-2%943%
Maya
9089-1%944%
UGS NX 6
83830%9818%
Pro/ENGINEER
90900%956%
SolidWorks
3194203%98216%
Group Score778713%9321%

Отрицательные цифры прироста у Lightwave и Maya можно попытаться объяснить тем, что они наблюдаются только у двухъядерного процессора с уменьшенным количеством L2 на ядро (соответственно, если исходить из предположения о том, что процесс визуализации второе ядро практически не затрагивает — всё логично). А можно и не объяснять вовсе — расхождение до 2%, если оно не систематическое, вполне укладывается в погрешность измерений, о чём мы уже неоднократно писали раньше. Существенно интереснее ситуация с SolidWorks — мы неоднократно перепроверяли результаты всех трёх процессоров, и можем с полной уверенностью утверждать: это не ошибка. Действительно, проценты ускорения от перехода с одного ядра на два такие вот «зашкаливающие». Разумеется, мы имеем дело с ошибкой в программе (более точно: с очень неоптимальной реализацией какого-то алгоритма), в результате которой процессор, имеющий менее 2 ядер, оказывается в сильном проигрыше. Сложность в том, что мы даже не знаем точно, кого винить: поскольку мы тестируем скорость визуализации, виноват может быть даже не сам пакет SolidWorks, а какая-нибудь специфическая функция OpenGL, «кривовато» реализованная в драйвере видеокарты. Правда, на этих двух кандидатах, рассуждая логически, список заканчивается.

Рендеринг трёхмерных сцен

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
3ds max
376370%6370%
Lightwave
2349113%51122%
Maya
254788%4892%
Group Score285389%5493%

Сверхлинейный рост скорости рендеринга в Lightwave при переходе с одного ядра на два, мы уже отмечали и раньше. Правда, тогда в том же был замечен и пакет 3ds max. В этот раз, наоборот, 3ds max продемонстрировал весьма скромные показатели прироста (да-да, 68% для рендеринга — это очень скромный показатель!). Возможно, дело в новой версии используемого нами движка V-Ray, а может быть — в сцене для рендеринга, об этом навскидку судить сложно.

Научные и инженерные расчёты

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Maya
578956%8956%
UGS NX 6
89890%968%
Pro/ENGINEER
87892%948%
SolidWorks
718520%9230%
MAPLE
96960%982%
Mathematica
446343%6548%
MATLAB
517343%7445%
Group Score718317%8723%

Как и раньше, инженерные CAD в табели о рангах параллельной оптимизации плетутся в самом хвосте. Только SolidWorks продемонстрировал более-менее пристойный показатель, но до MATLAB и Maya ему далеко. И уже в третий раз двухъядерник с 1024 КБ L2 демонстрирует весьма скромный отрыв от двухъядерника с 512-килобайтовым.

Растровая графика

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
ACDSee
879813%10116%
Corel PaintShop
88958%969%
Corel PhotoImpact
92975%998%
Adobe Photoshop
497145%7349%
Group Score799014%9216%

В этой группе всё традиционно: самая лучшая параллельная оптимизация у Adobe Photoshop, некие намёки на её наличие — у ACDSee, и нечто совсем невнятное — у двух пакетов Corel. Как ни странно, к большому кэшу все 4 пакета оказались в достаточной степени равнодушны.

Сжатие данных

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
7-zip
285286%5596%
RAR
647923%8330%
Unpack (RAR)
88880%902%
Group Score607322%7627%

Новая версия 7-Zip вкупе с новыми опциями демонстрирует очень хорошую многопоточную оптимизацию. При сохранении объёма L2-кэша (напомним, что у Sempron он равен 1024 КБ), переод на 2 ядра даёт почти идеальное ускорение. А вот уполовинивание кэша ухудшает результат достаточно существенно — на целых 10%. Впрочем, это только у 7-Zip, а у WinRAR всё намного спокойнее и индифферентнее. Что же касается распаковки, то она вообще однопоточная.

Компиляция

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Group Score325159%5778%

Первый тест, в котором уполовиненный L2-кэш оказался намного хуже.

Java

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Group Score285286%5596%

И снова ускорение от 2-го ядра существенно зависит от объёма L2. Если он сохраняется таким же, как у одноядерного процессора — почти идеальное, если половинного размера — тоже неплохо, но уже не так впечатляюще. Но, вообще, следует отметить, что ситуация с типами ПО и многопоточной оптимизацией становится существенно «веселее», чем несколько лет назад: тогда оптимизм внушали только рендеры да видеокодеры.

Браузеры

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Flashbench
728721%9025%
Google v8
9491-2%93-1%
Sun Spider
10293-9%94-8%
Group Score91910%932%

Из серии «и так тоже бывает»: JavaScript-бенчмарки Sun и Google в принципе не любят многоядерность. А вот прирост во Flashbench как бы намекает нам, что некая многопоточная оптимизация во flash-плеере Adobe присутствует…

Кодирование аудио

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Apple Lossless
2550100%50100%
FLAC
254996%50100%
Monkey’s Audio
2550100%50100%
MP3 (LAME)
265092%5092%
Nero AAC
254996%51104%
Ogg Vorbis
265092%5092%
Group Score2550100%50100%

Идеальный показатель, но оно и понятно: dBpoweramp запускает столько потоков кодирования, сколько найдёт процессоров. Чувствительности к кэшу практически никакой — видимо, объём одновременно обрабатываемых данных довольно небольшой.

Кодирование видео

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
DivX
567534%7738%
Mainconcept (VC-1)
386366%6468%
Adobe Premiere
2448100%49104%
Sony Vegas
295383%5590%
x264
275085%5085%
XviD
437267%7267%
Group Score366067%6169%

Наилучшая многопоточная оптимизация у Adobe Premiere, наихудшая, как ни странно — у DivX (почему странно? да потому, что очень распространённый продукт, к тому же коммерческий: могли бы уж озадачиться…) Большой L2 на двухъядернике не то что бы не даёт никакого эффекта, но выдающимся преимущество в 5% тоже назвать нельзя.

Воспроизведение видео

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
DXVA/H.264
384724%5032%
DXVA/VC-1
3396191%104215%
Software/H.264
345253%5356%
Software/VC-1
244588%48100%
Group Score326088%64100%

А вот и третий артефакт: теперь сверхлинейный рост при переходе на 2 ядра продемонстрировал тест на проигрывание видео, закодированного в формат VC-1 с задействованием функций аппаратного ускорения видеокарты. Напомним, в чём суть данной группы тестов: замеряется средняя загрузка процессора во время воспроизведения видеоролика. Таким образом, как только мы переходим с двухъядерного процессора на одноядерный — нагрузка невероятным образом растёт. И снова нельзя определить точно, кто виноват: проигрывающее ПО (Media Player Classic Home Cinema), или драйверы видеокарты (ведь используется её аппаратное ускорение).

Виртуальная машина

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Ubuntu Linux
496839%7145%
Windows XP
517241%7547%
Group Score507040%7346%

Как ни странно, большой L2 не сильно сказывается на результатах.

Игры

 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Batman
417378%7788%
Borderlands
548150%8557%
Dirt2
325366%6294%
Far Cry 2
366478%6992%
Fritz Chess
254788%4892%
GTA IV
1345246%51292%
Resident Evil 5
466235%6541%
S.T.A.L.K.E.R. «Pripyat»
829212%9212%
UT3
435426%6040%
Crysis: Warhead
437677%8495%
World in Conflict
335670%6597%
Group Score416456%6968%

А вот и четвёртый артефакт, впрочем, уже знакомый нам по предыдущим тестированиям: Grand Theft Auto IV. Сверхлинейный рост впечатляет: почти 300%! Разумеется, ничем кроме ошибки программистов это объяснить нельзя. В целом же, игры зарекомендовали себя чуть ли не самыми кэшелюбивыми приложениями: двухъядерник с большим L2 выигрывает у своего собрата целых 12%. Так и просится в следующее сравнение Phenom II X2 — у него суммарный объём кэша ещё больше.

Общий балл

195
 1 ядро 1024 КБ L22 ядра 2×512 КБ L2%%2 ядра 2×1024 КБ L2%%
Group Score506836%7142%

Разумеется, мы подозревали ;), что в 2010 году второе ядро будет (нет — просто обязано!) давать достаточно существенное преимущество в скорости выполнения приложений. Вопрос был: насколько существенное. И действительно: 5 лет подряд нас кормят рассказами про то, что «многоядерность это наше всё» — пора бы уже предъявить некий реальный эффект. А двухъядерность — это как раз минимальный вариант той самой многоядерности, меньше уже не придумаешь.

Intel, правда, придумала, но мы сейчас обсуждаем линейку процессоров AMD.

Поэтому наши выводы будет просты, но отнюдь не восторженны: да, конечно, два ядра имеют смысл. 36% — цифра хорошая, большая. 42% — ещё больше, приятно. Правда, по состоянию на момент написания статьи, равночастотный одноядерному Sempron 140 двухъядерный Athlon II X2 215 стоит ровно на 36% больше, т. е. с финансовой точки зрения обладает точно таким же соотношением цены к производительности. Плюс к тому, неожиданно обнаруженные нами отнюдь не единичные программисты-склеротики, забывшие о существовании одноядерных процессоров артефакты производительности (SolidWorks, Lightwave, GTA IV, DXVA/VC-1) свидетельствуют о том, что увеличение разрыва между одноядерными и многоядерными системами может обеспечиваться в том числе дальнейшим распространением среди программистов этой разновидности склероза накоплением подобных артефактов, а вовсе не объективной разницей в скорости.

В общем, всё как всегда: оптимисты могут утешать себя тем, что всё могло быть намного хуже, пессимистам же вполне допустимо горевать о том, что всё отнюдь не так хорошо, как можно было ожидать. Реалисты же (не страдающие склерозом), возможно, вспомнят о том, что в прошлом году у сферического двухъядерного процессора в вакууме прирост производительности относительно одноядерного аналога составил 49% — а значит, вполне возможно, дело не только в количестве ядер, но и в каких-то других характеристиках (мы ещё исследуем этот вопрос чуть позже на примере Phenom II X2). Косвенно данную гипотезу подтверждает двухъядерник с 2×1024 КБ L2-кэша — его средняя производительность на 6% выше, чем у двухъядерника с 2×512 КБ L2. Хотя, честно говоря, от вдвое большего L2 мы почему-то ждали более весомого эффекта.

Ну и напоследок, в качестве справочной информации: средний прирост по группам приложений при переходе с 1 ядра на 2 на платформе AMD Socket AM3.

 %% прироста
3D-визуализация
17%
Рендеринг
91%
Расчёты
20%
Графика
15%
Упаковка
24%
Компиляция
69%
Java
91%
Браузеры
1%
Кодирование аудио
100%
Кодирование видео
68%
Воспроизведение видео
94%
Виртуальная машина
43%
Игры
62%


Процессоры AMD Sempron и Athlon II X2
предоставлены компанией
 



1286
1286

13 октября 2010 Г.

194
1358
1358

iXBT TV

  • Обзор продвинутых сетевых накопителей QNAP D2 Pro и D4 Pro

  • Обзор воздухоочистителя и тепловентилятора Dyson Pure Hot+Cool

  • Обзор корпуса Thermaltake View 71 TG RGB со стеклянными стенками

  • Обзор роликового массажера Gochu HPM-600 с инфракрасным прогревом

  • Обзор робота-пылесоса iBoto Easy Home X410

  • Настоящий титан, машинное обучение для камеры, «игровой Оскар» 2017

  • Обзор струйного МФУ Canon Maxify MB5440 с широкими возможностями для небольшого офиса

  • Обзор рожковой кофеварки Kitfort KT-703 с полуавтоматическим приготовлением капучино и латте

  • Обзор видеорегистратора с радар-детектором и GPS-модулем Slimtec Phantom A7

  • Взлом macOS, покемоны-вредители, сверхскоростной стандарт HDMI 2.1

  • Выбор системы хранения данных бюджетного игрового компьютера: HDD/SSD/Optane Memory

  • Обзор беззеркальной камеры Sony α6500 премиального класса с сенсором APS-C

450
450
997