Производительность процессоров двух поколений архитектуры Core в равных условиях


Тех, кто посещает наш ресурс в поисках информации, полезной на практике, сразу же хотим предупредить: эту статью им читать не стоит, поскольку ничего практически полезного данное тестирование не несет. А вот с точки зрения теории оно, как раз, достаточно полезно, поскольку мы решили удовлетворить потребности жаждущих сравнить производительность процессоров первого и второго поколения Core в равных условиях. Зачем это нужно? Хотя бы затем, чтобы оценить — что́ реально дало усовершенствование микроархитектуры, что́ стоит отнести уже к более высокому уровню архитектуры, а что́ можно списать и на сопутствующие факторы. Строго говоря, нечто подобное нами уже было проделано почти год назад, но, во-первых, тогда использовалась предыдущая версия методики тестирования, явно не слишком ориентированная на процессоры Sandy Bridge, появившиеся позже всех входящих в нее версий программ, а во-вторых (и в-главных!), в упомянутом материале условия были не совсем равными. Сегодня же мы решили проработать поставленный во втором предложении вопрос более тщательно. Надеемся, что кому-то это окажется полезным или, хотя бы, интересным :)

Конфигурация тестовых стендов

Казалось бы — ну что ж здесь сложного? Берем процессоры одного семейства с одинаковым количеством ядер и выставляем одинаковую частоту. Но не все так просто, поскольку современные процессоры имеют слишком много различающихся характеристик, привести которые к общему знаменателю достаточно сложно. Во-первых, нам не подходят Core i5 — у них изменилась емкость кэш-памяти третьего уровня: ранее было 8 МиБ, а теперь стало 6 МиБ. А вот Core i7 — подойдут. Правда, есть один момент: технология Hyper-Threading тоже может работать чуть по-разному, но это не беда — просто протестируем процессоры в двух вариантах, включив и отключив ее. Какие еще есть сложности? У кэша L3 есть не только емкость, но и частота работы. А она разная: в Core i7 на базе кристалла Lynnfield составляет 2,4 ГГц, а во всех процессорах на базе архитектуры Sandy Bridge равна тактовой частоте вычислительных ядер. Решается эта проблема просто — следует, стало быть, и в качестве тактовой частоты выбрать значение 2,4 ГГц. Тогда вообще все получается идеально — частоты ядер равны и полностью синхронны с L3. Но чтоб этот идеал не нарушался, нужно, разумеется, отключить и Turbo Boost. Тем более, что эта технология функционирует гарантированно по-разному в двух поколениях Core. Да и вообще: во избежание каких-либо отклонений от нормы лучше совсем отключить технологии управления питанием — в этом случае можно быть уверенным в том, что частота процессоров действительно будет равной в каждый момент времени, а гоняться за практически полезными результатами мы сегодня и не собирались.

Процессор Nehalem Nehalem HT Sandy Bridge Sandy Bridge HT
«Базовая» модель Core i7-875K Core i7-875K Core i7-2600K Core i7-2600K
Технология пр-ва 45 нм 45 нм 32 нм 32 нм
Частота ядра, ГГц 2,4 2,4 2,4 2,4
Кол-во ядер/потоков вычисления 4/4 4/8 4/4 4/8
Кэш L1, I/D, КБ 32/32 32/32 32/32 32/32
Кэш L2, КБ 4×256 4×256 4×256 4×256
Кэш L3, МиБ 8 8 8 8
Частота UnCore, ГГц 2,4 2,4 2,4 2,4
Оперативная память 2×DDR3-1333

Таким образом и получаются четыре описанных выше конфигурации.

  Системная плата Оперативная память
LGA1155 Biostar TH67XE (H67) Corsair Vengeance CMZ8GX3M2A1600C9B (2×1333; 9-9-9-24)
LGA1156 ASUS P7H55-M Pro (H55) Corsair Vengeance CMZ8GX3M2A1600C9B (2×1333; 9-9-9-24)

Естественно, с разными системными платами, но одинаковыми видеокартой и модулями памяти, работающими в одинаковом режиме.

Тестирование

Традиционно, мы разбиваем все тесты на некоторое количество групп и приводим на диаграммах средний результат по группе тестов/приложений (детально с методикой тестирования вы можете ознакомиться в отдельной статье). Результаты на диаграммах приведены в баллах, за 100 баллов принята производительность референсной тестовой системы iXBT.com образца 2011 года. Основывается она на процессоре AMD Athlon II X4 620, ну а объем памяти (8 ГБ) и видеокарта (NVIDIA GeForce GTX 570 1280 МБ в исполнении Palit) являются стандартными для всех тестирований «основной линейки» и могут меняться только в рамках специальных исследований. Тем, кто интересуется более подробной информацией, опять-таки традиционно предлагается скачать таблицу в формате Microsoft Excel, в которой все результаты приведены как в преобразованном в баллы, так и в «натуральном» виде.

Интерактивная работа в трёхмерных пакетах

Весьма скромный прирост, укладывающийся в 10%. Несколько не то, что мы наблюдали в предыдущем тестировании, однако в нем и условия были не совсем равными — частота кэш-памяти существенно отличалась. А вот при равной оказывается, что улучшения самих ядер не так уж и велики. Обратим также внимание на то, что Hyper-Threading не дает ничего. Как, собственно, и ожидалось — группа малопоточная. Но «не дает» он чуть по-разному: и на том, и на другом процессоре включение НТ в некоторых программах производительность уменьшает, а в некоторых увеличивает, однако «в среднем» Lynnfield чуть ускоряется, а вот Sandy Bridge замедляется. Любопытный эффект, сохраняющийся и во многих других тестах.

Финальный рендеринг трёхмерных сцен

Вот здесь уже положительный эффект от Hyper-Threading никто в здравом уме никогда не оспаривал, однако опять обратим внимание, что относительная эффективность данной технологии у первого поколения Core выше! А вот абсолютный результат что при включенной, что при отключенной поддержке НТ — ниже. Однако речь в этой группе идет лишь о чуть более чем 5% прироста. Интересное кино — чем более «многопоточным» оказывается характер нагрузки, тем меньше выигрыш новых процессоров.

Упаковка и распаковка

Добавляется еще один фактор — производительность системы памяти. А характер нагрузки становится очень пестрым. И опять повторяются сделанные выше наблюдения: размер прироста колеблется от «почти ничего» в многопоточном сжатии данных посредством 7-Zip — до более 10% в двухпоточном WinRAR. Красоту построений портит лишь то, что традиционно однопоточные тесты на распаковку ведут себя скромнее. И еще любопытно, что прирост от НТ тут как раз немного больше у Sandy Bridge.

Кодирование аудио

Опять используется столько потоков, сколько вычислительных ядер видит система, и опять бо́льшая эффективность НТ — у предыдущего поколения процессоров Intel. С включением «виртуальной многопоточности» Sandy Bridge обгоняет Nehalem лишь на 5%, а без нее — на 8,5%. И то, и другое мы склонны оценивать как скромный прирост.

Компиляция

Мы уже не раз писали, что в этой группе тестов выигрыш новой архитектуры минимальный. Однако, не уравняв частоты L3, мы и не подозревали, что он настолько минимальный. И прирост от НТ, как видим, опять чуть выше у процессоров предыдущего поколения.

Математические и инженерные расчёты

Это малопоточная группа, так что Sandy Bridge вроде бы должен быть впереди? Да, так и есть. Но обратите внимание на НТ: Nehalem даже здесь умудряется ускориться при ее включении, а SB — нет.

Растровая графика

В первый раз мы видим, чтобы усовершенствования архитектуры дали прирост более 10%. И в очередной раз видим, что НТ более полезна для процессоров предыдущего поколения. Впрочем, в этой группе тестов новая архитектура настолько хороша, что этим можно и пренебречь :)

Векторная графика

Совсем небольшая разница в производительности и второй случай, когда к Нyper-Тhreading в Sandy Bridge меньше претензий. Не в том плане, что технология НТ тут хоть что-то может ускорить (приложения-то вообще однопоточные), а в том, что замедление от ее включения у SB выражено в меньшей степени.

Кодирование видео

Казалось бы — здесь использование Hyper-Threading безальтернативно. Но это только казалось, и очень давно — мы уже установили, что Microsoft Expression Encoder и XviD ее на дух не переносят, а в x264 прирост есть, но небольшой. Отсюда и такой немного странный на первый взгляд общий результат в группе. Странный, естественно, с точки зрения оценки полезности НТ, а не разницы между архитектурами — та невелика. Что уже становится привычным.

Офисное ПО

Примечательно, что диаграмма похожа на предыдущую — только абсолютные результаты разные. Хотя, казалось бы, приложения отличаются кардинально, но вот итог одинаковый.

Java

А это еще одна типовая иллюстрация многопоточной группы. Настолько типовая, что и на ней ничего нового не обнаруживается.

Игры

Ситуацию с играми можно считать особенным случаем, поскольку разницы между поколениями Core почти нет. Никакой. Хотя Sandy Bridge считается лучшей архитектурой для игрушек, уже можно точно утверждать, что основная «вина» в хороших результатах этих процессоров лежит вовсе не на изменениях в вычислительных ядрах, а в высокочастотной кэш-памяти третьего уровня: если лишить процессоры этого преимущества, то и все остальное превосходство практически испаряется.

Многозадачное окружение

И вновь мы обращаемся к одному из «экспериментальных» тестов методики, поскольку в данном сравнении его результаты крайне интересны. Суть теста проста: пять бенчмарков запускаются практически одновременно (с паузой в 15 секунд), при этом всем задачам присваивается «фоновый» статус (ни одно окно не является активным). Результатом считается среднее геометрическое времён выполнения всех тестов. Более подробную информацию можно получить из описания методики тестирования, ну а сейчас просто посмотрим на результаты…

…Которые оказались практически равными! К этому мы, конечно, уже были морально подготовлены, но некоторые надежды на чудо сохранялись. Впрочем, компьютерная индустрия вообще редко балует чудесами.

Итого

Признаться честно, результаты данного тестирования оказались для нас несколько неожиданными. Но легко объяснимыми :) Все-таки нельзя надеяться на то, что без существенных и коренных изменений архитектуры можно получить существенное же изменение производительности в равных условиях. Небольшое — можно. Что мы и наблюдали при переходе от Core 2 к Core, а теперь наблюдаем на следующей итерации — при переходе ко второму поколению Core. Собственно, и в Intel это не скрывали — иначе бы не назывались две (микро)архитектуры столь похожим образом. Небольшие улучшения, безусловно, были сделаны, но именно небольшие. Кстати, очень может быть, что именно из-за этих улучшений снизилась относительная эффективность Hyper-Threading: ведь основная задача этой технологии — сделать так, чтобы функциональные блоки не простаивали. А если они и так загружаются «плотнее» (что и приводит к росту производительности), следовательно, сложнее получить прирост от добавления потоков вычисления на те же физические ядра.

Однако тестирования реальных процессоров демонстрируют совсем иные результаты, чем мы получили при попытке поставить два кристалла в равные условия. Нет ли здесь противоречий? На самом деле, нет — на практике процессоры и работают в неравных условиях. Наиболее заметные изменения связаны с появлением кольцевой шины (более точно — с приходом кольцевой шины в процессоры массового сегмента) и увеличением частоты работы кэш-памяти третьего уровня. Явления это взаимосвязанные — без способа «быстрой доставки» данных из кэша L3 в сами ядра нет смысла и ускорять L3, а если последний делать более быстрым, то надо увеличивать и пропускную способность «магистрали» из UnCore в Core. Именно это в Sandy Bridge и сделано, что позволило перейти от асинхронной работы кэша с ядрами — к синхронной. Особенно сильно эффект сказывается даже не в четырехъядерных, а в двухъядерных моделях: они демонстрируют более высокую производительность, несмотря на сниженную по сравнению с предшественниками тактовую частоту ядер. Clarkdale даже часто́ты около 4 ГГц не помогают бороться на равных с SBDC на частотах в районе 3 ГГц: у последних и кэш работает на той же частоте, а у первых — в полтора раза медленнее (Core i5-680: ядра 3,6-3,73 ГГц и UnCore 2,4 ГГц; Core i3-560: 3,33 и 2,16 ГГц). Четырехъядерным же моделям заодно и тактовую частоту повысили: стартовую на 10%, реальную — сильнее, поскольку переработана была и технология Turbo Boost, что позволяет говорить о том, что это уже Turbo Boost 2.0.

А чем из этих преимуществ новых процессоров мы воспользовались? Естественно, ничем! Просто потому, что Sandy Bridge поставили вовсе не в те условия, на которые он рассчитан. Вот и получилось, что он фактически не лучше предшественника. Только вот… на частоте 2,4 ГГц синхронно и для ядер, и для UnCore умеют работать оба, демонстрируя при этом близкие результаты, однако Core i7-2600K на практике работает на частотах от 3,4 ГГц с сохранением все той же синхронности, а Core i7-875K на такие подвиги не способен. Со всеми вытекающими. Целевые частоты у процессоров разные, разная и итоговая производительность в реальных условиях. А в одинаковых — почти одинаковая. У новых нигде не хуже, чем у старых (в отличие от времен перехода на  NetBurst, когда попытка уравнять тактовую частоту с предыдущими процессорами могла особо впечатлительных и до инфаркта довести), но и не сильно лучше. Однако в комплексе с другими улучшениями этого оказывается более чем достаточно.



Благодарим компании Corsair, «Ф-Центр» и Palit
за помощь в комплектации тестовых стендов



Дополнительно

ВИКТОРИНА TT

Материнские платы какого форм-фактора можно устанавливать в корпус Thermaltake Versa C22 RGB Snow Edition?

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.