CMP vs SMP на платформе Intel:

сравнение низкоуровневых характеристик подсистемы памяти с помощью RightMark Memory Analyzer

Буквально два дня назад мы представили вашему вниманию материал, посвященный сравнению быстродействия новых двухъядерных платформ Intel (процессор Pentium Extreme Edition 840, чипсет Intel 955X) с производительностью «традиционных» двухпроцессорных платформ — SMP-систем на базе равночастотных процессоров Intel Xeon (ядра Nocona и Irwindale) и чипсета для рабочих станций Intel E7525. При этом в ряде тестов был получен весьма интересный результат — производительность системы на базе 3,2-ГГц двухъядерного процессора Pentium Extreme 840, фактически представляющего собой полный аналог двухпроцессорной системы, основанной на базе 3,2-ГГц Xeon (Nocona) оказалась выше не только производительности данной платформы, но и системы, построенной на процессорах Intel Xeon с ядром Irwindale, обладающим вдвое большим объемом L2-кэша (по 2 МБ на каждый процессор/ядро, в сравнении с 2 МБ L2 на весь процессор Pentium Extreme Edition 840, т.е. по 1 МБ на ядро).

Такой результат можно было бы объяснить использованием более быстрой памяти DDR2-533 на десктопной двухъядерной платформе, в сравнении с Registered ECC DDR2-400, применяемой в серверных платформах. Совершенно понятно, что дело здесь не в более высокой пропускной способности DDR2-533, потенциал которой в данном случае (двухканальном режиме) раскрывается далеко не полностью за счет использования 200-МГц частоты процессорной шины. Отчасти «виновата» регистровость, однако наиболее вероятная причина — лучшие характеристики контроллера памяти нового чипсета i955X по сравнению с более старым E7525. Что ж, довольно гадать — в предлагаемом вашему вниманию небольшом исследовании мы сравним основные характеристики подсистемы памяти платформ на количественном уровне. А поможет нам в этом последняя, недавно выпущенная версия тестового пакета RightMark Memory Analyzer 3.55.

Конфигурация тестовых стендов

Тестовый стенд №1

  • Процессор: Intel Pentium Extreme Edition 840 (ядро Smithfield, 2 x 1 MB L2, 800 MHz FSB, 2 x 3.2 GHz core)
  • Системная плата: ASUS P5WD2-Premium (чипсет Intel 955X, версия BIOS 0205 от 04/22/2005)
  • Память: 2x512 МБ PC2-5400 Corsair XMS2 PRO DDR2-533, 3-3-3-8
  • Видеокарта: ATI Radeon X800 (256 MB)
  • Жесткий диск: Samsung SP1614C (SATA), 7200 об/мин, 8 МБ кэша
  • Блок питания: FSP 550-60PLN (500-550W)

Тестовый стенд №2

  • Процессоры: 2 x Intel Xeon 3.2 GHz (ядро Irwindale, 2 MB L2, 800 MHz FSB)
  • Системная плата: ASUS NCT-D (чипсет Intel E7525, версия BIOS 1006 от 02/23/2005)
  • Память: 2x512 МБ PC2-3200 Samsung DDR2-400, ECC, 3-3-3-8
  • Видеокарта: ATI Radeon X800 (256 MB)
  • Жесткий диск: Samsung SP1614C (SATA), 7200 об/мин, 8 МБ кэша
  • Блок питания: FSP 550-60PLN (500-550W)

Программное обеспечение

Реальная пропускная способность памяти (ПСП)

Реальная пропускная способность подсистемы памяти при операциях чтения и записи тестировалась в двух режимах — при включенном алгоритме аппаратной предвыборки (Hardware prefetch), что является нормальным режимом работы процессора, и при отключении такового, с одной стороны. С другой стороны, величины реальной ПСП на чтение/запись были получены без использования программной предвыборки данных (Software prefetch), а величины максимальной реальной ПСП на чтение — при ее задействовании (с помощью инструкций PREFETCHNTA с оптимальной дистанцией предвыборки). Наконец, величины максимальной реальной ПСП получены с помощью метода прямого сохранения данных (с использованием инструкций вроде MOVNTPS/MOVNTDQ).

Для определенности (дабы избежать двусмысленности толкования относительных величин в процентах), в представленных ниже таблицах в скобках для менее скоростной платформы мы приведем отношения, во сколько раз данный параметр на данной платформе хуже по сравнению с другой платформой.

ХарактеристикаPentium XE 840 (Smithfield)Xeon (Irwindale)
Реальная ПСП на чтение, МБ/с57474345
(1.32)
Реальная ПСП на запись, МБ/с21531878
(1.15)
Реальная ПСП на чтение без аппаратной предвыборки, МБ/с36052422
(1.49)
Реальная ПСП на запись без аппаратной предвыборки, МБ/с22291725
(1.29)
Максимальная реальная ПСП на чтение, МБ/с65015641
(1.15)
Максимальная реальная ПСП на запись, МБ/с42814232
(1.01)
Максимальная реальная ПСП на чтение без аппаратной предвыборки, МБ/с65325614
(1.16)
Максимальная реальная ПСП на запись без аппаратной предвыборки, МБ/с42814233
(1.01)

Абсолютные показатели десктопной платформы Pentium Extreme Edition 840 впечатляют — величина реальной ПСП на чтение (5747 МБ/с) оказывается выше(!) максимальной реальной ПСП на чтение, полученной на платформе Xeon (Irwindale) — 5641 МБ/с. Кстати, последняя составляет лишь 88% от теоретической ПС процессорной шины и теоретической ПСП DDR2-400. Согласно нашим многочисленным исследованиям платформ класса Intel Pentium 4 известно, что в тестах с применением метода Software prefetch практически всегда, независимо от типа используемого чипсета и его режима работы достигается 100% теоретическая ПСП (а иногда и выше — за счет влияния чуть большей частоты FSB, а также сравнительно большого объема L2 или L3-кэша процессора). Таким образом, можно заключить, что примерно 15% потерь производительности подсистемы памяти на двухпроцессорных платформах Intel Xeon связано исключительно с «регистровостью» модулей и функционированием механизма коррекции ошибок памяти (ECC).

Как уже отмечалось выше, другой важный фактор, влияющий на производительность подсистемы памяти — это собственно чипсет (а точнее, встроенный в него контроллер памяти). Потери производительности в случае более старого E7525 особенно заметны в тестах реальной ПСП на чтение. И если использование превосходного алгоритма Hardware prefetch процессора позволяет частично замаскировать отрыв i955X от E7525 (в этом случае ПСП платформы Xeon в 1.32 раза хуже ПСП платформы Pentium XE 840), его отключение наглядно демонстрирует преимущество новейшего десктопного чипсета по сравнению с более «древним» чипсетом для рабочих станций E7525. В этом случае платформа Xeon проигрывает десктопной двухъядерной платформе почти в 1.5 раза.

Результаты тестов максимальной реальной ПСП на запись наименее интересны — напомним, что в этом случае все ограничено величиной в 2/3 от теоретической ПСП, которая заведомо ниже, чем максимальная реальная ПСП даже для регистровой DDR2-400. Поэтому различия в данном параметре между платформами оказываются пренебрежимо малыми.

Латентность памяти

Латентность памяти при псевдослучайном (случайном в пределах одной страницы, но последовательном на уровне целых страниц) и истинно случайном режимах доступа также измерялась в двух режимах, при включенном и отключенном алгоритме аппаратной предвыборки данных. Напомним, что первый режим дает нам «реальную» латентность подсистемы памяти, а второй — как бы «идеальную», зависящую только от модулей памяти и чипсета, но не зависящую от процессора.

ХарактеристикаPentium XE 840 (Smithfield)Xeon (Irwindale)
Латентность (мин. — макс.) псевдослучайного доступа, нс47.4 — 55.377.7 — 86.1
(1.56 — 1.64)
Латентность (мин. — макс.) псевдослучайного доступа без аппаратной предвыборки, нс72.8 — 95.2125.8 — 149.5
(1.57 — 1.73)
Латентность (мин. — макс.) случайного доступа, нс93.7 — 114.9137.4 — 159.5
(1.39 — 1.46)
Латентность (мин. — макс.) случайного доступа без аппаратной предвыборки, нс94.7 — 118.0138.7 — 163.3
(1.38 — 1.46)

Если проигрыш платформы Xeon (Irwindale) по ПСП достигает максимум полутора раз, с латентностью памяти дела обстоят еще хуже и, что интересно, практически не зависят от того, включен или отключен алгоритм Hardware Prefetch (он влияет лишь на абсолютные величины, что вполне разумно, однако соотношения при его отключении остаются примерно такими же). По латентности истинно случайного доступа платформа Xeon проигрывает десктопной платформе Pentium XE 840 в среднем в 1.4 раза, в случае же псевдослучайного обхода отрыв увеличивается до 1.55 — 1.7 раз.

Заключение

Таким образом, причина отставания производительности серверных двухпроцессорных платформ Intel Xeon (на примере Irwindale) от десктопной двухъядерной платформы Intel Pentium Extreme Edition достоверно установлена. Слабое место серверных платформ Intel — это их подсистема памяти, во-первых, требующая использования регистровых модулей DDR2-400 с коррекцией ошибок (ECC), а во-вторых, основанная на более старом чипсете E7525, качество реализации контроллера памяти которого заметно уступает таковому в новом десктопном чипсете i955X.

Потери ПСП, связанные с «регистровостью» модулей, следует оценивать примерно в 1,15 раз (от максимальной теоретической, реально достижимой на Pentium XE 840/i955X). Влияние же контроллера памяти чипсета E7525 заметно сильнее — в среднем падение производительности подсистемы памяти за счет чипсета составляет 1.3 раза (безотносительно «регистровости» модулей), а в ряде случаев достигает и полутора раз.

Напоследок отметим, что, несмотря на столь значимые различия в низкоуровневых характеристиках подсистемы памяти рассматриваемых платформ, в реальных тестах различия в производительности платформ оказываются заметно меньше, что объясняется далеко не 100%-ной чувствительностью тех или иных реальных приложений и тестов к ПСП и латентности памяти.




22 июня 2005 Г.

CMP vs SMP Intel: RightMark Memory Analyzer

CMP vs SMP Intel:

RightMark Memory Analyzer

, Intel ( Pentium Extreme Edition 840, Intel 955X) «» — SMP- Intel Xeon ( Nocona Irwindale) Intel E7525. — 3,2- Pentium Extreme 840, , 3,2- Xeon (Nocona) , , Intel Xeon Irwindale, L2- ( 2 /, 2 L2 Pentium Extreme Edition 840, .. 1 ).

DDR2-533 , Registered ECC DDR2-400, . , DDR2-533, ( ) 200- . «» , — i955X E7525. , — . , RightMark Memory Analyzer 3.55.

1

2

  • : 2 x Intel Xeon 3.2 GHz ( Irwindale, 2 MB L2, 800 MHz FSB)
  • : ASUS NCT-D ( Intel E7525, BIOS 1006 02/23/2005)
  • : 2x512 PC2-3200 Samsung DDR2-400, ECC, 3-3-3-8
  • : ATI Radeon X800 (256 MB)
  • : Samsung SP1614C (SATA), 7200 /, 8
  • : FSP 550-60PLN (500-550W)

()

— (Hardware prefetch), , , . , / (Software prefetch), — ( PREFETCHNTA ). , ( MOVNTPS/MOVNTDQ).

( ), , .

Pentium XE 840 (Smithfield) Xeon (Irwindale)
, / 5747 4345
(1.32)
, / 2153 1878
(1.15)
, / 3605 2422
(1.49)
, / 2229 1725
(1.29)
, / 6501 5641
(1.15)
, / 4281 4232
(1.01)
, / 6532 5614
(1.16)
, / 4281 4233
(1.01)

Pentium Extreme Edition 840 — (5747 /) (!) , Xeon (Irwindale) — 5641 /. , 88% DDR2-400. Intel Pentium 4 , Software prefetch , 100% ( — FSB, L2 L3- ). , , 15% Intel Xeon «» (ECC).

, , — ( , ). E7525 . Hardware prefetch i955X E7525 ( Xeon 1.32 Pentium XE 840), «» E7525. Xeon 1.5 .

— , 2/3 , , DDR2-400. .

( , ) , . , «» , — «», , .

Pentium XE 840 (Smithfield) Xeon (Irwindale)
(. — .) , 47.4 — 55.3 77.7 — 86.1
(1.56 — 1.64)
(. — .) , 72.8 — 95.2 125.8 — 149.5
(1.57 — 1.73)
(. — .) , 93.7 — 114.9 137.4 — 159.5
(1.39 — 1.46)
(. — .) , 94.7 — 118.0 138.7 — 163.3
(1.38 — 1.46)

Xeon (Irwindale) , , , , Hardware Prefetch ( , , ). Xeon Pentium XE 840 1.4 , 1.55 — 1.7 .

, Intel Xeon ( Irwindale) Intel Pentium Extreme Edition . Intel — , -, DDR2-400 (ECC), -, E7525, i955X.

, «» , 1,15 ( , Pentium XE 840/i955X). E7525 — 1.3 ( «» ), .

, , , , 100%- .