CMP vs SMP на платформе Intel:

сравнение низкоуровневых характеристик подсистемы памяти с помощью RightMark Memory Analyzer


Буквально два дня назад мы представили вашему вниманию материал, посвященный сравнению быстродействия новых двухъядерных платформ Intel (процессор Pentium Extreme Edition 840, чипсет Intel 955X) с производительностью «традиционных» двухпроцессорных платформ — SMP-систем на базе равночастотных процессоров Intel Xeon (ядра Nocona и Irwindale) и чипсета для рабочих станций Intel E7525. При этом в ряде тестов был получен весьма интересный результат — производительность системы на базе 3,2-ГГц двухъядерного процессора Pentium Extreme 840, фактически представляющего собой полный аналог двухпроцессорной системы, основанной на базе 3,2-ГГц Xeon (Nocona) оказалась выше не только производительности данной платформы, но и системы, построенной на процессорах Intel Xeon с ядром Irwindale, обладающим вдвое большим объемом L2-кэша (по 2 МБ на каждый процессор/ядро, в сравнении с 2 МБ L2 на весь процессор Pentium Extreme Edition 840, т.е. по 1 МБ на ядро).

Такой результат можно было бы объяснить использованием более быстрой памяти DDR2-533 на десктопной двухъядерной платформе, в сравнении с Registered ECC DDR2-400, применяемой в серверных платформах. Совершенно понятно, что дело здесь не в более высокой пропускной способности DDR2-533, потенциал которой в данном случае (двухканальном режиме) раскрывается далеко не полностью за счет использования 200-МГц частоты процессорной шины. Отчасти «виновата» регистровость, однако наиболее вероятная причина — лучшие характеристики контроллера памяти нового чипсета i955X по сравнению с более старым E7525. Что ж, довольно гадать — в предлагаемом вашему вниманию небольшом исследовании мы сравним основные характеристики подсистемы памяти платформ на количественном уровне. А поможет нам в этом последняя, недавно выпущенная версия тестового пакета RightMark Memory Analyzer 3.55.

Конфигурация тестовых стендов

Тестовый стенд №1

  • Процессор: Intel Pentium Extreme Edition 840 (ядро Smithfield, 2 x 1 MB L2, 800 MHz FSB, 2 x 3.2 GHz core)
  • Системная плата: ASUS P5WD2-Premium (чипсет Intel 955X, версия BIOS 0205 от 04/22/2005)
  • Память: 2x512 МБ PC2-5400 Corsair XMS2 PRO DDR2-533, 3-3-3-8
  • Видеокарта: ATI Radeon X800 (256 MB)
  • Жесткий диск: Samsung SP1614C (SATA), 7200 об/мин, 8 МБ кэша
  • Блок питания: FSP 550-60PLN (500-550W)

Тестовый стенд №2

  • Процессоры: 2 x Intel Xeon 3.2 GHz (ядро Irwindale, 2 MB L2, 800 MHz FSB)
  • Системная плата: ASUS NCT-D (чипсет Intel E7525, версия BIOS 1006 от 02/23/2005)
  • Память: 2x512 МБ PC2-3200 Samsung DDR2-400, ECC, 3-3-3-8
  • Видеокарта: ATI Radeon X800 (256 MB)
  • Жесткий диск: Samsung SP1614C (SATA), 7200 об/мин, 8 МБ кэша
  • Блок питания: FSP 550-60PLN (500-550W)

Программное обеспечение

Реальная пропускная способность памяти (ПСП)

Реальная пропускная способность подсистемы памяти при операциях чтения и записи тестировалась в двух режимах — при включенном алгоритме аппаратной предвыборки (Hardware prefetch), что является нормальным режимом работы процессора, и при отключении такового, с одной стороны. С другой стороны, величины реальной ПСП на чтение/запись были получены без использования программной предвыборки данных (Software prefetch), а величины максимальной реальной ПСП на чтение — при ее задействовании (с помощью инструкций PREFETCHNTA с оптимальной дистанцией предвыборки). Наконец, величины максимальной реальной ПСП получены с помощью метода прямого сохранения данных (с использованием инструкций вроде MOVNTPS/MOVNTDQ).

Для определенности (дабы избежать двусмысленности толкования относительных величин в процентах), в представленных ниже таблицах в скобках для менее скоростной платформы мы приведем отношения, во сколько раз данный параметр на данной платформе хуже по сравнению с другой платформой.

Характеристика Pentium XE 840 (Smithfield) Xeon (Irwindale)
Реальная ПСП на чтение, МБ/с 5747 4345
(1.32)
Реальная ПСП на запись, МБ/с 2153 1878
(1.15)
Реальная ПСП на чтение без аппаратной предвыборки, МБ/с 3605 2422
(1.49)
Реальная ПСП на запись без аппаратной предвыборки, МБ/с 2229 1725
(1.29)
Максимальная реальная ПСП на чтение, МБ/с 6501 5641
(1.15)
Максимальная реальная ПСП на запись, МБ/с 4281 4232
(1.01)
Максимальная реальная ПСП на чтение без аппаратной предвыборки, МБ/с 6532 5614
(1.16)
Максимальная реальная ПСП на запись без аппаратной предвыборки, МБ/с 4281 4233
(1.01)

Абсолютные показатели десктопной платформы Pentium Extreme Edition 840 впечатляют — величина реальной ПСП на чтение (5747 МБ/с) оказывается выше(!) максимальной реальной ПСП на чтение, полученной на платформе Xeon (Irwindale) — 5641 МБ/с. Кстати, последняя составляет лишь 88% от теоретической ПС процессорной шины и теоретической ПСП DDR2-400. Согласно нашим многочисленным исследованиям платформ класса Intel Pentium 4 известно, что в тестах с применением метода Software prefetch практически всегда, независимо от типа используемого чипсета и его режима работы достигается 100% теоретическая ПСП (а иногда и выше — за счет влияния чуть большей частоты FSB, а также сравнительно большого объема L2 или L3-кэша процессора). Таким образом, можно заключить, что примерно 15% потерь производительности подсистемы памяти на двухпроцессорных платформах Intel Xeon связано исключительно с «регистровостью» модулей и функционированием механизма коррекции ошибок памяти (ECC).

Как уже отмечалось выше, другой важный фактор, влияющий на производительность подсистемы памяти — это собственно чипсет (а точнее, встроенный в него контроллер памяти). Потери производительности в случае более старого E7525 особенно заметны в тестах реальной ПСП на чтение. И если использование превосходного алгоритма Hardware prefetch процессора позволяет частично замаскировать отрыв i955X от E7525 (в этом случае ПСП платформы Xeon в 1.32 раза хуже ПСП платформы Pentium XE 840), его отключение наглядно демонстрирует преимущество новейшего десктопного чипсета по сравнению с более «древним» чипсетом для рабочих станций E7525. В этом случае платформа Xeon проигрывает десктопной двухъядерной платформе почти в 1.5 раза.

Результаты тестов максимальной реальной ПСП на запись наименее интересны — напомним, что в этом случае все ограничено величиной в 2/3 от теоретической ПСП, которая заведомо ниже, чем максимальная реальная ПСП даже для регистровой DDR2-400. Поэтому различия в данном параметре между платформами оказываются пренебрежимо малыми.

Латентность памяти

Латентность памяти при псевдослучайном (случайном в пределах одной страницы, но последовательном на уровне целых страниц) и истинно случайном режимах доступа также измерялась в двух режимах, при включенном и отключенном алгоритме аппаратной предвыборки данных. Напомним, что первый режим дает нам «реальную» латентность подсистемы памяти, а второй — как бы «идеальную», зависящую только от модулей памяти и чипсета, но не зависящую от процессора.

Характеристика Pentium XE 840 (Smithfield) Xeon (Irwindale)
Латентность (мин. — макс.) псевдослучайного доступа, нс 47.4 — 55.3 77.7 — 86.1
(1.56 — 1.64)
Латентность (мин. — макс.) псевдослучайного доступа без аппаратной предвыборки, нс 72.8 — 95.2 125.8 — 149.5
(1.57 — 1.73)
Латентность (мин. — макс.) случайного доступа, нс 93.7 — 114.9 137.4 — 159.5
(1.39 — 1.46)
Латентность (мин. — макс.) случайного доступа без аппаратной предвыборки, нс 94.7 — 118.0 138.7 — 163.3
(1.38 — 1.46)

Если проигрыш платформы Xeon (Irwindale) по ПСП достигает максимум полутора раз, с латентностью памяти дела обстоят еще хуже и, что интересно, практически не зависят от того, включен или отключен алгоритм Hardware Prefetch (он влияет лишь на абсолютные величины, что вполне разумно, однако соотношения при его отключении остаются примерно такими же). По латентности истинно случайного доступа платформа Xeon проигрывает десктопной платформе Pentium XE 840 в среднем в 1.4 раза, в случае же псевдослучайного обхода отрыв увеличивается до 1.55 — 1.7 раз.

Заключение

Таким образом, причина отставания производительности серверных двухпроцессорных платформ Intel Xeon (на примере Irwindale) от десктопной двухъядерной платформы Intel Pentium Extreme Edition достоверно установлена. Слабое место серверных платформ Intel — это их подсистема памяти, во-первых, требующая использования регистровых модулей DDR2-400 с коррекцией ошибок (ECC), а во-вторых, основанная на более старом чипсете E7525, качество реализации контроллера памяти которого заметно уступает таковому в новом десктопном чипсете i955X.

Потери ПСП, связанные с «регистровостью» модулей, следует оценивать примерно в 1,15 раз (от максимальной теоретической, реально достижимой на Pentium XE 840/i955X). Влияние же контроллера памяти чипсета E7525 заметно сильнее — в среднем падение производительности подсистемы памяти за счет чипсета составляет 1.3 раза (безотносительно «регистровости» модулей), а в ряде случаев достигает и полутора раз.

Напоследок отметим, что, несмотря на столь значимые различия в низкоуровневых характеристиках подсистемы памяти рассматриваемых платформ, в реальных тестах различия в производительности платформ оказываются заметно меньше, что объясняется далеко не 100%-ной чувствительностью тех или иных реальных приложений и тестов к ПСП и латентности памяти.




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.