Раскрываем потенциал DDR2-533

Результаты тестирования модулей памяти при частоте системной шины 266 МГц


До настоящего времени, тестирование модулей памяти DDR2-533 (и даже DDR2-667) проводилось на системных платах, основанных на чипсетах серии Intel 915/925, функционирующих с частотой системной шины 200 МГц (800 МГц Quad-Pumped Bus). При этом возникало вполне очевидное сдерживание реального потенциала данного типа памяти, связанное с тем, что пиковая пропускная способность 200-МГц системой шины составляет всего 6,4 ГБ/с, тогда как собственная теоретическая пропускная способность DDR2-533 в двухканальном режиме равна 8.53 ГБ/с. Разумеется, подобное ограничение не возникало при тестировании данного типа памяти в одноканальном режиме, при котором она раскрывала свой максимальный потенциал, о чем мы писали ранее.

В нашу тестовую лабораторию попали инженерные образцы нового процессора Intel Pentium 4 Extreme Edition 3,46 ГГц и материнской платы Intel D925XECV2, основанной на недавно анонсированном чипсете Intel 925XE, по сути являющимся 266-МГц вариантом Intel 925X. Рассмотрению данного процессора, материнской платы и чипсета как таковых будет посвящена отдельная статья. Цель же настоящего небольшого исследования состоит в том, чтобы показать, что следует ожидать от перехода с 200-МГц на 266-МГц процессорную шину с точки зрения производительности подсистемы памяти с модулями типа DDR2-533, работающими в двухканальном режиме. Для решения этой задачи мы, как обычно, измерим низкоуровневые характеристики подсистемы памяти (ПСП и латентность) с помощью тестового пакета RightMark Memory Analyzer.

Конфигурация тестовых стендов

Тестовый стенд №1

  • Процессор: Intel Pentium 4 Extreme Edition 3.4 ГГц (ядро Gallatin)
  • Чипсет: Intel 925X, частота FSB 200 МГц
  • Материнская плата: Intel D925XCV, версия BIOS 1259 от 08/19/2004
  • Память: 2x256 МБ Samsung DDR2-533, тайминги 4-4-4-11
  • Видео: Leadtek PX350 TDH, NVIDIA PCX5900
  • HDD: WD Raptor WD360, SATA, 10000 rpm, 36Gb
  • Драйверы: NVIDIA Forceware 62.01, Intel Chipset Utility 6.0.1.1002, DirectX 9.0c

Тестовый стенд №2

  • Процессор: Intel Pentium 4 Extreme Edition 3.46 ГГц (ядро Gallatin)
  • Чипсет: Intel 925XE, частота FSB 266 МГц
  • Материнская плата: Intel D925XECV2, версия BIOS 1012 от 09/23/2004
  • Память: 2x256 МБ Samsung DDR2-533, тайминги 4-4-4-11
  • Видео: Leadtek PX350 TDH, NVIDIA PCX5900
  • HDD: WD Raptor WD360, SATA, 10000 rpm, 36Gb
  • Драйверы: NVIDIA Forceware 62.01, Intel Chipset Utility 6.0.1.1002, DirectX 9.0c

Результаты тестирования

В тестировании участвовали две однотипные платформы на базе процессоров Intel Pentium 4 Extreme Edition (512 КБ L2-кэша, 2 МБ L3-кэша, ядро Gallatin), материнских плат Intel на чипсетах 925X и 925XE с двумя 256-МБ модулями памяти Samsung DDR2-533, работающими в двухканальном режиме. В настройках подсистемы памяти использовалась стандартная схема таймингов 4-4-4-11, прописанная в микросхеме SPD модулей.

Реальная пропускная способность памяти


Характеристика Стенд №1
(FSB 200 МГц)
Стенд №2
(FSB 266 МГц)
Средняя реальная ПСП на чтение, МБ/с 4065 4498
Средняя реальная ПСП на запись, МБ/с 1780 1895
Максимальная реальная ПСП на чтение, МБ/с 5388 6366
Максимальная реальная ПСП на запись, МБ/с 4267 5674

На первой платформе (с частотой FSB 200 МГц) средняя реальная ПСП на чтение составляет 4065 МБ/с, т.е. примерно 63.5% от максимальной теоретической ПС памяти DDR2-533, лимитированной теоретической ПС процессорной шины 6.4 ГБ/с. Переход к 266-МГц процессорной шине, снимающей данное ограничение (т.к. ее теоретическая ПС составляет уже 8.53 ГБ/с, что равно теоретической ПС памяти), увеличивает ее до ~4500 МБ/с. Абсолютный прирост невелик — всего 10.6%, а относительный — и вовсе отрицательный (52.7% от теоретической ПСП против 63.5% на первом тестовом стенде). Еще менее значительный абсолютный прирост наблюдается в средней реальной ПСП на запись (1895 МБ/с против 1780, т.е. всего 6.4%). Тем не менее, на то эти величины и «средние», они лишь косвенно относятся к реальной характеристике ПСП, потому как лимитированы множеством других факторов, прежде всего — самой архитектурой процессора (в частности, в тестах средней реальной ПСП на запись велико негативное влияние особенности работы кэша процессора на запись).


Максимальная реальная пропускная способность памяти DDR2-533,
частота системной шины 266 МГц

Переходя к максимальным величинам (соответствующие кривые представлены на графике), отметим, что на деле и они не являются особо «максимальными», ибо они также реально ограничены архитектурой процессора (ПСП на чтение — эффективностью алгоритма Software Prefetch, на запись — эффективностью прямого доступа в память, минуя кэш процессора). Максимальная реальная ПСП на чтение на первой платформе — 5388 МБ/с (84.2 % от теоретического максимума 6.4 ГБ/с). 266-МГц шина дает увеличивает значение этого параметра до 6366 МБ/с, что на 18.2 % выше по абсолютной величине, но вновь ниже — в относительных единицах (74.6% от теоретического максимума 8.53 ГБ/с).

Раскрытие реального потенциала ПСП DDR2-533, как это ни странно, можно увидеть лишь по величинам максимальной реальной ПСП на запись, которая, согласно данным наших многочисленных исследований, жестко лимитирована на уровне 2/3 от теоретической ПС процессорной шины. Что и наблюдается в обоих случаях — 4267 МБ/с (66.7% от теоретического максимума) на первой платформе, 5674 МБ/с (66.5% от теоретического максимума) — на второй. Прирост составляет 32.9%, что весьма близко к ожидаемому (в идеальном случае) — 33.3%. Итак, в нашей первой серии тестов мы, пусть даже всего в одном случае, да и то «косвенно», но добились победы 266-МГц процессорной шины чипсета i925XE над 200-МГц вариантом i925X при использовании памяти стандарта DDR2-533 в двухканальном режиме.

Латентность памяти

Методика измерения латентности, применительно к процессорам семейства Pentium 4, была подробно разработана, обоснована и описана ранее. Поэтому остановимся на ней лишь вкратце: в тесте латентности используется псевдослучайный (а также полностью случайный) режим обхода сравнительно большого блока памяти (16 МБ) с шагом в 128 байт («эффективный» размер строки кэша L2/L3, связанный с аппаратной предвыборкой смежной строки из памяти в кэш во всех режимах обхода).


Латентность памяти DDR2-533 (псевдослучайный и случайный обход),
частота системной шины 266 МГц

На самом деле, величины латентности, полученные при истинно случайном обходе выделенного блока памяти, не имеют большого смысла ввиду того, что значительной составляющей этого параметра является величина промаха D-TLB. Которая, между прочем, четко заметна в виде разницы между приведенными на графике кривыми латентности псевдослучайного и случайного доступа. Поэтому здесь и далее под «латентностью памяти» будем понимать латентность именно псевдослучайного обхода цепочки.

Характеристика Стенд №1
(FSB 200 МГц)
Стенд №2
(FSB 266 МГц)
Средняя* латентность**
псевдослучайного доступа, нс
81.6 71.7
Минимальная латентность**
псевдослучайного доступа, нс
79.4 70.4
Максимальная латентность**
псевдослучайного доступа, нс
119.9 110.1
Средняя* латентность**
случайного доступа, нс
120.1 111.1
Минимальная латентность**
случайного доступа, нс
118.3 108.9
Максимальная латентность**
случайного доступа, нс
159.9 150.2

*без разгрузки шины
**размер блока 16 МБ

Средняя латентность памяти (полученная без разгрузки шины вставкой «пустых» операций) на первой платформе, в которой память функционирует в асинхронном режиме, составляет 81,6 нс. Разброс значений латентности в условиях постепенной разгрузки шины — от 79,4 до 119,9 нс. Перевод памяти в синхронный режим (вторая платформа) весьма положительно сказывается на латентности — во всех случаях она уменьшается на 9-10 нс. Такая же картина, кстати, наблюдается и в случае латентности случайного доступа (одинаковый разброс величин и их уменьшение на 9-10 нс в синхронном режиме). Напоследок следует отметить, что сами значения латентности весьма велики, что связано с типом используемого процессорного ядра (Gallatin, представляющего собой вариант ядра Northwood с 2 МБ L3-кэша), обладающего не самым эффективным алгоритмом аппаратной предвыборки данных (Hardware Prefetch), а также не самой эффективной реализацией BIU (шины «кэш — память»).

Итоги

Несколько месяцев назад мы писали, что использование памяти типа DDR2-533 реально оправдает себя лишь с появлением чипсетов, поддерживающих 266-МГц процессорную шину. По результатам нашего сегодняшнего тестирования, это так… но лишь отчасти, поэтому самое время сделать небольшое уточнение. Итак, важна не только частота (напрямую связанная с пропускной способностью) процессорной шины — важна еще и эффективность реализации логики работы с памятью со стороны процессора. Как известно, в частности, из наших тестов, процессорные ядра Northwood (Gallatin) не обладают столь высокой эффективностью алгоритмов Hardware и Software Prefetch и функционирования BIU, которая достигается с ядром Prescott. В связи с чем, полное раскрытие реального потенциала DDR2-533 в двухканальном режиме станет возможным лишь с выходом процессоров Pentium 4 на ядре Prescott, поддерживающих 266-МГц частоту процессорной шины (1066 МГц Quad-Pumped Bus). Мы обязательно вернемся к этому моменту с поступлением первых образцов таких процессоров в наше распоряжение.

Модули памяти Samsung DDR2 предоставлены компаниями MERLION и Русский Стиль




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.