Влияние различных характеристик на быстродействие процессоров современных архитектур


Часть 7: Intel Core i7, подсистема памяти

Часть 1: AMD Phenom II, количество ядер
Часть 2: AMD Phenom II, подсистема памяти
Часть 3: Intel Core i7, технологии Turbo Boost и Hyper-Threading
Часть 4: Intel Core i7, Hyper-Threading «в чистом виде»
Часть 5: Intel Core i7, количество ядер
Часть 6: Intel Core i7, частота

Мы продолжаем серию материалов, посвящённых исследованию производительности современных процессоров в реальных задачах и влиянию различных их характеристик на производительность. В сегодняшней статье мы повторим идею второй серии, и вновь исследуем влияние на производительность различных характеристик подсистемы памяти, но уже на примере системы с процессором Intel Core i7.

Конфигурация тестовых стендов

Тестовый стенд остался таким же, как и в двух предыдущих сериях, посвящённых процессору Intel Core i7:

  • Процессор: Intel Core i7 950;
  • Кулер: ASUS Triton 81;
  • Системная плата: ASUS P6T SE (чипсет Intel X58);
  • Память: 3 модуля по 2 ГБ Corsair DDR3-1800 в режиме DDR3-1600;
  • Видеокарта: Palit GeForce GTX 275
  • БП: Cooler Master Real Power M1000.

Тестирование

Следуя пожеланиям некоторых читателей, которые прозвучали в обсуждении второй серии, мы несколько расширили «игру с частотами», и теперь исследовали влияние на производительность практически всего доступного их диапазона: от DDR3-800 до DDR3-1600. Первой, правда, в природе не существует, но для построения кривой было проведено тестирование и в таком режиме. Кроме того, нас заинтересовал вопрос о влиянии на производительность используемого количества каналов встроенного контроллера памяти процессора Core i7. Понятно, что наиболее скоростным вариантом должен был оказаться тот, при котором задействуются все три канала, однако для этого требуется иметь 3 модуля памяти (желательно одинакового размера и характеристик), что может быть недоступно некоторым пользователям по чисто финансовым соображениям. Соответственно, мы решили проверить: так ли уж много они проиграют, если задействуют всего 2 канала?

Сложность состоит в том, что наша методика тестирования напрямую не предусматривает использования 4 ГБ памяти: по стандарту положено 6. Разумеется, можно установить 4 ГБ в один канал и 2 ГБ в другой — однако в этом случае на пространстве 4 ГБ доступ к памяти будет осуществляться в двухканальном режиме, а на оставшихся 2 ГБ — в одноканальном (технология Flex Memory по-прежнему в строю, несмотря на то, что контроллер памяти перекочевал из чипсета в процессор). Соответственно, снижение скорости может быть вызвано не только двухканальностью (что мы и желаем проверить), но и одноканальностью при доступе к определённым областям памяти. Если же ограничиться 4 ГБ памяти (по 2 ГБ в каждом канале) — то дотуп к памяти будет гарантированно двухканальным, но возможно падение производительности за счёт уменьшения её количества на треть. Решение, которое нам пришло в голову, идеальным не назовёшь, однако оно всё же значительно облегчает делание обоснованных предположений: мы решили протестировать оба режима (2 канала и 6 ГБ, 2 канала и 4 ГБ), и на основании сравнения обеих результатов с эталоном (3 канала и 6 ГБ ОЗУ), делать какие-то выводы, если это будет возможно. Память для этого исследования была взята соответствующая его духу: DDR3-1333. Это сейчас самая популярная DDR3 на рынке, не отличающаяся высокой ценой.

Тестирование влияния таймингов на производительность после некоторого количества пробных запусков тестов, известных по предыдущему тестированию как наиболее чувствительных к латентности, было решено не проводить — ввиду очевидной бесполезности данного занятия. Таким образом, в отношении влияния таймингов на производительность в реальном ПО, у Core i7 всё обстоит в точности так же, как и у Phenom II X4.

Также, традиционно, мы даём любознательным читателям ссылку на таблицу в формате Microsoft Excel, в которой приведены все результаты тестов в самом подробном виде. А также, для удобства их анализа, присутствуют две дополнительные закладки — «Compare #1» и «Compare #2». На них, как и в таблицах, присутствующих в статье, произведено сравнение четырёх систем в процентном отношении. Разница очень простая: в случае с Compare #1, проценты вычисляются так же, как в таблицах в статье, — по отношению к предыдущей системе, а в случае с Compare #2, все системы сравниваются с базовой (1,86 ГГц).

3D-визуализация



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
3ds max ↑* 16,2 16,96 5% 17,35 2% 18,01 4%
Lightwave ↓ 13,05 12,93 1% 12,63 2% 12,57 0%
Maya ↑ 3,96 4,3 9% 4,3 0% 4,58 7%
SolidWorks ↓ 52,7 51,14 3% 48,95 4% 47,93 2%
Pro/ENGINEER ↓ 1048 1012 4% 1004 1% 979 3%
UGS NX ↑ 2,62 2,76 5% 2,89 5% 3,05 6%
Group Score ↑ 135 141 4% 144 2% 149 3%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
3ds max ↑* 17,35 14,58 -16% 14,16 -18%
Lightwave ↓ 12,63 15,33 -18% 15,39 -18%
Maya ↑ 4,3 3,56 -17% 3,55 -17%
SolidWorks ↓ 48,95 55,69 -12% 55,88 -12%
Pro/ENGINEER ↓ 1004 1206 -17% 1076 -7%
UGS NX ↑ 2,89 2,89 0% 2,89 0%
Group Score ↑ 144 125 -13% 126 -13%

* — здесь и далее в таблицах стрелочкой вверх (↑) помечены те тесты, где лучшим является больший результат, стрелочкой вниз (↓) — тесты, где лучшим является меньший результат.

Возможность сильного влияния частоты на производительность ещё первый материал, посвящённый исследованию данной темы, поставил под сильное сомнение. Второе тестирование, уже с участием основного конкурента AMD Phenom II X4 — Intel Core i7, судя по началу, никакого срыва шаблона не вызовет: да, производительсть чуть-чуть линейно растёт — но явно не настолько, насколько этого можно было бы ожидать, сравнивая стоимость, например, DDR3-1333 с DDR3-1600. :)

Более интересна ситуация с двухканальностью. Как видно из второй таблицы, снижение производительности наблюдается достаточно серьёзное, при этом и у двухканальной системы с 6 ГБ памяти, и у двухканальной системы с 4 ГБ памяти, оно примерно одинаковое (и в среднем, и по приложениям). Это позволяет нам сделать предположение о том, что падение производительности не связано с уменьшением количества памяти, а связано именно с переходом на двухканальный режим. Стоит отметить и тот единственный случай, когда падение производительности у двухканальных систем сильно различается между собой: это подтест Pro/ENGINEER. Сопоставление результатов позволяет нам сделать предположение о том, что в данном случае тесту как раз не хватает 4 ГБ ОЗУ.

Трёхмерный рендеринг



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
3ds max ↑ 17,17 17,3 1% 18,34 6% 18,69 2%
Lightwave ↓ 75,09 74,36 1% 73,05 2% 71,5 2%
Maya ↑ 02:13 02:12 1% 02:12 0% 02:09 2%
Group Score ↑ 171 173 1% 177 2% 181 2%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
3ds max ↑ 18,34 17,88 -3% 17,79 -3%
Lightwave ↓ 73,05 73,19 0% 73,18 0%
Maya ↑ 02:12 02:12 0% 02:12 0%
Group Score ↑ 177 176 -1% 175 -1%

Рендеринг вообще малочувствителен к подсистеме памяти, и результаты Core i7 только подтверждают универсальность данного утверждения.

Научные и инженерные расчёты



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
Maya ↑ 9,36 9,8 5% 9,86 1% 10,24 4%
SolidWorks ↓ 38,23 38,12 0% 37,83 1% 36,07 5%
Pro/ENGINEER ↓ 1548 1513 2% 1496 1% 1473 2%
UGS NX ↓ 5,21 5,38 3% 5,55 3% 5,72 3%
MAPLE ↑ 0,2023 0,2115 5% 0,2192 4% 0,2227 2%
Mathematica ↑ 3,087 3,0892 0% 3,113 1% 3,1403 1%
MATLAB ↓ 0,040381 0,040548 0% 0,039324 3% 0,03898 1%
Group Score ↑ 135 138 2% 141 2% 144 2%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
Maya ↑ 9,86 8,98 -9% 8,79 -11%
SolidWorks ↓ 37,83 39,3 -4% 40,66 -7%
Pro/ENGINEER ↓ 1496 2005 -25% 1644 -9%
UGS NX ↓ 5,55 5,09 -8% 5,09 -8%
MAPLE ↑ 0,2192 0,2024 -8% 0,2027 -8%
Mathematica ↑ 3,113 2,9639 -5% 2,9287 -6%
MATLAB ↓ 0,039324 0,040307 -2% 0,041082 -4%
Group Score ↑ 141 128 -9% 130 -8%

При сопоставлении производительности на разных частотах, мы традиционно не наблюдаем ничего особенно любопытного. Напомним, что погрешность измерений в пределах +/-2% мы считаем в тестах с реальным ПО явлением совершенно нормальным — это ПО разрабатывалось для того, чтобы решать практические задачи, а не быстродействие измерять. Так что казалось бы резкие рывки в случаях с Maya и SolidWorks при отсутствии более серьёзных подозрений (а у нас нет для них оснований) проще всего объяснить накоплением (удвоением) этих погрешностей при сравнении двух рядом стоящих результатов.

Интереснее ситуация с двухканальными режимами. Pro/ENGINEER и в этом случае больше страдает от малого объёма ОЗУ, чем от двухканальности, поэтому на него можно внимания не обращать. А вот масса другого ПО на 4 ГБ системе демонстрирует существенно лучшие результаты, чем на 6 ГБ — и системность данного явления в рамках группы позволяет нам предположить, что на 4 ГБ системе мы наблюдаем результаты, вполне подходящие для того, чтобы судить о падении производительности на двухканальной системе по отношению к одноканальной. Результаты, нужно сказать, впечатляющие: отключение одного канала приводит к намного более существенному падению скорости, нежели игры с частотами.

Растровая графика



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
ACDSee ↓ 04:52 04:48 1% 04:46 1% 04:45 0%
Paint.NET ↓ 00:14 00:14 0% 00:14 0% 00:14 0%
PaintShop Pro ↓ 08:56 08:54 0% 08:48 1% 08:46 0%
Photoimpact ↓ 06:30 06:21 2% 06:13 2% 06:10 1%
Photoshop ↓ 05:15 05:07 3% 04:58 3% 04:53 2%
Group Score ↑ 149 151 1% 153 1% 154 1%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
ACDSee ↓ 04:46 05:36 -15% 04:51 -2%
Paint.NET ↓ 00:14 00:14 0% 00:14 0%
PaintShop Pro ↓ 08:48 09:34 -8% 09:34 -8%
Photoimpact ↓ 06:13 08:37 -28% 07:36 -18%
Photoshop ↓ 04:58 06:11 -20% 05:48 -14%
Group Score ↑ 153 131 -14% 140 -8%

Практическая индифферентность к частотам памяти, и достаточно большое количество ПО, чувствительного к её объёму даже в большей степени, чем к количеству каналов. Странно, что даже такой достаточно простой (сравнительно с другим ПО в данной группе) инструмент, как ACDSee — весьма резко «отозвался» на уменьшение объёма ОЗУ.

Сжатие данных без потерь



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
7-Zip ↓ 04:17 04:02 6% 03:47 7% 03:37 5%
WinRAR ↓ 01:21 01:16 7% 01:11 7% 01:07 6%
Group Score ↑ 128 136 6% 145 7% 153 6%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
7-Zip ↓ 03:47 04:31 -16% 04:13 -10%
WinRAR ↓ 01:11 01:25 -16% 01:20 -11%
Group Score ↑ 145 122 -16% 130 -10%

Данная группа приложений традиционно достаточно сильно чувствительна вообще ко всему, что касается подсистемы памяти. В сегодняшних тестах она продемонстрировала высокую чувствительность и к частоте, и к уменьшению количества задействованных каналов встроенного контроллера памяти Core i7. Но, опять-таки, ввиду традиционности, результаты никого не ошеломляют.

Компиляция

Ещё один традиционно чувствительный тест, и ещё один предсказуемый результат. Двухканальная система с DDR3-1333 оказалась даже хуже трёхканальной DDR3-800 (т.е. простая арифметика здесь не действует: 2x1333 всё-таки больше 3x800).

Кодирование аудио

Тест, наоборот, в отличие от двух других традиционно индифферентный. Обратите внимание, что проиграла только система с 2 каналами и 6 ГБ. Если предположить, что это не погрешность, то мы наблюдаем именно то, о чём говорили выше: видимо, тест «залез» за границу 4 ГБ, и доступ к памяти стал одноканальным. Вполне резонное предположение, учитывая то, что используемый нами бенчмарк создаёт на Core i7 одновременно 8 потоков кодирования аудио.

Кодирование видео



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
Canopus ProCoder ↓ 03:09 03:05 2% 03:05 0% 03:02 2%
DivX ↓ 03:59 03:53 3% 03:48 2% 03:40 4%
Mainconcept VC-1 ↓ 05:36 05:24 4% 05:14 3% 05:08 2%
x264 ↓ 06:22 06:14 2% 06:04 3% 05:57 2%
XviD ↓ 02:30 02:24 4% 02:19 4% 02:17 1%
Group Score ↑ 151 156 3% 160 3% 163 2%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
Canopus ProCoder ↓ 03:05 03:17 -6% 03:20 -8%
DivX ↓ 03:48 03:49 0% 03:48 0%
Mainconcept VC-1 ↓ 05:14 05:29 -5% 05:34 -6%
x264 ↓ 06:04 06:05 0% 06:07 -1%
XviD ↓ 02:19 02:22 -2% 02:25 -4%
Group Score ↑ 160 155 -3% 154 -4%

Реакция и на частоту и на уменьшение количества каналов довольно вялая.

Java

А вот здесь более-менее существенной можно назвать реакцию на частоту.

Трёхмерные игры



  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
STALKER: Clear Sky ↑ 59 60 2% 61 2% 61 0%
Devil May Cry 4 ↑ 193 194 0% 196 1% 196 0%
Far Cry 2 ↑ 57 60 5% 64 7% 67 5%
Grand Theft Auto 4 ↑ 65 66 2% 66 0% 66 0%
Lost Planet ↑ 42 43 2% 43 0% 43 0%
Unreal Tournament 3 ↑ 158 160 1% 163 2% 166 2%
Crysis: Warhead ↑ 53 54 2% 56 4% 56 0%
World in Conflict ↑ 50 51 2% 54 6% 55 2%
Group Score ↑ 114 116 2% 119 3% 120 1%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
STALKER: Clear Sky ↑ 61 59 -3% 59 -3%
Devil May Cry 4 ↑ 196 193 -2% 195 -1%
Far Cry 2 ↑ 64 62 -3% 62 -3%
Grand Theft Auto 4 ↑ 66 65 -2% 65 -2%
Lost Planet ↑ 43 43 0% 43 0%
Unreal Tournament 3 ↑ 163 159 -2% 157 -4%
Crysis: Warhead ↑ 56 54 -4% 53 -5%
World in Conflict ↑ 54 52 -4% 53 -2%
Group Score ↑ 119 116 -3% 116 -3%

В предыдущем тестировании, помнится, игры были одной и групп тестов, которые хотя бы как-то оправдали использование высокочастотной памяти. Увы, в случае с Core i7 и этот последний бастион сдаётся без боя. Впрочем, с другой стороны — с чего бы нам об этом жалеть?

Заключение


  DDR3-800 DDR3-1066 DDR3-1333 DDR3-1600
3D-визуализация 135 141 4% 144 2% 149 3%
3D-рендеринг 171 173 1% 177 2% 181 2%
Расчёты 135 138 2% 141 2% 144 2%
Растровая графика 149 151 1% 153 1% 154 1%
Сжатие данных 128 136 6% 145 7% 153 6%
Компиляция 175 179 2% 189 6% 193 2%
Кодирование аудио 190 190 0% 190 0% 190 0%
Кодирование видео 151 156 3% 160 3% 163 2%
Java 156 160 3% 166 4% 170 2%
Трёхмерные игры 114 116 2% 119 3% 120 1%

  DDR3-1333 3 ch 6 GB DDR3-1333 2 ch 4 GB DDR3-1333 2 ch 6 GB
3D-визуализация 144 125 -13% 126 -13%
3D-рендеринг 177 176 -1% 175 -1%
Расчёты 141 128 -9% 130 -8%
Растровая графика 153 131 -14% 140 -8%
Сжатие данных 145 122 -16% 130 -10%
Компиляция 189 172 -9% 173 -8%
Кодирование аудио 190 190 0% 187 -2%
Кодирование видео 160 155 -3% 154 -4%
Java 166 162 -2% 158 -5%
Трёхмерные игры 119 116 -3% 116 -3%

«В среднем по больнице» система на базе Core i7 оказалась ещё менее чувствительной к частоте ОЗУ, чем Phenom II X4. На платформе AMD, помнится, среднее падение от перехода с DDR2-800 на DDR2-400 составило 11%, современная платформа Intel демонстрирует ещё меньшую чувствительность — в среднем всего 8%.

Намного более существенное падение наблюдается при использовании 2-канального режима контроллера вместо 3-канального — здесь уже есть о чём говорить, и иногда задействование 3-го канала может поднять быстродействие уже работоспособной системы на для кого-то вполне существенные 10+ процентов. Впрочем, и эти случаи довольно-таки редки. В среднем же, судя по данным наших тестов, самое худшее, что может ждать пользователя, работающего с Core i7 в двухканальном режиме — это потеря 6% производительности.

Мы бы сказали, что на этой радостной ноте тему о возможности существенного влияния подсистемы памяти на производительность современных x86-64 компьютерных систем, можно закрывать минимум года на 2-3. По крайней мере, для процессоров без интегрированного графического ядра.


Модули памяти для тестовых стендов предоставлены российским представителством Corsair Memory
Процессор Intel Core i7 950 и плата ASUS P6T SE
предоставлены компанией Ulmart





Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.