Влияние различных характеристик на быстродействие процессоров современных архитектур


Часть 7: Intel Core i7, подсистема памяти

Часть 1: AMD Phenom II, количество ядер
Часть 2: AMD Phenom II, подсистема памяти
Часть 3: Intel Core i7, технологии Turbo Boost и Hyper-Threading
Часть 4: Intel Core i7, Hyper-Threading «в чистом виде»
Часть 5: Intel Core i7, количество ядер
Часть 6: Intel Core i7, частота

Мы продолжаем серию материалов, посвящённых исследованию производительности современных процессоров в реальных задачах и влиянию различных их характеристик на производительность. В сегодняшней статье мы повторим идею второй серии, и вновь исследуем влияние на производительность различных характеристик подсистемы памяти, но уже на примере системы с процессором Intel Core i7.

Конфигурация тестовых стендов

Тестовый стенд остался таким же, как и в двух предыдущих сериях, посвящённых процессору Intel Core i7:

  • Процессор: Intel Core i7 950;
  • Кулер: ASUS Triton 81;
  • Системная плата: ASUS P6T SE (чипсет Intel X58);
  • Память: 3 модуля по 2 ГБ Corsair DDR3-1800 в режиме DDR3-1600;
  • Видеокарта: Palit GeForce GTX 275
  • БП: Cooler Master Real Power M1000.

Тестирование

Следуя пожеланиям некоторых читателей, которые прозвучали в обсуждении второй серии, мы несколько расширили «игру с частотами», и теперь исследовали влияние на производительность практически всего доступного их диапазона: от DDR3-800 до DDR3-1600. Первой, правда, в природе не существует, но для построения кривой было проведено тестирование и в таком режиме. Кроме того, нас заинтересовал вопрос о влиянии на производительность используемого количества каналов встроенного контроллера памяти процессора Core i7. Понятно, что наиболее скоростным вариантом должен был оказаться тот, при котором задействуются все три канала, однако для этого требуется иметь 3 модуля памяти (желательно одинакового размера и характеристик), что может быть недоступно некоторым пользователям по чисто финансовым соображениям. Соответственно, мы решили проверить: так ли уж много они проиграют, если задействуют всего 2 канала?

Сложность состоит в том, что наша методика тестирования напрямую не предусматривает использования 4 ГБ памяти: по стандарту положено 6. Разумеется, можно установить 4 ГБ в один канал и 2 ГБ в другой — однако в этом случае на пространстве 4 ГБ доступ к памяти будет осуществляться в двухканальном режиме, а на оставшихся 2 ГБ — в одноканальном (технология Flex Memory по-прежнему в строю, несмотря на то, что контроллер памяти перекочевал из чипсета в процессор). Соответственно, снижение скорости может быть вызвано не только двухканальностью (что мы и желаем проверить), но и одноканальностью при доступе к определённым областям памяти. Если же ограничиться 4 ГБ памяти (по 2 ГБ в каждом канале) — то дотуп к памяти будет гарантированно двухканальным, но возможно падение производительности за счёт уменьшения её количества на треть. Решение, которое нам пришло в голову, идеальным не назовёшь, однако оно всё же значительно облегчает делание обоснованных предположений: мы решили протестировать оба режима (2 канала и 6 ГБ, 2 канала и 4 ГБ), и на основании сравнения обеих результатов с эталоном (3 канала и 6 ГБ ОЗУ), делать какие-то выводы, если это будет возможно. Память для этого исследования была взята соответствующая его духу: DDR3-1333. Это сейчас самая популярная DDR3 на рынке, не отличающаяся высокой ценой.

Тестирование влияния таймингов на производительность после некоторого количества пробных запусков тестов, известных по предыдущему тестированию как наиболее чувствительных к латентности, было решено не проводить — ввиду очевидной бесполезности данного занятия. Таким образом, в отношении влияния таймингов на производительность в реальном ПО, у Core i7 всё обстоит в точности так же, как и у Phenom II X4.

Также, традиционно, мы даём любознательным читателям ссылку на таблицу в формате Microsoft Excel, в которой приведены все результаты тестов в самом подробном виде. А также, для удобства их анализа, присутствуют две дополнительные закладки — «Compare #1» и «Compare #2». На них, как и в таблицах, присутствующих в статье, произведено сравнение четырёх систем в процентном отношении. Разница очень простая: в случае с Compare #1, проценты вычисляются так же, как в таблицах в статье, — по отношению к предыдущей системе, а в случае с Compare #2, все системы сравниваются с базовой (1,86 ГГц).

3D-визуализация



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
3ds max ↑*16,216,965%17,352%18,014%
Lightwave ↓13,0512,931%12,632%12,570%
Maya ↑3,964,39%4,30%4,587%
SolidWorks ↓52,751,143%48,954%47,932%
Pro/ENGINEER ↓104810124%10041%9793%
UGS NX ↑2,622,765%2,895%3,056%
Group Score ↑1351414%1442%1493%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
3ds max ↑*17,3514,58-16%14,16-18%
Lightwave ↓12,6315,33-18%15,39-18%
Maya ↑4,33,56-17%3,55-17%
SolidWorks ↓48,9555,69-12%55,88-12%
Pro/ENGINEER ↓10041206-17%1076-7%
UGS NX ↑2,892,890%2,890%
Group Score ↑144125-13%126-13%

* — здесь и далее в таблицах стрелочкой вверх (↑) помечены те тесты, где лучшим является больший результат, стрелочкой вниз (↓) — тесты, где лучшим является меньший результат.

Возможность сильного влияния частоты на производительность ещё первый материал, посвящённый исследованию данной темы, поставил под сильное сомнение. Второе тестирование, уже с участием основного конкурента AMD Phenom II X4 — Intel Core i7, судя по началу, никакого срыва шаблона не вызовет: да, производительсть чуть-чуть линейно растёт — но явно не настолько, насколько этого можно было бы ожидать, сравнивая стоимость, например, DDR3-1333 с DDR3-1600. :)

Более интересна ситуация с двухканальностью. Как видно из второй таблицы, снижение производительности наблюдается достаточно серьёзное, при этом и у двухканальной системы с 6 ГБ памяти, и у двухканальной системы с 4 ГБ памяти, оно примерно одинаковое (и в среднем, и по приложениям). Это позволяет нам сделать предположение о том, что падение производительности не связано с уменьшением количества памяти, а связано именно с переходом на двухканальный режим. Стоит отметить и тот единственный случай, когда падение производительности у двухканальных систем сильно различается между собой: это подтест Pro/ENGINEER. Сопоставление результатов позволяет нам сделать предположение о том, что в данном случае тесту как раз не хватает 4 ГБ ОЗУ.

Трёхмерный рендеринг



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
3ds max ↑17,1717,31%18,346%18,692%
Lightwave ↓75,0974,361%73,052%71,52%
Maya ↑02:1302:121%02:120%02:092%
Group Score ↑1711731%1772%1812%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
3ds max ↑18,3417,88-3%17,79-3%
Lightwave ↓73,0573,190%73,180%
Maya ↑02:1202:120%02:120%
Group Score ↑177176-1%175-1%

Рендеринг вообще малочувствителен к подсистеме памяти, и результаты Core i7 только подтверждают универсальность данного утверждения.

Научные и инженерные расчёты



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
Maya ↑9,369,85%9,861%10,244%
SolidWorks ↓38,2338,120%37,831%36,075%
Pro/ENGINEER ↓154815132%14961%14732%
UGS NX ↓5,215,383%5,553%5,723%
MAPLE ↑0,20230,21155%0,21924%0,22272%
Mathematica ↑3,0873,08920%3,1131%3,14031%
MATLAB ↓0,0403810,0405480%0,0393243%0,038981%
Group Score ↑1351382%1412%1442%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
Maya ↑9,868,98-9%8,79-11%
SolidWorks ↓37,8339,3-4%40,66-7%
Pro/ENGINEER ↓14962005-25%1644-9%
UGS NX ↓5,555,09-8%5,09-8%
MAPLE ↑0,21920,2024-8%0,2027-8%
Mathematica ↑3,1132,9639-5%2,9287-6%
MATLAB ↓0,0393240,040307-2%0,041082-4%
Group Score ↑141128-9%130-8%

При сопоставлении производительности на разных частотах, мы традиционно не наблюдаем ничего особенно любопытного. Напомним, что погрешность измерений в пределах +/-2% мы считаем в тестах с реальным ПО явлением совершенно нормальным — это ПО разрабатывалось для того, чтобы решать практические задачи, а не быстродействие измерять. Так что казалось бы резкие рывки в случаях с Maya и SolidWorks при отсутствии более серьёзных подозрений (а у нас нет для них оснований) проще всего объяснить накоплением (удвоением) этих погрешностей при сравнении двух рядом стоящих результатов.

Интереснее ситуация с двухканальными режимами. Pro/ENGINEER и в этом случае больше страдает от малого объёма ОЗУ, чем от двухканальности, поэтому на него можно внимания не обращать. А вот масса другого ПО на 4 ГБ системе демонстрирует существенно лучшие результаты, чем на 6 ГБ — и системность данного явления в рамках группы позволяет нам предположить, что на 4 ГБ системе мы наблюдаем результаты, вполне подходящие для того, чтобы судить о падении производительности на двухканальной системе по отношению к одноканальной. Результаты, нужно сказать, впечатляющие: отключение одного канала приводит к намного более существенному падению скорости, нежели игры с частотами.

Растровая графика



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
ACDSee ↓04:5204:481%04:461%04:450%
Paint.NET ↓00:1400:140%00:140%00:140%
PaintShop Pro ↓08:5608:540%08:481%08:460%
Photoimpact ↓06:3006:212%06:132%06:101%
Photoshop ↓05:1505:073%04:583%04:532%
Group Score ↑1491511%1531%1541%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
ACDSee ↓04:4605:36-15%04:51-2%
Paint.NET ↓00:1400:140%00:140%
PaintShop Pro ↓08:4809:34-8%09:34-8%
Photoimpact ↓06:1308:37-28%07:36-18%
Photoshop ↓04:5806:11-20%05:48-14%
Group Score ↑153131-14%140-8%

Практическая индифферентность к частотам памяти, и достаточно большое количество ПО, чувствительного к её объёму даже в большей степени, чем к количеству каналов. Странно, что даже такой достаточно простой (сравнительно с другим ПО в данной группе) инструмент, как ACDSee — весьма резко «отозвался» на уменьшение объёма ОЗУ.

Сжатие данных без потерь



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
7-Zip ↓04:1704:026%03:477%03:375%
WinRAR ↓01:2101:167%01:117%01:076%
Group Score ↑1281366%1457%1536%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
7-Zip ↓03:4704:31-16%04:13-10%
WinRAR ↓01:1101:25-16%01:20-11%
Group Score ↑145122-16%130-10%

Данная группа приложений традиционно достаточно сильно чувствительна вообще ко всему, что касается подсистемы памяти. В сегодняшних тестах она продемонстрировала высокую чувствительность и к частоте, и к уменьшению количества задействованных каналов встроенного контроллера памяти Core i7. Но, опять-таки, ввиду традиционности, результаты никого не ошеломляют.

Компиляция

Ещё один традиционно чувствительный тест, и ещё один предсказуемый результат. Двухканальная система с DDR3-1333 оказалась даже хуже трёхканальной DDR3-800 (т.е. простая арифметика здесь не действует: 2x1333 всё-таки больше 3x800).

Кодирование аудио

Тест, наоборот, в отличие от двух других традиционно индифферентный. Обратите внимание, что проиграла только система с 2 каналами и 6 ГБ. Если предположить, что это не погрешность, то мы наблюдаем именно то, о чём говорили выше: видимо, тест «залез» за границу 4 ГБ, и доступ к памяти стал одноканальным. Вполне резонное предположение, учитывая то, что используемый нами бенчмарк создаёт на Core i7 одновременно 8 потоков кодирования аудио.

Кодирование видео



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
Canopus ProCoder ↓03:0903:052%03:050%03:022%
DivX ↓03:5903:533%03:482%03:404%
Mainconcept VC-1 ↓05:3605:244%05:143%05:082%
x264 ↓06:2206:142%06:043%05:572%
XviD ↓02:3002:244%02:194%02:171%
Group Score ↑1511563%1603%1632%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
Canopus ProCoder ↓03:0503:17-6%03:20-8%
DivX ↓03:4803:490%03:480%
Mainconcept VC-1 ↓05:1405:29-5%05:34-6%
x264 ↓06:0406:050%06:07-1%
XviD ↓02:1902:22-2%02:25-4%
Group Score ↑160155-3%154-4%

Реакция и на частоту и на уменьшение количества каналов довольно вялая.

Java

А вот здесь более-менее существенной можно назвать реакцию на частоту.

Трёхмерные игры



 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
STALKER: Clear Sky ↑59602%612%610%
Devil May Cry 4 ↑1931940%1961%1960%
Far Cry 2 ↑57605%647%675%
Grand Theft Auto 4 ↑65662%660%660%
Lost Planet ↑42432%430%430%
Unreal Tournament 3 ↑1581601%1632%1662%
Crysis: Warhead ↑53542%564%560%
World in Conflict ↑50512%546%552%
Group Score ↑1141162%1193%1201%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
STALKER: Clear Sky ↑6159-3%59-3%
Devil May Cry 4 ↑196193-2%195-1%
Far Cry 2 ↑6462-3%62-3%
Grand Theft Auto 4 ↑6665-2%65-2%
Lost Planet ↑43430%430%
Unreal Tournament 3 ↑163159-2%157-4%
Crysis: Warhead ↑5654-4%53-5%
World in Conflict ↑5452-4%53-2%
Group Score ↑119116-3%116-3%

В предыдущем тестировании, помнится, игры были одной и групп тестов, которые хотя бы как-то оправдали использование высокочастотной памяти. Увы, в случае с Core i7 и этот последний бастион сдаётся без боя. Впрочем, с другой стороны — с чего бы нам об этом жалеть?

Заключение


 DDR3-800DDR3-1066 DDR3-1333DDR3-1600
3D-визуализация1351414%1442%1493%
3D-рендеринг1711731%1772%1812%
Расчёты1351382%1412%1442%
Растровая графика1491511%1531%1541%
Сжатие данных1281366%1457%1536%
Компиляция1751792%1896%1932%
Кодирование аудио1901900%1900%1900%
Кодирование видео1511563%1603%1632%
Java1561603%1664%1702%
Трёхмерные игры1141162%1193%1201%

 DDR3-1333 3 ch 6 GBDDR3-1333 2 ch 4 GBDDR3-1333 2 ch 6 GB
3D-визуализация144125-13%126-13%
3D-рендеринг177176-1%175-1%
Расчёты141128-9%130-8%
Растровая графика153131-14%140-8%
Сжатие данных145122-16%130-10%
Компиляция189172-9%173-8%
Кодирование аудио1901900%187-2%
Кодирование видео160155-3%154-4%
Java166162-2%158-5%
Трёхмерные игры119116-3%116-3%

«В среднем по больнице» система на базе Core i7 оказалась ещё менее чувствительной к частоте ОЗУ, чем Phenom II X4. На платформе AMD, помнится, среднее падение от перехода с DDR2-800 на DDR2-400 составило 11%, современная платформа Intel демонстрирует ещё меньшую чувствительность — в среднем всего 8%.

Намного более существенное падение наблюдается при использовании 2-канального режима контроллера вместо 3-канального — здесь уже есть о чём говорить, и иногда задействование 3-го канала может поднять быстродействие уже работоспособной системы на для кого-то вполне существенные 10+ процентов. Впрочем, и эти случаи довольно-таки редки. В среднем же, судя по данным наших тестов, самое худшее, что может ждать пользователя, работающего с Core i7 в двухканальном режиме — это потеря 6% производительности.

Мы бы сказали, что на этой радостной ноте тему о возможности существенного влияния подсистемы памяти на производительность современных x86-64 компьютерных систем, можно закрывать минимум года на 2-3. По крайней мере, для процессоров без интегрированного графического ядра.

Модули памяти для тестовых стендов предоставлены российским представителством Corsair Memory
Процессор Intel Core i7 950 и плата ASUS P6T SE
предоставлены компанией Ulmart


17 февраля 2010 Г.