Новая методика тестирования производительности ноутбуков и глобальное исследование производительности платформы Intel Ivy Bridge

Вступление

Прошло уже почти два года с тех пор, как при тестировании ноутбуков мы начали применять методику оценки производительности платформы, основанную на результатах работы реальных приложений. За базу была взята методика тестирования настольных платформ образца 2009 года, которую, впрочем, пришлось изрядно модифицировать для ноутбуков. Так совпало, что эта методика стала применяться нами практически одновременно с выходом на рынок платформы Intel Core второго поколения с кодовым названием Sandy Bridge. Сейчас, с появлением на рынке следующего, третьего поколения платформы под названием Ivy Bridge, настало время подвести некоторые итоги использования методики и подумать о ее развитии.

Методика 2010 года: итоги и проблемы

Первая методика оценки уровня производительности ноутбука на основе реальных приложений впервые появилась в наших материалах в самом конце 2010 года. Базой для нее послужила методика тестирования производительности настольных систем 2009 года версии 4.0. Однако в «мобильной» версии был сильно урезан набор приложений внутри групп, что сделало невозможным сопоставление рейтингов с результатами настольной методики (а чуть позже от рейтингов и вовсе было решено отказаться). Впрочем, основные группы остались, включая такие сложные для мобильных систем, как трехмерное моделирование или профессиональные приложения. Кроме того, были изменены настройки теста Photoshop и игр (т. к. при максимальных настройках результаты гарантированно были бы невысокими).

Основным достоинством методики с использованием реальных приложений является ее жизненность: поскольку работает реальное приложение (а не синтетический движок), то полученный результат будет отражать именно его скорость. Другое дело, что создать и отладить автоматическое выполнение тестовых сценариев для большого набора приложений — очень сложная задача и по времени, и по требуемой квалификации, и по трудозатратам.

Начав использовать методику, мы столкнулись с целым рядом проблем. Например, выяснилось, что часто на каком-то конкретном ноутбуке некоторые приложения не могут корректно закончить тест, причем для каждого ноутбука количество и состав списка этих приложений очень сильно отличались. А отсутствие результатов даже одного приложения очень сильно искажает рейтинг по группе и итоговый, что делает невозможным сравнение ноутбуков по рейтингам между собой. Либо пришлось бы каждый раз пересчитывать рейтинги, убирая все приложения, которые не запустились на одной из сравниваемых систем. Но тогда в каждой статье были бы свои рейтинги даже для одних и тех же систем, что вводило бы читателей в заблуждение. Это и стало одной из причин отказа от рейтингов в первой версии методики.

Довольно быстро выявилась и вторая очевидная проблема — быстрое обновление ПО. На рынок постоянно выходили новые версии программ, а версии, используемые в методике, быстро устаревали. Однако любое обновление тестовой методики автоматически отправляет в корзину всю накопленную базу результатов тестов: они становятся несовместимыми с текущей версией методики. Повторно тестировать все платформы — это заняло бы слишком много времени. Поэтому мы решили зафиксировать один набор ПО и тестировать все ноутбуки только с его помощью, чтобы обеспечить совместимость результатов и возможность сравнения присутствующих на рынке платформ между собой.

Выход новой платформы дает нам возможность обновить тестовую методику.

Методика 2012: что нового

Теперь мы переходим на использование стандартной современной методики исследования производительности, которая используется для настольных систем.

Сразу стоит отметить, что методика сильно изменилась, в том числе с точки зрения концепции. Во-первых, разумеется, используются приложения более новых версий. Во-вторых, изменился набор приложений: несколько приложений из методики исключены, но добавлено много новых. На мой взгляд, методика стала более сбалансированной: появилось больше офисных приложений, немного меньше стал акцент на тяжелые профессиональные пакеты в области 3D-моделирования, которые не настолько актуальны для мобильных систем. Наконец, изменилась группировка приложений.

Новая методика существует в двух версиях:

Полная версия, в которой используется большое количество разных приложений. Этот вариант хорошо подходит для настольных систем, т. к. позволяет получить более объективную картину, но тестирование занимает очень много времени. Для настольных систем это не настолько критичный фактор, к тому же они производительнее и проходят тесты быстрее, чем ноутбуки. Поэтому мы будем использовать эту версию методики для тестирования мощных ноутбуков, включая мобильные рабочие станции, а также тех ноутбуков, которые подразумевают игровое использование. Однако будем стараться прогонять ее и для всех новых платформ, которые еще не были у нас на тестировании.
Сокращенная версия методики. Она предназначена для тестирования готовых систем и платформ с низкой производительностью. В ней убрана значительная часть тяжелых приложений и игр, которые требовательны к производительности. Эту версию мы будем использовать для тестирования ноутбуков с невысокой производительностью, моделей с интегрированной графикой, а также для ноутбуков с конфигурацией, которая уже раньше была у нас на тестировании. В последнем случае результат будет использоваться для проверки того, что производительность модели находится на нормальном для платформы уровне.

Кроме того, с новой методикой мы попробуем вернуться к системе рейтингов. Основным плюсом рейтингов является то, что они позволяют корректнее ранжировать системы между собой по уровню производительности. Будем надеяться, что возросшая стабильность новой методики позволит избежать проблем с подсчетом рейтингов, с которыми мы столкнулись ранее. Тем не менее, мы продолжим публиковать в статьях и результаты в абсолютных цифрах параллельно с рейтингами.

Наконец, использование единого набора приложений и настроек для настольных и мобильных систем дает нам и нашим читателям возможность напрямую сравнивать результаты мобильных и десктопных систем между собой. Так что появляется возможность прямо сравнить, насколько мобильные системы слабее (если слабее) настольных, и исходя из этого составить объективное мнение о том, в каких задачах использование мобильных систем оправдано, а в каких — лучше все же использовать десктоп.

Переходный период

Как уже отмечалось, при переходе на новую методику становится невозможным использовать базу накопленных результатов. Во многом из-за этого переход на новую методику решено было задержать до выхода новой платформы. Однако даже в этом случае остается открытым вопрос о соотношении производительности старой и новой платформы.

В связи с этим мы решили провести подробное сравнительное исследование производительности систем на платформах Sandy Bridge и Ivy Bridge между собой. Для этого мы взяли несколько систем на процессорах Intel Core i5 и Core i7 второго и третьего поколения и протестировали их в новой и старой методике. Сразу должен отметить, что проект получился гораздо масштабнее, чем изначально планировалось, и вместо недостатка результатов мы рискуем в них утонуть. Впрочем, об этом мы поговорим при конкретных тестированиях.

Пользователи, привыкшие к старой методике или имеющие ноутбук на Sandy Bridge, смогут увидеть результаты новой платформы в привычной системе координат и оценить прибавку в производительности, а те, кто выбирает себе новую систему, — оценить, насколько выросла скорость новой платформы. Кроме того, уровень производительности Sandy Bridge станет точкой отсчета, с которой можно будет сравнить новую платформу Ivy Bridge. В дальнейшем мы больше будем сравнивать системы Ivy Bridge между собой.

Проверка устойчивости методики

Для новой методики мы попробуем (если позволит время, в т. ч. время нахождения у нас ноутбуков) провести несколько исследований самой тестовой методики, чтобы проверить, насколько она подходит в качестве тестового инструмента и каких неожиданностей от нее можно ожидать. Во многом это связано с тем, что мы все-таки раскрываем методику не на тестовый стенд, где меняется несколько комплектующих, а каждый раз — на новую готовую систему. Не говоря уж о том, что на некоторые конфигурации ноутбуков ее раскрыть в принципе не получается.

Как минимум мы попробуем исследовать следующие моменты:

Есть ли разница между запуском тестовой методики при установке только драйверов для платформы Intel или полной установке всех драйверов для ноутбука (включая утилиты энергосбережения)?
Насколько велика разница в результатах между несколькими запусками методики (каждый раз — с чистой установкой)? В принципе, на этот вопрос ответ уже во многом получен: даже разные ноутбуки с идентичной платформой показывают одинаковые результаты. С другой стороны, пару раз случались странные ситуации, так что этому вопросу мы уделим еще немного внимания.
Насколько велика разница при работе только интегрированной графики Intel или с активной внешней графикой? Нам следует выделить те приложения, на которые влияет графическая подсистема.
Есть ли разница при запуске методики с HDD или SSD? Необходимо понять, влияет ли тип носителя на результаты тестов, т. к. для ноутбуков мы запускаем методику с его устройства хранения данных, будь то SSD или HDD.

Эти дополнительные исследования позволят нам в будущем быть более уверенными в результатах наших исследований и более четко определять, от чего они зависят.

Синтетика

Что касается синтетики, то в тестовом наборе по-прежнему остается только Cinebench версий 10.0 и 11.5. Это единственный тест, который, на мой взгляд, хоть как-то соответствует реальному положению вещей, пусть он уже порядком устарел. Но с другими тестами ситуация еще хуже.

Рейтинг Windows по умолчанию есть на всех системах, где стоит Windows, и это его единственное значимое достоинство. Иногда он помогает понять, какая из двух систем быстрее (если смотреть на все результаты, а не только на итоговый рейтинг), но часто путается при мелких различиях и крайне неточно показывает разницу, зачастую вводя пользователя в заблуждение. Да и вообще, он не для этого придумывался.

PCMark Vantage и другие версии пакета PCMark. Основная проблема с ними в том, что пакет основывается на закрытых синтетических скриптах, и результаты их работы слабо соотносятся с чем-либо вообще. Нужно либо доверять его результатам безоговорочно, либо (особенно если пытаешься их комментировать и имеешь другие цифры для сопоставления) отказываться от теста. Если, например, взять Vantage, который мы в течение некоторого времени использовали, то общий рейтинг вообще оставляет странное впечатление, ибо сложно понять, что круче — ноутбук с SSD или ноутбук с внешней графикой? Если же смотреть на результаты подгрупп, то там много странностей и загадок. Тем более что мы вообще не знаем, как работают скрипты, на что они рассчитаны и пр. В целом у меня осталось четкое впечатление, что итоговый рейтинг не соотносится с рейтингами внутренних тестов, которые должны его формировать.

3Dmark — примерно та же ситуация. Внешне кажется, что результаты очевидны и наглядны, но это только кажется. Я уже не говорю о том, что многие тестеры до сих пор используют 3DMark06, который с точки зрения поддержки современных технологий или отражения вообще чего-либо безнадежно устарел и показывает в лучшем случае погоду на марсе. Но и у более новых тестов тоже есть много проблем: синтетические игровые движки, использующие малораспространенные в реальной жизни технологии, слишком большая сложность движков и сценариев для современных систем (особенно мобильных) и т. д. Я уже не говорю о некорректных оптимизациях драйверов под эти тестовые пакеты, которые существенно искажают картину тестирования. Я уже не говорю о том, что разные игры по-разному реагируют на разные конфигурации, так что создать общий адекватный рейтинг практически невозможно. Я уже не говорю… впрочем, этого, по-моему, достаточно.

Cinebench — хотя тест сделан «на основе реального приложения», он тоже немного синтетический, да и приложение давно устарело. Взять хотя бы графическую часть с OpenGL… Мы продолжаем его использовать, т. к. он более-менее адекватно показывает уровень вычислительной производительности платформы и разницу между платформами. Однако не стоит рассматривать его как тест, который дает некоторую интегральную оценку производительности платформы. Он позволяет очень примерно, но зато быстро оценить уровень производительности, не более того.

В общем, основное условие использования синтетических тестов — запускать только их и свято верить в их непогрешимость. Ну и не думать. Их основное преимущество — можно быстро и без усилий запустить тест на своей системе, получить некий показатель и сравнить его не которыми другими результатами. Рейтинг уровня крутости так получить можно, а вот оценить производительность — вряд ли, тем более что странности расставления рейтингов, жульнические оптимизации драйверов и т. д. сводят даже это преимущество на нет.

Выделение тестов производительности

Наконец, с новой методикой тестирования мы попробуем реализовать еще одно давно назревшее изменение, а именно: выделение тестирования производительности в отдельный материал.

Проблема, как обычно, связана с тем, что ноутбуки, в отличие от настольных систем, представляют собой уже готовое к работе, полностью укомплектованное решение. Так что мы вынуждены оценивать ноутбук именно по совокупности вообще всех параметров: корпус, экран, звук, клавиатура и тачпад, набор портов и др.

В то же время одна и та же модель может иметь различные, существенно различающиеся между собой конфигурации. Представим себе, что к нам на тестирование попал 15-дюймовый универсальный ноутбук А, имеющий конфигурацию с процессором Core i3 и интегрированную графику. Протестировав его, мы придем к очевидному выводу, что это домашний ноутбук «для почты и интернета», ориентированный на пользователей, которым не нужна высокая производительность. И этот вывод будет абсолютно верен.

На рынке ноутбук А представлен в большом количестве конфигураций, в том числе с процессором Core i7 и видеокартой игрового класса. Для тех, кто ищет себе именно домашний мультимедийный или игровой ноутбук, рассматривая в т. ч. модель А, наше тестирование окажется вредным — ибо создаст ложное впечатление о низком уровне производительности всей линейки А и ее неприспособленности для игр. И речь тут идет не только о приведенных результатах тестирования, но и, например, о разделе, посвященном позиционированию.

С другой стороны, если наш читатель выбирает себе ноутбук Б и хотел бы знать, каков уровень производительности современного процессора Core i3 и интегрированной графики, вряд ли ему придет в голову читать обзор ноутбука А. В то время, как оценка уровня производительности дана, и она вполне соответствует возможностям ноутбука Б.

Чтобы избежать этих проблем, мы попробуем отделить тестирование общих параметров всей модельной линейки от тех из них, которые свойственны лишь одной конфигурации. Правда, если вынести тестирование производительности в отдельный материал, то возникает еще один сложный вопрос — а что делать с исследованием нагрева, шума и параметров работы процессора под нагрузкой, ведь они зависят и от индивидуальной конфигурации, и от системы охлаждения, которая является частью ноутбука (и уж точно не стоит переносить результаты тестирования на другую модель). Это, к сожалению, одно из следствий внедрения технологии Turboboost, благодаря которой производительность современных процессоров стала «плавающей» величиной. Эту проблему мы попробуем решить в процессе. Пока же этот пункт останется в части, посвященной обзору ноутбука.

Ivy Bridge

Наконец, т. к. новая методика все-таки будет использоваться в основном с процессорами Ivy Bridge, в этом материале стоит кратко остановиться на том, что это за платформа.

Основным новшеством Ivy Bridge стал переход на производственные нормы в 22 нм. Обычно благодаря переходу на новый, более тонкий техпроцесс процессорное ядро становится меньше по размерам (т. е. дешевле в производстве), потребляет меньше энергии и меньше греется. Кроме того, по сравнению с Sandy Bridge были произведены некоторые косметические улучшения внутренних блоков ядра центрального процессора, которые должны сделать его немного более эффективным. Вот что действительно сильно поменялось, так это интегрированное графическое ядро. Оно получило новые блоки, поддержку современных технологий (включая полную поддержку DirectX 11) и заметно возросшую скорость работы.

Теоретически заявленные достоинства новой платформы интереснее смотрятся именно на рынке мобильных систем.

Хотя к изучению производительности мобильных платформы мы приступаем только сейчас, для настольных систем эта тема уже была достаточно исследована. Поэтому тем из наших читателей, кто хочет больше узнать о производительности Ivy Bridge как платформы и о скорости современных десктопных процессоров, предлагаем обратиться к этим материалам:

Первое знакомство с архитектурой и производительностью старших процессоров Ivy Bridge, Core i5-3570K и Core i7-3770K

Оценка производительности десктопных Core i5 и Core i7 нового поколения в сравнении с системами трехлетней давности (включая Core первого поколения)

Желающие могут ознакомиться с репортажем о посещении фабрики Fab28 в Израиле, где Ivy Bridge и разрабатывался.

Помимо этого, я рекомендовал бы ознакомиться с интересным материалом: Исследование влияния подсистемы памяти на быстродействие Core i7-3770K.

Особенно любопытно посмотреть на разницу между одноканальным и двухканальным режимом. В рамках исследования производительности мобильной версии платформы Ivy Bridge мы также постараемся заняться этим вопросом. Наконец, рекомендую ознакомиться с описанием чипсетов Intel седьмой серии.

Стоит отметить, что при подготовке материалов исследования у меня сложилось впечатление, что особых шагов вперед от Ivy Bridge — ни в производительности, ни в энергоэффективности, — ожидать не стоит. Впрочем, детально мы еще поговорим об этом как раз в материале по тестированию.

GMA HD4000: новый шаг в развитии интегрированной графики

Как уже отмечалось, в новом поколении было очень сильно переработано графическое ядро. Количество блоков увеличили до 16, новое ядро стало полноценно поддерживать DirectX 11, выросла и скорость. Intel теперь декларирует возможность играть в современные игры даже на встроенной графике, а аналитики традиционно предсказывают смерть младших моделей дискретных видеоадаптеров. Впрочем, ничто не дается просто так: графическая часть занимает чуть ли не половину площади кристалла. Есть также серьезные подозрения, что именно она ответственна за рост нагрева и энергопотребления чипа в целом.

В десктопных версиях процессоров встречается два вида интегрированных видеорешений: HD4000 и HD2500. В мобильных процессорах всегда стоит старшая и более производительная версия, HD4000, урезанных версий быть не должно. Однако для ядра и памяти могут устанавливаться разные частоты работы, что заметно скажется на производительности встроенного видеоядра. Наконец, согласно неофициальной информации, в новом поколении Intel не разрешает отключать интегрированную графику в случае использования внешней видеокарты, т. е. решение обязательно должно быть гибридным (предусматривающим переключение между двумя видеорешениями).

И опять же, в теории нововведения выгодны в первую очередь именно ноутбукам. Нет, хорошее интегрированное ядро оценят и производители десктопов, просто именно производителям ноутбуков его наличие существенно облегчает жизнь: материнские платы становятся проще, не надо делать разводку под второй чип, не надо делать дополнительный контур охлаждения под него (или продумывать, как использовать существующий) и много других моментов, где можно сэкономить.

Производительность HD4000 в настольных процессорах также исследовалась, в т. ч. и в нашей новой методике.

Производительность GMA HD4000 в сравнении с дискретным видео в паре с разными процессорами

Обзор производительности GMA HD4000 в сравнении с HD3000 и др.

Мы тоже уделим внимание этому вопросу при исследовании производительности мобильных решений.

Внешняя графика

Наконец, стоит упомянуть и о новых внешних графических решениях, используемых в ноутбуках.

Этой весной компания NVIDIA представила шестое поколение своих графических решений, основанное на новой архитектуре Kepler. Основным достоинством нового поколения графики NVIDIA стал не рост производительности, а повысившаяся энергоэффективность. Другими словами, по заявлениям производителя, видеокарты нового поколения более экономичны (и меньше греются) при той же производительности или показывают более высокую производительность при том же уровне энергопотребления. Подробнее о шестом поколении мобильной графики можно прочитать в отчете о его российской презентации: «Презентация графики NVIDIA 6-й серии». Так, NVIDIA в развитии своей линейки формально движется в том же направлении, что и Intel.

Кроме того, нами уже проведено «Исследование производительности GT640M в современных играх». Поэтому желающие могут оценить, насколько система способна удовлетворять их потребности. Я же обращу внимание читателей на то, что речь идет об ультрабуке, т. е. очень тонком и легком ноутбуке, который к тому же может уже предоставить и игровые возможности. Выход нового поколения графики NVIDIA на рынок состоялся еще до официального появления платформы Ivy Bridge, поэтому тестирование проходило на системе с процессором Intel Core i5-2467М.

В ближайшее время мы также постараемся исследовать уровень производительности современных решений AMD и используемую в них технологию гибридной работы видеорешений для платформы Intel.

План исследования производительности Ivy Bridge

Ну а мы на переходим к исследованию производительности мобильных процессоров Ivy Bridge. В этом цикле должны появиться следующие материалы:

Что изменилось для ультрабуков: ультрамобильный Core i5-3317U против Core i5-2467M в одинаковом окружении. На примере Acer Aspire S3.
Выросла ли производительность в среднем классе? Core i5-3210M против Core i5-2410M. На примере MSI GE70 и Hewlett-Packard Probook 4330s.

В обоих материалах будут использоваться результаты и новой, и старой методики исследования производительности.

Сравнение производительности процессоров Core i7 в новой методике, сокращенном и полном вариантах. Их соотношение.
Сравнение производительности мобильных процессоров Core i5 и Core i7 поколения Ivy Bridge с настольными процессорами Intel Ivy Bridge при использовании полной версии методики 2012 года.
Сравнение условий работы процессоров Core i7 поколений Sandy Bridge и Ivy Bridge на примере ноутбуков MSI GT783 и GT70.

Дополнительно мы постараемся провести краткий анализ мобильной версии интегрированного ядра Intel HD4000.

На этом мы заканчиваем наш вводный материал и начинаем публикацию результатов тестов.