Презентация методики тестирования ноутбуков 2011 года

Часть 2. Тестирование производительности платформы ноутбука в синтетических и реальных приложениях и играх

С одной стороны, вся компьютерная индустрия в течение долгого времени строилась на постулате, что важнейшей характеристикой комплектующих и компонентов платформы ПК является их производительность. Однако сейчас это заявление перестало быть абсолютной истиной. Обычному пользователю для его задач с запасом хватит производительности практически всех существующих на рынке решений. Лишь некоторое количество современных задач и групп приложений настолько требовательны к уровню производительности системы, что для них разница в мощности современных систем является важной.

Подробнее об этом можно почитать в статье «Кризис бенчмаркинга», опубликованной на нашем ресурсе, с которой я очень рекомендую ознакомиться всем читателям. Во многом эти мысли применимы и к ноутбукам, ибо крайнему меньшинству интересна «производительность до последней капли», а подавляющее большинство решает гораздо более простой вопрос: достаточен ли уровень производительности или нет.

Хотя мобильные платформы слабее (иногда — существенно слабее) настольных, для них вопрос выбора «достаточного», а не максимального уровня производительности гораздо более актуален. Огромное количество пользователей вообще не имеет сформулированных требований к производительности. К тому же ноутбук — это не платформа, это законченное потребительское устройство. Поэтому к нему есть очень много других важных требований, таких как компактность, удобство переноски, автономность и пр. И пользователя устроит любая платформа, обеспечивающая комфортный для него уровень производительности. При удовлетворении других перечисленных требований, разумеется.

Поскольку ноутбук — полностью собранное и готовое к работе потребительское устройство, его ценность для покупателя не определяется только платформой. Более того, в нем есть много других характеристик: корпус, акустика, экран, звук и т. д. Поэтому при тестировании обязательно нужно отражать всю совокупность характеристик ноутбука, и некоторые из них могут быть гораздо важнее, чем производительность платформы.

Грубо говоря, ноутбук можно разделить на две большие группы свойств и компонентов:

физическое устройство (сюда входят конструкция корпуса, устройства ввода, экран, акустика), от этих характеристик зависят потребительские свойства модели: эргономика, прочность и т. д.
платформа (процессор, чипсет, оперативная память, видеочип, жесткий диск): эти характеристики определяют производительность ноутбука в различных задачах.

Одна из основных проблем при тестировании ноутбука состоит в том, что эти две части могут меняться независимо друг от друга. Другими словами, одна и та же платформа может использоваться в совершенно разных моделях ноутбуков, а одна и та же модель ноутбука при том, что все внешние характеристики те же (корпус, экран и т. д.), может выдавать очень разный уровень производительности в зависимости от используемого процессора: от слабого офисного компьютера до мощного игрового. В связи с этим процесс комплексной оценки свойств ноутбука фактически распадается на два независимых тестирования: оценка потребительских свойств модели ноутбука и (отдельно!) оценка производительности в текущей конфигурации.

Но не стоит отказываться от полномасштабного тестирования производительности платформы только на том основании, что в том же ноутбуке могут быть установлены и другие компоненты. Поэтому в новой методике тестирования мы решили более явно разнести разделы тестирования потребительских свойств ноутбука и уровня производительности платформы.

Результаты тестирования платформ будут обобщаться и на их основе будут выпускаться сводные материалы, в которых мобильные платформы будут сравниваться между собой. Ценность таких статей в том, что читатель сможет определить нужный ему уровень производительности и соответствующим образом подобрать себе конфигурацию понравившейся ему модели, даже если на тесте она была совсем с другой платформой.

В этом материале мы даем краткую характеристику набора приложений и игр, которые мы используем в процессе оценки уровня производительности конкретной платформы ноутбука.

Производительность в синтетических приложениях

У любых синтетических тестов всегда много недостатков. Во-первых, в погоне за объективностью они часто усредняют алгоритмы до такой степени, что тест начинает показывать «среднюю температуру по больнице». Во-вторых, сейчас аппаратные и программные алгоритмы стали настолько сложными, что невозможно разработать универсальный тестовый алгоритм, который мог бы охарактеризовать скорость выполнения любой реальной задачи. Поэтому нет корреляции между результатами тестов и производительностью реальных приложений и игр. Наконец, выдаваемые искусственными тестами цифры рейтингов достаточно абстрактны. Например, если рейтинг у одной системы 156, а у другой — 160, то единственный вывод, который можно сделать: вторая система быстрее (хотя и тут возможны некоторые варианты). Но при этом совершенно непонятно, насколько лучше, ибо непонятно, что означает разница в четыре единицы. Более того, очень сложно понять, что за уровень — 156? Хватит ли его для выполнения задач пользователя? Наконец, синтетические тесты часто подвергаются нечестной оптимизации. Производители жульничают с драйверами, чтобы в тесте их изделие работало быстрее.

На современном этапе на основе синтетических тестов невозможно получить информацию о реальном уровне производительности. В лучшем случае они позволяют с некоторой долей достоверности получить сравнительную характеристику: что одна система быстрее другой. Но даже в этом вопросе за кадром остается вопрос: «При каких условиях?»

Однако, несмотря на сомнения, мы решили оставить в программе исследования некоторые синтетические тесты. Ведь несмотря на недостатки у них есть важное достоинство: они позволяют очень быстро и практически без затруднений примерно определить уровень производительности системы относительно некоторых других систем. Благодаря синтетическим тестам пользователь может, потратив совсем немного времени и усилий, хотя бы примерно сравнить несколько выбранных систем между собой или, например, сравнить понравившуюся ему систему со своей. При этом надо помнить, что выдаваемый ими индекс дает лишь очень приблизительное представление о производительности системы.

Вот какие синтетические тесты мы используем.

Рейтинг производительности Windows Vista / 7

Этот встроенный инструмент оценки производительности системы Windows. Основной первоначально заявленной целью индекса стала оценка соответствия требованиям операционной системы Windows Vista. Он оценивает пять компонентов системы:

процессор — рейтинг процессора;
память — рейтинг подсистемы оперативной памяти;
графика — рейтинг производительности двухмерной графики, в т. ч., если я правильно понимаю, интерфейса Aero;
графика для игр — игровая трехмерная графика;
жесткий диск — рейтинг жесткого диска.

И выдает результат в виде баллов. Система расчета рейтинга и цена деления для этого теста неизвестны, поэтому адекватно оценить разницу между системами не получится. Важно отметить, что он часто занижает ее: при реальной разнице, например, в два раза, разница в рейтинге может составлять около 0,5 балла. Наконец, большой недостаток этого рейтинга в том, что в качестве единого индекса производительности он дает не средний балл системы, а копирует минимальный из пяти тестов. Поэтому при сравнении ни в коем случае нельзя смотреть на основную оценку рейтинга, надо обязательно посмотреть на результаты всех пяти подтестов.

Единственный плюс рейтинга заключается в том, что его результаты в большинстве случаев можно получить мгновенно — открыв соответствующую вкладку в панели управления Windows.

PCMark Vantage

Тестовый пакет PCMark Vantage предназначен для комплексной оценки всей системы. В версии Vantage производители постарались уйти от искусственных рейтингов различных подсистем (подробнее о том, почему всем пришлось менять систему рейтингов, можно прочитать в описании методики тестирования компьютерных систем 4.0 2009 года) и оценить применимость системы для различных направлений деятельности. Но при этом названия подразделов выбраны очень странно, например, «коммуникации», «музыка» и т. д. На мой взгляд, это еще больше запутало пользователей, т. к. невозможно понять, что значит применимость системы «для музыки».

При реальном тестировании выяснилось, что результаты подсистем и общий рейтинг строятся на основании непонятных критериев, поэтому результаты для разных ноутбуков могут сильно отличаться от цифр, выдаваемых другими приложениями и тестовыми инструментами. Кроме того, у теста достаточно сильная погрешность, в некоторых подтестах разброс доходил до 300 очков.

Оценивать результаты очень сложно, т. к. непонятны критерии их формирования и группировки. Фактически, этому тесту можно либо доверять, либо нет. Поэтому мы, хотя и публикуем его результаты (по крайней мере, будем это делать первое время), не будем их комментировать.

Одним значимым достоинством теста для читателей является возможность запустить его на своей системе и сравнить результаты с платформой, которая тестировалась у нас, а также большая база данных с результатами.

Cinebench 10 и 11.5

Тест компании MAXON на основе движка их приложения, оценивает в баллах скорость выполнения работы по 3D-рендерингу. Он выпускается компанией, профессионально занимающейся разработкой пакетов трехмерного моделирования, его движок представляет собой адаптированную версию реального движка. Мы используем два варианта: более старый Cinebench R10 и более современный Cinebench 11.5. Версия 10 (описание на сайте производителя уже недоступно) проводит серию тестов по рендерингу, в результате выдается интегральная оценка. Всего результатов три: производительность одного ядра процессора, производительность процессора в целом (задействуются все доступные ядра), производительность с использованием графического процессора в OpenGL. В состав пакета 11.5 входит два теста, один из них замеряет производительность центрального процессора, второй — производительность видеокарты в OpenGL. Подробнее на сайте производителя.

Этот тест, на мой взгляд, выгодно отличается от других синтетических тестов тем, что более-менее понятно, как он построен и что оценивает. Помимо этого, он очень прост в работе: программа не требует инсталляции и запускается с любого носителя.

Производительность в реальных приложениях

Необходимость тестирования производительности ноутбука в реальных приложениях была очевидна уже достаточно давно. Учитывая, что ноутбуки покупаются все-таки не для абстрактных сравнений, а для работы или развлечений, оценка производительности в реальных приложениях лучше позволяет ответить на вопрос, насколько производительность системы соответствует требованиям пользователя.

В качестве основы была взята методика тестирования платформ iXBT.com образца 2010 года. Ознакомиться с четвертой версией можно здесь, с ее обновлением до версии 4.5 (на основе которого, собственно, строилась методика тестирования производительности ноутбуков) — здесь.

Приложения, используемые при тестировании

Методика тестирования компьютерных платформ (назовем ее для простоты «настольная методика») включает в себя огромное количество приложений, причем как общей направленности (например, браузеры), так и очень узкоспециальных (например, математические расчеты или трехмерное моделирование). Кроме того, в каждой группе тестов есть несколько аналогичных приложений, которые имеют схожую функциональность, но выдают разный уровень производительности для разных систем. Их включение в методику измерения производительности мощных настольных компьютеров вполне оправданно, а вот для оценки производительности ноутбука столь масштабное тестирование ни к чему.

Работой с ресурсоемкими приложениями на ноутбуках занимается очень небольшое количество пользователей. Впрочем, сейчас их количество и, что важнее, доля растет. Поэтому полностью выкидывать профессиональные приложения из тестирования было бы неправильным. С другой стороны, времени на полное тестирование уходит очень много. Поэтому мы решили пойти на компромисс: оставили в методике тестирования мобильных платформ и профессиональные приложения, связанные с тяжелыми расчетами, в том числе и в сфере трехмерной графики. Но при этом изрядно сократили их набор, оставив лишь самые распространенные или показательные. Составить общее представление о производительности ноутбука в том или ином классе задач можно, отталкиваясь от результатов этих приложений.

Итак, посмотрим, какие тесты входят в методику тестирования мобильных платформ и что они показывают.

Архивирование

Архивирование файлов — простая и распространенная задача, с которой большинство пользователей сталкивается в своей работе. Правда, сейчас, с ростом объемов устройств хранения данных, архивирование уже не столь необходимо, однако это по-прежнему одна из нужных в системе задач.

Используется три теста: архивирование стандартного набора файлов с помощью архиватора 7-zip, архивирование того же набора с помощью архиватора WinRAR и распаковка архива с паролем и шифрованием с помощью WinRAR.

Все тесты на скорость архивации чувствительны к быстродействию процессора и памяти, а также к ёмкости процессорного кэша. Тест на архивацию с помощью 7-Zip может адекватно использовать все ядра, тест WinRAR — судя по всему, не более двух. Тест на скорость распаковки — чисто одноядерный, чувствителен в основном к быстродействию CPU.

Производительность браузеров

Для определения быстродействия браузеров используется два теста: V8 от Googlе и SunSpider. Оба теста измеряют производительность движка JavaScript. Как правило, именно этот компонент движка предъявляет наибольшие требования к производительности ноутбука.

Тест V8 выводит результат в баллах, в SunSpider — в миллисекундах, соответственно, в первом случае чем результат больше, тем лучше, во втором — наоборот. Оба теста не задействуют более одного процессорного ядра, чувствительны к быстродействию процессора и иногда к объёму процессорного кэша.

Просмотр видео высокого разрешения

Этот тест показывает, насколько ноутбук справляется с проигрыванием видео высокого разрешения. Для оценки используется ролик в формате 1080р (FullHD), закодированный по стандарту H.264, и плеер MPC HC (Media Player Classic Home Cinema). От формата VC-1 решено было отказаться из-за плохой совместимости комбинации из MPC HC, драйверов современных видеокарт и режима DXVA.

Ролик при тесте проигрывается в двух режимах:

в режиме программного декодирования, когда всей обработкой занимается центральный процессор;
с включенным аппаратным ускорением (DXVA, DirectX Video Acceleration), когда часть расчетов берет на себя графический адаптер, оптимизированный под выполнение таких задач.

Тест показывает уровень загрузки процессора в обоих случаях. В ближайшее время мы постараемся добавить в тест второй важнейший параметр — количество пропущенных кадров.

Работа с фотографиями

Для оценки работы с фотографиями в методике для ноутбуков было решено оставить всего два приложения: ACDSee и Photoshop.

В соответствии с тестовым сценарием, ACDSee преобразовывает большое количество фотографий формата RAW (примерно поровну от фотоаппаратов Canon и Nikon) в формат jpeg. Результат теста — время, затраченное на конвертацию всех фотографий.

В Adobe Photoshop замеряется время выполнения наиболее популярных и распространённых действий: эффекты размытия и увеличения резкости, эффекты освещения, изменение размера и вращение изображения, преобразование цветового пространства, трансформация, фильтры группы «Artistic». Результат теста — усреднённое время по всем группам операций.

Тесты на скорость работы с фото зависят в основном от производительности процессора. ACDSee задействовать более двух ядер не умеет, Photoshop по крайней мере до четырех скорость выполнения некоторых операций увеличивает.

Кодирование видео

Этот достаточно простой тест показывает, сколько у ноутбука уходит времени на кодирование тестового видеофрагмента с помощью различных кодеков: DivX, XviD, x.264. При тестировании замеряется время выполнения задачи.

Результат зависит в основном от быстродействия процессора, количество ядер также имеет значение. Лучше всего под многоядерность оптимизирован кодек x264 (поддерживает до 16 ядер).

Создание видео

В этом тесте эмулируется полноценная работа в видеоредакторе, которая включает в себя не только кодирование ролика, но и операции по его обработке и редактированию. Тестовый сценарий выполняется в двух программных пакетах: Adobe Premiere и Sony Vegas.

Результат теста представляет собой время, которое потребовалось пакету для выполнения всех операций и финального создания ролика.

Оба теста чувствительны к производительности процессора, объёму процессорного кэша и количеству ядер.

Кодирование аудио

В этом тесте замеряется время кодирования аудиозаписи в один из распространенных форматов. Используется оболочка dBPowerAmp и набор кодеков. Детальное описание методики тестирования можно найти в описании методики тестирования платформ.

Результат тестов представляет собой балл, выставляемый программой. Чем он выше, тем лучше.

Тест чувствителен к скорости процессора и количеству ядер. При росте количества ядер, рост результатов почти линейный.

Профессиональные приложения, связанные с трехмерной графикой

Первоначально мы отобрали для этого раздела три программных пакета: 3Ds MAX, Lightwave (два пакеты трехмерного моделирования) и Solidworks (инженерный CAD). Однако тест 3Ds MAX оказался слишком капризным: на всех протестированных системах он вис в самом начале теста на интерактивную работу. Поэтому от него мы оставили только тест на скорость рендеринга (результат — время рендеринга). В Lightwave тестируется два сценария работы: интерактивный и рендеринг финальной сцены. Результат выдается в баллах для теста SPEC, чем меньше, тем лучше.

В SolidWorks тестируется скорость графической подсистемы и процессора, результаты выдаются в баллах теста SPEC, чем меньше, тем лучше.

В целом, во всех трёх пакетах результат сильно зависит как от скорости процессора, так и от скорости графической карты. В рендеринге, дополнительно — от количества ядер.

Профессиональные приложения

MATLAB — математический пакет, предназначенный в основном для работы с матрицами, а также название одноимённого языка программирования, используемого для работы в этом пакете. Мы используем для MATLAB бенчмарк сторонней разработки т .к. встроенный в пакет демонстрирует неадекватные и нестабильные результаты. Результат, выдаваемый тестом — усреднённое время выполнения всех подтестов, в секундах. MATLAB в плане скорости понемногу критичен ко всем подсистемам ноутбука, кроме дисковой и графической, частично умеет задействовать многоядерность.

Java. Для исследования производительности ноутбука при работе с ПО, написанным на языке Java, мы используем бенчмарк SPECjvm 2008. Бенчмарк представляет собой подборку «образцовых» реализаций на языке Java набора достаточно распространённых алгоритмов: обработка текста, различные вычисления, компрессия/декомпрессия мультимедийного контента, компиляция и прочее. Основной результат — усреднённый балл по всем подтестам, чем больше, тем лучше. Java-бенчмарк критичен только к быстродействию процессорных ядер и их количеству (к последнему — в весьма немалой степени).

Тест на скорость компиляции представляет собой компиляцию модифицированного open source проекта Ogre3D (движок для построения трёхмерных игр) с помощью Microsoft Visual Studio 2008. Модификации проекта понадобились для того, чтобы процесс компиляции в тех местах, где это возможно, выполнялся параллельно, таким образом в тесте задействуется многоядерность. Результат теста представляет собой время компиляции. Тест чувствителен к быстродействию процессора, объёму процессорного кэша, количеству ядер (до 12).

Игры

Категория игровых тестов тоже подверглась сокращениям и оптимизациям. Во-первых, мы сократили количество игр, убрав самые «прожорливые». Самые мощные игры с трудом идут даже на относительно мощных настольных системах, чего уж говорить о ноутбуках, которые по определению слабее. Кроме того, для игр изменены настройки, чтобы они шли побыстрее. В общем случае это средний уровень настроек качества. Разрешение для всех игр установлено 800×600, чтобы они гарантированно шли на всех ноутбуках.

Из-за изменений условий тестирования результаты игровых тестов нельзя сравнивать с результатами настольных систем!

С игровыми результатами все просто: тест показывает количество кадров в секунду. Можно оценить и производительность в абсолютных числах, и играбельность на конкретной платформе.

Группировка тестов

Одним из побочных следствий внедрения методики стало появление в статье огромного количества тестов. Поэтому, вслед за авторами «настольной» методики, нам пришлось задуматься об их группировке. Выше мы рассмотрели функциональную группировку тестов.

Однако не имеет смысла запускать полный набор тестов на всех ноутбуках, которые проходят через нашу тестовую лабораторию. Например, очевидно, что не стоит измерять производительность современных игр или тяжелых профессиональных пакетов на ноутбуках с платформой Intel Atom: они либо не запустятся, либо производительность будет недопустимо низкой. Поэтому мы выделили несколько типов ноутбуков в зависимости от уровня их производительности.

Высокопроизводительные ноутбуки: системы с высоким уровнем производительности, которые могут заменить настольный компьютер. Обладают мощным процессором и графикой, да и остальные компоненты под стать. Ориентированы на требовательных к производительности пользователей, в том числе увлекающихся трехмерными играми.
Производительные ноутбуки со слабой графикой. Этот класс тоже достаточно распространен и ориентирован в первую очередь на пользователей, которым нужна хорошая общая производительность системы, а вот графический процессор занять нечем. На данный момент это практически любые пользователи, которые не заинтересованы в современных трехмерных играх.
Офисные ноутбуки. От таких систем практически ничего не требуется в плане производительности. Современные системы, даже мобильные, достаточно быстры, чтобы быстро и без проблем выполнять большинство задач офисного или домашнего пользователя: почта, интернет, работа с текстами, просмотр обычного видео и т. д. Поэтому для них на первый план выходят другие достоинства (тонкий корпус, длительное время работы от батарей и т. д.). В этот класс в первую очередь относятся ноутбуки на платформе Intel CULV и Intel Atom. Для этого класса ноутбука мы оставили только «потребительские» тесты.

Полный набор тестовых приложений будет запускаться только для мощных ноутбуков из первой группы. Для второй группы мы прогнозируемо исключаем игры и приложения, связанные с трехмерной графикой. При тестировании слабых ноутбуков мы вообще не смотрим на производительность профессиональных тестов, кроме того, исключены тесты работы с видео (т. е. пакеты Adobe Premiere и Sony Vegas). Действительно, трудно представить пользователя, который на слабом процессоре будет заниматься такими вещами (хотя легко представить его мучения в этом случае). Однако мы решили оставить тесты на кодирование видео и аудио, а также работу с фотографиями — все-таки те же нетбуки часто берут с собой в поездки фотографы, да и быстро сконвертировать любительский ролик может быть необходимо.

Вывод

Включение в методику тестирования тестов на основе реальных приложений позволяет более объективно оценить уровень производительности платформы ноутбука. Во многих случаях результат выводится в понятных и очевидных величинах (например, время, затраченное на выполнение действия), но даже там, где результаты представляют собой баллы рейтинга, они берутся на основе реальных сценариев работы и примерно отражают производительность реальных приложений. Это позволяет сразу определить, насколько система подходит под нужды пользователя, и оценить примерный уровень скорости в нужных ему приложениях.

Большинство приложений новой методики работает с теми же настройками и в тех же условиях, что и на настольных системах. Поэтому пользователи имеют возможность сравнивать производительность мобильных платформ относительно настольных компьютеров. Это позволяет сделать более осознанный выбор между настольной и мобильной платформой, трезво оценивая разницу в скорости между ними. Из этой группы сознательно были отключены игры, для которых упрощены настройки: все-таки пользователю важнее понять, сможет он поиграть на ноутбуке, а не сравнить производительность с настольными системами в режиме, когда результат мобильной платформы заведомо будет низким.

Наконец, включение единой объективной методики тестирования мобильных платформ позволяет в состав тестирования всех ноутбуков позволяет нам составить единую системную таблицу производительности мобильных платформ, которая позволит выбрать оптимальную по уровню производительности систему для тех пользователей, для которых скорость ноутбука является критичным параметром при выборе.