Методика измерения производительности ноутбуков 2014 года

Часть 1:
тестирование на основе реальных неигровых приложений


До сих пор мы тестировали ноутбуки с применением таких тестовых пакетов, как PCMark 7, PCMark 8, 3DMark и 3DMark 11. Однако все они не лишены определенных недостатков. Например, новый пакет PCMark 8 довольно часто обновляется, что делает невозможным его использование для сопоставления результатов с ранее протестированными системами. Кроме того, для тестирования ноутбуков хотелось бы применять бенчмарки на основе реальных и популярных приложений, а таковые используются только в двух тестах пакета PCMark 8 (Adobe Creative Suite и Microsoft Office). Ну а измерять производительность ноутбука с использованием синтетических приложений или таких, которые никогда не будут применяться на ноутбуке — это не очень интересно.

Пакет PCMark 7 в этом плане еще больше оторван от реальности. В нем вообще не используются реальные приложения, и во всех тестах, за исключением Computation, к сценарию нагрузки «подмешиваются» синтетические тесты производительности подсистемы хранения данных. В результате ноутбук с производительным SSD-накопителем, но со слабым процессором демонстрирует в тестах пакета PCMark 7 более высокие результаты, чем ноутбук c HDD-диском и быстрым процессором, что, на самом-то деле, плохо соотносится с реальной действительностью.

Еще один недостаток пакетов PCMark 7 и PCMark 8 заключается, на наш взгляд, в довольно сложной формуле расчета итогового результата, что подчас делает довольно проблематичной интерпретацию полученных результатов. А главное, что результирующие баллы в тестовых пакетах PCMark 7 и PCMark 8 не позволяют однозначно сказать, во сколько раз тестируемая система производительнее некой референсной системы.

Тестовые пакеты 3DMark и 3DMark 11 предназначены для измерения производительности систем в играх. Собственно, эти пакеты хороши всем, но… опять-таки, речь не идет о реальных играх, да и хотелось бы, чтобы результат измерялся в понятных единицах (FPS), а не в загадочных попугаях, поскольку FPS имеют и абсолютную значимость, а не только относительную.

Именно поэтому мы решили отказаться от использования указанных тестовых пакетов и разработать свой собственный набор бенчмарков для тестирования ноутбуков.

Собственно, под набором мы понимаем три бенчмарка:

  • бенчмарк для измерения производительности ноутбуков на основе реальных неигровых приложений (iXBT Notebook Benchmark v.1.0);
  • бенчмарк для измерения производительности ноутбуков в играх (iXBT Game Benchmark v.1.0);
  • бенчмарк для измерения времени автономной работы ноутбуков (iXBT Battery Benchmark v.1.0).

В этой статье мы детально рассмотрим бенчмарк iXBT Notebook Benchmark v.1.0 для оценки производительности ноутбуков на основе неигровых приложений.

Бенчмарк iXBT Notebook Benchmark v.1.0

Итак, особенность бенчмарка iXBT Notebook Benchmark v.1.0 заключается в том, что в нем используются только реальные приложения, с которыми большинство домашних пользователей сталкиваются ежедневно.

Главная идея, положенная в основу бенчмарка, заключается в измерении времени выполнения тестовых задач, которые выполняются с применением реальных пользовательских приложений. Скорость выполнения тестовых задач является показателем производительности тестируемой системы (чем меньше времени требуется для выполнения тестового задания, тем выше производительность системы). Измерив время выполнения определенного набора тестовых задач, можно сопоставить его со временем выполнения тех же задач на некоторой референсной системе и таким образом сравнить производительность тестируемой системы с производительностью референсной. Именно на этом простом принципе основан алгоритм расчета интегральной оценки производительности в нашем бенчмарке iXBT Notebook Benchmark v.1.0.

Бенчмарк совместим с операционными системами Windows 7 (64-битной) и Windows 8 (64-битной). Версия операционной системы может быть русской или английской.

Бенчмарк позволяет задать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение. Как показывает практика, для получения погрешности результатов тестирования порядка 1% вполне достаточно использовать пять прогонов каждого теста. Повторим, что во всех тестах результатом является время выполнения тестовой задачи.

Приложения, используемые в тестировании, подобраны таким образом, чтобы они позволяли оценить производительность ноутбука в следующих типовых задачах:

  • видеоконвертирование;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • аудиообработка;
  • распознавание текста;
  • архивирование и разархивирование данных;
  • скорость загрузки приложений и контента, скорость копирования данных.

Естественно, это далеко не полный перечень всех возможных сценариев применения ноутбуков, однако мы постарались минимизировать перечень типовых задач с тем, чтобы сам процесс тестирования занимал не более 6-8 часов (в зависимости от производительности ноутбука). Кроме того, как нам кажется, использование большего числа тестовых задач вряд ли сможет существенно изменить результирующий интегральный показатель. Ну а для детального исследования производительности процессоров у нас есть отдельная методика. В данном же случае мы постарались ограничиться лишь наиболее часто встречающимися сценариями применения ноутбуков, причем такими сценариями, в которых результат выполнения тестовой задачи зависел бы от производительности процессора, памяти и системного накопителя. Безусловно, для многих пользователей наиболее часто встречающиеся задачи — это работа с офисными программами (Word, Excel, PowerPoint), общение в интернете, поиск информации в интернете и просмотр фильмов (онлайн или предварительно скаченных). Однако использовать эти задачи для тестирования производительности ноутбуков довольно проблематично. Во-первых, не очень понятно, что́ в данном случае можно измерить, а во-вторых, для подобных задач вообще не требуется производительный ноутбук. Можно, скажем, попытаться имитировать задачу пересчета формул в Excel c использованием огромного массива данных, однако вряд ли это можно назвать типичной пользовательской задачей. А потому мы сразу исключили из рассмотрения возможность использования подобных задач в тестовом бенчмарке.

Для реализации тестовых задач в бенчмарке применяются следующие приложения:

  • MediaCoder x64 0.8.25.5560;
  • Adobe Premiere Pro CC;
  • Adobe After Effects CC;
  • Adobe Photoshop CC;
  • Adobe Audition CC;
  • Photodex ProShow Gold 5.0.3276;
  • Abbyy FineReader 11;
  • WinRAR 5.0;
  • FastStone Image Viewer 4.8.

Безусловно, для реализации перечисленных типовых задач можно было бы использовать и другие приложения. А потому вкратце поясним, как мы выбрали именно эти приложения.

Видеоконвертер MediaCoder x64 0.8.25.5560 мы выбрали потому, что он, во-первых, достаточно популярный (хотя, возможно, и не самый популярный), во-вторых, бесплатный, ну а в-третьих, этот видеоконвертер обладает большим количеством настроек и встроенных пресетов, которые удобно использовать в тесте. Понятно, что видеоконвертеров существует достаточно много, и если пользователь уже привык к какому-то конкретному решению, то для него именно оно является и самым удобным, и самым лучшим. Однако в данном случае очень важно, что MediaCoder — это лишь графический интерфейс, который позволяет использовать для конвертирования любые поддерживаемые инструменты и с удобством задавать параметры их работы, а не закрытый продукт типа «все-в-одном». И при широком наборе поддерживаемых инструментов не составляет труда, скажем, найти видеокодер, задействующий OpenCL.

В случае приложений из пакета Adobe, применяемых нами для нескольких типовых сценариев, выбор именно этих приложений объясняется их популярностью. Такие приложения, как Adobe Premiere Pro CC, Adobe After Effects CC и Adobe Photoshop CC, де-факто давно являются стандартом в области создания и обработки видео и фото.

Приложение Photodex ProShow Gold 5.0.3276, создающее видеоролики-слайдшоу из фотографий, также довольно популярно и практически не имеет аналогов в плане быстроты и удобства создания анимированных видеоальбомов.

Что касается приложения Abbyy FineReader 11, то ему попросту нет альтернативы.

Выбор архиватора WinRAR 5.0 объясняется тем, что он обеспечивает серьезное сжатие данных и способен полноценно задействовать мощные процессоры, а также является самым популярным в России.

Ну а приложение FastStone Image Viewer 4.8 для просмотра фотографий, в принципе, можно было бы заменить на какое-нибудь другое, однако оно, во-первых, бесплатное, во-вторых, достаточно популярное, а в-третьих, очень навряд ли заметно отличающееся от прочих программ для просмотра фото по скорости работы.

Тестовые задания с использованием неигровых приложений

Видеоконвертирование

Для видеоконвертирования в бенчмарке используется HD-видеоролик длительностью 3 мин. 35 с. Ролик записан в формате MPEG4 Video (H.264) и имеет следующие характеристики:

размер 1,05 ГБ
контейнер MKV
видеокодек MPEG-4 (H.264)
разрешение 1920×1080
видеобитрейт 42,1 Мбит/с
частота кадров 25 fps
аудиобитрейт 128 Кбит/с
количество каналов 2
частота семплирования 44,1 кГц

Данный видеоролик с использованием приложения MediaCoder x64 0.8.25.5560 транскодируется в другой формат с меньшим разрешением. Параметры результирующего видеофайла следующие:

размер 258 МБ
контейнер MP4
видеокодек MPEG-4 (H.264)
разрешение 1280×720
видеобитрейт 10 Мбит/с
частота кадров 29,97 fps
аудиобитрейт 128 Кбит/с
количество каналов 2
частота семплирования 48 кГц


Создание видеоконтента

В задачах по созданию видеоконтента в нашем бенчмарке применяются три приложения: Adobe Premiere Pro CC, Adobe After Effects CC и Photodex ProShow Gold 5.0.3276.

В тесте с использованием приложения Adobe Premiere Pro CС создается видеофильм из десяти видеоклипов суммарным объемом 1,48 ГБ. Видеоклипы (контейнер MOV) сняты камерой Canon EOS Mark II 5D с разрешением 1920×1080 и частотой кадров 25 fps. Между всеми видеоклипами создаются эффекты перехода, после чего производится рендеринг рабочей области и экспортирование видеофайла с пресетом Apple iPad 2, 3, 4, Mini; iPhone 4S, 5; Apple TV3 — 1080p 25. Продолжительность готового фильма составляет 4 мин. 25 с.

Параметры выходного файла следующие:

размер 163 МБ
контейнер MP4
видеокодек MPEG-4 (H.264)
разрешение 1920×1080
видеобитрейт 5 Мбит/с
частота кадров 25 fps
аудиобитрейт 160 Кбит/с
количество каналов 2
частота семплирования 48 кГц

Результатом данного теста является суммарное время рендеринга и экспортирования фильма.

Данный тест хорошо загружает все ядра процессора и чувствителен к объему и быстродействию оперативной памяти.


В тесте с использованием приложения Adobe After Effects CС производится обработка 30-секундного видеоролика (контейнер MOV) размером 164 МБ, снятого камерой Canon EOS Mark II 5D с разрешением 1920×1080 и частотой кадров 25 fps с последующим рендерингом без сжатия (контейнер AVI) с использованием встроенного рендера.

Обработка заключается в корректировке баланса белого, наложении фильтра Cartoon (этот фильтр сильно загружает процессор) и наложении 3D-титров c различными эффектами (взрыв, размытие и т. п.)

Параметры выходного файла следующие:

размер 5,21 ГБ
контейнер AVI
видеокодек несжатое видео
разрешение 1920×1080
видеобитрейт 1492 Мбит/с
частота кадров 30 fps
аудиокодек PCM
аудиобитрейт 1536 Кбит/с
количество каналов 2
частота семплирования 48 кГц

Результатом данного теста является время рендеринга видеоролика.

Данный тест загружает все ядра процессора и чувствителен к объему и быстродействию оперативной памяти и производительности дисковой подсистемы.


В тесте с применением приложения Photodeх ProShow Gold 5.0.3276 определяется скорость создания HD-видеофильма (слайдшоу) с разрешением 1920×1080p (формат MPEG-2, Framerate 59,94) из 24 цифровых фотографий, отснятых камерой EOS Canon Mark II 5D и преобразованных в формат TIFF. Каждая фотография имеет размер 60,1 МБ. Кроме того, на фильм накладывается музыка. Сам фильм создается с использованием Мастера (Wizard) приложения Photodeх ProShow Gold 5.0.3276. Между отдельными слайдами накладываются различные эффекты перехода, а часть слайдов анимирована.

Создание проекта с использованием Мастера каждый раз приводит к новому результату за счет того, что накладываемые на слайды анимационные эффекты и эффекты перехода выбираются произвольно. Поэтому время создания слайд-шоу в данном случае будет иметь большой разброс. Дабы избежать этого негативного эффекта, с использованием Мастера каждый раз создается новый проект, а вот окончательный экспорт всегда производится для одного и того же заранее созданного проекта. Результатом теста является суммарное время создания проекта слайдшоу, включающее в себя время загрузки фотографий и музыки и наложение спецэффектов, а также время экспорта проекта в фильм.

Данный тест загружает все ядра процессора, однако не на 100%. От производительности дисковой подсистемы результаты теста практически не зависят, а вот от быстродействия оперативной памяти — зависят, хоть и не очень сильно.


Обработка цифровых фотографий

Для обработки цифровых фотографий в бенчмарке применяется приложение Adobe Photoshop CС. Тест заключается в пакетной обработке 24 фотографий, сделанных камерой EOS Canon Mark II 5D в RAW-формате (размер каждой фотографии — 25 МБ). С каждой фотографией, которая открывается в 8-битном формате, последовательно проделываются следующие действия:

  • изменяется глубина цвета с 8 на 16 бит на канал;
  • накладывается фильтр адаптивной резкости Smart Sharpen;
  • накладывается фильтр устранения дрожаний рук при съемке Shake Reduction;
  • накладывается фильтр шумоподавления Reduce Noise;
  • накладывается фильтр коррекции искажений объектива Lens Correction;
  • изменяется глубина цвета с 16 на 8 бит на канал;
  • фотография сохраняется в TIFF-формате.

Отметим, что фильтры Smart Sharpen и Shake Reduction являются новыми и сильно загружают процессор. В предыдущей версии Adobe Photoshop эти фильтры отсутствовали.

Результатом данного теста является время пакетной обработки всех фотографий.

Аудиообработка

Для аудиобработки применяется приложение Adobe Audition CС, с помощью которого тестовый шестиканальный (5.1) аудиофайл в формате FLAC первоначально загружается, затем обрабатывается и, наконец, конвертируется в формат MP3. Обработка исходного FLAC-файла заключается в применении к нему фильтра адаптивного шумоподавления (Adaptive Noise Reduction). Результатом теста является суммарное время загрузки аудиофайла, его обработки и конвертирования. Исходный тестовый аудиофайл имеет размер 1,65 ГБ. Параметры результирующего MP3-файла следующие:

  • битрейт 128 Кбит/с;
  • частота сэмплирования 48 кГц.

Результат данного теста зависит как от производительности процессора, так и от производительности подсистемы хранения данных (скорость загрузки файла сильно зависит от скорости накопителя).

Распознавание текста

В задаче по распознанию текста используется приложение Abbyy FineReader 11. В данном тесте производится распознавание 74-страничного PDF-документа на английском языке, содержащего большое количество графики. Результатом теста является время от открытия PDF-документа до момента полного распознавания текста.

Данный тест хорошо загружает все ядра процессора, а его результат определяется практически исключительно производительностью процессора.


Архивирование и разархивирование данных

В задаче по архивированию и разархивированию данных используется приложения WinRAR 5.0 (64-битная версия). В тесте первоначально архивируется, а потом разархивируется альбом из 24 цифровых фотографий в формате TIFF (размер каждой фотографии — 60,1 МБ). В архиваторе WinRAR 5.0 при сжатии данных используется формат RAR5, метод компрессии Best (максимальное сжатие) и размер словаря 32 МБ.

Результатом тестов является время соответственно архивирования и разархивирования. Результат данного теста определяется в основном производительностью процессора и быстродействием памяти. Отметим, что тест является многопоточным и хорошо нагружает все ядра процессора.


Скорость загрузки приложений и контента

В задаче по определению скорости загрузки приложений и контента используется несколько приложений:

  • Adobe Audition CC;
  • Adobe Premiere Pro CC;
  • Adobe Photoshop CC;
  • FastStone Image Viewer 4.8.

Выбор именно этих приложений объясняется тем, что загрузка контента (заранее созданные проекты, фотографии, аудиофайлы) в них может происходить достаточно долго.

Первоначально производится измерение времени загрузки шестиканального (5.1) тестового аудиофайла в формате FLAC в приложение Adobe Audition CС. Далее измеряется время открытия тестового проекта приложением Adobe Premiere Pro CC. На следующем этапе измеряется время загрузки 24 фотографий в формате TIFF (размер каждой фотографии — 60,1 МБ) приложением Adobe Photoshop CC. Затем производится копирование тестовой директории размером 6,2 ГБ, содержащей различные типы данных, из одного места на системном накопителе C:\ в другое место на этом же накопителе. Данный тест, конечно, не имеет прямого отношения к скорости загрузки приложений, однако данные можно рассматривать как контент, и в этом плане скорость копирования данных идентична скорости загрузки контента. На последнем этапе производится просмотр альбома из 24 цифровых фотографий в RAW-формате в приложении FastStone Image Viewer 4.8. Измеряется время последовательного открытия всех 24 фотографий.

Результатом теста, определяющего скорость загрузки приложений и контента и скорость копирования данных, является суммарное время выполнения всех тестовых задач. Результат данного теста зависит в первую очередь от производительности подсистемы хранения данных.

Расчет интегральной оценки производительности

Необходимость применения интегральной оценки производительности вызвана тем, что сами по себе результаты тестирования (время выполнения тестовых задач) еще не дают представления о производительности тестируемой системы. Они обретают смысл лишь при возможности их сопоставления с результатами некой референсной системы. Именно поэтому при тестировании по описанной нами методике используются понятия «интегральная оценка производительности» и «референсная система».

Для расчета интегральной оценки производительности первоначально результаты всех тестов нормируются относительно результатов тестирования для референсной системы:

где tref — время выполнения задачи референсной системой, t — время выполнения задачи тестируемой системой.

Полученный таким образом безразмерный результат R, по сути, представляет собой нормированную скорость выполнения задачи тестируемой системой и показывает, во сколько раз время выполнения задачи тестируемой системой больше (или меньше), чем время выполнения той же задачи референсной системой. Далее нормированные результаты тестов разбиваются на семь логических групп:

  • видеоконвертирование;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • аудиообработка;
  • распознавание текста;
  • архивирование и разархивирование данных;
  • скорость загрузки приложений и контента;

В каждой группе тестов рассчитывается промежуточный интегральный результат как среднегеометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножается на 100. После этого рассчитывается среднегеометрическое от промежуточных интегральных результатов по всем группам тестов. Это и есть интегральная оценка производительности тестируемой системы. Для референсной системы интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 100 баллов, а для тестируемой системы эти результаты могут быть как больше, так и меньше 100 баллов.

Естественно, интегральный результат тестируемого ПК определяется не только его конфигурацией, но и конфигурацией референсной системы, используемой для сравнения. В нашем бенчмарке в качестве референсной системы мы решили использовать ноутбук со следующей конфигурацией:

Процессор Intel Core i5-3317U
Чипсет Intel HM77 Express
Память 4 ГБ DDR3-1600 (двухканальный режим)
Графическая подсистема Intel HD Graphics 4000
Накопитель SSD 128 ГБ Crucial M4-CT128M4SSD1
Операционная система Windows 8 (64-битная)
Версия видеодрайвера графического ядра Intel 9.18.10.3186

Собственно, наша референсная система — это ультрабук предыдущего поколения на процессоре Ivy Bridge. Мы умышленно не стали выбирать в качестве референсной системы топовую модель ноутбука или десктопного ПК на процессоре Haswell с тем, чтобы можно было наглядно продемонстрировать отличия по производительности между современными ноутбуками, ноутбуками предыдущего поколения и бюджетными ноутбуками начального уровня (нетбуками) на процессорах Intel Atom.

Дабы более наглядно продемонстрировать, что́ представляют собой 100 баллов интегральной производительности референсной системы, мы также протестировали по нашей методике топовый настольный ПК на базе четырехъядерного процессора Intel Core i7-4770K. Настольный ПК имел следующую конфигурацию:

Процессор Intel Core i7-4770K
Материнская плата Gigabyte Z87X-UD3H
Чипсет Intel Z87
Память 16 ГБ DDR3-2400 (двухканальный режим)
Графическая подсистема Intel HD Graphics 4600
Накопитель Intel SSD 520 Series (240 ГБ)
Операционная система Windows 8 (64-битная)
Версия видеодрайвера графического ядра Intel 9.18.10.3186

Настольный ПК на базе процессора Intel Core i7-4770K мы протестировали два раза: один раз на номинальной тактовой частоте процессора (максимальная частота 3,9 ГГц в режиме Turbo Boost), а второй раз — в режиме разгона на частоте процессора 4,5 ГГц.

Анализ результатов тестирования

Далее мы приводим результаты тестирования референсной системы и топового настольного ПК.

Логическая группа тестов Референсная система Core i7-4770K (штатный режим) Core i7-4770K @4,5 ГГц
Видеоконвертирование, баллы 100 371,0 411,8
MediaCoder x64 0.8.25.5560, секунды 408,1 110 99,1
Создание видеоконтента, баллы 100 296,0 325,1
Adobe Premiere Pro CC, секунды 1115,7 324,1 296,9
Adobe After Effects CC, секунды 1975,4 647,4 575,6
Photodex ProShow Gold 5.0.3276, секунды 913,6 370,2 343
Обработка цифровых фотографий, баллы 100 217,2 223,7
Adobe Photoshop CC, секунды 1834,0 844,2 819,9
Аудиообработка, баллы 100 216,9 245,3
Adobe Audition CC, секунды 880 405,7 358,7
Распознавание текста, баллы 100 305,8 344,2
Abbyy FineReader 11, секунды 115,3 37,7 33,5
Архивирование и разархивирование данных, баллы 100 229,0 238,7
WinRAR 5.0 архивирование, секунды 313,8 107,7 103,6
WinRAR 5.0 разархивирование, секунды 12,6 7,0 6,7
Скорость загрузки приложений и контента, баллы 100 166,9 173,9
Скорость загрузки приложений и контента, секунды 157,4 94,3 90,5
Интегральный результат производительности, баллы 100 249,7 270,1

Как видно по результатам тестирования, интегральная производительность настольного ПК при разгоне процессора до частоты 4,5 ГГц превосходит производительность референсной системы в 2,7 раза! Причем если говорить конкретно по задачам, то в некоторых из них производительность систем отличается более чем в 3 раза, а в задаче по видеоконвертированию — более чем в 4 раза. А вот минимальная разница в производительности наблюдается в тесте на определение скорости загрузки приложений и контента. Собственно, этого и следовало ожидать, поскольку в данном тесте результат в основном определяется производительностью накопителя, а они в тестируемых системах — одного класса. Если бы мы хотели протестировать производительность процессора, а не системы в целом, то тест на определение скорости загрузки приложений и контента можно было бы смело выкинуть из рассмотрения — в этом случае интегральный результат производительности настольного ПК стал бы еще больше. Однако мы тестируем не процессор, а систему в целом, и не учитывать производительность накопителя было бы принципиально неверно.

Кстати, если сравнить результаты тестирования настольного ПК при частоте процессора 4,5 ГГц и в штатном режиме работы процессора (при частоте 3,5—3,9 ГГц), то можно заметить, что увеличение тактовой частоты на 15%—28% приводит к росту интегральной производительности на 8%. В принципе, это вполне адекватный результат, поскольку производительность системы зависит не только от скорости процессора, но и от быстродействия памяти и накопителя.

Заключение

В этой статье мы рассмотрели нашу новую методику измерения производительности ноутбуков на основе неигровых приложений (бенчмарк iXBT Notebook Benchmark v.1.0). Этой методикой мы будем пользоваться как минимум на протяжении всего 2014 года, что позволит нам накопить базу результатов и сравнивать по производительности различные конфигурации ноутбуков.

В ближайшее время мы опубликуем также методику измерения производительности ноутбуков в играх (бенчмарк iXBT Game Benchmark v.1.0), которая особенно актуальна для ноутбуков с дискретными видеокартами.

В заключение хотелось бы предложить читателям поучаствовать в обсуждении данной методики и высказать свои конструктивные предложения по ее улучшению.




Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.