Методика измерения производительности iXBT.com на основе реальных приложений образца 2017 года

Новому тестовому пакету iXBT Application Benchmark 2017 мы уже посвятили отдельный цикл из восьми статей, в которых были подробно рассмотрены все тесты. Нам осталось лишь собрать все воедино, сделать последние корректировки по результатам обсуждения на форуме и рассмотреть алгоритм расчета интегрального показателя производительности на основе референсных результатов.

Приложения, используемые для тестирования

Напомним, что, как и ранее, главная идея, положенная в основу бенчмарка, заключается в измерении времени выполнения тестовых задач, которые реализуются с применением реальных пользовательских приложений. Скорость выполнения тестовых задач является показателем производительности тестируемой системы (чем меньше времени требуется для выполнения тестового задания, тем выше производительность). Измерив время выполнения определенного набора тестовых задач, можно сопоставить его со временем выполнения тех же задач на некоторой референсной системе и таким образом сравнить производительность тестируемой системы с производительностью референсной. Именно на этом принципе основан алгоритм расчета интегральной оценки производительности в нашем тестовом пакете iXBT Application Benchmark 2017.

iXBT Application Benchmark 2017 совместим с операционной системой Windows 10 (64-битной). Версия операционной системы может быть русской или английской.

Отдельно подчеркнем, что в случае ноутбука тестирование с использованием пакета iXBT Application Benchmark 2017 производится только при подключении ноутбука к электросети.

Бенчмарк позволяет задать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение. При тестировании мы используем пять прогонов каждого теста, чего достаточно для получения достоверных результатов.

Приложения, используемые в тестировании, подобраны таким образом, чтобы они позволяли оценить производительность ноутбука в следующих типовых задачах:

видеоконвертирование;
рендеринг;
видеоредактирование и создание видеоконтента;
обработка цифровых фотографий;
распознавание текста;
архивирование;
научные расчеты;
файловые операции.

Для реализации тестовых задач в нашем новом тестовом пакете используется 21 приложение и 23 теста (по ссылкам в таблице можно открыть статью с подробным описанием каждого теста):

Логическая группа	Тесты
видеоконвертирование	MediaCoder x64 0.8.45.5852
видеоконвертирование	HandBrake 0.10.5
рендеринг	POV-Ray 3.7
	LuxRender 1.6 x64 OpenCL
	Вlender 2.77a
видеоредактирование и создание видеоконтента	Adobe Premiere Pro CC 2015.4
	Magix Vegas Pro 13
	Magix Movie Edit Pro 2016 Premium v.15.0.0.102
	Adobe After Effects CC 2015.3
	Photodex ProShow Producer 8.0.3648
обработка цифровых фотографий	Adobe Photoshop CС 2015.5
	Adobe Photoshop Lightroom СС 2015.6.1
	PhaseOne Capture One Pro 9.2.0.118
распознавание текста	Abbyy FineReader 12 Professional
архивирование	WinRAR 5.40 (64-bit)
научные расчеты	LAMMPS 64-bit 20160516
	NAMD 2.11
	FFTW 3.3.5
	Mathworks Matlab 2016a
	Dassault SolidWorks 2016 SP0 Flow Simulation
файловые операции	WinRAR 5.40 (64-bit)
	UltraISO Premium Edition 9.6.5.3237
	Скорость копирования данных

Сравнение приложений, используемых в предыдущей и новой версиях тестового пакета, приводится в таблице.

iXBT Application Benchmark 2016	iXBT Application Benchmark 2017
MediaCoder x64 0.8.36.5757	MediaCoder x64 0.8.45.5852
—	HandBrake 0.10.5
SVPmark 3.0.3b	—
—	POV-Ray 3.7
—	LuxRender 1.6 x64 OpenCL
—	Вlender 2.77a
Adobe Premiere Pro CC 2015.0.1	Adobe Premiere Pro СС 2015.4
—	Magix Vegas Pro 13
—	Magix Movie Edit Pro 2016 Premium v.15.0.0.102
Adobe After Effects CC 2015.0.1	Adobe After Effects CC 2015.3
Photodex ProShow Producer 7.0.3257	Photodex ProShow Producer 8.0.3648
Adobe Photoshop CC 2015.0.1	Adobe Photoshop CС 2015.5
Adobe Photoshop Lightroom 6.1.1	Adobe Photoshop Lightroom СС 2015.6.1
PhaseOne Capture One Pro 8.2	PhaseOne Capture One Pro 9.2.0.118
ACDSee Pro 8.2.287	—
Adobe Illustrator CC 2015.0.1	—
Adobe Audition CC 2015.0	—
Abbyy FineReader 12 Professional	Abbyy FineReader 12 Professional
WinRAR 5.21 (64-bit)	WinRAR 5.40 (64-bit)
UltraISO Premium Edition 9.6.2.3059	UltraISO Premium Edition 9.6.5.3237
—	LAMMPS 64-bit 20160516
—	NAMD 2.11
—	FFTW 3.3.5
—	Mathworks Matlab 2016a
Dassault SolidWorks 2016 SP0 Flow Simulation	Dassault SolidWorks 2016 SP0 Flow Simulation

Как видим, изменений очень много. Некоторые приложения мы убрали из тестового пакета, но много приложений добавили. Кроме того, для большинства приложений мы поменяли тестовую задачу.

Тест	Тестовая задача
MediaCoder x64 0.8.45.5852	не изменилась
HandBrake 0.10.5	новая
POV-Ray 3.7	новая
LuxRender 1.6 x64 OpenCL	новая
Вlender 2.77a	новая
Adobe Premiere Pro СС 2015.4	изменена
Magix Vegas Pro 13	новая
Magix Movie Edit Pro 2016 Premium v.15.0.0.102	новая
Adobe After Effects CC 2015.3	изменена
Photodex ProShow Producer 8.0.3648	изменена
Adobe Photoshop CС 2015.5	не изменилась
Adobe Photoshop Lightroom СС 2015.6.1	изменена
PhaseOne Capture One Pro 9.2.0.118	не изменилась
Abbyy FineReader 12 Professional	изменена
WinRAR 5.40 (64-bit)	изменена
UltraISO Premium Edition 9.6.5.3237	изменена
LAMMPS 64-bit 20160516	новая
NAMD 2.11	новая
FFTW 3.3.5	новая
Mathworks Matlab 2016a	новая
Dassault SolidWorks 2016 SP0 Flow Simulation	не изменилась

Убраны из тестового пакета такие приложения, как SVPmark, ACDSee Pro, Adobe Illustrator и Adobe Audition.

Приложение SVPmark мы убрали из тестового пакета по двум причинам. Во-первых, это бенчмарк, который выдает результаты в баллах, а во всех остальных наших тестах результатом является время выполнения тестовой задачи. Во-вторых, у этого теста, как показал опыт его использования, очень большой разброс результатов, что делает его применение просто бессмысленным.

Приложение ACDSee Pro мы убрали из тестового пакета, посчитав его просто избыточным. В логической группе «Обработка цифровых фотографий» используется три приложения, и добавление теста на основе приложения ACDSee Pro вряд ли что-либо изменит.

Приложения Adobe Illustrator и Adobe Audition были убраны нами из тестового пакета по той причине, что тесты на их основе не могут эффективно загрузить процессор и не используют преимуществ многоядерной архитектуры.

Изменения в тестах по итогам обсуждения на форуме

По итогам обсуждения отдельных тестов на форуме был полностью переделан тест FFTW (была опубликована отдельная статья, в которой рассматривались внесенные изменения). Кроме того, тест на основе приложения GNU Octave был заменен тестом на основе приложения Mathworks Matlab.

Также изменились тестовые задачи в приложениях Adobe Premiere Pro, Magix Vegas Pro, Magix Movie Edit Pro, Photodex ProShow Producer и Adobe Photoshop Lightroom. Рассмотрим изменения, сделанные в тестах на основе указанных приложений, более подробно.

В тесте с использованием приложения Adobe Premiere Pro СС 2015.4 создается видеоролик из шести видеофрагментов суммарным объемом 1,12 ГБ. Исходные видеофрагменты в формате R3D (RED R3D Raw File) сняты видеокамерой RED Epic и имеют разрешение 4480×1920 и частоту кадров 23,976 fps. Экспорт созданного проекта производится с использованием кодека H.265 (HEVC). Настройки кодека следующие:

В тесте с использованием приложения Magix Vegas Pro 13 также полностью изменена тестовая задача. Создается видеоролик из видеофрагментов (контейнер MP4), снятых на смартфон Samsung Galaxy S6 с разрешением 4K (3840×2160) и частотой кадров 29 fps. Суммарный объем исходных видеофайлов составляет 920 МБ. Производится рендеринг проекта c пресетом MainConcept AVC/AAC (Internet HD 1080p).

В тесте с использованием приложения Magix Movie Edit Pro 2016 Premium v.15.0.0.102 используется тот же самый контент, что и ранее, однако изменены параметры рендеринга проекта. В тесте создается видеоролик из шести видеофрагментов суммарным объемом 1043 МБ. Видеофрагменты (контейнер MOV) сняты камерой Canon EOS Mark II 5D с разрешением 1920×1080 и частотой кадров 25 fps. Экспорт производится с использованием кодека H.264 (пресет MPEG-4 export). Настройки экспорта проекта следующие:

В приложении Photodex ProShow Producer 8.0.3648 мы также изменили тестовую задачу. В качестве тестовой задачи выступает проект, созданный из 30 цифровых фотографий в формате JPEG, отснятых любительской «мыльницей». Между отдельными слайдами накладываются различные эффекты перехода, а сами слайды анимированы. Для экспорта проекта используется пресет, создающий видеофильм (слайд-шоу) с разрешением 1920×1080 (формат MPEG-4, частота кадров 30 fps). Настройки пресета следующие:

В тесте с применением приложения Adobe Photoshop Lightroom СС 2015.6.1 тестовая задача изменена. Напомним, что первоначально в этом тесте производилась пакетная обработка 400 фотографий в формате JPEG, снятых любительской «мыльницей». Мы не считаем, что это нетипичный сценарий использования Adobe Photoshop Lightroom, но раз уж было высказано пожелание использовать в этом тесте фотографии в формате RAW, мы так и сделали. Итак, в тесте с использованием приложения Adobe Photoshop Lightroom СС 2015.6.1 производится пакетная обработка 100 фотографий в формате RAW, снятых камерой Canon EOS 5D Mark III. Фотографии имеют разрешение 5760×3840 и размер 29 МБ. В данном случае используется тот же самый пакет фотографий, что и в тесте с приложением PhaseOne Capture One Pro 9.2.0.118. Экспортирование каталога с синхронизацией настроек по первому кадру каталога производится в формат JPEG с качеством 100% и разрешением 300 dpi. Обработка заключается в коррекции линзы (профиль для Canon EF 50mm f /1.2 USL), создании виньетки и т. п.

Изменение тестовых задач в указанных приложениях автоматически повлияло и еще на два теста: WinRAR Storage и «Скорость копирования данных». Дело в том, что при выполнении этих тестов задействуется папка с контентом всех тестов, которая изменилась в размере за счет добавления 4K-видео и удаления папки с фотографиями JPEG.

Расчет интегральной оценки производительности

Необходимость использования интегральной оценки производительности вызвана тем, что сами по себе результаты тестирования (время выполнения тестовых задач) еще не дают представления о производительности тестируемой системы. Они обретают смысл лишь при возможности их сопоставления с результатами некой референсной системы. Именно поэтому при тестировании по описанной нами методике используются понятия «интегральная оценка производительности» и «референсная система».

Для расчета интегральной оценки производительности первоначально результаты всех тестов нормируются относительно результатов тестирования для референсной системы. Нормированный результат получается путем деления времени выполнения задачи референсной системой на время выполнения задачи тестируемой системой.

Полученный таким образом безразмерный результат R по сути представляет собой нормированную скорость выполнения задачи тестируемой системой и показывает, во сколько раз время выполнения задачи тестируемой системой меньше, чем время выполнения той же задачи референсной системой.

Далее нормированные результаты всех тестов разбиваются на восемь логических групп:

видеоконвертирование;
рендеринг;
видеоредактирование и создание видеоконтента;
обработка цифровых фотографий;
распознавание текста;
архивирование;
научные расчеты;
файловые операции.

Для каждой группы тестов рассчитывается свой интегральный результат как среднегеометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножается на 100.

Поскольку во всех логических группах тестов за исключением последней (скорость файловых операций) результат определяется производительностью процессора, а результат в группе «Скорость файловых операций» определяется производительностью накопителя, отдельно рассчитывается интегральный результат для всех процессорных групп тестов как среднегеометрическое от промежуточных интегральных результатов по семи группам тестов:

После этого рассчитывается итоговый интегральный результат по формуле:

Это и есть интегральная оценка производительности тестируемой системы.

Как видим, вес тестов, результаты которых зависят от производительности накопителя, составляет 0,3, а вес процессорных тестов — 0,7. Те, кому не нравится такое соотношение весов при расчете интегральной оценки, могут легко пересчитать ее с другими весовыми коэффициентами.

Для референсной системы интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 100 баллов, а для тестируемой системы эти результаты могут быть как больше, так и меньше 100 баллов.

В любом тесте есть свой разброс результатов, который определяет погрешность измерения получаемого результата. Это неизбежное явление, причем различные тесты имеют различную погрешность измерения: какие-то тестовые задачи демонстрируют хорошую стабильность результатов, а в каких-то тестовых задачах наблюдается большой разброс результатов. Как показывает практика, погрешность измерения результата зависит не только от приложения и выполняемой тестовой задачи, но и от конфигурации тестируемого компьютера.

Результаты каждого прогона теста можно разделить на две категории: предсказуемый результат, который находится в доверительном интервале среднего значения, и результат, который выходит за рамки доверительного интервала и сильно отличается от всех остальных результатов теста (промах). Можно предположить, что наличие промахов вызвано некими неучтенными факторами, оказывающими влияние на тест. В случае, если в процессе тестирования возникает такой непредсказуемый результат, вызванный предположительно влиянием неучтенных факторов, данный результат не учитывается при расчете среднего значения, а тест повторяется еще раз с тем, чтобы получить предсказуемый результат.

В нашей методике тестирования рассчитывается среднеарифметический результат и погрешность измерения для доверительного интервала 0,95 (для расчета используются коэффициенты Стьюдента).

Говоря о вычислении погрешности результата измерений, необходимо кроме случайной погрешности (погрешность, возникающая за счет получения различных результатов измерения) учитывать также и систематическую ошибку измерения (то, что называют инструментальной погрешностью). Дело в том, что в некоторых тестах результат определяется только с точностью до целого значения секунд. При этом вполне возможна ситуация, когда в пяти повторах теста будет получен один и тот же результат, но это не означает, что в данном тесте нулевая погрешность измерения результата. Просто нужно учитывать систематическую ошибку, которая в данном случае определяется точностью измерения времени выполнения теста. Понятно, что в случае округления времени выполнения теста систематическая ошибка составит 0,5 с.

Если тест подразумевает наличие систематической ошибки, то абсолютная погрешность результата рассчитывается по формуле:

Сам по себе расчет погрешности измерения результата теста не представляет сложности. Однако в нашей методике тестирования конечный (интегральный) результат не измеряется непосредственно, а является производной величиной от нормированных результатов всех тестов (косвенный результат). Естественно, нужно рассчитать погрешность получаемого интегрального результата, а также рассчитать погрешность интегральных результатов по каждой группе тестов.

Как известно, погрешность вычисляемой, а не измеряемой непосредственно величины F, зависящей от переменных {x₁, x₂... x_n}, рассчитывается по формуле:

Если в логическую группу входит m тестов, то погрешность результата по группе тестов определяется по формуле:

Погрешность процессорного интегрального результата по семи группам тестов рассчитывается по формуле:

Результирующий интегральный результат определяется по формуле:

Естественно, интегральный результат тестируемого ПК определяется не только его конфигурацией, но и конфигурацией референсной системы, используемой для сравнения. Ранее в нашем тестовом пакете в качестве референсной системы использовался старенький ноутбук с довольно посредственной производительностью.

По техническим причинам использовать этот ноутбук в качестве референсной системы мы более не можем, поэтому мы изменили конфигурацию референсной системы. Теперь в качестве основной референсной системы выступает настольный компьютер с четырехъядерным процессором Intel Core i7-6700K следующей конфигурации:

Процессор	Intel Core i7-6700K
Чипсет	Intel Z170 Express
Память	16 ГБ DDR3-2133 (двухканальный режим)
Графическая подсистема	Intel HD Graphics 530
Накопитель	SSD Seagate ST480FN0021 (480 ГБ)
Операционная система	Windows 10 Pro (64-битная)

Отметим, что в референсной системе процессор Intel Core i7-6700K используется с настройками по умолчанию, то есть без разгона.

На сегодняшний день это достаточно производительный компьютер без дискретной видеокарты.

Кроме того, мы также приведем результаты тестирования для высокопроизводительной системы на базе 10-ядерного процессора Intel Core i7-6950X (Broadwell-E). Данные результаты могут использоваться в качестве референсных при тестировании высокопроизводительных рабочих станций. Для примера в таблице интегральные результаты этой системы рассчитаны относительно результатов референсной системы на базе процессора Core i7-6700K.

Конфигурация системы на базе 10-ядерного процессора Intel Core i7-6950X следующая:

Процессор	Intel Core i7-6950X
Чипсет	Intel X99
Память	16 ГБ DDR3-2133 (четырехканальный режим)
Графическая подсистема	Nvidia Quadro 600
Накопитель	SSD Seagate ST480FN0021 (480 ГБ)
Операционная система	Windows 10 Pro (64-битная)

Процессор Intel Core i7-6950X работал с настройками по умолчанию, то есть без разгона.

Далее мы приводим результаты тестирования нашей референсной системы, рассчитанные по 10 прогонам каждого теста, а также результаты тестирования системы на базе процессора Intel Core i7-6950X. Для каждого теста приводится среднеарифметический результат и погрешность результата с доверительной вероятностью 95%.

Логическая группа тестов	Референсная система (Core i7-6700K)	Система с процессором Core i7-6950X
Видеоконвертирование, баллы	100	170,3±0,8
MediaCoder x64 0.8.45.5852, с	105,7±1,5	60,0±0,5
HandBrake 0.10.5, с	103,1±1,6	62,6±0,3
Рендеринг, баллы	100	174,2±0,7
POV-Ray 3.7, с	138,09±0,21	74,15±0,1
LuxRender 1.6 x64 OpenCL, с	252,7±1,4	131,7±1,4
Вlender 2.77a, с	220,7±0,9	149,2±0,9
Видеоредактирование и создание видеоконтента, баллы	100	127,2±0,8
Adobe Premiere Pro CC 2015.4, с	186,9±0,5	102,5±0,9
MAGIX Vegas Pro 13, с	366,0±0,5	302,7±1,4
MAGIX Movie Edit Pro 2016 Premium v.15.0.0.102, с	187,1±0,4	162,6±2,2
Adobe After Effects CC 2015.3, с	288,0±0,5	179±4
Photodex ProShow Producer 8.0.3648, с	254,0±0,5	311±4
Обработка цифровых фотографий, баллы	100	120,6±0,4
Adobe Photoshop CС 2015.5, с	520,7±1,6	622,7±1,4
Adobe Photoshop Lightroom СС 2015.6.1, с	182,4±2,9	101,7±0,8
PhaseOne Capture One Pro 9.2.0.118, с	318±8	271,7±1,2
Распознавание текста, баллы	100	201±7
Abbyy FineReader 12 Professional, с	442,4±1,4	221±8
Архивирование, баллы	100	153,0±1,3
WinRAR 5.40 СPU, с	91,65±0,05	59,9±0,5
Научные расчеты, баллы	100	165,1±0,5
LAMMPS 64-bit 20160516, с	397,3±1,1	218,1±0,8
NAMD 2.11, с	234,0±1,0	123,4±1,3
FFTW 3.3.5, мс	32,8±0,6	16,80±0,07
Mathworks Matlab 2016a, с	117,9±0,6	69,7±0,5
Dassault SolidWorks 2016 SP0 Flow Simulation, с	252,5±1,6	235,1±1,8
Скорость файловых операций, баллы	100	95,9±1,0
WinRAR 5.40 Storage, с	81,9±0,5	84,9±0,5
UltraISO Premium Edition 9.6.5.3237, с	54,2±0,6	55,9±1,4
Скорость копирования данных, с	41,51±0,28	43,9±0,8
Интегральный результат CPU, баллы	100	156,6±0,9
Интегральный результат Storage, баллы	100	95,9±1,0
Интегральный результат производительности, баллы	100	135,2±0,7

Как видно из сравнения результатов тестирования референсной системы и системы на базе процессора Core i7-6950X, последняя обеспечивает интегральную производительность на 35% выше. Причем если рассматривать только процессорные тесты, то результат для системы на базе процессора Core i7-6950X будет выше на 57%.

Заключение

Данная методика будет использоваться нами для измерения производительности ноутбуков, моноблоков, компьютеров, рабочих станций и процессоров на протяжении всего следующего года. И в скором времени появится обзор первого ноутбука, протестированного по новой методике.

В дальнейшем мы планируем также обновление нашей методики тестирования с использованием игр.