Методика измерения производительности iXBT.com на основе реальных приложений образца 2018 года

Новому тестовому пакету iXBT Application Benchmark 2018 мы посвятили отдельный цикл статей, в которых были подробно рассмотрены все входящие в него тесты. Нам осталось лишь собрать все воедино и рассмотреть алгоритм расчета интегрального показателя производительности на основе референсных результатов.

В сравнении с тестовым пакетом предыдущей версии (iXBT Application Benchmark 2017) что-то добавили, что-то убрали. Но главным образом изменились версии используемых приложений и сами тестовые задачи.

Приложения, используемые для тестирования

Как и ранее, главная идея, положенная в основу нашего тестового пакета, заключается в измерении времени выполнения тестовых задач, которые реализуются с применением реальных пользовательских приложений. Скорость выполнения тестовых задач является показателем производительности тестируемой системы (чем меньше времени требуется для выполнения тестового задания, тем выше производительность). Измерив время выполнения определенного набора тестовых задач, можно сопоставить его со временем выполнения тех же задач на некоторой референсной системе и таким образом сравнить производительность тестируемой системы с производительностью референсной. Именно на этом принципе основан алгоритм расчета интегральной оценки производительности в нашем тестовом пакете iXBT Application Benchmark 2018.

iXBT Application Benchmark 2018 совместим с операционной системой Windows 10 (64-битной). Версия операционной системы может быть русской или английской.

Отдельно подчеркнем, что в случае ноутбука тестирование с использованием пакета iXBT Application Benchmark 2018 производится только при подключении ноутбука к электросети и при заряженном аккумуляторе.

Бенчмарк позволяет задать количество прогонов каждого теста. После каждого прогона производится перезагрузка компьютера и выдерживается пауза. По результатам всех прогонов теста рассчитывается среднеарифметический результат и среднеквадратичное отклонение. При тестировании мы используем пять прогонов каждого теста, чего достаточно для получения достоверных результатов.

Приложения, используемые в тестировании, подобраны таким образом, чтобы они позволяли оценить производительность в следующих типовых задачах (логических группах тестов):

  • видеоконвертирование;
  • рендеринг;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • распознавание текста;
  • архивирование;
  • научные расчеты;
  • файловые операции.

Всего в наш тестовый пакет iXBT Application Benchmark 2018 входит 24 теста:

Логическая группа Тесты
Видеоконвертирование MediaCoder x64 0.8.52
HandBrake 1.0.7
VidCoder 2.63
Рендеринг POV-Ray 3.7
LuxRender 1.6 x64 OpenCL
Вlender 2.79
Adobe Photoshop CС 2018
Создание видеоконтента Adobe Premiere Pro CC 2018
Magix Vegas Pro 15
Magix Movie Edit Pro 2017 Premium v.16.01.25
Adobe After Effects CC 2018
Photodex ProShow Producer 9.0.3782
Обработка цифровых фотографий Adobe Photoshop CС 2018
Adobe Photoshop Lightroom Classic СС 2018
Phase One Capture One Pro v.10.2.0.74
Распознавание текста Abbyy FineReader 14 Enterprise
Архивирование WinRAR 5.50 (64-bit)
7-Zip 18
Научные расчеты LAMMPS 64-bit
NAMD 2.11
Mathworks Matlab R2017b
Dassault SolidWorks Premium Edition 2017 SP4.2
Файловые операции WinRAR 5.50 (64-bit)
скорость копирования данных

Обо всех тестах мы уже подробно писали. Исключение составляют лишь тесты, которые относятся к группе «файловые операции» и тест на основе приложения Abbyy FineReader 14.

Результаты тестов, которые относятся к группе «файловые операции», зависят от производительности подсистемы хранения данных и практически не зависят от производительности процессора.

Ранее в группе «файловые операции» у нас было три теста: на основе приложений UltraISO Premium Edition 9.6.5.3237 и WinRAR 5.40, а также тест по определению скорости копирования данных. В новой версии тестового пакета мы исключили тест распаковки данных с использованием приложения UltraISO просто в силу того, что данное приложение уже потеряло свою актуальность. Таким образом, мы оставили лишь тест с архиватором WinRAR и тест на скорость копирования. Менять в них, собственно, нечего, а потому лишь напомним, как реализованы данные тесты.

Приложение WinRAR, как и любой другой архиватор, можно использовать и для тестирования процессора, и для тестирования накопителя. Чтобы создать высокую нагрузку на накопитель, нужно использовать приложение WinRAR не для сжатия данных, а для упаковки множества отдельных файлов в один большой архив без сжатия. Этот метод компрессии называется Store. В этом случае мы получим практически полное отсутствие загрузки процессора, но очень высокую нагрузку на накопитель. Если разархивировать такой архив без сжатия на накопитель, то опять же получим очень высокий уровень загрузки накопителя. В тесте с использованием приложения WinRAR 5.50 (название теста — WinRAR Storage) на накопителе сначала без сжатия создается архив папки размером 9,24 ГБ, которая содержит разные типы файлов, а потом этот архив распаковывается на накопитель. Результатом теста является суммарное время создания архива и время распаковывания.

В тесте на определение скорости копирования данных измеряется время копирования тестовой директории размером 9,24 ГБ, содержащей различные типы данных, из одного места на системном накопителе в другое место на этом же накопителе. Копирование производится средствами операционной системы Windows 10.

Что касается теста на основе приложения Abbyy FineReader 14, то тут ситуация такая. На момент подготовки теста у нас не было новой версии приложения Abbyy FineReader, поэтому первоначально мы не стали менять тест и сделали его на базе приложения Abbyy FineReader 12 (как это было в тестовом пакете iXBT Application Benchmark 2017). Но в самый последний момент мы получили от компании Abbyy новую версию приложения, поэтому было принято решение использовать именно ее и мы переделали тест с приложением Abbyy FineReader 14. Новая версия приложения Abbyy FineReader сильно отличается от предыдущей и, если можно так выразиться, заточена на работу с PDF. Это уже целый программный пакет, в который входит в том числе и приложение Abbyy FineReader 14 OCR, которое мы и использовали в нашем тесте. Саму тестовую задачу мы не меняли — напомним, что в нашем тесте измеряется время распознавания PDF-документа, в качестве которого используется «Большой толковый словарь правильной русской речи» Л. И. Скворцова, состоящий из 1103 страниц.

В сравнении с Abbyy FineReader 12 время распознавания в новой версии приложения изменилось, и, по всей видимости, связано это с изменением алгоритма распознавания: в приложении Abbyy FineReader 14 процесс распознавания длится дольше. Можно предположить, что улучшилось качество распознавания, однако чтобы утверждать это достоверно, нужно, конечно, провести полноценное сравнение двух версий приложения, а мы себе такой задачи не ставили. Можем лишь констатировать, что один и тот же PDF-документ в приложении Abbyy FineReader 14 распознается на 24% дольше, чем в приложении Abbyy FineReader 12 (при тестировании на процессоре Intel Core i7-8700K). Очевидно, что если качество распознавания стало лучше, то в итоге эффективность работы с FineReader возрастет даже несмотря на удлинение процесса собственно распознавания.

Сравнение с предыдущей версией

Сравнение версий приложений, используемых в предыдущей и новой версиях тестового пакета, приводится в таблице.

iXBT Application Benchmark 2017 iXBT Application Benchmark 2018
MediaCoder x64 0.8.45.5852 MediaCoder x64 0.8.52
HandBrake 0.10.5 HandBrake 1.0.7
VidCoder 2.63
POV-Ray 3.7 POV-Ray 3.7
LuxRender 1.6 x64 OpenCL LuxRender 1.6 x64 OpenCL
Вlender 2.77a Вlender 2.79
Adobe Premiere Pro СС 2015.4 Adobe Premiere Pro CC 2018
Magix Vegas Pro 13 Magix Vegas Pro 15
Magix Movie Edit Pro 2016 Premium v.15.0.0.102 Magix Movie Edit Pro 2017 Premium v.16.01.25
Adobe After Effects CC 2015.3 Adobe After Effects CC 2018
Photodex ProShow Producer 8.0.3648 Photodex ProShow Producer 9.0.3782
Adobe Photoshop CС 2015.5 Adobe Photoshop CС 2018
Adobe Photoshop Lightroom Classic СС 2015.6.1 Adobe Photoshop Lightroom Classic СС 2018
Phase One Capture One Pro v.9.2.0.118 Phase One Capture One Pro v.10.2.0.74
Abbyy FineReader 12 Professional Abbyy FineReader 14 Enterprise
WinRAR 5.40 (64-bit) WinRAR 5.50 (64-bit)
7-Zip 18
LAMMPS 64-bit (от 16.05.2016) LAMMPS 64-bit ( от 23.10.2017)
NAMD 2.11 NAMD 2.11
Mathworks Matlab 2016a Mathworks Matlab R2017b
Dassault SolidWorks 2016 SP0 Dassault SolidWorks Premium Edition 2017 SP4.2

Из нового тестового пакета мы убрали тесты на основе приложений FFTW 3.3.5 и UltraISO Premium Edition 9.6.5.3237, а добавились тесты на основе приложений VidCoder 2.63, Adobe Photoshop CС 2018 (3D-рендеринг) и 7-Zip 18. Кроме того, для большинства приложений мы поменяли тестовую задачу.

Приложение тестовая задача
MediaCoder x64 0.8.52 изменена
HandBrake 1.0.7 изменена
VidCoder 2.63 новая
POV-Ray 3.7 не изменилась
LuxRender 1.6 x64 OpenCL не изменилась
Вlender 2.78 не изменилась
Adobe Photoshop CС 2018 (3D-рендеринг) новая
Adobe Premiere Pro СС 2018 изменена
Magix Vegas Pro 15 изменена
Magix Movie Edit Pro 2017 Premium v.16.01.25 изменена
Adobe After Effects CC 2018 не изменилась
Photodex ProShow Producer 9.0.3782 изменена
Adobe Photoshop CС 2018 изменена
Adobe Photoshop Lightroom Classic СС 2018 изменена
PhaseOne Capture One Pro v.10.2.0.74 изменена
Abbyy FineReader 14 Professional не изменилась
WinRAR 5.50 (64-bit) изменена
7-Zip 18 новая
LAMMPS 64-bit (от 16.05.2016) не изменилась
NAMD 2.11 не изменилась
Mathworks Matlab R2017b не изменилась
Dassault SolidWorks Premium Edition 2017 SP4.2 с пакетом Flow Simulation 2017 не изменилась

Расчет интегральной оценки производительности и погрешности

Принцип расчета интегральной оценки производительности остался прежним. Напомним, что необходимость использования интегральной оценки производительности вызвана тем, что сами по себе результаты тестирования (время выполнения тестовых задач) еще не дают представления о производительности тестируемой системы, они обретают смысл лишь при возможности их сопоставления с результатами некой референсной системы. Именно поэтому при тестировании по описанной нами методике используются понятия «интегральная оценка производительности» и «референсная система».

Для расчета интегральной оценки производительности первоначально результаты всех тестов нормируются относительно результатов тестирования для референсной системы. Нормированный результат получается путем деления времени выполнения задачи референсной системой на время выполнения задачи тестируемой системой.

Полученный таким образом безразмерный результат R по сути представляет собой нормированное время выполнения задачи тестируемой системой и показывает, во сколько раз время выполнения задачи тестируемой системой больше или меньше, чем время выполнения той же задачи референсной системой.

Далее нормированные результаты всех тестов разбиваются на восемь логических групп:

  • видеоконвертирование;
  • рендеринг;
  • создание видеоконтента;
  • обработка цифровых фотографий;
  • распознавание текста;
  • архивирование;
  • научные расчеты;
  • файловые операции.

Для каждой группы тестов рассчитывается свой интегральный результат как среднее геометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножается на 100.

Поскольку во всех логических группах тестов за исключением последней (скорость файловых операций) результат определяется производительностью платформы (процессора, графической подсистемы и памяти), а результат в группе «Скорость файловых операций» определяется производительностью накопителя, отдельно рассчитывается интегральный результат для всех платформенных групп тестов как среднее геометрическое от промежуточных интегральных результатов по семи группам тестов:

Итоговый интегральный результат определяется как среднее геометрическое взвешенное от интегрального результата платформенных тестов и интегрального результата тестов накопителя. Весовой коэффициент интегрального результата тестов накопителя составляет 0,3, а интегрального результата платформенных тестов — 0,7:

Это и есть интегральная оценка производительности тестируемой системы.

Для референсной системы интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 100 баллов, а для тестируемой системы эти результаты могут быть как больше, так и меньше 100 баллов.

В любом тесте есть свой разброс результатов, который определяет погрешность измерения получаемого результата. Это неизбежное явление, причем различные тесты имеют различную погрешность измерения: какие-то тестовые задачи демонстрируют хорошую стабильность результатов, а в каких-то наблюдается большой разброс результатов. Как показывает практика, погрешность измерения результата зависит не только от приложения и выполняемой тестовой задачи, но и от конфигурации тестируемого компьютера.

В нашей методике тестирования рассчитывается среднеарифметический результат и погрешность измерения для доверительного интервала 0,95 (для расчета используются коэффициенты Стьюдента).

Говоря о вычислении погрешности результата измерений, необходимо кроме случайной погрешности (погрешность, возникающая за счет получения различных результатов измерения) учитывать также и систематическую ошибку измерения (то, что называют инструментальной погрешностью). Дело в том, что в некоторых тестах результат определяется только с точностью до целого значения секунд. При этом вполне возможна ситуация, когда в пяти повторах теста будет получен один и тот же результат, но это не означает, что в данном тесте нулевая погрешность измерения результата. Просто нужно учитывать систематическую ошибку, которая в данном случае определяется точностью измерения времени выполнения теста. Понятно, что в случае округления времени выполнения теста систематическая ошибка составит 0,5 с.

Если тест подразумевает наличие систематической ошибки, то абсолютная погрешность результата рассчитывается по формуле:

Сам по себе расчет погрешности измерения результата теста не представляет сложности. Однако в нашей методике тестирования конечный (интегральный) результат не измеряется непосредственно, а является производной величиной от нормированных результатов всех тестов (косвенный результат). Естественно, нужно рассчитать погрешность получаемого интегрального результата, а также рассчитать погрешность интегральных результатов по каждой группе тестов.

Как известно, погрешность вычисляемой, а не измеряемой непосредственно величины F, зависящей от переменных {x1, x2... xn}, рассчитывается по формуле:

Если в логическую группу входит m тестов, то погрешность результата по группе тестов определяется по формуле:

Погрешность процессорного интегрального результата по семи группам тестов рассчитывается по формуле:

Результирующий интегральный результат определяется по формуле:

Референсные результаты

Естественно, интегральный результат тестируемого ПК определяется не только его конфигурацией, но и конфигурацией референсной системы, используемой для сравнения.

В нашем новом тестовом пакете iXBT Application Benchmark 2018 в качестве референсной системы используется компьютер с шестиядерным процессором Intel Core i7-8700K следующей конфигурации:

Процессор Intel Core i7-8700K
Материнская плата Asus Maximus X Hero
Чипсет Intel Z370 Express
Память 16 ГБ DDR4-2400 (двухканальный режим)
Графическая подсистема Intel UHD Graphics 630
Накопитель SSD Seagate ST480FN0021 (480 ГБ, SATA)
Операционная система Windows 10 Pro (64-битная)

Далее мы приводим результаты тестирования нашей референсной системы, рассчитанные по 10 прогонам каждого теста.

Тест Референсный результат
Видеоконвертирование, баллы 100
MediaCoder x64 0.8.52, c 96,0±0,5
HandBrake 1.0.7, c 119,31±0,13
VidCoder 2.63, c 137,22±0,17
Рендеринг, баллы 100
POV-Ray 3.7, c 79,09±0,09
LuxRender 1.6 x64 OpenCL, c 143,90±0,20
Вlender 2.79, c 105,13±0,25
Adobe Photoshop CС 2018 (3D-рендеринг), c 104,3±1,4
Cоздание видеоконтента, баллы 100
Adobe Premiere Pro CC 2018, c 301,1±0,4
Magix Vegas Pro 15, c 171,5±0,5
Magix Movie Edit Pro 2017 Premium v.16.01.25, c 337,0±1,0
Adobe After Effects CC 2018, c 343,5±0,7
Photodex ProShow Producer 9.0.3782, c 175,4±0,7
Обработка цифровых фотографий, баллы 100
Adobe Photoshop CС 2018, c 832,0±0,8
Adobe Photoshop Lightroom Classic СС 2018, c 149,1±0,7
Phase One Capture One Pro v.10.2.0.74, c 437,4±0,5
Распознавание текста, баллы 100
Abbyy FineReader 14 Enterprise, c 305,7±0,5
Архивирование, баллы 100
WinRAR 5.50 (64-bit), c 323,4±0,6
7-Zip 18, c 287,50±0,20
Научные расчеты, баллы 100
LAMMPS 64-bit, c 255,0±1,4
NAMD 2.11, c 136,4±0,7
Mathworks Matlab R2017b, c 76,0±1,1
Dassault SolidWorks Premium Edition 2017 SP4.2 с пакетом Flow Simulation 2017, c 129,1±1,4
Файловые операции, баллы 100
WinRAR 5.50 (Store), c 86,2±0,8
Скорость копирования данных, c 42,8±0,5
Интегральный результат без учета накопителя, баллы 100
Интегральный результат Storage, баллы 100
Интегральный результат производительности, баллы 100

Заключение

Эту статью можно считать анонсом нашего нового тестового пакета iXBT Application Benchmark 2018. В дальнейшем мы будем использовать этот пакет для тестирования ноутбуков, ПК и процессоров, и уже в ближайшее время выйдет статья, посвященная тестированию нескольких процессоров по новой методике.

23 марта 2018 Г.