Оценка качества видео. Оценка адекватности объективных метрик качества видео


Введение

Эта статья – продолжение статьи "Субъективная оценка качества видео". В ней были описаны два подхода к измерению качества видео: объективный (вычисление метрик) и субъективный (опрос экспертов и вычисление среднего результата). Объективное измерение качества обладает множеством достоинств, но насколько его результаты адекватны субъективному качеству? В этой статье мы ответим на этот вопрос для трех объективных метрик и продемонстрируем, как можно измерять такую адекватность.

Описание сравнения

Как и в предыдущей статье, все данные взяты из Субъективного Сравнения Современных Видеокодеков.

Участвовавшие кодеки:

Кодек

Изготовитель

Версия

DivX

DivXNetworks

6.0 b1571-CenterOfTheSun

XviD

Кодек с открытым исходным кодом

<1.1.-125 (“xvid-1.1.0-beta2”)

x264

Кодек с открытым исходным кодом

Core 48 svn-352M by Sharktooth

WMV

Microsoft Corporation

9.0

Параметры кодеков:

Кодек

Параметр

Значения

DivX

Bitrate

690 kbps, 1024 kbps

XviD

Target bitrate

690 kbps, 1024 kbps

x264

Average Bitrate

690 kbps, 1024kbps

WMV

Bit rate

700000 bps, 1048576 bps

Остальные параметры кодеков оставались без изменений.

Тестовые видео:

Название

Длина [кадры]

Длина [секунды]

Разрешение

Источник

Battle

257 кадров

10.71

704x288

MPEG2 (DVD)

Rancho

240 кадров

10.01

704x288

MPEG2 (DVD)

Matrix sc.1

250 кадров

10.00

720x416

MPEG2 (DVD)

Matrix sc.2

250 кадров

10.00

720x416

MPEG2 (DVD)

Использовались последовательности из фильмов "Терминатор 2" и "Матрица": две с умеренным и две с очень быстрым движением.

После субъективных замеров были получены оценки среднего субъективного мнения (MOS) – числа от 0 до 10 для каждого кодека и битрейта, чем выше, тем лучше.

Анализ объективных замеров

Мы измерили на всех тестовых видео, демонстрировавшихся экспертам, три объективных метрики: PSNR, VQM и SSIM (при помощи MSU Video Quality Measurement Tool). PSNR – самая популярная метрика, использовалась для множества сравнений кодеков. Она похожа на средний квадрат ошибки, но более удобна благодаря логарифмической шкале:

Где

x, y – пиксели изображений;

n,m – размеры по горизонтали и вертикали.

VQM и SSIM вычисляются по более сложным алгоритмам, но обоснованно считаются более точно учитывающими особенности восприятия человека. Их определения можно найти в статьях Feng Xiao, “DCT-based Video Quality Evaluation” Final Project for EE392J (2000) и Z. Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image Quality Assessment: From Error Visibility to Structural Similarity" IEEE Transactions on Image Processing, vol. 13, no. 4 (2004) соответственно. Обе метрики набирают популярность и начинают использоваться при сравнениях.

Первое представление о том, как они соответствуют субъективным результатам, можно получить, построив следующие графики: на оси абсцисс отложены значения объективной метрики (PSNR, VQM, SSIM), а на оси ординат – значения среднего субъективного мнения (MOS, Mean Opinion Score). Разным цветом отмечены результаты для разных последовательностей.

Соотношение между PSNR и MOS

Как четко видно даже из такой небольшой выборки, PSNR довольно ограниченно отражает реальное качество видео. Есть случаи, когда одному значению PSNR соответствуют абсолютно разные субъективные мнения (отмечено красным овалом), и наоборот (отмечено серым овалом).

Соотношение между VQM и MOS

На нашем тестовом наборе метрика VQM не более адекватна, чем PSNR: в общих чертах качество предсказано, но часто лучшему субъективному качеству соответствует худшее значение метрики.

Соотношение между SSIM и MOS

SSIM предсказывает субъективные мнения с очень хорошей точностью: для каждого фильма его данные близки к прямой.

Второй тип графиков – величина субъективной оценки, предсказанной объективной метрикой, и реальной субъективной оценкой. Предсказанная оценка была получена при помощи применения функции подгонки для каждой последовательности в отдельности. Использовалась следующая функция (из стандарта ITU-R BT.500):

Где

O – исходные объективные данные;

Ofitted - приведенные объективные данные;

g и d – параметры.

Параметры g и d были подобраны при такими, чтобы минимизировать сумму квадратов разностей между Ofitted и субъективными данными:

где S – субъективные данные.

Такое неочевидное на первый взгляд преобразование нужно для корректного перевода объективной метрики из своей шкалы (для PSNR это 37 – 40 дБ) на шкалу субъективных оценок (0-10) с учетом логарифмической шкалы.

Построенные этим способом графики позволяют визуально оценить качество предсказания субъективной метрики (чем ближе к прямой, тем лучше):

Значения PSNR, приведенные к MOS для каждого фильма
Значения VQM, приведенные к MOS для каждого фильма
Значения SSIM, приведенные к MOS для каждого фильма

Как можно видеть, на нашем тестовом наборе PSNR и VQM были почти одинаково адекватны, а наиболее точное предсказание обеспечил SSIM.

Для того чтобы количественно оценить предсказание объективной метрики, мы вычислили коэффициент корреляции Пирсона между субъективными оценками и приведенными значениями объективной метрики. Этот коэффициент принадлежит отрезку от -1 до 1 и позволяет оценить степень зависимости между величинами (чем модуль коэффициента больше, тем зависимость сильнее).

Метрика

Корреляция

PSNR

0.802

VQM

0.729

SSIM

0.937

Выводы

В статье мы продемонстрировали, какими способами возможно (количественно и качественно) оценить адекватность объективных метрик качества видео. Конечно, наши измерения были проведены на довольно ограниченном наборе субъективных данных - использовались отрезки из фильмов, сжатие производилось только с двумя битрейтами и т.д., поэтому не исключено, что на видео другого типа соотношение сил между метриками изменится. Тем не менее, видно, что более сложные по сравнению с PSNR метрики могут быть более адекватными субъективному мнению не только на синтетических примерах, но и при реальном тестировании.

Рассмотренные объективные метрики реализованы в программе MSU Video Quality Measurement Tool, а методики субъективного тестирования поддерживаются программой MSU Perceptual Video Quality Tool. Поэтому любой критически настроенный читатель может сравнительно легко выполнить собственные тесты произвольного характера, а затем поделиться с общественностью результатами своих изысканий.

Полный текст сравнения с анализом субъективных результатов и объективных метрик находится по адресу http://www.compression.ru/video/codec_comparison/subjective_codecs_comparison.html

 

[Все статьи в разделе «Цифровое Видео»]





Дополнительно

Оценка качества видео. Оценка адекватности объективных метрик качества видео

Оценка качества видео. Оценка адекватности объективных метрик качества видео

Введение

Эта статья – продолжение статьи "Субъективная оценка качества видео". В ней были описаны два подхода к измерению качества видео: объективный (вычисление метрик) и субъективный (опрос экспертов и вычисление среднего результата). Объективное измерение качества обладает множеством достоинств, но насколько его результаты адекватны субъективному качеству? В этой статье мы ответим на этот вопрос для трех объективных метрик и продемонстрируем, как можно измерять такую адекватность.

Описание сравнения

Как и в предыдущей статье, все данные взяты из Субъективного Сравнения Современных Видеокодеков.

Участвовавшие кодеки:

Кодек

Изготовитель

Версия

DivX

DivXNetworks

6.0 b1571-CenterOfTheSun

XviD

Кодек с открытым исходным кодом

<1.1.-125 (“xvid-1.1.0-beta2”)

x264

Кодек с открытым исходным кодом

Core 48 svn-352M by Sharktooth

WMV

Microsoft Corporation

9.0

Параметры кодеков:

Кодек

Параметр

Значения

DivX

Bitrate

690 kbps, 1024 kbps

XviD

Target bitrate

690 kbps, 1024 kbps

x264

Average Bitrate

690 kbps, 1024kbps

WMV

Bit rate

700000 bps, 1048576 bps

Остальные параметры кодеков оставались без изменений.

Тестовые видео:

Название

Длина [кадры]

Длина [секунды]

Разрешение

Источник

Battle

257 кадров

10.71

704x288

MPEG2 (DVD)

Rancho

240 кадров

10.01

704x288

MPEG2 (DVD)

Matrix sc.1

250 кадров

10.00

720x416

MPEG2 (DVD)

Matrix sc.2

250 кадров

10.00

720x416

MPEG2 (DVD)

Использовались последовательности из фильмов "Терминатор 2" и "Матрица": две с умеренным и две с очень быстрым движением.

После субъективных замеров были получены оценки среднего субъективного мнения (MOS) – числа от 0 до 10 для каждого кодека и битрейта, чем выше, тем лучше.

Анализ объективных замеров

Мы измерили на всех тестовых видео, демонстрировавшихся экспертам, три объективных метрики: PSNR, VQM и SSIM (при помощи MSU Video Quality Measurement Tool). PSNR – самая популярная метрика, использовалась для множества сравнений кодеков. Она похожа на средний квадрат ошибки, но более удобна благодаря логарифмической шкале:

Где

x, y – пиксели изображений;

n,m – размеры по горизонтали и вертикали.

VQM и SSIM вычисляются по более сложным алгоритмам, но обоснованно считаются более точно учитывающими особенности восприятия человека. Их определения можно найти в статьях Feng Xiao, “DCT-based Video Quality Evaluation” Final Project for EE392J (2000) и Z. Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image Quality Assessment: From Error Visibility to Structural Similarity" IEEE Transactions on Image Processing, vol. 13, no. 4 (2004) соответственно. Обе метрики набирают популярность и начинают использоваться при сравнениях.

Первое представление о том, как они соответствуют субъективным результатам, можно получить, построив следующие графики: на оси абсцисс отложены значения объективной метрики (PSNR, VQM, SSIM), а на оси ординат – значения среднего субъективного мнения (MOS, Mean Opinion Score). Разным цветом отмечены результаты для разных последовательностей.

Соотношение между PSNR и MOS

Как четко видно даже из такой небольшой выборки, PSNR довольно ограниченно отражает реальное качество видео. Есть случаи, когда одному значению PSNR соответствуют абсолютно разные субъективные мнения (отмечено красным овалом), и наоборот (отмечено серым овалом).

Соотношение между VQM и MOS

На нашем тестовом наборе метрика VQM не более адекватна, чем PSNR: в общих чертах качество предсказано, но часто лучшему субъективному качеству соответствует худшее значение метрики.

Соотношение между SSIM и MOS

SSIM предсказывает субъективные мнения с очень хорошей точностью: для каждого фильма его данные близки к прямой.

Второй тип графиков – величина субъективной оценки, предсказанной объективной метрикой, и реальной субъективной оценкой. Предсказанная оценка была получена при помощи применения функции подгонки для каждой последовательности в отдельности. Использовалась следующая функция (из стандарта ITU-R BT.500):

Где

O – исходные объективные данные;

Ofitted - приведенные объективные данные;

g и d – параметры.

Параметры g и d были подобраны при такими, чтобы минимизировать сумму квадратов разностей между Ofitted и субъективными данными:

где S – субъективные данные.

Такое неочевидное на первый взгляд преобразование нужно для корректного перевода объективной метрики из своей шкалы (для PSNR это 37 – 40 дБ) на шкалу субъективных оценок (0-10) с учетом логарифмической шкалы.

Построенные этим способом графики позволяют визуально оценить качество предсказания субъективной метрики (чем ближе к прямой, тем лучше):

Значения PSNR, приведенные к MOS для каждого фильма
Значения VQM, приведенные к MOS для каждого фильма
Значения SSIM, приведенные к MOS для каждого фильма

Как можно видеть, на нашем тестовом наборе PSNR и VQM были почти одинаково адекватны, а наиболее точное предсказание обеспечил SSIM.

Для того чтобы количественно оценить предсказание объективной метрики, мы вычислили коэффициент корреляции Пирсона между субъективными оценками и приведенными значениями объективной метрики. Этот коэффициент принадлежит отрезку от -1 до 1 и позволяет оценить степень зависимости между величинами (чем модуль коэффициента больше, тем зависимость сильнее).

Метрика

Корреляция

PSNR

0.802

VQM

0.729

SSIM

0.937

Выводы

В статье мы продемонстрировали, какими способами возможно (количественно и качественно) оценить адекватность объективных метрик качества видео. Конечно, наши измерения были проведены на довольно ограниченном наборе субъективных данных - использовались отрезки из фильмов, сжатие производилось только с двумя битрейтами и т.д., поэтому не исключено, что на видео другого типа соотношение сил между метриками изменится. Тем не менее, видно, что более сложные по сравнению с PSNR метрики могут быть более адекватными субъективному мнению не только на синтетических примерах, но и при реальном тестировании.

Рассмотренные объективные метрики реализованы в программе MSU Video Quality Measurement Tool, а методики субъективного тестирования поддерживаются программой MSU Perceptual Video Quality Tool. Поэтому любой критически настроенный читатель может сравнительно легко выполнить собственные тесты произвольного характера, а затем поделиться с общественностью результатами своих изысканий.

Полный текст сравнения с анализом субъективных результатов и объективных метрик находится по адресу http://www.compression.ru/video/codec_comparison/subjective_codecs_comparison.html

 

[Все статьи в разделе «Цифровое Видео»]