Оценка качества видео. Субъективная оценка качества видео


Введение

Что такое качество? В словаре Даля содержится следующее определение: "качество - свойство или принадлежность, все, что составляет сущность лица или вещи". Что же делать, если нам нужно оценить визуальное качество, например, сжатого кодеком видео? Можно понимать качество видео как среднюю оценку мнений людей, смотрящих это видео. Именно этот показатель в конечном счете хотят улучшить создатели систем обработки видео, поэтому хотелось бы уметь его численно оценить. Существует два подхода к решению этой задачи: субъективная и объективная оценка качества видео. В первой части этой статьи мы расскажем об этих подходах, а во второй приведем результаты проведенного нами субъективного сравнения современных видеокодеков.

Объективное тестирование

Можно оценить качество видео при помощи какой-либо формулы или алгоритма, например, PSNR, VQM или SSIM (см. Сравнение видеокодеков при помощи метрики PSNR). Главное достоинство этого подхода в возможности автоматизировать процесс тестирования, что позволяет измерить качество обработки видеосистемы при большом количестве различных настроек и тестовых видео или измерять качество в реальном времени. Также в результате измерений получаются точные и воспроизводимые данные. Минус этого подхода в том, что автоматические метрики могут неверно отражать субъективно воспринимаемое качество. Это может привести, например, к неверному выводу о превосходстве одного кодека над другим.

Субъективное тестирование

Альтернативный способ получить оценку качества видео - провести субъективное тестирование. Идея этого метода в том, чтобы получить оценку качества непосредственно от зрителей, проводящих оценку видео. Аналогичный подход в оценке качества звука используется уже долгое время. Например, на форуме hydrogenaudio.org регулярно проходят субъективные тестирования аудиокодеков. Что же нужно, чтобы провести субъективное тестирование?

  • Выбрать видеопоследовательности для тестирования. Обычно используется видео около 8-10 секунд, чтобы предотвратить рассеивание внимания экспертов и сократить общее время экспериментов.
  • Выбрать настройки систем обработки видео, которые вы хотите сравнить.
  • Выбрать метод тестирования.
  • Пригласить достаточное число экспертов (рекомендуется не менее 15).
  • Основываясь на их мнении, получить окончательные оценки.

Еще в 1974 году была опубликована первая версия рекомендаций ITU-R BT.500 "Methodology for the subjective assessment of the quality of television pictures". Эти рекомендации содержат исчерпывающее описание того, как следует решать все вышеперечисленные вопросы. С тех пор проводилось много субъективных тестирований, из недавних стоит отметить Subjective Quality Assessment of The Emerging AVC/H.264 Coding Standard, Subjective Quality of Internet Video Codecs. Объемные субъективные тестирования проводятся VQEG (Video Quality Experts Group).

Несмотря на то, что субъективные тестирования многократно проводились различными организациями, до недавнего времени в свободном доступе не было стабильных программ для проведения тестирования, рассчитанных на работу с персональными компьютерами. Это стало причиной разработки MSU Perceptual Video Quality tool, в которой реализовано несколько методов субъективного сравнения и анализа результатов.

Методы субъективного тестирования

Метод субъективного тестирования – это сочетание способов демонстрации последовательностей, сбора мнений экспертов и обработки результатов.
Рассмотрим на примере сравнения видеокодеков процедуру тестирования методом SAMVIQ, недавно разработанным в EBU (European Broadcasting Union), реализация MSU Perceptual Video Quality tool. Этот метод использовался в Субъективном Сравнении Современных Видеокодеков.

Схема метода SAMVIQ

Этапы тестирования:

1. Эксперт вводит свое имя (любая уникальная последовательность символов).

2. Тест на цветовосприятие (используются стандартные таблицы Ишихары).

3. Для каждой тестовой последовательности:

  • Демонстрируется эталонное (исходное) видео.
  • До тех пор, пока есть не просмотренные сжатые варианты этого видео, эксперт выбирает очередной вариант видео, смотрит его и выставляет оценку. Оценка для фильма принадлежит отрезку от 0 до 100, чем выше, тем лучше. Оценка уже просмотренных вариантов последовательности может быть изменена в любой момент, также возможно пересмотреть любой из вариантов.
  • Если все варианты видео просмотрены, то эксперт может перейти к следующей тестовой последовательности.

Разные варианты сжатой последовательности скрыты за буквенными обозначениями, поэтому эксперт не знает, какой кодек он оценивает в данный момент. Эталонное видео доступно явно, также оно скрыто под одним из буквенных обозначений и оценивается наравне со сжатыми видеопоследовательностями.

Для чего нужны такие сложности? Есть несколько задач, которые должны решать методики субъективного тестирования. Первая из них – создание у всех экспертов общей шкалы оценок, то есть чтобы оценка “хорошо” значила для разных экспертов приблизительно одно и то же. Это достигается при помощи приема под названием “anchoring”: во время теста демонстрируется как видео с самым высоким качеством (“high anchor”, должно ассоциироваться у всех экспертов с максимальной оценкой), так и с самым низким (“low anchor”, должно ассоциироваться с минимальной оценкой).

Еще одна задача – минимизация эффекта памяти, влияния очередности показа видео на оценки экспертов. В некоторых тестовых методах эта задача решается при помощи демонстрации референсного (исходного) видео вместе с каждой обработанной видеопоследовательностью. В методе SAMVIQ, который мы использовали при сравнении, первая проблема решается при помощи явно доступного и скрытого эталонного видео, а вторая – при помощи более гибкой, чем в других методах, процедуры оценки (эксперт может пересматривать видео и менять свои оценки).

При любом тестовом методе на результаты субъективного тестирования может повлиять множество сторонних факторов. Необходимо, чтобы все эксперты были проинструктированы о способе прохождения тестирования, в помещении было обеспеченно достаточное освещение, тестирование не должно утомить экспертов. Несколько изменить результаты может все, что угодно, от пола экспертов до их профессий и времени проведения тестирования. Интересно, что по сравнению со всеми остальными факторами характеристики монитора (разрешение, LCD/CRT и т.д.) не оказывают значительного влияния на результаты (см. M.Pinson, S.Wolf, “The Impact of Monitor Resolution and Type on Subjective Video Quality Testing” NTIA TM-04-412).

Обработка результатов

Основные результаты получаются после простого усреднения оценок по экспертам. Полученная оценка называется MOS (Mean Opinion Score). Также для оценки разброса мнений обычно приводится доверительный интервал (интервал, в котором с заданной вероятностью находится реальное среднее мнение). Существуют методики, позволяющие исключить экспертов, дающих нестабильные и сильно отличающиеся от средних результаты.

Субъективное сравнение современных видеокодеков

В конце 2005 года нашей лабораторией было проведено субъективное тестирование видеокодеков. Задачами тестирования были субъективное сравнение новых версий популярных кодеков, сравнение результатов с данными объективных метрик и отработка технологии субъективного тестирования. В этой статье приведена лишь часть полученных результатов.

Участвовавшие кодеки:

Кодек

Изготовитель

Версия

DivX

DivXNetworks

6.0 b1571-CenterOfTheSun

XviD

Кодек с открытым исходным кодом

1.1.-125 (“xvid-1.1.0-beta2”)

x264

Кодек с открытым исходным кодом

Core 48 svn-352M by Sharktooth

WMV

Microsoft Corporation

9.0

Параметры кодеков:

Кодек

Параметр

Значения

DivX

Bitrate

690 kbps, 1024 kbps

XviD

Target bitrate

690 kbps, 1024 kbps

x264

Average Bitrate

690 kbps, 1024kbps

WMV

Bit rate

700000 bps, 1048576 bps

Остальные параметры кодеков оставались без изменений.

Тестовые видео:

Название

Длина [кадры]

Длина [секунды]

Разрешение

Источник

Battle

257 кадров

10.71

704x288

MPEG2 (DVD)

Rancho

240 кадров

10.01

704x288

MPEG2 (DVD)

Matrix sc.1

250 кадров

10.00

720x416

MPEG2 (DVD)

Matrix sc.2

250 кадров

10.00

720x416

MPEG2 (DVD)

Использовались последовательности из фильмов ”Терминатор 2” и “Матрица”: две со средним и две с очень быстрым движением.

В качестве метода субъективного тестирования использовался SAMVIQ, описанный выше. Субъективное тестирование проходило в течении трех дней. Всего в тестировании приняло участие 50 экспертов. Использовались три типа мониторов: 6 x 15” CRT Dell, 1 x 17” CRT Samsung и 2 x 17” LCD Samsung.

Следующие графики демонстрируют результаты тестирования на одной из последовательностей. По оси ординат среднее субъективное мнение (MOS, чем выше, тем лучше) и 95% доверительный интервал, то есть для данного объема выборки реальное значение MOS находится в указанном диапазоне с вероятностью 0.95, Ref – исходное видео, по оси абсцисс – кодек и битрейт, с которым сжималось видео.

MOS для последовательности Battle

“Battle” – последовательность с очень сильным движением. Из графика видно, что кодек x264 с битрейтом 690 kbps был оценен так же, как и WMV с битрейтом 1024 kbps. Интересно, что исходное видео (полученное с DVD) не получило максимальную отметку 100, хоть и обладало самым лучшим качеством – эксперты видели в нем артефакты.

MOS для последовательности Rancho

В последовательности “Rancho” движение гораздо слабее, многие кодеки справились с ней практически одинаково – экспертам было труднее отличить их, увеличился разброс оценок. Тем не менее, превосходство x264 все равно заметно.

На следующем графике можно увидеть значения MOS, усредненные по всем последовательностям.

Очевидно, что по среднему мнению экспертов кодек x264 значительно превосходит все остальные протестированные кодеки. Низкий результат кодека XviD является следствием того, что в декодере этой версии деблокинг не включен по умолчанию. Он не был включен в связи с принятой политикой невмешательства в тонкие (для обычного пользователя) настройки кодека.

Выводы

Субъективное сравнение – единственный выход, если вам нужно оценить реальное качество видео. Существует множество деталей при проведении сравнения, на которые необходимо обращать внимание, но при соблюдении определенных правил корректное применение методик тестирования может дать надежные и ценные результаты.

Полный текст сравнения с анализом субъективных результатов и замером объективных метрик находится по адресу http://www.compression.ru/video/codec_comparison/subjective_codecs_comparison.html.

Продолжение: Оценка адекватности объективных метрик качества видео

 

[Все статьи в разделе «Цифровое Видео»]





Дополнительно

Нашли ошибку на сайте? Выделите текст и нажмите Shift+Enter

Код для блога бета

Выделите HTML-код в поле, скопируйте его в буфер и вставьте в свой блог.