Дополнение к статье о характеристиках МР3

 

"… и вырос курган."
Всемирная история

Большое спасибо всем, кто присылал свои замечания и дополнения. К сожалению, я не могу ответить на все Ваши письма. Попробую подвести предварительный итог, отвечу на наиболее часто задававшиеся вопросы, и приведу отрывки из наиболее интересных писем.

FAQ

Откуда можно взять софт?

Очень много различных плееров, енкодеров и т.д. можно найти на mp3.com. Мой выбор ПО был основан только на том, что оно бесплатное.

Чтобы получить NAD, можно также заглянуть на nad.inept.org, а BladeEnc на home8.swipnet.se. Также интересны грабер c www.audiograbber.com-us.net и небольшое дополнение к explorer — MP3ext с tick.informatik.uni-stuttgart.de.

Как сказывается задержка в 20 мсек. на качестве звука?

По-видимому, это всего лишь замеченная особенность использованной пары енкодер-плейер. Задержка приводит к тому, что в начале идут нулевые отсчеты, а в конце теряются эти же самые милисекунды. Можно сделать предположение, что енкодер каждый раз анализирует сигнал длительностью 10-20 мсек, считая его неизменным на этом интервале. В таком случае, возможна некоторая потеря качества на быстрых изменениях уровня высокочастотного сигнала, так как именно атака звука содержит больше всего информации о тембре и локализации звука в пространстве. Однако это предположение необходимо проверять.

Если создавать файлы с меньшей скоростью потока. Как это отразится?

На меньших скоростях качество падает уже очень заметно. Поэтому не предполагается проверять эти скорости.

 From: Dmitry Kovalenko [SMTP:lom1@prim.sartax.saratov.su]

…НЕ СУЩЕСТВУЕТ АЛГОРИТМА MP3 как СТАНДАРТА !!!! Существует лишь методика декодирования файлов Mpeg Audio. На сегодняшний день на рынке представлены три принципиально различных методики кодирования MP3. А именно

  • Fraunhofer, кодеры l3enc, MP3 Produccer, …
  • ISO, кодеры Soloh, BladeEnc, SoundLimit, 8hz, …
  • XING, кодеры Xing, rJPa, …

Каждая из этих методик кодирования обладает своими достоинствами и недостатками.

 From: Alexander S. Saltinsky [SMTP:salt@cc.usart.ru]

Вот скриншоты, сделанные с помощью Cool Edit 96:

кодер от Xing:

           

кодер от Fraunhofer IIS:

           

From: Алексей Саблин [SMTP:ASablin@LUKoil.com]

Была взята 4-ая композиция с альбома Blackmore's Night Shadow Of The Moon и скопирована WinDAC в wav-формат. Сжатие осуществлялось MP3 producer freeware. 128 кбит/с 44100 Гц. Кусок длительностью примерно 5 сек. был проанализирован Cool Edit 96:

           

Как видно МР3 дает завал после 16 КГц с некоторыми всплесками на ВЧ. ИМХО, алгоритм эффективно работает с синтетически сгенерированными сигналами и не слишком "сложными" музыкальными композициями. На многоинструментальных композициях + голос алгоритм теряет свою эффективность. Кстати, я дал послушать эти файлы знакомой на работе, у которой музыкальная школа за плечами, и она сказала, что второй файл "звучит как-то не так".

Ваш покорный слуга тоже посмотрел на реальный сигнал. Звуковой файл любезно предоставил Алексей Саблин. Именно с этого файла были сделаны спектры представленные выше. Поэтому Вы можете примерно сравнить работу двух разных енкодеров. Все параметры — скорость потока, длина спектра и т.д. взяты из первоначальной статьи.

           

Более укрупнено верхняя часть звукового диапазона:

           

Разница спектров до и после сжатия:

Возможный комментарий: имеется подъем примерно на 20дб в низкочастотной области. АЧХ очень изрезана. Фазовая характеристика видимо тоже не в лучшем виде. После 16-17КГц — резкий спад. Но на данном сигнале трудно понять, что же происходит со звуком, как проявляются искажения, и как это с казывается на их восприятии. Изрезанность АЧХ может быть объяснена интермодуляционными искажениями. Спад АЧХ в высокочастотной области может быть вызван тем, что энергия высокочастотных компонент очень мала по сравнению с мощностью низкочастотных сигналов.

Для доказательства подмешаем в исходный сигнал относительно мощный высокочастотный (с амплитудой -20дб и частотой 18451,8… Гц). Чтобы избежать переполнения разрядной сетки перед этим уменьшим в два раза амплитуду каждого отсчета в исходном файле.

           

Видно — несмотря на то, что присутствуют сигналы других частот (идет "реальный" сигнал, для которого граница опустилась примерно до 16КГц), мощность подмешенного сигнала, после сжатия, не изменилась (для него АЧХ осталась равной 0дб) и дополнительно появились паразитные частоты. Можно предположить, что при уменьшении уровня подмешенного сигнала, АЧХ начнет постепенно проваливаться в высокочастотной области, а енкодер станет передавать остальные частоты более "точно". Этот эффект подавления же слабых высокочастотных составляющих может быть эквивалентен работе системы шумопонижения (скажем Dolby C). Но это вывод можно делать очень осторожно, так как зависимость будет функцией от остальных частот звукового диапазона. Говорить же, что МР3 "режет" высокие частоты, это значит ничего не говорить.

 

22 июля 1998 Г.

Characteristics of MP3 algorithm: Answers

Дополнение к статье о характеристиках МР3

 

"… и вырос курган."
Всемирная история

Большое спасибо всем, кто присылал свои замечания и дополнения. К сожалению, я не могу ответить на все Ваши письма. Попробую подвести предварительный итог, отвечу на наиболее часто задававшиеся вопросы, и приведу отрывки из наиболее интересных писем.

FAQ

Откуда можно взять софт?

Очень много различных плееров, енкодеров и т.д. можно найти на mp3.com. Мой выбор ПО был основан только на том, что оно бесплатное.

Чтобы получить NAD, можно также заглянуть на nad.inept.org, а BladeEnc на home8.swipnet.se. Также интересны грабер c www.audiograbber.com-us.net и небольшое дополнение к explorer — MP3ext с tick.informatik.uni-stuttgart.de.

Как сказывается задержка в 20 мсек. на качестве звука?

По-видимому, это всего лишь замеченная особенность использованной пары енкодер-плейер. Задержка приводит к тому, что в начале идут нулевые отсчеты, а в конце теряются эти же самые милисекунды. Можно сделать предположение, что енкодер каждый раз анализирует сигнал длительностью 10-20 мсек, считая его неизменным на этом интервале. В таком случае, возможна некоторая потеря качества на быстрых изменениях уровня высокочастотного сигнала, так как именно атака звука содержит больше всего информации о тембре и локализации звука в пространстве. Однако это предположение необходимо проверять.

Если создавать файлы с меньшей скоростью потока. Как это отразится?

На меньших скоростях качество падает уже очень заметно. Поэтому не предполагается проверять эти скорости.

 From: Dmitry Kovalenko [SMTP:lom1@prim.sartax.saratov.su]

…НЕ СУЩЕСТВУЕТ АЛГОРИТМА MP3 как СТАНДАРТА !!!! Существует лишь методика декодирования файлов Mpeg Audio. На сегодняшний день на рынке представлены три принципиально различных методики кодирования MP3. А именно

  • Fraunhofer, кодеры l3enc, MP3 Produccer, …
  • ISO, кодеры Soloh, BladeEnc, SoundLimit, 8hz, …
  • XING, кодеры Xing, rJPa, …

Каждая из этих методик кодирования обладает своими достоинствами и недостатками.

 From: Alexander S. Saltinsky [SMTP:salt@cc.usart.ru]

Вот скриншоты, сделанные с помощью Cool Edit 96:

кодер от Xing:

           

кодер от Fraunhofer IIS:

           

From: Алексей Саблин [SMTP:ASablin@LUKoil.com]

Была взята 4-ая композиция с альбома Blackmore's Night Shadow Of The Moon и скопирована WinDAC в wav-формат. Сжатие осуществлялось MP3 producer freeware. 128 кбит/с 44100 Гц. Кусок длительностью примерно 5 сек. был проанализирован Cool Edit 96:

           

Как видно МР3 дает завал после 16 КГц с некоторыми всплесками на ВЧ. ИМХО, алгоритм эффективно работает с синтетически сгенерированными сигналами и не слишком "сложными" музыкальными композициями. На многоинструментальных композициях + голос алгоритм теряет свою эффективность. Кстати, я дал послушать эти файлы знакомой на работе, у которой музыкальная школа за плечами, и она сказала, что второй файл "звучит как-то не так".

Ваш покорный слуга тоже посмотрел на реальный сигнал. Звуковой файл любезно предоставил Алексей Саблин. Именно с этого файла были сделаны спектры представленные выше. Поэтому Вы можете примерно сравнить работу двух разных енкодеров. Все параметры — скорость потока, длина спектра и т.д. взяты из первоначальной статьи.

           

Более укрупнено верхняя часть звукового диапазона:

           

Разница спектров до и после сжатия:

Возможный комментарий: имеется подъем примерно на 20дб в низкочастотной области. АЧХ очень изрезана. Фазовая характеристика видимо тоже не в лучшем виде. После 16-17КГц — резкий спад. Но на данном сигнале трудно понять, что же происходит со звуком, как проявляются искажения, и как это с казывается на их восприятии. Изрезанность АЧХ может быть объяснена интермодуляционными искажениями. Спад АЧХ в высокочастотной области может быть вызван тем, что энергия высокочастотных компонент очень мала по сравнению с мощностью низкочастотных сигналов.

Для доказательства подмешаем в исходный сигнал относительно мощный высокочастотный (с амплитудой -20дб и частотой 18451,8… Гц). Чтобы избежать переполнения разрядной сетки перед этим уменьшим в два раза амплитуду каждого отсчета в исходном файле.

           

Видно — несмотря на то, что присутствуют сигналы других частот (идет "реальный" сигнал, для которого граница опустилась примерно до 16КГц), мощность подмешенного сигнала, после сжатия, не изменилась (для него АЧХ осталась равной 0дб) и дополнительно появились паразитные частоты. Можно предположить, что при уменьшении уровня подмешенного сигнала, АЧХ начнет постепенно проваливаться в высокочастотной области, а енкодер станет передавать остальные частоты более "точно". Этот эффект подавления же слабых высокочастотных составляющих может быть эквивалентен работе системы шумопонижения (скажем Dolby C). Но это вывод можно делать очень осторожно, так как зависимость будет функцией от остальных частот звукового диапазона. Говорить же, что МР3 "режет" высокие частоты, это значит ничего не говорить.