Проблемы IP-телефонии


Введение

Одна из доминирующих тенденций в развитии телекоммуникаций — слияние этой научно-технической области с информатикой. В основе такого объединения лежит возможность использования компьютера не только в виде инструмента для обработки информации, но и средства для ее коммутации и передачи. В этом контексте вычислительная сеть может рассматриваться как некоторая универсальная среда для распространения информации.

В основе функционирования современных вычислительных сетей лежат методы пакетной передачи и коммутации, использующие простую идею представления любого вида информации (данные, изображения, речь, звук, служебные и управляющие посылки и т.д.) в виде цифровой последовательности и последующего членения этой последовательности на "кванты" — пакеты, снабженные всей необходимой информацией для их идентификации, маршрутизации, коррекции ошибок и прочее. Такой подход позволяет в едином информационном русле передавать все виды информации, использовать для передачи информации различные пути и различные средства, применять универсальные системы коммутации, инвариантные относительно видов информации.

В условиях неограниченных вычислительных ресурсов и неограниченной пропускной способности каналов построение подобных коммуникационных систем становится чисто технической задачей. Научно-технические проблемы возникают сразу же, как только мы сталкиваемся с ограниченностью упомянутых выше ресурсов. При этом они (эти проблемы) оказываются различными для разных видов информации и требуют для своего решения привлечения предметно ориентированных специалистов.

В данной статье рассматриваются некоторые проблемы, связанные с осуществлением телефонных переговоров по сетям с пакетной передачей и коммутацией в условиях ограниченных ресурсов. На самом деле эти проблемы многоплановы и захватывают широкий спектр вопросов юридического, экономического, научного, технического, организационного и пр. характеров. Мы коснемся лишь научных и технических сторон дела, учитывая, прежде всего, то обстоятельство, что именно эти вопросы наименее освещены, по крайней мере, в отечественных публикациях.

В широком смысле основная задача обсуждаемого варианта телефонии заключается в обеспечении естественного речевого общения двух или нескольких лиц, являющихся абонентами различных коммуникационных сетей, посредством сети связи с коммутацией пакетов.

Поскольку в большинстве вычислительных сетей и прежде всего в сети Интернет для формирования пакетов используется протокол IP (Internet Protocol) телефонию по Интернет и Интранет сетям целесообразно называть IP-телефонией вместо довольно распространенного в отечественной и зарубежной литературе термина Интернет-телефония (либо наряду с последним).

Статья построена по следующему плану. Коротко рассмотрены варианты организации телефонных коммуникаций на базе сети Интернет, что позволяет выделить основной характерный элементы IP-телефонии. Далее рассмотрено информационное представление речевого сигнала с позиций использования в телефонии. Подробно обсуждаются особенности каналов сети Интернет и приводятся результаты экспериментального изучения важнейших характеристик. С учетом характеристик каналов и особенностей организации телефонных соединений формулируются требования к речевым кодекам и предлагаются возможные пути их построения. Обсуждается архитектура основного элемента IP-телефонных систем — шлюза и задачи сигнальной обработки в шлюзе. Отдельно обсуждается вопрос о передачи речи в сети Интернет в связи с оценкой возможности и целесообразности использования существующих протоколов. В заключении обсуждаются варианты практической программно-аппаратной реализации шлюза. .

Варианты построения IP-телефонных систем

Известны и практически реализуются две базовые схемы IP-телефонии. Первая из них рис. 1 связана с организацией телефонных переговоров между пользователями персональных компьютеров, оснащенных мультимедийным оборудованием и (или) специальными программными (программно-аппаратными) средствами, обеспечивающим ведение дуплексных телефонных переговоров, необходимый сервис и контроль. Пользовательские компьютеры могут входить в состав локальной сети, иметь персональный IP-адрес или подключаться к сети Интернет при помощи модема.


Рис. 1. Структурная схема организации телефонной связи через сеть Интернет

Вторая схема — рис. 2, предусматривает использование специальных многофункциональных устройств — шлюзов. Шлюз предназначен для преобразования аналоговых речевых и служебных сигналов в цифровую последовательность, организации из этой последовательности пакетов глобальной сети Интернет и передачи их в сеть, прием пакетов и восстановление цифровой последовательности — цифровых речевых и служебных сигналов и их преобразование в аналоговую форму, а так же решение большого перечня задач (об этом будет сказано далее), связанных с организацией интерфейсов, генерированием и детектированием сигналов абонентской сигнализации, управлением режимами телефонных переговоров и многое другое.

Шлюзы могут устанавливаться на серверах Интернет-провайдеров, городских телефонных станциях, учрежденческих АТС, серверах локальных вычислительных сетей, Web-серверах компаний, нуждающихся в организации голосовых горячих линий, служб технической поддержки, диалоговых справочных служб и т.д. Шлюзы, наконец, могут устанавливаться на маршрутизаторах.

В зависимости от схемы организации связи архитектура шлюза может меняться, могут модифицироваться некоторые функции, выполняемые шлюзом, интерфейсы. Однако главные задачи шлюза — обеспечение качественного дуплексного телефонного общения абонентов в режиме пакетной передачи и коммутации цифровых сигналов сохраняются.

Понятно, что рассмотренные выше базовые схемы могут комбинироваться. Возможны разнообразные способы организации IP-телефонной связи с использованием шлюзов, размещенных в функционально различных точках сети. Однако как свидетельствуют результаты многочисленных обзорных публикаций, рекламные сообщения практически всех фирм, работающих в области IP-телефонии, и здравый смысл применение шлюзов является сегодня магистральным направлением, а собственно шлюз — ключевым элементом.


Рис. 2. Структурная схема организации телефонной связи через сеть Интернет с использованием шлюзов

Информационное представление речевого сигнала

Рассмотрим процесс речевого диалога в системе Интернет с информационной точки зрения. Этот процесс имеет следующие три фазы:

  • соединение абонентов,
  • обмен информацией,
  • разъединение абонентов.

Во время исполнения первой и третьей фаз передаются только управляющие данные и при этом происходит установление соединения. На протяжении второй фазы абоненты обмениваются как управляющими так и информационными данными.

Источником информационных данных является речевой сигнал, возможной моделью которого является нестационарный случайный процесс. В первом приближении можно выделить следующие типы сигнальных фрагментов: вокализированные, невокализированные, переходные и паузы. При передаче речи в цифровой форме, т.е. в виде последовательности чисел, каждый тип сигнала при одной и той же длительности и одинаковом качестве требует различного числа двоичных единиц (бит) для кодирования и передачи. Следовательно, скорость передачи разных типов сигнала также может быть различной. Отсюда следует важный вывод: передачу речевых данных в каждом направлении дуплексного канала разумно рассматривать как передачу асинхронных логически самостоятельных фрагментов цифровых последовательностей (транзакций) с блочной (дейтаграммной) синхронизацией внутри транзакции, наполненной блоками различной длины.

Описанная модель речевого сигнала является базисной для
изучения (анализа)и построения (синтеза) IP-телефонных систем. Асинхронность же транзакций позволяет с одной стороны оптимизировать трафик за счет снижения средней скорости передачи и с другой — за счет относительной свободы в воспроизведении каждой транзакции скомпенсировать неидеальности канала передачи. В связи с изложенным обсуждаемая информационная модель речевого сигнала позволяет изменить стандартную постановку задачи конструирования кодека речевого сигнала для систем IP-телефонии. В отличие от традиционных обсуждаемые кодеки целесообразно строить с переменной скоростью. Этот вопрос мы подробнее рассмотрим в разделе, посвященном речевым кодекам.

Особенности каналов сети Интернет

Среди каналов, на которых может быть организована IP-телефонная связь, особый интерес представляют каналы Интернет. Несмотря на большое разнообразие, характеризуемое пропускными способностями, числом маршрутизаторов, характеристиками физических линий и пр. реально действующие каналы Интернет характеризуются

  • действительной пропускной способностью, определяемой наиболее "узким местом" в виртуальном канале в данный момент времени;
  • трафиком, также являющимся функцией времени;
  • задержкой пакетов, что определяется трафиком, числом маршрутизаторов, реальными физическими свойствами каналов передачи, образующими в данный момент времени виртуальный канал, задержками на обработку сигналов, возникающими в речевых кодеках и других устройствах шлюзов; все это также обеспечивает зависимость задержки от времени;
  • потерей пакетов, обусловленной наличием "узких мест", очередями;
  • перестановкой пакетов, пришедших разными путями.

Упомянутые обстоятельства и эффекты наглядно могут быть представлены в графической форме. Так, на рис. 3 приведены гистограммы задержек пакетов, показывающие эмпирические распределения вероятностей задержек. На оси абсцисс отложена относительная задержка, характеризующая реальное положение пакета в последовательности на временной оси по отношению к идеальному в предположении, что первый пакет пришел без задержки.

Рис. 3. Гистограммы задержки пакетов

Детальное изучение явлений задержки и потери пакетов позволяет сделать следующие выводы. Задержки пакетов существенно зависят от времени. Кривая этой зависимости имеет большой динамический диапазон и скорость изменения. Заметные изменения времени распространения могут произойти на протяжении одного не продолжительного сеанса связи, а колебания времени передачи могут быть в диапазоне от десятков до сотен миллисекунд и даже превышать секунду.

Зависимость рис. 3 показывает величины возникающих задержек и их вероятности. Данная информация исключительно важна для организации процедуры обработки и выбора параметров обработки. Так, становится ясным, что временная структура речевого пакетного потока меняется. Возникает необходимость организации буфера для превращения пакетной речи, отягощенной нестационарными задержками в канале, возможными перестановками пакетов, в непрерывный естественный речевой сигнал реального времени. Параметры буфера определяются компромиссом между величиной запаздывания телефонного сигнала в режиме дуплексной связи и процентом потерянных пакетов. Потеря пакетов является другим важнейшим негативным явлением в Интернет -телефонии.

На рис. 4 представлены гистограммы потерь пакетов. По оси абсцисс отложено число подряд потерянных пакетов. Анализ гистограммы показывает, что наиболее вероятны потери одного, двух и трех пакетов. Потери больших пачек пакетов редки.

Существенно, что потеря большой группы пакетов приводит к необратимым локальным искажениям речи, тогда как потери одного, двух, трех пакетов можно пытаться компенсировать.

Далее будет показано, что отмеченные обстоятельства по новому ставят задачу синтеза речевых кодеков для IP-систем. Интуитивно ясно, что с повышением трафика возрастают задержки и потери в телефонном канале. В условиях ограниченных пропускных способностей это проявляется не только при интегральном увеличении загрузки каналов, например, в часы наибольшей нагрузки, но и при увеличении потока локального источника информации. Кривые графиков рис. 3 и 4, построенные для различных скоростей передачи информации убедительно свидетельствуют о необходимости использования как можно более низких скоростей передачи речевой информации при естественном требовании обеспечения желаемого качества телефонной связи.

Речевые кодеки для IP-телефонии

Особенности функционирования каналов для передачи речевых данных, и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе сети Интернет предъявляют ряд специфических требований к речевым кодекам (вокодерам). В силу пакетного принципа передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи, Как было отмечено выше, наиболее целесообразным и естественным для систем IP-телефонии является применение кодеков с переменной скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VAD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило на базе метода Code Excited Linear Prediction — CELP) с типичной скоростью 4 — 8 Кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1 — 0.2 Кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.

Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (сответственно большую скорость), для менее ответственных — меньше бит (меньшую скорость). При таком построении кодеков могут быть достигнуты низкие средние скорости (2 — 4 Кбит/с) при высоком качестве синтезируемой речи.

Необходимо отметить, что для рассматриваемых приложений традиционная для вокодеров проблема снижения задержки при обработке сигнала в кодеке не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками вносимыми каналами сети Интернет. Тем не менее, решения, позволяющие снизить задержку в вокодере, представляют практический интерес.

Проведенный в различных исследовательских группах анализ качества синтезированной речи при передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное потерями при передачи по сети либо превышением предельно допустимого времени доставки пакета с речевыми данными. Гистограммы распределения числа последовательно потерянных пакетов, приведенные на рис. 4, показывают, что вероятность одиночных потерь выше вероятности потерь нескольких кадров подряд. Можно ожидать, что с развитием сети Интернет при дальнейшем увеличении ее пропускной способности, оптимизации маршрутизаторов и протоколов преобладающую роль будут играть потери одиночных пакетов. Следует заметить, что в случае прихода пакета данные, как правило, доставляются без ошибок. В таких условиях помехоустойчивое кодирование речевых данных нецелесообразно.

Таким образом, одной из важнейших задач при построении вокодеров для IP-телефонии является создание алгоритмов компрессии речи толерантных к потерям пакетов.

Для обслуживания широкой сети абонентов система IP телефонной связи с использованием шлюзов должна включать абонентские линии связи с аналоговыми окончаниями. Это означает, что синтезированный в шлюзе аналоговый речевой сигнал по соединительной линии будет поступать на телефонный аппарат абонента. Точно также сигнал с выхода микрофона телефонного аппарата абонента по аналоговой линии будет поступать на вход вокодера, размещенного в шлюзе. Хорошо известно, что классические алгоритмы низкоскоростной компрессии речи чувствительны к амплитудно-частотным искажениям, возможным в соединительных линиях и акустических трактах. При создании алгоритмов низкоскоростных вокодеров это обстоятельство должно приниматься во внимание.

Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5,3 и 6,3 Кбит/с, а так же G.729 для скорости передачи 8 Кбит/с.

Гарантируя достаточно высокое качество речи в идеальных условиях передачи, упомянутые стандарты были разработаны для использования в каналах, отличных от Интернет и уже позже частично адаптировались для условий потерь пакетов. Развития этих стандартов включают в себя Voice Activity Detector и элементы, ответственные за синтез речевого сигнала на фрагментах, соответствующих потерянным речевым данным. В настоящее время ведущие в области телекоммуникаций фирмы и университеты проводят разработки алгоритмов вокодеров для Интернет-телефонии. Ориентируясь на рекламные публикации и собственные исследования, можно ожидать появления в ближайшие годы алгоритмов компрессии со средними скоростями 2 — 4 Кбит/с и ниже с качеством синтезированной речи, близким к коммерческому, при допустимых искажениях в условиях 20% потерь пакетов с речевыми данными.

В заключении этого раздела следует коротко отметить перспективные на наш взгляд пути построения низкоскоростных вокодеров с переменной скоростью. Во всех случаях здесь предпочтительными являются методы, использующие линейное предсказание. При этом, для скоростей более 3 Кбит/с целесообразно использование CELP-алгоритмов. Для более низких скоростей передачи данных алгоритмы будут, по-видимому, строится на базе тщательной классификации речевого сигнала с их последующим рациональным кодированием.

Шлюз и его архитектура

Исходя из вышеизложенного, реализовывать функции IP-телефонии будет устройство (или устройства) — шлюз, которое с сетевой точки зрения осуществляет преобразование управляющей информации и данных, поступающих из одной сети (например PSTN) в пакеты глобальной сети Интернет и обратно. Причем такое преобразование не должно значительно исказить исходный речевой сигнал, а режим передачи обязан сохранить обмен информацией между абонентами в реальном масштабе времени.

Более полно основные функции выполняемые шлюзом при соединении типа "точка-точка" состоят в следующем.

  • Реализация физического интерфейса с коммуникационной сетью.
  • Детектирование и генерация сигналов абонентской сигнализации.
  • Преобразование сигналов абонентской сигнализации в пакеты данных и обратно.
  • Преобразование речевого сигнала в пакеты данных и обратно.
  • Соединение абонентов.
  • Передача по сети сигнализационных и речевых пакетов.
  • Разъединение связи.

Большая часть функций шлюза в рамках архитектуры TCP/IP реализуются в процессах прикладного уровня.

Наличие разноплановых с вычислительной точки зрения функций, выполняемых системой, порождает проблему ее программной и аппаратной реализации. Рациональное решение этой проблемы основано на использовании распределенной системы, в которой управленческие задачи и связь с сетью осуществляется с помощью универсального процессора, а решения задач сигнальной обработки и телефонного интерфейса выполняются на цифровом процессоре обработки сигналов.

Сигнальная обработка в шлюзе

Схема сигнальной обработки в шлюзе при подключении аналогового 2-х проводного телефонного канала PSTN показана на рис. 6.

Телефонный сигнал с 2-х проводной линии поступает на дифференциальную систему, которая разделяет приемную и передающую часть канала. Далее сигнал передачи вместе с "просочившейся" частью сигнала приема подается на аналого-цифровой преобразователь и превращается либо в стандартный 12 разрядный сигнал либо в 8-ми разрядный сигнал, закодированный по µ- либо А- закону. В последнем случае обработка должна также включать соответствующий экспандер. В устройстве эхо-компенсации из сигнала передачи удаляются остатки принимаемого сигнала. Эхо-компенсатор представляет собой адаптивный нерекурсивный фильтр, длина памяти (порядок) которого и механизм адаптации выбираются такими, чтобы удовлетворить требованиям рекомендации МКKТТ (ITU-T) G.165. Для обнаружения и определения сигналов внутриполосной телефонной сигнализации (MF сигналов), сигналов DTMF либо импульсного наборов используются детекторы соответствующих типов. В режиме сессии дальнейшая обработка входного сигнала происходит в речевом кодере. В анализаторе кодера сигнал сегментируется на отдельные фрагменты длительностью 30 мс и каждому входному блоку, состоящему из 240 отсчетов (1920 бит при А либо µ- коде и 2880 бит при 12-ти разрядном линейном коде), сопоставляется информационный кадр длиной 137 бит.

Часть параметров, вычисленная в анализаторе, используется в блоке определения голосовой активности (VAD — voice activity detector), который решает является ли текущий анализируемый фрагмент сигнала речью или паузой. При наличии паузы информационный кадр может не передаваться в службу виртуального канала. Режим передачи паузных кадров следующий. На сеансовый уровень передается лишь каждый пятый кадр такого типа. Кроме того, при отсутствии речи для кодировки текущих спектральных параметров используется только 27 бит. На приемной стороне из виртуального канала в логический поступает либо информационный кадр (длиной 137 или 27 бит) либо флаг наличия паузы. На паузных кадрах вместо речевого синтезатора включается генератор комфортного шума, который восстанавливает спектральный состав паузного сигнала. Параметры генератора обновляются при получении паузного информационного кадра. Наличие информационного кадра длиной 137 бит включает речевой декодер, на выходе которого формируется 12-ти разрядный речевой сигнал. Для эхо-компенсатора этот сигнал является сигналом дальнего абонента, фильтрация которого дает составляющую электрического эха в передаваемом сигнале. В зависимости от типа цифро-аналогового преобразования сигнал может быть подвергнут дополнительной кодировке по А- либо µ- закону.

Анализ схемы сигнальной обработки и опыт разработки позволяют выделить следующие основные проблемы цифровой обработки сигналов в шлюзе.

При использовании двухпроводных абонентских линий актуальной остаётся задача эхокомпенсации, особенность которой состоит в том, что компенсировать необходимо два различных класса сигналов — речи и телефонной сигнализации. Очень важной является задача обнаружения и детектирования телефонной сигнализации. Её сложность состоит в том, что служебные сигналы могут перемешиваться с сигналами речи.

Ключевая задача построения кодеков речи подробно обсуждалось в разделе "Речевые кодеки для IP телефонии". С построением кодеков тесно связана задача синтеза VAD. Основная трудность состоит в правильном детектировании пауз речи на фоне достаточно интенсивного акустического шума (шум офиса, улицы, автомобиля и т.д.)

Сетевые протоколы

При организации телефонных переговоров по вычислительным сетям необходимо передавать два типа информации: командную и речевую. К командной информации относятся сигналы вызова, разъединения, а также другие служебные сообщения.

Краеугольный камень сети ИНТЕРНЕТ — Internet Protocol (IP). Это протокол сетевого уровня, который обеспечивает маршрутизацию пакетов в сети. Он, однако, не гарантирует надежную доставку пакетов. Таким образом, пакеты могут искажаться, задерживаться, передаваться по различным маршрутам (а значит иметь различное время передачи) и т. д. На основе IP работают протоколы транспортного уровня Transport Control Protocol (TCP) и User Datagram Protocol (UDP).

Основное требование к передаче командной информации — отсутствие ошибок передачи. В результате необходимо использовать достоверный протокол доставки сообщений. Обычно, в качестве такого протокола используется TCP, обеспечивающий гарантированную доставку сообщений. Время доставки сообщений также играет немаловажную роль в этом случае. К сожалению, этот параметр является нестабильным, т. к. при появлении ошибок передачи сообщение передается повторно. Передача повторяется до тех пор пока сообщение не будет доставлено успешно. Таким образом, длительность служебных процедур может бесконтрольно увеличиваться, что недопустимо, например, для этапа установления соединения, а также некоторых процедур связанных с передачей по сети телефонной сигнализации. Открытой проблемой в этой области является создание достоверного механизма передачи, который не только гарантирует безошибочную доставку информации, но также минимизирует время доставки при появлении ошибок передачи.

При передаче речевой информации проблема времени доставки пакетов по сети становиться основной. Это вызвано необходимостью поддерживать общение абонентов в реальном масштабе времени, для чего задержки не должны превышать 250 — 300 мс. В таком режиме использование повторных передач недопустимо, и следовательно, для передачи речевых пакетов приходится использовать недостоверные транспортные протоколы, например, UDP. При обнаружении ошибки передачи факт ошибки фиксируется, но повторной передачи для ее устранения не производится. Пакеты, передаваемые по протоколу UDP могут теряться. В одних случаях это может быть связано со сбоями оборудования. В других — с тем, что "время жизни" пакета истекло, и он был уничтожен на одном из маршрутизаторов. При потерях пакетов повторные передачи также не организуются. В процессе передачи возможны перестановки пакетов в потоке, а также искажения речевых пакетов. Последнее однако происходит крайне редко.

Перед поступлением речевого потока на декодер он должен быть восстановлен. Для этого используется протокол реального времени. В заголовке данного протокола передаются, в частности, временная метка и номер пакета. Эти параметры позволяют определить не только порядок пакетов в потоке, но и момент декодирования каждого пакета, т. е. позволяют восстановить поток. Наиболее распространенный протокол реального времени — Real Time Protocol (RTP), рекомендованный к использованию в стандарте на построение систем реального времени H.323.

Искажения потока пакетов связаны с загруженностью сети. При отсутствии перегрузок искажения минимальны, а часто отсутствуют. Поток речевых пакетов может значительно загружать сеть, особенно, в случае многоканальных систем. Это происходит из-за высокой интенсивности потока (кадры небольшого размера передаются через малые промежутки времени 20 байт/ 30 мс) и большого объема передаваемой служебной информации. Зная размеры заголовков сетевых протоколов (IP — 20 байт, UDP — 8 байт, RTP — 12 байт), легко вычислить общий объем заголовка речевого пакета — 40 байт. Это в 2 раза превышает размер самого пакета. Передача такого объема служебной информации неприемлема, особенно, при построении многоканальных систем. Таким образом, необходимо искать способы уменьшения количества служебной информации, передаваемой по сети. Существует два возможных варианта решения этой проблемы. Первый предполагает создание специальных транспортных протоколов для IP-телефонии, которые могли бы уменьшить заголовок протокола транспортного уровня. Второй вариант — мультеплексирование каналов в многоканальных системах. В этом случае речевые пакеты от разных каналов передаются под одним сетевым заголовком. Такое решение не только уменьшает количество передаваемой служебной информации, но и снижает интенсивность потока.

Основной задачей IP-телефонии является приближение качества услуг к телефонному сервису. С точки зрения используемых сетевых протоколов это означает необходимость создания транспортных механизмов, минимизирующих время доставки по сети, как командной, так и речевой информации.

Реализация шлюзов для IP-телефонии

Как уже было упомянуто в начале статьи все системы IP- телефонии условно можно разделить на базовых схемы: для пользователей персональных компьютеров и пользователей телефонной сети (осуществляющих связь через интернет без использования компьютера.)

Для первой схемы мы можем говорить о двух вариантах реализации: программном (когда все процедуры делает персональный компьютер со встроенной звуковой картой), и программно-аппаратном (когда в компьютер устанавливается специализированная DSP карта, выполняющая основные функции и разгружая тем самым компьютер для другой работы). Первый вариант нашел воплощение в значительном множестве программных продуктов, выпускаемых различными фирмами. Среди них наиболее распространен известный продукт Net Meeting фирмы Microsoft.

Второй вариант также в настоящее время достаточно широко распространен. Для второй схемы можно говорить только об аппаратно-программной реализации, когда в систему входит набор специализированных DSP карт или модулей, работающих, как правило, под управлением некоторого модуля центрального процессора (CPU). Первые продукты такого рода появились примерно 1.5 -2 года тому назад и были реализованы на основе плат фирмы Dialogic (мирового лидера в области компьютерной телефонии) и программного обеспечения, разработанного фирмой VocalTech (пионера в области Интернет-телефонии). Шлюз назывался VocalTech Gateway и коммерчески доступен в настоящее время. Подобный продукт V/IP был создан фирмой Micom и также представляет собой DSP плату в конструктиве IBM-PС, работающую под управлением специального ПО.

Подобные способы построения шлюзов достаточны удобны для офисных и возможно (в некоторых случаях) для корпоративных применений, но для крупных интернет-провайдеров и телекоммуникационных компаний, которым
необходима установка многоканальных систем, такая реализация малопригодна из-за ненадежности функционирования и сложности обеспечения большого числа каналов. Задачи повышения надежности и обеспечения многоканальности должны решаться при разработке аппаратного обеспечения шлюза с учетом ограничения удельной стоимости на канал. Современное развитие элементной базы и стандартизации в области промышленных компьютеров (в том числе с конкретными особенностями для телекоммуникаций) позволяют достаточно эффективно решать эти задачи.

Основной компонент для реализации аппаратного обеспечения шлюзов — это цифровые процессоры обработки сигналов (DSP). В последние годы наблюдается необычайно бурный рост номенклатуры приборов, их производительности, расширение функциональных свойств чипов. Особо следует отметить появление DSP, специально предназначенных для многоканальной обработки, что существенно снижает удельную стоимость оборудования. Первым и наиболее мощным DSP этого класса является TMS320C6201 фирмы Texas Instruments с производительностью до 1600 MIPs, на котором возможна реализация 16 и более голосовых каналов через IP. В гонку за лидером включилась компания Analog Devices, анонсировавшая недавно свой 600 MIPs DSP с плавающей точкой ADSP21160, который несмотря на некоторый проигрыш по производительности имеет свои больший объем внутренней памяти и улучшенную архитектуру.

Что касается развития стандартизации в области промышленных платформ, то одной из наиболее популярных является платформа на базе шины Compact PCI, отличающаяся высокой скоростью (что необходимо для построения многоканальных систем), широкой распространенностью и невысокой стоимостью поддерживающего программного обеспечения (полный электрический и функциональный аналог шины PCI), мощной поддержкой производителей промышленных систем. Следует заметить, что для телекоммуникационных применений стандартизованы дополнительные шины, которые также находят активное применение. Первой такой шиной явилась шина SCbus, разработанная и предложенная фирмой Dialogic. И примерно год назад появилась шина CTbus, являющаяся развитием шины SNbus и совместимая с ней снизу.

Для всех упомянутых шин существуют специализированные микросхемы, необходимые для построения адаптеров шин, что значительно упрощает и удешевляет построение аппаратных средств.

Крупные компании — производители телекоммуникационного оборудования такие как Siemens, Lucent, Motorola, Nokia активно осваивают этот перспективный сегмент рынка IP-телефонии. Как правило, каждый крупный производитель, предлагает свою собственную архитектуру, свою внутреннюю шину, свой способ управления и контроля, свои конструктивы. Мелкие и средние компании также получили высокие шансы для конкуренции с гигантами прежде всего в связи с бурным развитием стандартизации в области промышленных компьютеров, доступностью и сравнительно недорогой стоимостью различных комплектующих (начиная от корпуса и кончая любыми компонентами) при обеспечении всех необходимых свойств промышленных систем.

Задачи, возникающие при реализации шлюзов, во многом аналогичны задачам, решаемым при создании современного станционного оборудования. Вместе с тем, имеется специфика, определяемая широким применением DSP (до десятка и более на одной плате) и особенностями используемых алгоритмов.

Если на плате шлюза совместно размещаются аналоговая и цифровая части, возникает задача электромагнитной совместимости. Если же аналоговая и цифровая части разнесены — задача их сопряжения.

При размещении на одной плате большого числа мощных DSP, например TMS320C6201, возникают серьёзные проблемы с большим энергопотреблением.

При конструировании шлюза важно обеспечить согласование алгоритма с аппаратной частью. Дело в том, что аппаратная часть должна рационально обслуживать алгоритм работы шлюза. Это при экономном использовании аппаратуры не всегда легко (возможно) сделать. Вместе с тем, допустимые модификации алгоритма (распараллеливание вычислений, оптимизация управления ресурсами, рациональный порядок вычислений и пр.) могут оказать заметное влияние на структуру аппаратной реализации и, в целом, обеспечить лучшее решение.

Заключение

Представленный в статье материал, как уже отмечалось, затрагивал избранные вопросы огромной темы — IP-телефонии. Целью статьи было показать не только как технически реализуется то, что называется IP- телефонией, но и особенности таких реализаций, возникающие научные и технические проблемы, причины их появления и возможные пути решения. Мы хотели показать читателю, что IP-телефония, на самом деле, специальная область телефонной связи, интегрирующая методы и средства цифровой обработки сигналов, речевых технологий, управления вычислительными ресурсами на базе высоких технологий. Эта область не только крупных коммерческих интересов, о чем постоянно публикуются статьи в газетах и журналах, но и увлекательных научных исследований и инженерных разработок, благодатная и благодарная нива для студенчества и молодых инженеров.

 




Дополнительно

Проблемы IP-телефонии

Проблемы IP-телефонии

Введение

Одна из доминирующих тенденций в развитии телекоммуникаций — слияние этой научно-технической области с информатикой. В основе такого объединения лежит возможность использования компьютера не только в виде инструмента для обработки информации, но и средства для ее коммутации и передачи. В этом контексте вычислительная сеть может рассматриваться как некоторая универсальная среда для распространения информации.

В основе функционирования современных вычислительных сетей лежат методы пакетной передачи и коммутации, использующие простую идею представления любого вида информации (данные, изображения, речь, звук, служебные и управляющие посылки и т.д.) в виде цифровой последовательности и последующего членения этой последовательности на "кванты" — пакеты, снабженные всей необходимой информацией для их идентификации, маршрутизации, коррекции ошибок и прочее. Такой подход позволяет в едином информационном русле передавать все виды информации, использовать для передачи информации различные пути и различные средства, применять универсальные системы коммутации, инвариантные относительно видов информации.

В условиях неограниченных вычислительных ресурсов и неограниченной пропускной способности каналов построение подобных коммуникационных систем становится чисто технической задачей. Научно-технические проблемы возникают сразу же, как только мы сталкиваемся с ограниченностью упомянутых выше ресурсов. При этом они (эти проблемы) оказываются различными для разных видов информации и требуют для своего решения привлечения предметно ориентированных специалистов.

В данной статье рассматриваются некоторые проблемы, связанные с осуществлением телефонных переговоров по сетям с пакетной передачей и коммутацией в условиях ограниченных ресурсов. На самом деле эти проблемы многоплановы и захватывают широкий спектр вопросов юридического, экономического, научного, технического, организационного и пр. характеров. Мы коснемся лишь научных и технических сторон дела, учитывая, прежде всего, то обстоятельство, что именно эти вопросы наименее освещены, по крайней мере, в отечественных публикациях.

В широком смысле основная задача обсуждаемого варианта телефонии заключается в обеспечении естественного речевого общения двух или нескольких лиц, являющихся абонентами различных коммуникационных сетей, посредством сети связи с коммутацией пакетов.

Поскольку в большинстве вычислительных сетей и прежде всего в сети Интернет для формирования пакетов используется протокол IP (Internet Protocol) телефонию по Интернет и Интранет сетям целесообразно называть IP-телефонией вместо довольно распространенного в отечественной и зарубежной литературе термина Интернет-телефония (либо наряду с последним).

Статья построена по следующему плану. Коротко рассмотрены варианты организации телефонных коммуникаций на базе сети Интернет, что позволяет выделить основной характерный элементы IP-телефонии. Далее рассмотрено информационное представление речевого сигнала с позиций использования в телефонии. Подробно обсуждаются особенности каналов сети Интернет и приводятся результаты экспериментального изучения важнейших характеристик. С учетом характеристик каналов и особенностей организации телефонных соединений формулируются требования к речевым кодекам и предлагаются возможные пути их построения. Обсуждается архитектура основного элемента IP-телефонных систем — шлюза и задачи сигнальной обработки в шлюзе. Отдельно обсуждается вопрос о передачи речи в сети Интернет в связи с оценкой возможности и целесообразности использования существующих протоколов. В заключении обсуждаются варианты практической программно-аппаратной реализации шлюза. .

Варианты построения IP-телефонных систем

Известны и практически реализуются две базовые схемы IP-телефонии. Первая из них рис. 1 связана с организацией телефонных переговоров между пользователями персональных компьютеров, оснащенных мультимедийным оборудованием и (или) специальными программными (программно-аппаратными) средствами, обеспечивающим ведение дуплексных телефонных переговоров, необходимый сервис и контроль. Пользовательские компьютеры могут входить в состав локальной сети, иметь персональный IP-адрес или подключаться к сети Интернет при помощи модема.


Рис. 1. Структурная схема организации телефонной связи через сеть Интернет

Вторая схема — рис. 2, предусматривает использование специальных многофункциональных устройств — шлюзов. Шлюз предназначен для преобразования аналоговых речевых и служебных сигналов в цифровую последовательность, организации из этой последовательности пакетов глобальной сети Интернет и передачи их в сеть, прием пакетов и восстановление цифровой последовательности — цифровых речевых и служебных сигналов и их преобразование в аналоговую форму, а так же решение большого перечня задач (об этом будет сказано далее), связанных с организацией интерфейсов, генерированием и детектированием сигналов абонентской сигнализации, управлением режимами телефонных переговоров и многое другое.

Шлюзы могут устанавливаться на серверах Интернет-провайдеров, городских телефонных станциях, учрежденческих АТС, серверах локальных вычислительных сетей, Web-серверах компаний, нуждающихся в организации голосовых горячих линий, служб технической поддержки, диалоговых справочных служб и т.д. Шлюзы, наконец, могут устанавливаться на маршрутизаторах.

В зависимости от схемы организации связи архитектура шлюза может меняться, могут модифицироваться некоторые функции, выполняемые шлюзом, интерфейсы. Однако главные задачи шлюза — обеспечение качественного дуплексного телефонного общения абонентов в режиме пакетной передачи и коммутации цифровых сигналов сохраняются.

Понятно, что рассмотренные выше базовые схемы могут комбинироваться. Возможны разнообразные способы организации IP-телефонной связи с использованием шлюзов, размещенных в функционально различных точках сети. Однако как свидетельствуют результаты многочисленных обзорных публикаций, рекламные сообщения практически всех фирм, работающих в области IP-телефонии, и здравый смысл применение шлюзов является сегодня магистральным направлением, а собственно шлюз — ключевым элементом.


Рис. 2. Структурная схема организации телефонной связи через сеть Интернет с использованием шлюзов

Информационное представление речевого сигнала

Рассмотрим процесс речевого диалога в системе Интернет с информационной точки зрения. Этот процесс имеет следующие три фазы:

  • соединение абонентов,
  • обмен информацией,
  • разъединение абонентов.

Во время исполнения первой и третьей фаз передаются только управляющие данные и при этом происходит установление соединения. На протяжении второй фазы абоненты обмениваются как управляющими так и информационными данными.

Источником информационных данных является речевой сигнал, возможной моделью которого является нестационарный случайный процесс. В первом приближении можно выделить следующие типы сигнальных фрагментов: вокализированные, невокализированные, переходные и паузы. При передаче речи в цифровой форме, т.е. в виде последовательности чисел, каждый тип сигнала при одной и той же длительности и одинаковом качестве требует различного числа двоичных единиц (бит) для кодирования и передачи. Следовательно, скорость передачи разных типов сигнала также может быть различной. Отсюда следует важный вывод: передачу речевых данных в каждом направлении дуплексного канала разумно рассматривать как передачу асинхронных логически самостоятельных фрагментов цифровых последовательностей (транзакций) с блочной (дейтаграммной) синхронизацией внутри транзакции, наполненной блоками различной длины.

Описанная модель речевого сигнала является базисной для
изучения (анализа)и построения (синтеза) IP-телефонных систем. Асинхронность же транзакций позволяет с одной стороны оптимизировать трафик за счет снижения средней скорости передачи и с другой — за счет относительной свободы в воспроизведении каждой транзакции скомпенсировать неидеальности канала передачи. В связи с изложенным обсуждаемая информационная модель речевого сигнала позволяет изменить стандартную постановку задачи конструирования кодека речевого сигнала для систем IP-телефонии. В отличие от традиционных обсуждаемые кодеки целесообразно строить с переменной скоростью. Этот вопрос мы подробнее рассмотрим в разделе, посвященном речевым кодекам.

Особенности каналов сети Интернет

Среди каналов, на которых может быть организована IP-телефонная связь, особый интерес представляют каналы Интернет. Несмотря на большое разнообразие, характеризуемое пропускными способностями, числом маршрутизаторов, характеристиками физических линий и пр. реально действующие каналы Интернет характеризуются

  • действительной пропускной способностью, определяемой наиболее "узким местом" в виртуальном канале в данный момент времени;
  • трафиком, также являющимся функцией времени;
  • задержкой пакетов, что определяется трафиком, числом маршрутизаторов, реальными физическими свойствами каналов передачи, образующими в данный момент времени виртуальный канал, задержками на обработку сигналов, возникающими в речевых кодеках и других устройствах шлюзов; все это также обеспечивает зависимость задержки от времени;
  • потерей пакетов, обусловленной наличием "узких мест", очередями;
  • перестановкой пакетов, пришедших разными путями.

Упомянутые обстоятельства и эффекты наглядно могут быть представлены в графической форме. Так, на рис. 3 приведены гистограммы задержек пакетов, показывающие эмпирические распределения вероятностей задержек. На оси абсцисс отложена относительная задержка, характеризующая реальное положение пакета в последовательности на временной оси по отношению к идеальному в предположении, что первый пакет пришел без задержки.

Рис. 3. Гистограммы задержки пакетов

Детальное изучение явлений задержки и потери пакетов позволяет сделать следующие выводы. Задержки пакетов существенно зависят от времени. Кривая этой зависимости имеет большой динамический диапазон и скорость изменения. Заметные изменения времени распространения могут произойти на протяжении одного не продолжительного сеанса связи, а колебания времени передачи могут быть в диапазоне от десятков до сотен миллисекунд и даже превышать секунду.

Зависимость рис. 3 показывает величины возникающих задержек и их вероятности. Данная информация исключительно важна для организации процедуры обработки и выбора параметров обработки. Так, становится ясным, что временная структура речевого пакетного потока меняется. Возникает необходимость организации буфера для превращения пакетной речи, отягощенной нестационарными задержками в канале, возможными перестановками пакетов, в непрерывный естественный речевой сигнал реального времени. Параметры буфера определяются компромиссом между величиной запаздывания телефонного сигнала в режиме дуплексной связи и процентом потерянных пакетов. Потеря пакетов является другим важнейшим негативным явлением в Интернет -телефонии.

На рис. 4 представлены гистограммы потерь пакетов. По оси абсцисс отложено число подряд потерянных пакетов. Анализ гистограммы показывает, что наиболее вероятны потери одного, двух и трех пакетов. Потери больших пачек пакетов редки.

Существенно, что потеря большой группы пакетов приводит к необратимым локальным искажениям речи, тогда как потери одного, двух, трех пакетов можно пытаться компенсировать.

Далее будет показано, что отмеченные обстоятельства по новому ставят задачу синтеза речевых кодеков для IP-систем. Интуитивно ясно, что с повышением трафика возрастают задержки и потери в телефонном канале. В условиях ограниченных пропускных способностей это проявляется не только при интегральном увеличении загрузки каналов, например, в часы наибольшей нагрузки, но и при увеличении потока локального источника информации. Кривые графиков рис. 3 и 4, построенные для различных скоростей передачи информации убедительно свидетельствуют о необходимости использования как можно более низких скоростей передачи речевой информации при естественном требовании обеспечения желаемого качества телефонной связи.

Речевые кодеки для IP-телефонии

Особенности функционирования каналов для передачи речевых данных, и прежде всего сети Интернет, а также возможные варианты построения систем телефонной связи на базе сети Интернет предъявляют ряд специфических требований к речевым кодекам (вокодерам). В силу пакетного принципа передачи и коммутации речевых данных отпадает необходимость кодирования и синхронной передачи одинаковых по длительности фрагментов речи, Как было отмечено выше, наиболее целесообразным и естественным для систем IP-телефонии является применение кодеков с переменной скоростью кодирования речевого сигнала. В основе кодека речи с переменной скоростью лежит классификатор входного сигнала, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является Voice Activity Detector (VAD), который выделяет во входном речевом сигнале активную речь и паузы. При этом, фрагменты сигнала, классифицируемые как активная речь, кодируются каким-либо из известных алгоритмов (как правило на базе метода Code Excited Linear Prediction — CELP) с типичной скоростью 4 — 8 Кбит/с. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0.1 — 0.2 Кбит/с), либо не передаются вообще. Передача минимальной информации о паузных фрагментах предпочтительна.

Схемы более эффективных классификаторов входного сигнала детальнее осуществляют классификацию фрагментов, соответствующих активной речи. Это позволяет оптимизировать выбор стратегии кодирования (скорости передачи данных), выделяя для особо ответственных за качество речи участков речевого сигнала большее число бит (сответственно большую скорость), для менее ответственных — меньше бит (меньшую скорость). При таком построении кодеков могут быть достигнуты низкие средние скорости (2 — 4 Кбит/с) при высоком качестве синтезируемой речи.

Необходимо отметить, что для рассматриваемых приложений традиционная для вокодеров проблема снижения задержки при обработке сигнала в кодеке не является актуальной, так как величина суммарной задержки при передаче речи в системах IP-телефонии главным образом определяется задержками вносимыми каналами сети Интернет. Тем не менее, решения, позволяющие снизить задержку в вокодере, представляют практический интерес.

Проведенный в различных исследовательских группах анализ качества синтезированной речи при передачи речевых данных через сеть Интернет показывает, что основным источником возникновения искажений, снижения качества и разборчивости синтезированной речи является прерывание потока речевых данных, вызванное потерями при передачи по сети либо превышением предельно допустимого времени доставки пакета с речевыми данными. Гистограммы распределения числа последовательно потерянных пакетов, приведенные на рис. 4, показывают, что вероятность одиночных потерь выше вероятности потерь нескольких кадров подряд. Можно ожидать, что с развитием сети Интернет при дальнейшем увеличении ее пропускной способности, оптимизации маршрутизаторов и протоколов преобладающую роль будут играть потери одиночных пакетов. Следует заметить, что в случае прихода пакета данные, как правило, доставляются без ошибок. В таких условиях помехоустойчивое кодирование речевых данных нецелесообразно.

Таким образом, одной из важнейших задач при построении вокодеров для IP-телефонии является создание алгоритмов компрессии речи толерантных к потерям пакетов.

Для обслуживания широкой сети абонентов система IP телефонной связи с использованием шлюзов должна включать абонентские линии связи с аналоговыми окончаниями. Это означает, что синтезированный в шлюзе аналоговый речевой сигнал по соединительной линии будет поступать на телефонный аппарат абонента. Точно также сигнал с выхода микрофона телефонного аппарата абонента по аналоговой линии будет поступать на вход вокодера, размещенного в шлюзе. Хорошо известно, что классические алгоритмы низкоскоростной компрессии речи чувствительны к амплитудно-частотным искажениям, возможным в соединительных линиях и акустических трактах. При создании алгоритмов низкоскоростных вокодеров это обстоятельство должно приниматься во внимание.

Каковы же перспективы создания вокодеров для IP-телефонии? Что имеется сегодня и ожидается в ближайшее время? Насколько можно судить по литературным данным специальных разработок для Интернет-телефонии, рекомендованных ITU-T (сектор стандартизации в области телекоммуникаций международного союза телекоммуникаций) пока не существует. Среди международных стандартов, рекомендуемых для подобных систем, чаще других упоминается G.723.1, обеспечивающий передачу речи со скоростью 5,3 и 6,3 Кбит/с, а так же G.729 для скорости передачи 8 Кбит/с.

Гарантируя достаточно высокое качество речи в идеальных условиях передачи, упомянутые стандарты были разработаны для использования в каналах, отличных от Интернет и уже позже частично адаптировались для условий потерь пакетов. Развития этих стандартов включают в себя Voice Activity Detector и элементы, ответственные за синтез речевого сигнала на фрагментах, соответствующих потерянным речевым данным. В настоящее время ведущие в области телекоммуникаций фирмы и университеты проводят разработки алгоритмов вокодеров для Интернет-телефонии. Ориентируясь на рекламные публикации и собственные исследования, можно ожидать появления в ближайшие годы алгоритмов компрессии со средними скоростями 2 — 4 Кбит/с и ниже с качеством синтезированной речи, близким к коммерческому, при допустимых искажениях в условиях 20% потерь пакетов с речевыми данными.

В заключении этого раздела следует коротко отметить перспективные на наш взгляд пути построения низкоскоростных вокодеров с переменной скоростью. Во всех случаях здесь предпочтительными являются методы, использующие линейное предсказание. При этом, для скоростей более 3 Кбит/с целесообразно использование CELP-алгоритмов. Для более низких скоростей передачи данных алгоритмы будут, по-видимому, строится на базе тщательной классификации речевого сигнала с их последующим рациональным кодированием.

Шлюз и его архитектура

Исходя из вышеизложенного, реализовывать функции IP-телефонии будет устройство (или устройства) — шлюз, которое с сетевой точки зрения осуществляет преобразование управляющей информации и данных, поступающих из одной сети (например PSTN) в пакеты глобальной сети Интернет и обратно. Причем такое преобразование не должно значительно исказить исходный речевой сигнал, а режим передачи обязан сохранить обмен информацией между абонентами в реальном масштабе времени.

Более полно основные функции выполняемые шлюзом при соединении типа "точка-точка" состоят в следующем.

  • Реализация физического интерфейса с коммуникационной сетью.
  • Детектирование и генерация сигналов абонентской сигнализации.
  • Преобразование сигналов абонентской сигнализации в пакеты данных и обратно.
  • Преобразование речевого сигнала в пакеты данных и обратно.
  • Соединение абонентов.
  • Передача по сети сигнализационных и речевых пакетов.
  • Разъединение связи.

Большая часть функций шлюза в рамках архитектуры TCP/IP реализуются в процессах прикладного уровня.

Наличие разноплановых с вычислительной точки зрения функций, выполняемых системой, порождает проблему ее программной и аппаратной реализации. Рациональное решение этой проблемы основано на использовании распределенной системы, в которой управленческие задачи и связь с сетью осуществляется с помощью универсального процессора, а решения задач сигнальной обработки и телефонного интерфейса выполняются на цифровом процессоре обработки сигналов.

Сигнальная обработка в шлюзе

Схема сигнальной обработки в шлюзе при подключении аналогового 2-х проводного телефонного канала PSTN показана на рис. 6.

Телефонный сигнал с 2-х проводной линии поступает на дифференциальную систему, которая разделяет приемную и передающую часть канала. Далее сигнал передачи вместе с "просочившейся" частью сигнала приема подается на аналого-цифровой преобразователь и превращается либо в стандартный 12 разрядный сигнал либо в 8-ми разрядный сигнал, закодированный по µ- либо А- закону. В последнем случае обработка должна также включать соответствующий экспандер. В устройстве эхо-компенсации из сигнала передачи удаляются остатки принимаемого сигнала. Эхо-компенсатор представляет собой адаптивный нерекурсивный фильтр, длина памяти (порядок) которого и механизм адаптации выбираются такими, чтобы удовлетворить требованиям рекомендации МКKТТ (ITU-T) G.165. Для обнаружения и определения сигналов внутриполосной телефонной сигнализации (MF сигналов), сигналов DTMF либо импульсного наборов используются детекторы соответствующих типов. В режиме сессии дальнейшая обработка входного сигнала происходит в речевом кодере. В анализаторе кодера сигнал сегментируется на отдельные фрагменты длительностью 30 мс и каждому входному блоку, состоящему из 240 отсчетов (1920 бит при А либо µ- коде и 2880 бит при 12-ти разрядном линейном коде), сопоставляется информационный кадр длиной 137 бит.

Часть параметров, вычисленная в анализаторе, используется в блоке определения голосовой активности (VAD — voice activity detector), который решает является ли текущий анализируемый фрагмент сигнала речью или паузой. При наличии паузы информационный кадр может не передаваться в службу виртуального канала. Режим передачи паузных кадров следующий. На сеансовый уровень передается лишь каждый пятый кадр такого типа. Кроме того, при отсутствии речи для кодировки текущих спектральных параметров используется только 27 бит. На приемной стороне из виртуального канала в логический поступает либо информационный кадр (длиной 137 или 27 бит) либо флаг наличия паузы. На паузных кадрах вместо речевого синтезатора включается генератор комфортного шума, который восстанавливает спектральный состав паузного сигнала. Параметры генератора обновляются при получении паузного информационного кадра. Наличие информационного кадра длиной 137 бит включает речевой декодер, на выходе которого формируется 12-ти разрядный речевой сигнал. Для эхо-компенсатора этот сигнал является сигналом дальнего абонента, фильтрация которого дает составляющую электрического эха в передаваемом сигнале. В зависимости от типа цифро-аналогового преобразования сигнал может быть подвергнут дополнительной кодировке по А- либо µ- закону.

Анализ схемы сигнальной обработки и опыт разработки позволяют выделить следующие основные проблемы цифровой обработки сигналов в шлюзе.

При использовании двухпроводных абонентских линий актуальной остаётся задача эхокомпенсации, особенность которой состоит в том, что компенсировать необходимо два различных класса сигналов — речи и телефонной сигнализации. Очень важной является задача обнаружения и детектирования телефонной сигнализации. Её сложность состоит в том, что служебные сигналы могут перемешиваться с сигналами речи.

Ключевая задача построения кодеков речи подробно обсуждалось в разделе "Речевые кодеки для IP телефонии". С построением кодеков тесно связана задача синтеза VAD. Основная трудность состоит в правильном детектировании пауз речи на фоне достаточно интенсивного акустического шума (шум офиса, улицы, автомобиля и т.д.)

Сетевые протоколы

При организации телефонных переговоров по вычислительным сетям необходимо передавать два типа информации: командную и речевую. К командной информации относятся сигналы вызова, разъединения, а также другие служебные сообщения.

Краеугольный камень сети ИНТЕРНЕТ — Internet Protocol (IP). Это протокол сетевого уровня, который обеспечивает маршрутизацию пакетов в сети. Он, однако, не гарантирует надежную доставку пакетов. Таким образом, пакеты могут искажаться, задерживаться, передаваться по различным маршрутам (а значит иметь различное время передачи) и т. д. На основе IP работают протоколы транспортного уровня Transport Control Protocol (TCP) и User Datagram Protocol (UDP).

Основное требование к передаче командной информации — отсутствие ошибок передачи. В результате необходимо использовать достоверный протокол доставки сообщений. Обычно, в качестве такого протокола используется TCP, обеспечивающий гарантированную доставку сообщений. Время доставки сообщений также играет немаловажную роль в этом случае. К сожалению, этот параметр является нестабильным, т. к. при появлении ошибок передачи сообщение передается повторно. Передача повторяется до тех пор пока сообщение не будет доставлено успешно. Таким образом, длительность служебных процедур может бесконтрольно увеличиваться, что недопустимо, например, для этапа установления соединения, а также некоторых процедур связанных с передачей по сети телефонной сигнализации. Открытой проблемой в этой области является создание достоверного механизма передачи, который не только гарантирует безошибочную доставку информации, но также минимизирует время доставки при появлении ошибок передачи.

При передаче речевой информации проблема времени доставки пакетов по сети становиться основной. Это вызвано необходимостью поддерживать общение абонентов в реальном масштабе времени, для чего задержки не должны превышать 250 — 300 мс. В таком режиме использование повторных передач недопустимо, и следовательно, для передачи речевых пакетов приходится использовать недостоверные транспортные протоколы, например, UDP. При обнаружении ошибки передачи факт ошибки фиксируется, но повторной передачи для ее устранения не производится. Пакеты, передаваемые по протоколу UDP могут теряться. В одних случаях это может быть связано со сбоями оборудования. В других — с тем, что "время жизни" пакета истекло, и он был уничтожен на одном из маршрутизаторов. При потерях пакетов повторные передачи также не организуются. В процессе передачи возможны перестановки пакетов в потоке, а также искажения речевых пакетов. Последнее однако происходит крайне редко.

Перед поступлением речевого потока на декодер он должен быть восстановлен. Для этого используется протокол реального времени. В заголовке данного протокола передаются, в частности, временная метка и номер пакета. Эти параметры позволяют определить не только порядок пакетов в потоке, но и момент декодирования каждого пакета, т. е. позволяют восстановить поток. Наиболее распространенный протокол реального времени — Real Time Protocol (RTP), рекомендованный к использованию в стандарте на построение систем реального времени H.323.

Искажения потока пакетов связаны с загруженностью сети. При отсутствии перегрузок искажения минимальны, а часто отсутствуют. Поток речевых пакетов может значительно загружать сеть, особенно, в случае многоканальных систем. Это происходит из-за высокой интенсивности потока (кадры небольшого размера передаются через малые промежутки времени 20 байт/ 30 мс) и большого объема передаваемой служебной информации. Зная размеры заголовков сетевых протоколов (IP — 20 байт, UDP — 8 байт, RTP — 12 байт), легко вычислить общий объем заголовка речевого пакета — 40 байт. Это в 2 раза превышает размер самого пакета. Передача такого объема служебной информации неприемлема, особенно, при построении многоканальных систем. Таким образом, необходимо искать способы уменьшения количества служебной информации, передаваемой по сети. Существует два возможных варианта решения этой проблемы. Первый предполагает создание специальных транспортных протоколов для IP-телефонии, которые могли бы уменьшить заголовок протокола транспортного уровня. Второй вариант — мультеплексирование каналов в многоканальных системах. В этом случае речевые пакеты от разных каналов передаются под одним сетевым заголовком. Такое решение не только уменьшает количество передаваемой служебной информации, но и снижает интенсивность потока.

Основной задачей IP-телефонии является приближение качества услуг к телефонному сервису. С точки зрения используемых сетевых протоколов это означает необходимость создания транспортных механизмов, минимизирующих время доставки по сети, как командной, так и речевой информации.

Реализация шлюзов для IP-телефонии

Как уже было упомянуто в начале статьи все системы IP- телефонии условно можно разделить на базовых схемы: для пользователей персональных компьютеров и пользователей телефонной сети (осуществляющих связь через интернет без использования компьютера.)

Для первой схемы мы можем говорить о двух вариантах реализации: программном (когда все процедуры делает персональный компьютер со встроенной звуковой картой), и программно-аппаратном (когда в компьютер устанавливается специализированная DSP карта, выполняющая основные функции и разгружая тем самым компьютер для другой работы). Первый вариант нашел воплощение в значительном множестве программных продуктов, выпускаемых различными фирмами. Среди них наиболее распространен известный продукт Net Meeting фирмы Microsoft.

Второй вариант также в настоящее время достаточно широко распространен. Для второй схемы можно говорить только об аппаратно-программной реализации, когда в систему входит набор специализированных DSP карт или модулей, работающих, как правило, под управлением некоторого модуля центрального процессора (CPU). Первые продукты такого рода появились примерно 1.5 -2 года тому назад и были реализованы на основе плат фирмы Dialogic (мирового лидера в области компьютерной телефонии) и программного обеспечения, разработанного фирмой VocalTech (пионера в области Интернет-телефонии). Шлюз назывался VocalTech Gateway и коммерчески доступен в настоящее время. Подобный продукт V/IP был создан фирмой Micom и также представляет собой DSP плату в конструктиве IBM-PС, работающую под управлением специального ПО.

Подобные способы построения шлюзов достаточны удобны для офисных и возможно (в некоторых случаях) для корпоративных применений, но для крупных интернет-провайдеров и телекоммуникационных компаний, которым
необходима установка многоканальных систем, такая реализация малопригодна из-за ненадежности функционирования и сложности обеспечения большого числа каналов. Задачи повышения надежности и обеспечения многоканальности должны решаться при разработке аппаратного обеспечения шлюза с учетом ограничения удельной стоимости на канал. Современное развитие элементной базы и стандартизации в области промышленных компьютеров (в том числе с конкретными особенностями для телекоммуникаций) позволяют достаточно эффективно решать эти задачи.

Основной компонент для реализации аппаратного обеспечения шлюзов — это цифровые процессоры обработки сигналов (DSP). В последние годы наблюдается необычайно бурный рост номенклатуры приборов, их производительности, расширение функциональных свойств чипов. Особо следует отметить появление DSP, специально предназначенных для многоканальной обработки, что существенно снижает удельную стоимость оборудования. Первым и наиболее мощным DSP этого класса является TMS320C6201 фирмы Texas Instruments с производительностью до 1600 MIPs, на котором возможна реализация 16 и более голосовых каналов через IP. В гонку за лидером включилась компания Analog Devices, анонсировавшая недавно свой 600 MIPs DSP с плавающей точкой ADSP21160, который несмотря на некоторый проигрыш по производительности имеет свои больший объем внутренней памяти и улучшенную архитектуру.

Что касается развития стандартизации в области промышленных платформ, то одной из наиболее популярных является платформа на базе шины Compact PCI, отличающаяся высокой скоростью (что необходимо для построения многоканальных систем), широкой распространенностью и невысокой стоимостью поддерживающего программного обеспечения (полный электрический и функциональный аналог шины PCI), мощной поддержкой производителей промышленных систем. Следует заметить, что для телекоммуникационных применений стандартизованы дополнительные шины, которые также находят активное применение. Первой такой шиной явилась шина SCbus, разработанная и предложенная фирмой Dialogic. И примерно год назад появилась шина CTbus, являющаяся развитием шины SNbus и совместимая с ней снизу.

Для всех упомянутых шин существуют специализированные микросхемы, необходимые для построения адаптеров шин, что значительно упрощает и удешевляет построение аппаратных средств.

Крупные компании — производители телекоммуникационного оборудования такие как Siemens, Lucent, Motorola, Nokia активно осваивают этот перспективный сегмент рынка IP-телефонии. Как правило, каждый крупный производитель, предлагает свою собственную архитектуру, свою внутреннюю шину, свой способ управления и контроля, свои конструктивы. Мелкие и средние компании также получили высокие шансы для конкуренции с гигантами прежде всего в связи с бурным развитием стандартизации в области промышленных компьютеров, доступностью и сравнительно недорогой стоимостью различных комплектующих (начиная от корпуса и кончая любыми компонентами) при обеспечении всех необходимых свойств промышленных систем.

Задачи, возникающие при реализации шлюзов, во многом аналогичны задачам, решаемым при создании современного станционного оборудования. Вместе с тем, имеется специфика, определяемая широким применением DSP (до десятка и более на одной плате) и особенностями используемых алгоритмов.

Если на плате шлюза совместно размещаются аналоговая и цифровая части, возникает задача электромагнитной совместимости. Если же аналоговая и цифровая части разнесены — задача их сопряжения.

При размещении на одной плате большого числа мощных DSP, например TMS320C6201, возникают серьёзные проблемы с большим энергопотреблением.

При конструировании шлюза важно обеспечить согласование алгоритма с аппаратной частью. Дело в том, что аппаратная часть должна рационально обслуживать алгоритм работы шлюза. Это при экономном использовании аппаратуры не всегда легко (возможно) сделать. Вместе с тем, допустимые модификации алгоритма (распараллеливание вычислений, оптимизация управления ресурсами, рациональный порядок вычислений и пр.) могут оказать заметное влияние на структуру аппаратной реализации и, в целом, обеспечить лучшее решение.

Заключение

Представленный в статье материал, как уже отмечалось, затрагивал избранные вопросы огромной темы — IP-телефонии. Целью статьи было показать не только как технически реализуется то, что называется IP- телефонией, но и особенности таких реализаций, возникающие научные и технические проблемы, причины их появления и возможные пути решения. Мы хотели показать читателю, что IP-телефония, на самом деле, специальная область телефонной связи, интегрирующая методы и средства цифровой обработки сигналов, речевых технологий, управления вычислительными ресурсами на базе высоких технологий. Эта область не только крупных коммерческих интересов, о чем постоянно публикуются статьи в газетах и журналах, но и увлекательных научных исследований и инженерных разработок, благодатная и благодарная нива для студенчества и молодых инженеров.