Распознавание речи за специализированными чипами?

Исследователи из Университета Carnegie Mellon решили использовать специализированные компьютерные чипы для задачи распознавания голоса. Как известно, программным путем эта задача толком еще не решена.

Вообще же распознавание голоса является старой задачей в компьютерной индустрии и заветной мечтой одновременно. Для большинства пользователей она так и остается недостижимым чудом. Однако исследователь Роб Рутенбар (Rob Rutenbar) приводит доводы в пользу использования специализированных решений для этой задачи, т.е. специальных оптимизированных чипов. Они, как утверждается, позволят распознавать человеческую речь более эффективно, чем программные решения и при этом чипы не будут затрачивать много энергии. Об этом и было рассказано на прошедшей конференции "Hot Chips". Как и в случае с трехмерной графикой предложено разрабатывать и использовать узкоспециальные компьютерные чипы.

Аппаратное распознавание речи, как планируется, позволит решать такие задачи, как, например, произнеся фразу "Hasta la vista, baby", произвести поиск кадра в известном фильме с изображением актера Арнольда Шварценеггера. А энергоэффективные чипы в мобильных телефонах позволят вводить текстовые сообщения под диктовку.

На данный момент исследования ведутся при использовании двух различных подходов. Первый заключается в применении чипов ASIC (application-specific integrated circuit), а второй подразумевает чипы FPGA (field programmable gate array). Г-н Рутенбар продемонстрировал видеозапись эксперимента, в ходе которого производилось распознавание текста (словарь ~1000 слов) средствами FPGA-процессоров. Как отмечается, система успешно распознала несколько коротких предложений и затратила на это времени вдвое больше, чем время, в течение которого предложения были произнесены. При этом точность распознавания соответствовала программной разработке "Sphinx" того же Университета Carnegie Mellon.

Рутенбар отметил, что первое поколение чипов по распознаванию речи будет примерно вдвое быстрее, а успешное распознавание будет производиться по словарю из 5000 слов. Ведутся разработки и такого аппаратного решения, которое сможет распознавать речь в 10 раз быстрее, чем она произносится, а в дальнейших планах довести это соотношение до 100 и 1000 раз... Что ж, многообещающее заявление. Лишь бы не получилось как обычно, когда "требуется быстродействие процессора хотя бы вдвое выше, чем есть сегодня", - примерно так раньше оценивалось ресурсоемкость данной задачи.

Как работает аппаратное распознавание? В двух словах схема примерно следующая. В задачи чипа по распознаванию речи входит преобразование аудиосигнала в комбинацию шумов, которые формируют любой из примерно 50 разных звуков, что уже само по себе нетривиальная задача, т.к. в английском языке та же "i" может означать "и" и "ай". Таким образом, реально нужно работать уже с примерно 1000 возможными комбинациями звуков. Далее чип производит сравнение звуков с использованными в словах. И третий шаг заключается в поиске похожих комбинаций пар и троек слов, чтобы улучшить точность распознавания. В данном случае скорость процесса напрямую зависит от быстродействия подсистемы памяти - чем пропускная способность памяти выше, тем быстрее будут производиться сравнения.

Распознавание речи за специализированными чипами?

Все новости за сегодня

Календарь