Распознавание речи за специализированными чипами?

1174

Исследователи из Университета Carnegie Mellon решили использовать специализированные компьютерные чипы для задачи распознавания голоса. Как известно, программным путем эта задача толком еще не решена.

Вообще же распознавание голоса является старой задачей в компьютерной индустрии и заветной мечтой одновременно. Для большинства пользователей она так и остается недостижимым чудом. Однако исследователь Роб Рутенбар (Rob Rutenbar) приводит доводы в пользу использования специализированных решений для этой задачи, т.е. специальных оптимизированных чипов. Они, как утверждается, позволят распознавать человеческую речь более эффективно, чем программные решения и при этом чипы не будут затрачивать много энергии. Об этом и было рассказано на прошедшей конференции "Hot Chips". Как и в случае с трехмерной графикой предложено разрабатывать и использовать узкоспециальные компьютерные чипы.

Аппаратное распознавание речи, как планируется, позволит решать такие задачи, как, например, произнеся фразу "Hasta la vista, baby", произвести поиск кадра в известном фильме с изображением актера Арнольда Шварценеггера. А энергоэффективные чипы в мобильных телефонах позволят вводить текстовые сообщения под диктовку.

На данный момент исследования ведутся при использовании двух различных подходов. Первый заключается в применении чипов ASIC (application-specific integrated circuit), а второй подразумевает чипы FPGA (field programmable gate array). Г-н Рутенбар продемонстрировал видеозапись эксперимента, в ходе которого производилось распознавание текста (словарь ~1000 слов) средствами FPGA-процессоров. Как отмечается, система успешно распознала несколько коротких предложений и затратила на это времени вдвое больше, чем время, в течение которого предложения были произнесены. При этом точность распознавания соответствовала программной разработке "Sphinx" того же Университета Carnegie Mellon.

Рутенбар отметил, что первое поколение чипов по распознаванию речи будет примерно вдвое быстрее, а успешное распознавание будет производиться по словарю из 5000 слов. Ведутся разработки и такого аппаратного решения, которое сможет распознавать речь в 10 раз быстрее, чем она произносится, а в дальнейших планах довести это соотношение до 100 и 1000 раз... Что ж, многообещающее заявление. Лишь бы не получилось как обычно, когда "требуется быстродействие процессора хотя бы вдвое выше, чем есть сегодня", - примерно так раньше оценивалось ресурсоемкость данной задачи.

Как работает аппаратное распознавание? В двух словах схема примерно следующая. В задачи чипа по распознаванию речи входит преобразование аудиосигнала в комбинацию шумов, которые формируют любой из примерно 50 разных звуков, что уже само по себе нетривиальная задача, т.к. в английском языке та же "i" может означать "и" и "ай". Таким образом, реально нужно работать уже с примерно 1000 возможными комбинациями звуков. Далее чип производит сравнение звуков с использованными в словах. И третий шаг заключается в поиске похожих комбинаций пар и троек слов, чтобы улучшить точность распознавания. В данном случае скорость процесса напрямую зависит от быстродействия подсистемы памяти - чем пропускная способность памяти выше, тем быстрее будут производиться сравнения.

24 августа 2006

00:03

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Владельцы некоторых водонепроницаемых смартфонов Sony могут получить 50% их стоимости : Пару лет назад Sony изменила правила использования своих защищенных устройств под водой1

Названы цены смартфонов Sony Xperia XZ1 и XZ1 Compact : Анонс новых смартфонов Sony ожидается 31 августа

Аналитик компании Rosenblatt утверждает, что в этом полугодии будет выпущено 35-40 млн смартфонов Apple iPhone 8: В текущем квартале будет собрано всего 5 млн аппаратов Apple iPhone с экранами OLED1

Новый фильтр 3M, защищающий изображение на экране от посторонних глаз, на 30% прозрачнее своего предшественника: Кроме того, он уменьшает долю синего цвета1

Смартфон Vivo V7+ получит революционную фронтальную камеру: 7 сентября компания Vivo проведет пресс-конференцию, на которой будет представлен новый смартфон Vivo V7+

Смартфон Meiigoo S8 можно спутать с Samsung Galaxy S8: В продажу новинка поступит в сентябре1

Новая экшн-камера Xiaomi Mijia Compact Camera с поддержкой RAW и 4К оценена в $105: Камера оснащена однокристальной системой Ambarella A12S75 и датчиком изображения Sony IMX3171

Fujitsu готовит к продаже производство смартфонов; в числе возможных покупателей значится Lenovo: Первый раунд торгов может начаться уже в сентябре

Покупатели Samsung Galaxy Note 8 получат привлекательные бонусы: Samsung Galaxy Note 8 должны представить уже сегодня в 18:00 мск4

Toshiba и Western Digital могут договориться до конца месяца: Toshiba сделала приоритетными переговоры о продаже полупроводникового производства с Western Digital 1

Подтверждено существование версий Meizu M6 Note с Helio P25 и Snapdragon 625: Анонс Meizu M6 Note состоится уже сегодня

Самоуправляемый погрузчик Seegrid GP8 Series не требует вспомогательной инфраструктуры : Машина построена на улучшенной версии платформы Seegrid Smart Platform1

Фото дня: модуль 3D-камеры смартфона Apple iPhone 8: Анонс смартфона Apple iPhone следующего поколения ожидается осенью7

Объем внешнего накопителя WD My Book Duo достигает 20 ТБ: My Book Duo — самый емкий накопитель Western Digital

Объем рынка флэш-памяти типа NAND во втором квартале 2017 года превысил 13 млрд долларов: За квартал рынок флэш-памяти типа NAND вырос на 8%

Появились первые изображения камеры Olympus OM-D E-M10 Mark III, названа цена : Производитель предложит два варианта внешнего оформления камеры: черный и серебристый1

Красногорский механический завод им. Зверева готовит к выпуску полнокадровую беззеркальную камеру: Фотоаппарат будет носить марку «Зенит» 23

Huawei выпустит новый флагманский смартфон в двух версиях: Mate 10 и Mate 10 Pro: Huawei Mate 10 получит обычный экран, а Mate 10 Pro — более вытянутый 6

ОПРОС GOODRAM

Установлен ли в вашем компьютере SSD накопитель?
1318

iXBT TV

  • Электро-Maybach, топовая Nokia и действительно оригинальный смартфон

  • Обзор видеоускорителя AMD Radeon RX Vega 64

  • Обзор легкой, компактной и дешевой мясорубки Kitfort KT-2101 Carnivora

  • Обзор беззеркальной фотокамеры Fujifilm X-T20

  • Обзор кинотеатрального DLP-проектора BenQ W11000 с эмуляцией разрешения 4К

  • AMD Ryzen Threadripper 1920Х и 1950X — тестирование 12-ядерного и 16-ядерного процессоров

  • Обзор мини-ПК ECS Liva Z на базе процессора Apollo Lake

  • Самый лучший процессор, неудачи Microsoft, гибкие наушники Samsung

  • Обзор цветного МФУ Xerox VersaLink C405 для малых и средних офисов

  • Обзор умного чайника Redmond SkyKettle RK-G200S с подсветкой и нагревом воды до нужной температуры

  • Конфигурируем мини-ПК: изучаем влияние памяти и накопителя на быстродействие системы

  • 3D-карты AMD Radeon RX Vega, цены, спецификации, смартфон Meizu Pro 7

1212

Календарь

август
Пн
Вт
Ср
Чт
Пт
Сб
Вс

Рекомендуем почитать