Распознавание речи за специализированными чипами?

ПредыдущаяСледующая
1174

Исследователи из Университета Carnegie Mellon решили использовать специализированные компьютерные чипы для задачи распознавания голоса. Как известно, программным путем эта задача толком еще не решена.

Вообще же распознавание голоса является старой задачей в компьютерной индустрии и заветной мечтой одновременно. Для большинства пользователей она так и остается недостижимым чудом. Однако исследователь Роб Рутенбар (Rob Rutenbar) приводит доводы в пользу использования специализированных решений для этой задачи, т.е. специальных оптимизированных чипов. Они, как утверждается, позволят распознавать человеческую речь более эффективно, чем программные решения и при этом чипы не будут затрачивать много энергии. Об этом и было рассказано на прошедшей конференции "Hot Chips". Как и в случае с трехмерной графикой предложено разрабатывать и использовать узкоспециальные компьютерные чипы.

Аппаратное распознавание речи, как планируется, позволит решать такие задачи, как, например, произнеся фразу "Hasta la vista, baby", произвести поиск кадра в известном фильме с изображением актера Арнольда Шварценеггера. А энергоэффективные чипы в мобильных телефонах позволят вводить текстовые сообщения под диктовку.

На данный момент исследования ведутся при использовании двух различных подходов. Первый заключается в применении чипов ASIC (application-specific integrated circuit), а второй подразумевает чипы FPGA (field programmable gate array). Г-н Рутенбар продемонстрировал видеозапись эксперимента, в ходе которого производилось распознавание текста (словарь ~1000 слов) средствами FPGA-процессоров. Как отмечается, система успешно распознала несколько коротких предложений и затратила на это времени вдвое больше, чем время, в течение которого предложения были произнесены. При этом точность распознавания соответствовала программной разработке "Sphinx" того же Университета Carnegie Mellon.

Рутенбар отметил, что первое поколение чипов по распознаванию речи будет примерно вдвое быстрее, а успешное распознавание будет производиться по словарю из 5000 слов. Ведутся разработки и такого аппаратного решения, которое сможет распознавать речь в 10 раз быстрее, чем она произносится, а в дальнейших планах довести это соотношение до 100 и 1000 раз... Что ж, многообещающее заявление. Лишь бы не получилось как обычно, когда "требуется быстродействие процессора хотя бы вдвое выше, чем есть сегодня", - примерно так раньше оценивалось ресурсоемкость данной задачи.

Как работает аппаратное распознавание? В двух словах схема примерно следующая. В задачи чипа по распознаванию речи входит преобразование аудиосигнала в комбинацию шумов, которые формируют любой из примерно 50 разных звуков, что уже само по себе нетривиальная задача, т.к. в английском языке та же "i" может означать "и" и "ай". Таким образом, реально нужно работать уже с примерно 1000 возможными комбинациями звуков. Далее чип производит сравнение звуков с использованными в словах. И третий шаг заключается в поиске похожих комбинаций пар и троек слов, чтобы улучшить точность распознавания. В данном случае скорость процесса напрямую зависит от быстродействия подсистемы памяти - чем пропускная способность памяти выше, тем быстрее будут производиться сравнения.

24 августа 2006 Г.

00:03

Ctrl
ПредыдущаяСледующая

Все новости за сегодня

Обе камеры смартфона Huawei nova 3 будут сдвоенными: Анонс смартфона Huawei nova 3 ожидается в декабре

Видеокарту PowerColor Radeon RX Vega 64 Devil уже можно предзаказать, расставшись с £590: Видеокарта PowerColor Radeon RX Vega 64 Devil занимает, видимо, три слота расширения

Asus в 2018 году останется крупнейшим поставщиком системных плат: Средняя цена системных плат Asus растет 2

Китай за три года хочет создать ускоритель ИИ, который будет в 20 раз производительнее Tesla M40: Китай хочет стать лидером на рынке технологий искусственного интеллекта2

В Восточной Европе зафиксирован существенный рост продаж телевизоров, хотя рынок в целом просел на 5%: Рынок телевизоров просел на 5%10

Начались продажи чехлов и объективов Moment для смартфона Apple iPhone X: Защитный чехол Photo Case используется для крепления объективов. 2

Камера Sony a7R III тоже «ест звезды»: Неотключаемый алгоритм шумоподавления не дает использовать Sony a7RIII для съемки звездного неба7

Для управления роботом Toyota T-HR3 используется 170-килограммовый модуль и шлем виртуальной реальности: Toyota представила робота-гуманоида T-HR31

Основой мини-компьютера Axiomtek eBOX560-512-FL служит процессор Intel Core i5-7300U или Celeron 3965U с пассивным охлаждением: Конфигурация eBOX560-512-FL может включать один модуль DDR4-2133 SO-DIMM объемом до 16 ГБ

Модули памяти DDR4 серии Patriot Viper LED украшены подсветкой: Подсветка встроена в алюминиевые радиаторы

Стойки Sanus WSS51 предназначены для беспроводных акустических систем Sonos Play:5: АС Sonos Play:5 можно закрепить на Sanus WSS51 горизонтально или вертикально

Пылесосы Roomba обзавелись поддержкой IFTTT: Поддержка сервиса IFTTT, теснее интегрирует Roomba в умный дом12

BMW отзывает все автомобили BMW i3 и временно прекращает продажи модели: Продажи автомобиля будут возобновлены, когда BMW внесет необходимые изменения в конструкцию15

По подсчетам IDC, в первом полугодии рынок бизнес-сервисов и IT-сервисов вырос на 4,0%: В денежном выражении он достиг 475 млрд долларов

На сайте Samsung появилась страница, имеющая отношение к смартфону Galaxy X со сгибающимся экраном: Вариант Samsung Galaxy X для южнокорейского рынка носит индекс SM-G888N0 8

В десятку лучших устройств этого года по версии Time вошли Nintendo Switch, iPhone X, Galaxy S8 и Apple Watch Series 3: Первое место досталось инновационной игровой консоли Nintendo Switch16

Продажи ноутбуков в Индии более чем удвоились всего за квартал: Индийский рынок ПК растет на фоне сокращения мирового рынка2

Представлена АС Amazon All-new Echo Product (RED) edition: Начало продаж запланировано на 6 декабря этого года1

Смартфон OnePlus 5 скоро исчезнет из продажи: Сегодня в продажу поступает смартфон OnePlus 5T1

Toshiba выпустит акции на 5,4 млрд долларов, так что продажа полупроводникового производства становится необязательной: Риск, что Toshiba снимут с торгов на токийской бирже, будет устранен2

Samsung представила Galaxy S8 в красном цвете перед появлением iPhone X в Южной Корее: Три корейских мобильных оператора подтвердили, что iPhone X был распродан по предварительным заказам буквально за несколько минут31

Следующий хромбук Samsung может получить отсоединяемую клавиатуру: Новинка должна поступить в продажу в следующем году5

Oukitel K5 предложит безрамочный дизайн и емкий аккумулятор при цене $100 : В продажу смартфон поступит в начале декабря

Фотография смартфона Samsung Galaxy A7 (2018) демонстрирует сдвоенную фронтальную камеру: Выход смартфона ожидается в начале следующего года

В продажу поступила гарнитура Razer Hammerhead iOS Mercury Edition: Цена наушников составляет 100 долларов1

Смартфон Xiaomi Mi Note 3 стал более доступным, правда и объем ОЗУ тоже уменьшился: Все остальные характеристики устройства остались неизменными1

Uber приобретёт у Volvo 24 000 кроссоверов XC90 для создания автопарка беспилотных машин: Volvo предоставит Uber 24 000 автомобилей XC908

Ноутбук Surface Book 2 пополнил список неремонтопригодных устройств Microsoft: Ноутбук Surface Book 2 получил iFixit один балл13

997
1318

iXBT TV

  • Обзор материнской платы Z370 Aorus Gaming 7 под процессоры Coffee Lake

  • Обзор аккумуляторной дрели-шуруповерта Bosch GSR 12V-15 FC Professional

  • Заводские экзоскелеты, обновление Firefox, слишком умные наушники

  • Репортаж с конференции Supercomputing 2017 (SC17), день 3: стенд группы компаний РСК

  • Репортаж с конференции Supercomputing 2017 (SC17), день 2: стенд Intel

  • Репортаж с конференции Supercomputing 2017 (SC17), день 1: рейтинг Top500

  • Обзор кинотеатрального DLP-проектора LG PF1000U со встроенным ТВ-тюнером

  • Камера Panasonic G9, унитазный робот, игровой смартфон, кепка для водителей

  • Обзор портативной беспроводной колонки Sven PS-460

  • Обзор напольного пылесоса Tefal Silence Force 4A TW6477 с одноразовыми мешками для сбора мусора

  • Обзор сверхширокоугольного зум-объектива Canon EF 16-35mm f/2.8L III USM

  • Обзор изогнутого 34-дюймового IPS-монитора LG 34UC99 с соотношением сторон 21:9 и белым корпусом

1212

Календарь

август
Пн
Вт
Ср
Чт
Пт
Сб
Вс

Рекомендуем почитать