OpenAI представила обновленную модель GPT-RealTime с улучшенными возможностями и сниженной стоимостью

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

29 августа 2025 года компания OpenAI официально запустила новую модель синтеза речи GPT-RealTime, которая позиционируется как самая мощная модель речи в реальном времени на сегодняшний день. Одновременно с запуском компания обновила ряд функций API, включая поддержку удаленного сервера MCP, ввод изображений и поддержку телефонных звонков SIP.

Новая модель GPT-RealTime теперь доступна всем разработчикам по сниженной на 20% цене по сравнению с предыдущей версией GPT-4O-RealTime-Preview. Стоимость ввода звука составляет 32 доллара США за миллион токенов, ввод кэша — 0,4 доллара за миллион токенов, а вывод аудио — 64 доллара за миллион токенов.

Автор: Focal Foto Источник: commons.wikimedia.org

GPT-RealTime демонстрирует значительные улучшения в качестве распознавания речи и понимании инструкций. Модель способна улавливать невербальные сигналы, такие как смех, плавно переключаться между несколькими языками в рамках одного предложения и регулировать тон в режиме реального времени.

По внутренней оценке OpenAI, новая модель показывает повышенную точность распознавания буквенно-цифровых последовательностей на различных языках, включая китайский, испанский, японский и французский. В тесте Big Bench Audio модель достигла уровня точности 82,8%, что превосходит показатели предыдущей версии. В аудиотесте MultiChallenge, измеряющем соответствие инструкциям, GPT-RealTime набрал 30,5% против 20,6% у предшественника.

Компания также улучшила производительность модели при вызове функций в трех ключевых аспектах: вызове связанных функций, выборе времени и сопоставлении параметров. В оценке аудио ComplexFuncBench новая модель показала результат 66,5%, что значительно превышает 49,7% у предыдущей версии.

OpenAI внедрила улучшенный контроль над контекстом разговоров, позволяя разработчикам устанавливать лимиты смарт-токенов и поддерживать усечение нескольких раундов разговоров одновременно, что существенно снижает стоимость длительных сеансов. Кроме того, GPT-RealTime изначально поддерживает асинхронные вызовы функций, которые сохраняют естественность разговоров без прерывания потока сеанса при длительном выполнении функций.

Источник: CNMO

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Физики смоделировали распад ложного вакуума: коллапс Вселенной воссоздан в кольце из 16 атомов

В современной квантовой теории поля концепция абсолютно пустого пространства не применяется. То, что принято называть вакуумом, физики рассматривают как базовое состояние квантового поля,...

Ноутбук, планшет 13" и доска для рисования в одном: обзор Ninkear S13

С современным ритмом жизни многое приходится делать на бегу, включая срочные рабочие задачи, хобби и отдых от них же в мультимедийном пространстве. И гаджеты для этого нужны универсальные....

Чтобы рисовать, как ребенок, надо повзрослеть, или прогулка по «Бумажному саду» Сергея Макарова

Примерно раз в месяц галереи Винзавода обновляют экспозиции, и до 24 мая Totibadze Gallery будет демонстрировать серию работ «Бумажный сад» современного художника Сергея Макарова.

Для чего в горлышке бутылки подсолнечного масла есть прорези

Если внимательно посмотреть внутрь бутылки с подсолнечным маслом, можно заметить странные пластиковые «лепестки» или прорези в горлышке. Многие воспринимают их как элемент дизайна или думают, что...

Откуда берутся звездопады: как Солнце разрушает астероиды и формирует новые метеорные потоки на пути Земли

Наблюдая за ночным небом, люди часто видят метеоры — яркие вспышки, возникающие при сгорании космических частиц в атмосфере Земли. Астрономия связывает происхождение большинства...

Почему на некоторых зарядных кабелях есть утолщение

Если посмотреть на кабели разных зарядных устройств, часто, почти у самого штекера, можно заметить небольшое утолщение. Многие воспринимают его как элемент дизайна или просто не обращают внимания....