OpenAI представила обновленную модель GPT-RealTime с улучшенными возможностями и сниженной стоимостью
29 августа 2025 года компания OpenAI официально запустила новую модель синтеза речи GPT-RealTime, которая позиционируется как самая мощная модель речи в реальном времени на сегодняшний день. Одновременно с запуском компания обновила ряд функций API, включая поддержку удаленного сервера MCP, ввод изображений и поддержку телефонных звонков SIP.
Новая модель GPT-RealTime теперь доступна всем разработчикам по сниженной на 20% цене по сравнению с предыдущей версией GPT-4O-RealTime-Preview. Стоимость ввода звука составляет 32 доллара США за миллион токенов, ввод кэша — 0,4 доллара за миллион токенов, а вывод аудио — 64 доллара за миллион токенов.
GPT-RealTime демонстрирует значительные улучшения в качестве распознавания речи и понимании инструкций. Модель способна улавливать невербальные сигналы, такие как смех, плавно переключаться между несколькими языками в рамках одного предложения и регулировать тон в режиме реального времени.
По внутренней оценке OpenAI, новая модель показывает повышенную точность распознавания буквенно-цифровых последовательностей на различных языках, включая китайский, испанский, японский и французский. В тесте Big Bench Audio модель достигла уровня точности 82,8%, что превосходит показатели предыдущей версии. В аудиотесте MultiChallenge, измеряющем соответствие инструкциям, GPT-RealTime набрал 30,5% против 20,6% у предшественника.
Компания также улучшила производительность модели при вызове функций в трех ключевых аспектах: вызове связанных функций, выборе времени и сопоставлении параметров. В оценке аудио ComplexFuncBench новая модель показала результат 66,5%, что значительно превышает 49,7% у предыдущей версии.
OpenAI внедрила улучшенный контроль над контекстом разговоров, позволяя разработчикам устанавливать лимиты смарт-токенов и поддерживать усечение нескольких раундов разговоров одновременно, что существенно снижает стоимость длительных сеансов. Кроме того, GPT-RealTime изначально поддерживает асинхронные вызовы функций, которые сохраняют естественность разговоров без прерывания потока сеанса при длительном выполнении функций.
Источник: CNMO





0 комментариев
Добавить комментарий