Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

OpenAI представила инструмент, который «даст прикурить» Алексе, Алисе и прочим голосовым ассистентам

Алгоритмы обучили человеческой логике и умению вести диалог ничуть не хуже живых людей.

OpenAI представила новые голосовые модели для API, с которыми разработчики смогут создавать сервисы, способные не просто отвечать вслух, а понимать ход разговора, переводить речь на лету и выполнять действия без пауз на набор текста. Компания делает ставку на сценарии, где голос становится полноценным способом управлять приложениями, а не только удобной заменой клавиатуре.

В линейку вошли три модели. GPT-Realtime-2 стала первой голосовой моделью OpenAI с уровнем рассуждений класса GPT-5. Она рассчитана на сложные диалоги, умеет удерживать контекст, обрабатывать уточнения и продолжать разговор естественно, даже когда запрос меняется по ходу общения.

GPT-Realtime-Translate предназначена для живого перевода речи. Модель принимает более 70 языков и переводит речь в 13 выходных языков, стараясь сохранять темп говорящего. Такой подход OpenAI связывает с задачами поддержки клиентов, международных поездок и разговоров между людьми, которым удобнее говорить на разных языках.

Третья модель, GPT-Realtime-Whisper, отвечает за потоковое распознавание речи. Она превращает устную речь в текст прямо во время разговора, без ожидания завершения фразы или отдельной обработки записи.

OpenAI считает, что голосовые интерфейсы становятся особенно полезными там, где человеку неудобно печатать: за рулём, в аэропорту, при обращении в поддержку или во время выполнения другой задачи. По задумке компании, голосовой агент должен не только быстро отвечать, но и понимать намерение, помнить детали, вызывать внешние инструменты и корректно реагировать на сбои.

GPT-Realtime-2 получила несколько функций для таких сценариев. Разработчики смогут включать короткие служебные фразы, чтобы пользователь понимал, что система проверяет данные или выполняет запрос. Модель также поддерживает параллельные вызовы инструментов, лучше сообщает о проблемах вместо молчаливого отказа и работает с увеличенным контекстным окном до 128 тысяч токенов вместо прежних 32 тысяч.

OpenAI заявляет, что новая модель лучше удерживает профильную лексику, имена собственные и специализированные термины, включая медицинские. Разработчики смогут настраивать уровень рассуждений от минимального до xhigh, выбирая между скоростью ответа и более глубоким анализом задачи.

В тесте Big Bench Audio версия GPT-Realtime-2 с высоким уровнем рассуждений показала точность 96,6% против 81,4% у GPT-Realtime-1.5. В Audio MultiChallenge вариант xhigh набрал 48,5% среднего прохождения против 34,7% у предыдущей модели. OpenAI связывает прирост с лучшим следованием инструкциям, управлением контекстом и устойчивостью в живом разговоре.

SecurityLab