OpenAI Представляет GPT- Модель речевого общения в реальном времени с поддержкой мультимодальных технологий и расширенными возможностями ведения разг
Коротко OpenAI выпустила модель преобразования речи в речь gpt-realtime с поддержкой мультимодального интерфейса, развитыми навыками разговорной речи и высокими показателями аудиального мышления.
Организация по исследованию искусственного интеллекта OpenAI объявили о выходе в открытый доступ своего Realtime API, дополненного функциями, которые позволяют разработчикам и компаниям создавать надежные, готовые к использованию голосовые агенты. API поддерживает удаленные серверы MCP, ввод изображений и телефонные звонки по протоколу SIP, что позволяет создавать более эффективные и контекстно-зависимые голосовые приложения.
Наряду с API, OpenAI выпустила свою самую продвинутую модель преобразования речи в речь gpt-realtime, разработанную для улучшения понимания инструкций, вызова функций и естественного звучания речи. Модель может интерпретировать сложные подсказки, переключать языки в середине предложения, точно воспроизводить буквенно-цифровые последовательности и улавливать невербальные сигналы. Также доступны два новых голоса, Cedar и Marin, с более выразительной и точной интонацией, приближенной к человеческой. Существующие голоса были обновлены с учетом этих улучшений.
API Realtime обрабатывает аудио напрямую через единую модель, сокращая задержку и сохраняя нюансы, в отличие от традиционных конвейеров, объединяющих отдельные модели преобразования речи в текст и текста в речь. gpt-realtime был обучен в сотрудничестве с пользователями для достижения превосходных результатов в реальных приложениях, таких как поддержка клиентов, персональный ассистент и образование. Сравнительные тесты показывают существенное улучшение рассуждений, точности выполнения инструкций и вызова функций по сравнению с предыдущими моделями.
Дополнительные обновления включают асинхронный вызов функций, позволяющий выполнять длительные операции, не прерывая текущие разговоры, что дополнительно поддерживает бесперебойную работу голосовых функций, готовых к использованию в производственной среде.
OpenAI Расширение API реального времени за счет поддержки MCP, ввода изображений, интеграции SIP и экономичных элементов управления для голосовых агентов
OpenAI API Realtime от . теперь включает новые функции, призванные упростить интеграцию и расширить возможности готовых к использованию голосовых агентов. Разработчики могут включить удалённую поддержку MCP, связав сеанс с URL-адресом сервера MCP, что позволит API автоматически управлять вызовами инструментов и получать доступ к дополнительным функциям без ручной настройки.
Модель gpt-realtime теперь поддерживает ввод изображений, позволяя системе добавлять фотографии, скриншоты и другие визуальные материалы к аудио или тексту. Это позволяет пользователям задавать контекстно-зависимые вопросы о том, что они видят, при этом разработчики сохраняют контроль над тем, какие изображения и когда публиковать.
Дополнительные улучшения включают поддержку протокола SIP (Session Initiation Protocol) для подключения приложений к телефонным сетям и системам УАТС, а также повторно используемые подсказки, которые позволяют разработчикам сохранять и развертывать предварительно настроенные инструкции, инструменты и примеры сообщений в нескольких сеансах.
Общедоступные Realtime API и модель gpt-realtime теперь доступны всем разработчикам, а цена снижена на 20% по сравнению с предыдущей версией gpt-4o-realtime-preview. Новые элементы управления контекстом разговора позволяют более эффективно управлять токенами, снижая затраты на длительные сеансы. Для поддержки разработчиков при внедрении этих функций доступны документация, площадка для тестирования и руководство по подсказкам Realtime API.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Новые спотовые маржинальные торговые пары - HOLO/USDT
Новые спотовые маржинальные торговые пары - LINEA/USDT
[Первичный листинг] Листинг PINGPONG (PINGPONG). Присоединяйтесь и разделите 5,000,000 PINGPONG
Запуск LINEAUSDT для фьючерсной и ботовой торговли
Популярное
ДалееЦены на крипто
Далее








