Bitget App
Торгуйте разумнее
Купить криптоРынкиТорговляФьючерсыEarnWeb3ПлощадкаПодробнее
Торговля
Спот
Купить и продать криптовалюту
Маржа
Увеличивайте капитал и эффективность средств
Onchain
Безграничные возможности торговли.
Конвертация и блочная торговля
Конвертируйте криптовалюту в один клик без комиссий
Обзор
Launchhub
Получите преимущество заранее и начните побеждать
Скопировать
Копируйте элитного трейдера в один клик
Боты
Простой, быстрый и надежный торговый бот на базе ИИ
Торговля
Фьючерсы USDT-M
Фьючерсы с расчетами в USDT
Фьючерсы USDC-M
Фьючерсы с расчетами в USDC
Фьючерсы Coin-M
Фьючерсы с расчетами в криптовалютах
Обзор
Руководство по фьючерсам
Путь от новичка до профессионала в торговле фьючерсами
Акции по фьючерсам
Получайте щедрые вознаграждения
Bitget Earn
Продукты для легкого заработка
Simple Earn
Вносите и выводите средства в любое время, чтобы получать гибкий доход без риска
Ончейн-Earn
Получайте прибыль ежедневно, не рискуя основной суммой
Структурированный Earn
Надежные финансовые инновации, чтобы преодолеть рыночные колебания
VIP и Управление капиталом
Премиум-услуги для разумного управления капиталом
Займы
Гибкие условия заимствования с высокой защитой средств
OpenAI Представляет GPT- Модель речевого общения в реальном времени с поддержкой мультимодальных технологий и расширенными возможностями ведения разг

OpenAI Представляет GPT- Модель речевого общения в реальном времени с поддержкой мультимодальных технологий и расширенными возможностями ведения разг

MPOSTMPOST2025/09/01 21:45
Автор:MPOST

Коротко OpenAI выпустила модель преобразования речи в речь gpt-realtime с поддержкой мультимодального интерфейса, развитыми навыками разговорной речи и высокими показателями аудиального мышления.

Организация по исследованию искусственного интеллекта OpenAI объявили о выходе в открытый доступ своего Realtime API, дополненного функциями, которые позволяют разработчикам и компаниям создавать надежные, готовые к использованию голосовые агенты. API поддерживает удаленные серверы MCP, ввод изображений и телефонные звонки по протоколу SIP, что позволяет создавать более эффективные и контекстно-зависимые голосовые приложения.

Наряду с API, OpenAI выпустила свою самую продвинутую модель преобразования речи в речь gpt-realtime, разработанную для улучшения понимания инструкций, вызова функций и естественного звучания речи. Модель может интерпретировать сложные подсказки, переключать языки в середине предложения, точно воспроизводить буквенно-цифровые последовательности и улавливать невербальные сигналы. Также доступны два новых голоса, Cedar и Marin, с более выразительной и точной интонацией, приближенной к человеческой. Существующие голоса были обновлены с учетом этих улучшений.

API Realtime обрабатывает аудио напрямую через единую модель, сокращая задержку и сохраняя нюансы, в отличие от традиционных конвейеров, объединяющих отдельные модели преобразования речи в текст и текста в речь. gpt-realtime был обучен в сотрудничестве с пользователями для достижения превосходных результатов в реальных приложениях, таких как поддержка клиентов, персональный ассистент и образование. Сравнительные тесты показывают существенное улучшение рассуждений, точности выполнения инструкций и вызова функций по сравнению с предыдущими моделями.

Дополнительные обновления включают асинхронный вызов функций, позволяющий выполнять длительные операции, не прерывая текущие разговоры, что дополнительно поддерживает бесперебойную работу голосовых функций, готовых к использованию в производственной среде.

Realtime API официально вышел из стадии бета-тестирования и готов к использованию в ваших производственных голосовых агентах!

Мы также представляем gpt-realtime — нашу самую продвинутую на сегодняшний день модель преобразования речи, а также новые голоса и возможности API:

🔌 Удаленные MCP
🖼️ Ввод изображения
📞 Звонки по SIP-телефону
♻️ Многоразовые подсказки pic.twitter.com/fX5yvt0CDD

- OpenAI Разработчики (@OpenAIРазработчики) 28 августа 2025

OpenAI Расширение API реального времени за счет поддержки MCP, ввода изображений, интеграции SIP и экономичных элементов управления для голосовых агентов

OpenAI API Realtime от . теперь включает новые функции, призванные упростить интеграцию и расширить возможности готовых к использованию голосовых агентов. Разработчики могут включить удалённую поддержку MCP, связав сеанс с URL-адресом сервера MCP, что позволит API автоматически управлять вызовами инструментов и получать доступ к дополнительным функциям без ручной настройки.

Модель gpt-realtime теперь поддерживает ввод изображений, позволяя системе добавлять фотографии, скриншоты и другие визуальные материалы к аудио или тексту. Это позволяет пользователям задавать контекстно-зависимые вопросы о том, что они видят, при этом разработчики сохраняют контроль над тем, какие изображения и когда публиковать.

Дополнительные улучшения включают поддержку протокола SIP (Session Initiation Protocol) для подключения приложений к телефонным сетям и системам УАТС, а также повторно используемые подсказки, которые позволяют разработчикам сохранять и развертывать предварительно настроенные инструкции, инструменты и примеры сообщений в нескольких сеансах.

Общедоступные Realtime API и модель gpt-realtime теперь доступны всем разработчикам, а цена снижена на 20% по сравнению с предыдущей версией gpt-4o-realtime-preview. Новые элементы управления контекстом разговора позволяют более эффективно управлять токенами, снижая затраты на длительные сеансы. Для поддержки разработчиков при внедрении этих функций доступны документация, площадка для тестирования и руководство по подсказкам Realtime API.

0

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.
APR до 12%. Аирдропы новых токенов.
Внести!