Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnWeb3CommunautéPlus
Trading
Spot
Achat et vente de cryptos
Marge
Amplifiez et maximisez l'efficacité de vos fonds
Onchain
Tradez Onchain sans aller on-chain
Convert & Block Trade
Trades volumineux – Convertissez des cryptos en un clic et sans frais
Explorer
Launchhub
Prenez l'avantage dès le début et commencez à gagner
Copier
Copiez des traders experts en un clic
Bots
Bots de trading IA simples, rapides et fiables
Trading
Futures USDT-M
Futures réglés en USDT
Futures USDC-M
Futures réglés en USDC
Futures Coin-M
Futures réglés en cryptomonnaies
Explorer
Guide des Futures
Le parcours de trading de Futures, du débutant à l'expert
Événements Futures
Profitez de généreuses récompenses
Bitget Earn
Une variété de produits pour faire fructifier vos actifs
Simple Earn
Déposez et retirez à tout moment, rendements flexibles sans risque
On-chain Earn
Réalisez des profits quotidiens sans risquer votre capital
Structured Earn
Une innovation financière solide pour gérer les fluctuations du marché
VIP et Gestion de patrimoine
Des services premium pour une gestion de patrimoine intelligente
Prêt Crypto
Emprunts flexibles avec un haut niveau de sécurité des fonds
OpenAI Dévoile GPT- Modèle de parole à parole en temps réel avec prise en charge multimodale et capacités conversationnelles avancées

OpenAI Dévoile GPT- Modèle de parole à parole en temps réel avec prise en charge multimodale et capacités conversationnelles avancées

MPOSTMPOST2025/09/02 06:45
Par:MPOST

En bref OpenAI a publié le modèle de parole en temps réel gpt avec un support multimodal, des compétences conversationnelles avancées et de solides performances de raisonnement audio.

Organisation de recherche en intelligence artificielle OpenAI a annoncé la disponibilité générale de son API Realtime, désormais enrichie de fonctionnalités permettant aux développeurs et aux entreprises de créer des agents vocaux robustes et prêts pour la production. L'API prend en charge les serveurs MCP distants, les entrées d'images et les appels téléphoniques via le protocole SIP (Session Initiation Protocol), offrant ainsi des applications vocales plus performantes et contextuelles.

Parallèlement à l'API, OpenAI a lancé son modèle de synthèse vocale le plus avancé, gpt-realtime, conçu pour améliorer le suivi des instructions, l'appel de fonctions et la restitution naturelle de la parole. Ce modèle peut interpréter des invites complexes, changer de langue en cours de phrase, reproduire fidèlement des séquences alphanumériques et capturer des signaux non verbaux. Deux nouvelles voix, Cedar et Marin, sont également disponibles, offrant une intonation plus expressive et plus humaine. Les voix existantes ont été mises à jour pour intégrer ces améliorations.

L'API Realtime traite l'audio directement via un modèle unique, réduisant ainsi la latence et préservant les nuances, contrairement aux pipelines traditionnels qui enchaînent des modèles distincts de synthèse vocale et de synthèse vocale. gpt-realtime a été formé en collaboration avec les utilisateurs pour exceller dans des applications concrètes telles que le support client, l'assistance personnelle et l'éducation. Les évaluations comparatives montrent des améliorations substantielles du raisonnement, du respect des instructions et de la précision des appels de fonctions par rapport aux modèles précédents.

Les mises à jour supplémentaires incluent l'appel de fonctions asynchrones, permettant des opérations de longue durée sans interrompre les conversations en cours, prenant en charge davantage d'expériences vocales transparentes et prêtes pour la production.

L'API en temps réel est officiellement sortie de la version bêta et prête pour vos agents vocaux de production !

Nous introduisons également gpt-realtime, notre modèle de parole à parole le plus avancé à ce jour, ainsi que de nouvelles voix et fonctionnalités API :

🔌 MCP à distance
🖼️ Saisie d'image
📞 Appels téléphoniques SIP
♻️ Invites réutilisables pic.twitter.com/fX5yvt0CDD

- OpenAI Développeurs (@OpenAIDéveloppeurs) 28 août 2025

OpenAI Étend l'API en temps réel avec la prise en charge MCP, les entrées d'images, l'intégration SIP et des contrôles économiques pour les agents vocaux

OpenAI L'API temps réel de intègre désormais de nouvelles fonctionnalités conçues pour simplifier l'intégration et étendre les capacités des agents vocaux prêts pour la production. Les développeurs peuvent activer la prise en charge MCP à distance en reliant une session à l'URL d'un serveur MCP, permettant ainsi à l'API de gérer automatiquement les appels d'outils et d'accéder à des fonctionnalités supplémentaires sans configuration manuelle.

Le modèle gpt-realtime prend désormais en charge les entrées d'images, permettant au système d'intégrer des photos, des captures d'écran et d'autres éléments visuels aux fichiers audio ou texte. Les utilisateurs peuvent ainsi poser des questions contextuelles sur ce qu'ils voient, tandis que les développeurs gardent le contrôle sur les images partagées et le moment de leur partage.

Les améliorations supplémentaires incluent la prise en charge du protocole SIP (Session Initiation Protocol) pour la connexion des applications aux réseaux téléphoniques et aux systèmes PBX, ainsi que des invites réutilisables qui permettent aux développeurs d'enregistrer et de déployer des instructions, des outils et des exemples de messages préconfigurés sur plusieurs sessions.

L'API Realtime et le modèle gpt-realtime, disponibles en disponibilité générale, sont désormais accessibles à tous les développeurs, avec un prix réduit de 20 % par rapport à la version précédente de gpt-4o-realtime-preview. De nouveaux contrôles du contexte de conversation permettent une gestion plus intelligente des jetons, réduisant ainsi les coûts des sessions longues. Une documentation, un espace de test et un guide d'invite pour l'API Realtime sont disponibles pour aider les développeurs à adopter ces fonctionnalités.

0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !