OpenAI Dévoile GPT- Modèle de parole à parole en temps réel avec prise en charge multimodale et capacités conversationnelles avancées
En bref OpenAI a publié le modèle de parole en temps réel gpt avec un support multimodal, des compétences conversationnelles avancées et de solides performances de raisonnement audio.
Organisation de recherche en intelligence artificielle OpenAI a annoncé la disponibilité générale de son API Realtime, désormais enrichie de fonctionnalités permettant aux développeurs et aux entreprises de créer des agents vocaux robustes et prêts pour la production. L'API prend en charge les serveurs MCP distants, les entrées d'images et les appels téléphoniques via le protocole SIP (Session Initiation Protocol), offrant ainsi des applications vocales plus performantes et contextuelles.
Parallèlement à l'API, OpenAI a lancé son modèle de synthèse vocale le plus avancé, gpt-realtime, conçu pour améliorer le suivi des instructions, l'appel de fonctions et la restitution naturelle de la parole. Ce modèle peut interpréter des invites complexes, changer de langue en cours de phrase, reproduire fidèlement des séquences alphanumériques et capturer des signaux non verbaux. Deux nouvelles voix, Cedar et Marin, sont également disponibles, offrant une intonation plus expressive et plus humaine. Les voix existantes ont été mises à jour pour intégrer ces améliorations.
L'API Realtime traite l'audio directement via un modèle unique, réduisant ainsi la latence et préservant les nuances, contrairement aux pipelines traditionnels qui enchaînent des modèles distincts de synthèse vocale et de synthèse vocale. gpt-realtime a été formé en collaboration avec les utilisateurs pour exceller dans des applications concrètes telles que le support client, l'assistance personnelle et l'éducation. Les évaluations comparatives montrent des améliorations substantielles du raisonnement, du respect des instructions et de la précision des appels de fonctions par rapport aux modèles précédents.
Les mises à jour supplémentaires incluent l'appel de fonctions asynchrones, permettant des opérations de longue durée sans interrompre les conversations en cours, prenant en charge davantage d'expériences vocales transparentes et prêtes pour la production.
OpenAI Étend l'API en temps réel avec la prise en charge MCP, les entrées d'images, l'intégration SIP et des contrôles économiques pour les agents vocaux
OpenAI L'API temps réel de intègre désormais de nouvelles fonctionnalités conçues pour simplifier l'intégration et étendre les capacités des agents vocaux prêts pour la production. Les développeurs peuvent activer la prise en charge MCP à distance en reliant une session à l'URL d'un serveur MCP, permettant ainsi à l'API de gérer automatiquement les appels d'outils et d'accéder à des fonctionnalités supplémentaires sans configuration manuelle.
Le modèle gpt-realtime prend désormais en charge les entrées d'images, permettant au système d'intégrer des photos, des captures d'écran et d'autres éléments visuels aux fichiers audio ou texte. Les utilisateurs peuvent ainsi poser des questions contextuelles sur ce qu'ils voient, tandis que les développeurs gardent le contrôle sur les images partagées et le moment de leur partage.
Les améliorations supplémentaires incluent la prise en charge du protocole SIP (Session Initiation Protocol) pour la connexion des applications aux réseaux téléphoniques et aux systèmes PBX, ainsi que des invites réutilisables qui permettent aux développeurs d'enregistrer et de déployer des instructions, des outils et des exemples de messages préconfigurés sur plusieurs sessions.
L'API Realtime et le modèle gpt-realtime, disponibles en disponibilité générale, sont désormais accessibles à tous les développeurs, avec un prix réduit de 20 % par rapport à la version précédente de gpt-4o-realtime-preview. De nouveaux contrôles du contexte de conversation permettent une gestion plus intelligente des jetons, réduisant ainsi les coûts des sessions longues. Une documentation, un espace de test et un guide d'invite pour l'API Realtime sont disponibles pour aider les développeurs à adopter ces fonctionnalités.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
CandyBomb x BOOST – Déposez et tradez pour partager 8 332 000 BOOST !
Fiesta de Prêt Crypto Bitget, 24 ème édition – Empruntez des USDT, USDC pour profiter d'un APR réduit (jusqu'à 40%)
Nouvelles paires de trading Spot sur marge - JTO/USDT!
Bitget CandyBomb x WLFI – Tradez des Futures pour partager 200 000 WLFI !
En vogue
PlusPrix des cryptos
Plus








