OpenAI 推出 GPT-具有多模式支援和進階對話功能的即時語音轉語音模型

Bitget App

交易「智」變

Bitget

資訊中心

Mpost2025/09/01 21:55

作者:Mpost

簡單來說 OpenAI 發布了GPT-Realtime語音轉語音模型，該模型具有多模態支援、先進的對話技能和強大的音訊推理性能。

人工智慧研究組織 OpenAI 宣布其 Realtime API 正式發布，新增功能，協助開發者和企業建立強大、可立即投入生產的語音代理。該 API 支援遠端 MCP 伺服器、影像輸入以及透過會話發起協定 (SIP) 進行電話呼叫，從而打造功能更強大、更具情境感知能力的語音應用。

除了 API 之外， OpenAI 發布了其最先進的語音轉語音模型 GPT-realtime，旨在提升指令跟隨、函數呼叫和自然語音的效果。該模型可以理解複雜的提示，在句子中切換語言，準確重現字母數字序列，並捕捉非語言線索。此外，還新增了兩種語音：Cedar 和 Marin，提供更具表現力和更接近人類的語調。現有語音已更新，以融入這些增強功能。

Realtime API 直接透過單一模型處理音頻，從而減少延遲並保留細微差別，這與傳統的將語音轉文字和文字轉語音模型連接起來的管線不同。 GPT-realtime 已與用戶合作進行訓練，在客戶支援、個人協助和教育等實際應用中表現出色。基準測試評估表明，與先前的模型相比，其在推理、指令遵循性和函數呼叫準確性方面均有顯著提升。

其他更新包括非同步函數調用，允許長時間運行的操作而不中斷正在進行的對話，進一步支援無縫的、可用於生產的語音體驗。

即時 API 已正式脫離測試階段並可用於您的生產語音代理程式！

我們還推出了 GPT-realtime——我們迄今為止最先進的語音轉語音模型——以及新的語音和 API 功能：

🔌 遠端 MCP
🖼️ 影像輸入
📞 SIP 電話呼叫
♻️ 可重複使用的提示 pic.twitter.com/fX5yvt0CDD
- OpenAI 開發者（@OpenAI開發人員） 2025 年 8 月 28 日

OpenAI 透過 MCP 支援、影像輸入、SIP 整合以及語音代理的成本節約控制來擴展即時 API

OpenAI 的即時 API 現已包含新功能，旨在簡化整合並擴展可用於生產的語音代理的功能。開發人員可以透過將會話連結到 MCP 伺服器 URL 來啟用遠端 MCP 支持，從而使 API 能夠自動管理工具呼叫並存取其他功能，而無需手動設定。

GPT-realtime 模型現在支援圖像輸入，使系統能夠將照片、螢幕截圖和其他視覺內容與音訊或文字整合在一起。這使得用戶可以針對所見內容提出特定於上下文的問題，而開發人員則可以控制共享哪些圖像以及何時共享。

其他改進包括會話發起協定 (SIP) 支援將應用程式連接到電話網路和 PBX 系統，以及可重複使用的提示，讓開發人員可以在多個會話中保存和部署預先配置的指令、工具和範例訊息。

正式版 Realtime API 和 GPT-realtime 模型現已對所有開發者開放，價格較先前的 GPT-20o-realtime-preview 版本降低 4%。新增的對話上下文控制項可實現更智慧的令牌管理，從而降低長時間會話的成本。此外，我們也提供文件、測試平台和 Realtime API 提示指南，幫助開發者輕鬆掌握這些功能。

免責聲明：文章中的所有內容僅代表作者的觀點，與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX：鎖倉獲得新代幣空投

不要錯過熱門新幣，且APR 高達 10%+

立即參與