OpenAI 推出 GPT-具有多模式支援和進階對話功能的即時語音轉語音模型

OpenAI 推出 GPT-具有多模式支援和進階對話功能的即時語音轉語音模型

MpostMpost2025/09/01 21:55
作者:Mpost

簡單來說 OpenAI 發布了GPT-Realtime語音轉語音模型,該模型具有多模態支援、先進的對話技能和強大的音訊推理性能。

人工智慧研究組織 OpenAI 宣布其 Realtime API 正式發布,新增功能,協助開發者和企業建立強大、可立即投入生產的語音代理。該 API 支援遠端 MCP 伺服器、影像輸入以及透過會話發起協定 (SIP) 進行電話呼叫,從而打造功能更強大、更具情境感知能力的語音應用。

除了 API 之外, OpenAI 發布了其最先進的語音轉語音模型 GPT-realtime,旨在提升指令跟隨、函數呼叫和自然語音的效果。該模型可以理解複雜的提示,在句子中切換語言,準確重現字母數字序列,並捕捉非語言線索。此外,還新增了兩種語音:Cedar 和 Marin,提供更具表現力和更接近人類的語調。現有語音已更新,以融入這些增強功能。

Realtime API 直接透過單一模型處理音頻,從而減少延遲並保留細微差別,這與傳統的將語音轉文字和文字轉語音模型連接起來的管線不同。 GPT-realtime 已與用戶合作進行訓練,在客戶支援、個人協助和教育等實際應用中表現出色。基準測試評估表明,與先前的模型相比,其在推理、指令遵循性和函數呼叫準確性方面均有顯著提升。

其他更新包括非同步函數調用,允許長時間運行的操作而不中斷正在進行的對話,進一步支援無縫的、可用於生產的語音體驗。

即時 API 已正式脫離測試階段並可用於您的生產語音代理程式!

我們還推出了 GPT-realtime——我們迄今為止最先進的語音轉語音模型——以及新的語音和 API 功能:

🔌 遠端 MCP
🖼️ 影像輸入
📞 SIP 電話呼叫
♻️ 可重複使用的提示 pic.twitter.com/fX5yvt0CDD

- OpenAI 開發者(@OpenAI開發人員) 2025 年 8 月 28 日

OpenAI 透過 MCP 支援、影像輸入、SIP 整合以及語音代理的成本節約控制來擴展即時 API

OpenAI 的即時 API 現已包含新功能,旨在簡化整合並擴展可用於生產的語音代理的功能。開發人員可以透過將會話連結到 MCP 伺服器 URL 來啟用遠端 MCP 支持,從而使 API 能夠自動管理工具呼叫並存取其他功能,而無需手動設定。

GPT-realtime 模型現在支援圖像輸入,使系統能夠將照片、螢幕截圖和其他視覺內容與音訊或文字整合在一起。這使得用戶可以針對所見內容提出特定於上下文的問題,而開發人員則可以控制共享哪些圖像以及何時共享。

其他改進包括會話發起協定 (SIP) 支援將應用程式連接到電話網路和 PBX 系統,以及可重複使用的提示,讓開發人員可以在多個會話中保存和部署預先配置的指令、工具和範例訊息。

正式版 Realtime API 和 GPT-realtime 模型現已對所有開發者開放,價格較先前的 GPT-20o-realtime-preview 版本降低 4%。新增的對話上下文控制項可實現更智慧的令牌管理,從而降低長時間會話的成本。此外,我們也提供文件、測試平台和 Realtime API 提示指南,幫助開發者輕鬆掌握這些功能。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡