Bitget App
スマートな取引を実現
暗号資産を購入市場取引先物Bitget EarnWeb3広場もっと見る
取引
現物
暗号資産の売買
マージン
資本を増幅し、資金効率を最大化
Onchain
手間なく簡単にオンチェーン取引
交換とブロック取引
ワンクリックで手数料無料で暗号資産を交換
探索
Launchhub
チャンスを先取りし、スタートラインで優位に立つ
コピー
エリートトレーダーをワンクリックでコピー
Bots
シンプルで高速、そして信頼性の高いAI取引ボット
取引
USDT-M 先物
USDTで決済される先物
USDC-M 先物
USDCで決済される先物
Coin-M 先物
暗号資産で決済される先物
探索
先物ガイド
初心者から上級者までを対象とした先物取引のガイドブック
先物キャンペーン
豪華な報酬が待っている
商品一覧
資産を増やすための多彩な商品
シンプルEarn
好きなタイミングで入出金&リスクゼロで柔軟なリターンを獲得
On-chain Earn
元本をリスクにさらさずに、毎日利益を得る
仕組商品
市場の変動を乗り越えるための強力な金融イノベーション
VIP & ウェルスマネジメント
スマートなウェルスマネジメントのためのプレミアムサービス
借入
高い資金安全性を備えた柔軟な借入
OpenAI 発表 GPTマルチモーダルサポートと高度な会話機能を備えたリアルタイム音声合成モデル

OpenAI 発表 GPTマルチモーダルサポートと高度な会話機能を備えたリアルタイム音声合成モデル

MPOSTMPOST2025/09/02 06:45
著者:MPOST

簡単に言えば OpenAI マルチモーダルサポート、高度な会話スキル、強力なオーディオ推論パフォーマンスを備えた gpt-realtime 音声合成モデルをリリースしました。

人工知能研究組織 OpenAI は、開発者や企業が堅牢で実稼働可能な音声エージェントを構築できる機能を強化したRealtime APIの一般提供を発表しました。このAPIは、リモートMCPサーバー、画像入力、セッション開始プロトコル(SIP)経由の通話をサポートし、より高機能でコンテキストアウェアな音声アプリケーションを実現します。

APIに加えて、 OpenAI は、指示の追従性、関数の呼び出し、そして自然な音声の実現を向上させるために設計された、最先端の音声合成モデル「gpt-realtime」をリリースしました。このモデルは、複雑なプロンプトの解釈、文中の言語切り替え、英数字シーケンスの正確な再現、そして非言語的な手がかりの捕捉が可能です。さらに、より表現力豊かで人間らしいイントネーションを提供する2つの新しい音声「Cedar」と「Marin」も利用可能です。既存の音声もこれらの機能強化を反映するようにアップデートされています。

Realtime APIは、音声を単一のモデルで直接処理するため、従来の音声テキスト変換モデルとテキスト音声変換モデルを個別に連結するパイプラインとは異なり、レイテンシを削減し、ニュアンスを保持します。gpt-realtimeは、ユーザーとの共同作業によってトレーニングされており、カスタマーサポート、パーソナルアシスタンス、教育といった実世界のアプリケーションで優れた性能を発揮します。ベンチマーク評価では、推論、指示の遵守、関数呼び出しの精度が以前のモデルと比較して大幅に向上していることが示されています。

追加のアップデートには非同期関数呼び出しが含まれており、進行中の会話を中断することなく長時間実行の操作が可能になり、シームレスで本番環境に対応した音声エクスペリエンスがさらにサポートされます。

Realtime API は正式にベータ版を終了し、実稼働の音声エージェントに使用できるようになりました。

また、これまでで最も高度な音声合成モデルである gpt-realtime に加え、新しい音声と API 機能も導入します。

🔌 リモートMCP
🖼️ 画像入力
📞 SIP電話通話
♻️ 再利用可能なプロンプト pic.twitter.com/fX5yvt0CDD

- OpenAI 開発者 (@OpenAI開発者) 2025 年 8 月 28 日

OpenAI MCPサポート、画像入力、SIP統合、音声エージェントのコスト削減制御などにより、リアルタイムAPIを拡張

OpenAI のリアルタイムAPIに、統合を簡素化し、実稼働環境に対応した音声エージェントの機能を拡張するための新機能が追加されました。開発者は、セッションをMCPサーバーのURLにリンクすることでリモートMCPサポートを有効にできます。これにより、APIはツール呼び出しを自動的に管理し、手動設定なしで追加機能にアクセスできるようになります。

gpt-realtimeモデルは画像入力をサポートし、写真、スクリーンショット、その他のビジュアルを音声やテキストと併せてシステムに組み込むことができるようになりました。これにより、ユーザーは見たものについて文脈に応じた質問をすることができ、開発者はどの画像を共有するか、いつ共有するかを制御できます。

その他の改善点としては、アプリを電話ネットワークや PBX システムに接続するためのセッション開始プロトコル (SIP) のサポートや、開発者が事前構成された指示、ツール、サンプル メッセージを複数のセッションにわたって保存および展開できる再利用可能なプロンプトなどがあります。

一般提供開始となったRealtime APIとgpt-realtimeモデルが、すべての開発者の皆様にご利用いただけるようになりました。価格は以前のgpt-20o-realtime-previewと比べて4%引き下げられています。会話コンテキストの新しいコントロールにより、よりスマートなトークン管理が可能になり、長時間セッションのコストを削減できます。これらの機能を導入する開発者の皆様をサポートするため、ドキュメント、テスト用のプレイグラウンド、Realtime APIプロンプトガイドをご用意しています。

0

免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。

PoolX: 資産をロックして新しいトークンをゲット
最大12%のAPR!エアドロップを継続的に獲得しましょう!
今すぐロック