OpenAI 発表 GPTマルチモーダルサポートと高度な会話機能を備えたリアルタイム音声合成モデル
簡単に言えば OpenAI マルチモーダルサポート、高度な会話スキル、強力なオーディオ推論パフォーマンスを備えた gpt-realtime 音声合成モデルをリリースしました。
人工知能研究組織 OpenAI は、開発者や企業が堅牢で実稼働可能な音声エージェントを構築できる機能を強化したRealtime APIの一般提供を発表しました。このAPIは、リモートMCPサーバー、画像入力、セッション開始プロトコル(SIP)経由の通話をサポートし、より高機能でコンテキストアウェアな音声アプリケーションを実現します。
APIに加えて、 OpenAI は、指示の追従性、関数の呼び出し、そして自然な音声の実現を向上させるために設計された、最先端の音声合成モデル「gpt-realtime」をリリースしました。このモデルは、複雑なプロンプトの解釈、文中の言語切り替え、英数字シーケンスの正確な再現、そして非言語的な手がかりの捕捉が可能です。さらに、より表現力豊かで人間らしいイントネーションを提供する2つの新しい音声「Cedar」と「Marin」も利用可能です。既存の音声もこれらの機能強化を反映するようにアップデートされています。
Realtime APIは、音声を単一のモデルで直接処理するため、従来の音声テキスト変換モデルとテキスト音声変換モデルを個別に連結するパイプラインとは異なり、レイテンシを削減し、ニュアンスを保持します。gpt-realtimeは、ユーザーとの共同作業によってトレーニングされており、カスタマーサポート、パーソナルアシスタンス、教育といった実世界のアプリケーションで優れた性能を発揮します。ベンチマーク評価では、推論、指示の遵守、関数呼び出しの精度が以前のモデルと比較して大幅に向上していることが示されています。
追加のアップデートには非同期関数呼び出しが含まれており、進行中の会話を中断することなく長時間実行の操作が可能になり、シームレスで本番環境に対応した音声エクスペリエンスがさらにサポートされます。
OpenAI MCPサポート、画像入力、SIP統合、音声エージェントのコスト削減制御などにより、リアルタイムAPIを拡張
OpenAI のリアルタイムAPIに、統合を簡素化し、実稼働環境に対応した音声エージェントの機能を拡張するための新機能が追加されました。開発者は、セッションをMCPサーバーのURLにリンクすることでリモートMCPサポートを有効にできます。これにより、APIはツール呼び出しを自動的に管理し、手動設定なしで追加機能にアクセスできるようになります。
gpt-realtimeモデルは画像入力をサポートし、写真、スクリーンショット、その他のビジュアルを音声やテキストと併せてシステムに組み込むことができるようになりました。これにより、ユーザーは見たものについて文脈に応じた質問をすることができ、開発者はどの画像を共有するか、いつ共有するかを制御できます。
その他の改善点としては、アプリを電話ネットワークや PBX システムに接続するためのセッション開始プロトコル (SIP) のサポートや、開発者が事前構成された指示、ツール、サンプル メッセージを複数のセッションにわたって保存および展開できる再利用可能なプロンプトなどがあります。
一般提供開始となったRealtime APIとgpt-realtimeモデルが、すべての開発者の皆様にご利用いただけるようになりました。価格は以前のgpt-20o-realtime-previewと比べて4%引き下げられています。会話コンテキストの新しいコントロールにより、よりスマートなトークン管理が可能になり、長時間セッションのコストを削減できます。これらの機能を導入する開発者の皆様をサポートするため、ドキュメント、テスト用のプレイグラウンド、Realtime APIプロンプトガイドをご用意しています。
免責事項:本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。
こちらもいかがですか?
CandyBomb x BOOST:入金または取引で8,332,000 BOOSTの山分けを獲得しよう
BitgetとBitget WalletがOndo Finance経由で100以上のトークン化された資産の取引をサポート

Bitget暗号資産ローンカーニバルラウンド24:最大40%のAPR割引を活用してUSDT、USDCを借りよう
Bitget現物マージンに、JTO/USDTが追加されました!
トレンド
もっと見る暗号資産価格
もっと見る








