Bitget App
تداول بذكاء
شراء العملات المشفرةنظرة عامة على السوقالتداولالعقود الآجلةEarnالويب 3مربعالمزيد
التداول
التداول الفوري
شراء العملات المشفرة وبيعها بسهولة
الهامش
قم بزيادة رأس مالك وكفاءة التمويل
Onchain
Going Onchain, without going Onchain!
تحويل
لا توجد رسوم معاملات وبدون انخفاض في السعر.
استكشاف
Launchhub
احصل على الأفضلية مبكرًا وابدأ بالفوز
التداول بالنسخ
انسخ تداول المتداول المميز بنقرة واحدة
Bots
برنامج تداول آلي مدعوم بالذكاء الاصطناعي ذكي بسيط وسريع وموثوق
التداول
العقود الآجلة لعملة USDT-M
تمت تسوية العقود الآجلة بعملة USDT
العقود الآجلة لعملة USDC-M
تمت تسوية العقود الآجلة بعملة USDC
العقود الآجلة لعملة Coin-M
تمت تسوية العقود الآجلة بالعملات المشفرة
استكشاف
دليل العقود الآجلة
رحلة من المبتدئين إلى المتقدمين في تداول العقود الآجلة
العروض الترويجية للعقود الآجلة
مكافآت سخية بانتظارك
نظرة عامة
مجموعة من المنتجات لتنمية أصولك
Simple Earn
يُمكنك الإيداع والسحب في أي وقتٍ لتحقيق عوائد مرنة بدون مخاطر.
On-chain Earn
اربح أرباحًا يوميًا دون المخاطرة برأس المال
منتج Earn المنظم
ابتكار مالي قوي للتعامل مع تقلبات السوق
المستوى المميز (VIP) وإدارة الثروات
خدمات متميزة لإدارة الثروات الذكية
القروض
اقتراض مرن مع أمان عالي للأموال
OpenAI تكشف عن GPT- نموذج تحويل الكلام إلى كلام في الوقت الفعلي مع دعم متعدد الوسائط وقدرات محادثة متقدمة

OpenAI تكشف عن GPT- نموذج تحويل الكلام إلى كلام في الوقت الفعلي مع دعم متعدد الوسائط وقدرات محادثة متقدمة

Mpost2025/09/02 15:20
By:Mpost

في سطور OpenAI تم إصدار نموذج تحويل الكلام إلى كلام gpt-realtime مع دعم متعدد الوسائط ومهارات محادثة متقدمة وأداء قوي في التفكير الصوتي.

منظمة أبحاث الذكاء الاصطناعي OpenAI أعلنت شركة ناشئة عن توفر واجهة برمجة التطبيقات (API) الفورية (Realtime API) بشكل عام، والمُعززة الآن بميزات تُمكّن المطورين والشركات من بناء وكلاء صوتيين متينين وجاهزين للإنتاج. تدعم واجهة برمجة التطبيقات خوادم MCP البعيدة، ومدخلات الصور، والمكالمات الهاتفية عبر بروتوكول بدء الجلسة (SIP)، مما يُتيح تطبيقات صوتية أكثر كفاءة ووعيًا بالسياق.

بجانب واجهة برمجة التطبيقات، OpenAI أصدرت شركة مايكروسوفت أحدث نموذج تحويل الكلام إلى كلام، gpt-realtime، المصمم لتحسين متابعة التعليمات، واستدعاء الوظائف، ونطق الكلام بشكل طبيعي. يستطيع هذا النموذج تفسير المطالبات المعقدة، وتبديل اللغات في منتصف الجملة، وإعادة إنتاج التسلسلات الأبجدية الرقمية بدقة، والتقاط الإشارات غير اللفظية. كما يتوفر صوتان جديدان، Cedar وMarin، يوفران نبرة صوتية أكثر تعبيرًا وتشابهًا مع نبرة الإنسان. وقد تم تحديث الأصوات الحالية لتشمل هذه التحسينات.

تُعالج واجهة برمجة التطبيقات Realtime الصوت مباشرةً من خلال نموذج واحد، مما يُقلل زمن الوصول ويُحافظ على الفروق الدقيقة، على عكس خطوط الأنابيب التقليدية التي تربط بين نماذج منفصلة لتحويل الكلام إلى نص وتحويل النص إلى كلام. تم تدريب gpt-realtime بالتعاون مع المستخدمين ليتفوق في التطبيقات العملية مثل دعم العملاء، والمساعدة الشخصية، والتعليم. تُظهر تقييمات المعايير تحسينات كبيرة في التفكير المنطقي، والالتزام بالتعليمات، ودقة استدعاء الوظائف مقارنةً بالنماذج السابقة.

تتضمن التحديثات الإضافية استدعاء وظيفة غير متزامنة، مما يسمح بالعمليات طويلة الأمد دون مقاطعة المحادثات الجارية، ودعم تجارب صوتية سلسة وجاهزة للإنتاج بشكل أكبر.

أصبحت واجهة برمجة التطبيقات في الوقت الفعلي رسميًا خارج الإصدار التجريبي وجاهزة لوكلاء الصوت الإنتاجيين لديك!

نحن نقدم أيضًا gpt-realtime - نموذج الكلام إلى الكلام الأكثر تقدمًا لدينا حتى الآن - بالإضافة إلى أصوات جديدة وقدرات واجهة برمجة التطبيقات:

🔌 أجهزة MCP عن بعد
🖼️ إدخال الصورة
📞 مكالمات هاتفية SIP
♻️ مطالبات قابلة لإعادة الاستخدام pic.twitter.com/fX5yvt0CDD

- OpenAI المطورون (@OpenAIالمطورين) 28 أغسطس 2025

OpenAI توسيع واجهة برمجة التطبيقات في الوقت الفعلي مع دعم MCP، ومدخلات الصور، وتكامل SIP، وضوابط توفير التكاليف لوكلاء الصوت

OpenAI تتضمن واجهة برمجة التطبيقات الفورية من 's الآن ميزات جديدة مصممة لتبسيط التكامل وتوسيع إمكانيات وكلاء الصوت الجاهزين للإنتاج. يمكن للمطورين تفعيل دعم MCP عن بُعد من خلال ربط جلسة برابط خادم MCP، مما يسمح لواجهة برمجة التطبيقات بإدارة استدعاءات الأدوات تلقائيًا والوصول إلى وظائف إضافية دون الحاجة إلى إعداد يدوي.

يدعم نموذج gpt-realtime الآن مدخلات الصور، مما يُمكّن النظام من دمج الصور ولقطات الشاشة وغيرها من العناصر المرئية مع الصوت أو النص. يتيح هذا للمستخدمين طرح أسئلة مُحددة السياق حول ما يشاهدونه، بينما يحتفظ المطورون بالتحكم في الصور التي تتم مشاركتها وتوقيتها.

تتضمن التحسينات الإضافية دعم بروتوكول بدء الجلسة (SIP) لتوصيل التطبيقات بشبكات الهاتف وأنظمة PBX، بالإضافة إلى المطالبات القابلة لإعادة الاستخدام التي تتيح للمطورين حفظ ونشر التعليمات والأدوات والرسائل النموذجية المعدة مسبقًا عبر جلسات متعددة.

أصبحت واجهة برمجة التطبيقات (API) الفورية (Realtime) ونموذج gpt-realtime، المتاحين عمومًا، متاحين الآن لجميع المطورين، مع انخفاض أسعارهما بنسبة 20% مقارنةً بنسخة gpt-4o-realtime-preview السابقة. تتيح عناصر التحكم الجديدة لسياق المحادثة إدارةً أذكى للرموز، مما يُخفّض تكاليف الجلسات الطويلة. تتوفر الوثائق، ومنصة للاختبار، ودليل توجيه واجهة برمجة التطبيقات الفورية (Realtime API) لمساعدة المطورين على تبني هذه الميزات.

0

إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.

منصة PoolX: احتفظ بالعملات لتربح
ما يصل إلى 10% + معدل الفائدة السنوي. عزز أرباحك بزيادة رصيدك من العملات
احتفظ بالعملة الآن!