OpenAI تكشف عن GPT- نموذج تحويل الكلام إلى كلام في الوقت الفعلي مع دعم متعدد الوسائط وقدرات محادثة متقدمة
في سطور OpenAI تم إصدار نموذج تحويل الكلام إلى كلام gpt-realtime مع دعم متعدد الوسائط ومهارات محادثة متقدمة وأداء قوي في التفكير الصوتي.
منظمة أبحاث الذكاء الاصطناعي OpenAI أعلنت شركة ناشئة عن توفر واجهة برمجة التطبيقات (API) الفورية (Realtime API) بشكل عام، والمُعززة الآن بميزات تُمكّن المطورين والشركات من بناء وكلاء صوتيين متينين وجاهزين للإنتاج. تدعم واجهة برمجة التطبيقات خوادم MCP البعيدة، ومدخلات الصور، والمكالمات الهاتفية عبر بروتوكول بدء الجلسة (SIP)، مما يُتيح تطبيقات صوتية أكثر كفاءة ووعيًا بالسياق.
بجانب واجهة برمجة التطبيقات، OpenAI أصدرت شركة مايكروسوفت أحدث نموذج تحويل الكلام إلى كلام، gpt-realtime، المصمم لتحسين متابعة التعليمات، واستدعاء الوظائف، ونطق الكلام بشكل طبيعي. يستطيع هذا النموذج تفسير المطالبات المعقدة، وتبديل اللغات في منتصف الجملة، وإعادة إنتاج التسلسلات الأبجدية الرقمية بدقة، والتقاط الإشارات غير اللفظية. كما يتوفر صوتان جديدان، Cedar وMarin، يوفران نبرة صوتية أكثر تعبيرًا وتشابهًا مع نبرة الإنسان. وقد تم تحديث الأصوات الحالية لتشمل هذه التحسينات.
تُعالج واجهة برمجة التطبيقات Realtime الصوت مباشرةً من خلال نموذج واحد، مما يُقلل زمن الوصول ويُحافظ على الفروق الدقيقة، على عكس خطوط الأنابيب التقليدية التي تربط بين نماذج منفصلة لتحويل الكلام إلى نص وتحويل النص إلى كلام. تم تدريب gpt-realtime بالتعاون مع المستخدمين ليتفوق في التطبيقات العملية مثل دعم العملاء، والمساعدة الشخصية، والتعليم. تُظهر تقييمات المعايير تحسينات كبيرة في التفكير المنطقي، والالتزام بالتعليمات، ودقة استدعاء الوظائف مقارنةً بالنماذج السابقة.
تتضمن التحديثات الإضافية استدعاء وظيفة غير متزامنة، مما يسمح بالعمليات طويلة الأمد دون مقاطعة المحادثات الجارية، ودعم تجارب صوتية سلسة وجاهزة للإنتاج بشكل أكبر.
OpenAI توسيع واجهة برمجة التطبيقات في الوقت الفعلي مع دعم MCP، ومدخلات الصور، وتكامل SIP، وضوابط توفير التكاليف لوكلاء الصوت
OpenAI تتضمن واجهة برمجة التطبيقات الفورية من 's الآن ميزات جديدة مصممة لتبسيط التكامل وتوسيع إمكانيات وكلاء الصوت الجاهزين للإنتاج. يمكن للمطورين تفعيل دعم MCP عن بُعد من خلال ربط جلسة برابط خادم MCP، مما يسمح لواجهة برمجة التطبيقات بإدارة استدعاءات الأدوات تلقائيًا والوصول إلى وظائف إضافية دون الحاجة إلى إعداد يدوي.
يدعم نموذج gpt-realtime الآن مدخلات الصور، مما يُمكّن النظام من دمج الصور ولقطات الشاشة وغيرها من العناصر المرئية مع الصوت أو النص. يتيح هذا للمستخدمين طرح أسئلة مُحددة السياق حول ما يشاهدونه، بينما يحتفظ المطورون بالتحكم في الصور التي تتم مشاركتها وتوقيتها.
تتضمن التحسينات الإضافية دعم بروتوكول بدء الجلسة (SIP) لتوصيل التطبيقات بشبكات الهاتف وأنظمة PBX، بالإضافة إلى المطالبات القابلة لإعادة الاستخدام التي تتيح للمطورين حفظ ونشر التعليمات والأدوات والرسائل النموذجية المعدة مسبقًا عبر جلسات متعددة.
أصبحت واجهة برمجة التطبيقات (API) الفورية (Realtime) ونموذج gpt-realtime، المتاحين عمومًا، متاحين الآن لجميع المطورين، مع انخفاض أسعارهما بنسبة 20% مقارنةً بنسخة gpt-4o-realtime-preview السابقة. تتيح عناصر التحكم الجديدة لسياق المحادثة إدارةً أذكى للرموز، مما يُخفّض تكاليف الجلسات الطويلة. تتوفر الوثائق، ومنصة للاختبار، ودليل توجيه واجهة برمجة التطبيقات الفورية (Realtime API) لمساعدة المطورين على تبني هذه الميزات.
إخلاء المسؤولية: يعكس محتوى هذه المقالة رأي المؤلف فقط ولا يمثل المنصة بأي صفة. لا يُقصد من هذه المقالة أن تكون بمثابة مرجع لاتخاذ قرارات الاستثمار.
You may also like
CandyBomb وWLFI تداول العقود الآجلة لربح حصة من 200,000 WLFI!
تم إتاحة زوج التداول SOMIUSDT لتداول العقود الآجلة وبرامج التداول الآلي الآن
دون رسوم على العملات الورقية: اشترِ USDT و BTC و ETH باستخدام ميزة الشراء المتكرر
احتفل بجمع أرباح الخريف مع 10,000 دولار — BGB , بانتظارك
Trending news
المزيدأسعار العملات المشفرة
المزيد








