أوبن أيه آي تطلق ثلاثة نماذج صوتية تُعيد تعريف الذكاء الاصطناعي الصوتي (فيديو)
كشفت شركة أوبن أيه آي عن ثلاثة نماذج صوتية جديدة ضمن واجهتها البرمجية الفورية Realtime API، وهي GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper.
وتمثل هذه النماذج مجتمعةً تحولاً في قدرات الذكاء الاصطناعي الصوتي، إذ تتجاوز الردود البسيطة نحو فهم حقيقي للسياق والقدرة على التنفيذ ضمن محادثات مستمرة.
مميزات نموذج GPT-Realtime-2
ووفقًا لما نشره موقع "ديجيتال تريندز"، يأتي GPT-Realtime-2 نموذجًا رئيسًا في هذه الحزمة، إذ يدمج قدرات الاستدلال المنطقي المستمد من GPT-5 في التفاعلات الصوتية المباشرة.
ويستطيع النموذج تشغيل أدوات متعددة في آن واحد، مع إعلام المستخدم بما يجري بعبارات من قبيل "أتحقق من تقويمك الآن".
ويدعم النموذج نافذة سياق تبلغ 128 ألف وحدة نصية، ما يتيح جلسات أطول وأكثر تماسكًا، كما يمكن للمطورين ضبط مستوى الاستدلال وفق تعقيد الطلب.
ويُقدّم GPT-Realtime-Translate ترجمةً صوتيةً حيةً تدعم أكثر من 70 لغة مدخلة و13 لغة مخرجة، فيما يشبه فكرة المترجم الشامل التي طالما بقيت حبيسة الخيال العلمي.
ولعل أبرز ما كشفه العرض التوضيحي هو قدرة النموذج على ترجمة متحدثَين بلغتين مختلفتين إلى الإنجليزية في الوقت الفعلي دون أي انقطاع، حتى حين ينضم متحدث جديد إلى المحادثة.
أسعار نماذج أوبن أيه آي الصوتية
يعمل GPT-Realtime-Whisper بخلاف نماذج النسخ الصوتي التقليدية التي تنتظر انتهاء المتحدث قبل تقديم النص؛ إذ ينقل الكلام إلى نص فور النطق به.
ويجعله ذلك أداةً مثاليةً للترجمة الحية في الاجتماعات والفعاليات، ولأي سير عمل صوتي لا يحتمل الانتظار، وقد أتاحت أوبن أيه آي هذه النماذج حتى الآن للمطورين، وعدد من الشركات الكبرى لاختبارها الفعلي.
وتبني شركة Zillow العقارية مساعدًا صوتيًا يُتيح البحث عن المنازل وجدولة الجولات بطلب صوتي واحد، فيما تستخدمها Priceline في إدارة حجوزات الطيران والفنادق والإلغاءً والحجز، فيما تعتمد عليها Vimeo لأغراض النسخ الفوري.
وتبدأ أسعار الاستخدام من 0.017 دولار للدقيقة لنموذج Whisper، و0.034 دولار للدقيقة لنموذج Translate، وصولاً إلى 32 دولارًا لكل مليون وحدة صوتية مدخلة في GPT-Realtime-2.
