بيانات إنتاج حقيقية من اختبار 12 مزود مع متصلين بالعربية الخليجية. ليست اختبارات صناعية — مكالمات فعلية من وكيل صوتي عقاري يعمل بشكل حي.
جميع الاختبارات تأتي من وكيل صوتي عقاري يعمل في بيئة إنتاج يتعامل مع مكالمات واردة حقيقية من متحدثين بالعربية الخليجية في الإمارات. هذا ليس اختبار مختبري بصوت نظيف وعربية فصحى — هؤلاء متصلون حقيقيون مع ضوضاء خلفية، اختلافات لهجوية، وأنماط محادثة طبيعية.
تأخير نهاية النطق — الوقت من توقف المتصل عن الكلام إلى إصدار STT للنص النهائي. الأقل أفضل. أقل من 500 مللي ثانية يبدو فورياً.
الوقت الإجمالي من نهاية الكلام إلى بدء صوت رد الوكيل. يشمل تأخير خط أنابيب STT + LLM + TTS.
تقييم من 1-5 بناءً على دقة النسخ، التعامل مع اللهجات، وما إذا كان المتصلون بحاجة لتكرار كلامهم.
| المزود | الفئة | متوسط تأخير EOU | أفضل حالة | الجودة | البث المباشر | LiveKit | الحكم |
|---|---|---|---|---|---|---|---|
| Deepgram Nova-3 | تحويل الصوت إلى نص | 424ms | 0ms | موصى به | |||
| ElevenLabs TTS | تحويل النص إلى صوت | N/A | N/A | موصى به | |||
| Groq — Llama 4 Maverick | نماذج اللغات الصوتية | N/A | N/A | موصى به | |||
| LiveKit BVC (Background Voice Cancellation) | إلغاء الضوضاء | N/A | N/A | موصى به | |||
| Silero VAD | كشف النشاط الصوتي | N/A | N/A | موصى به | |||
| Soniox STT RT v3 | تحويل الصوت إلى نص | 1678ms | 773ms | جيد | |||
| Google Cloud STT — Chirp 3 | تحويل الصوت إلى نص | 2376ms | 2000ms | مقبول | |||
| ElevenLabs Scribe v2 | تحويل الصوت إلى نص | 2000ms–2500ms | 2000ms | غير موصى به | |||
| Groq Whisper Large v3 Turbo | تحويل الصوت إلى نص | 284ms–3388ms | 284ms | غير موصى به | |||
| Groq Whisper Large v3 | تحويل الصوت إلى نص | 32ms–3494ms | 32ms | غير موصى به | |||
| Speechmatics | تحويل الصوت إلى نص | 460ms | 0ms | غير موصى به | |||
| Mistral Voxtral Mini | تحويل الصوت إلى نص | N/A | N/A | لا يعمل |
متوسط تأخير نهاية النطق بالمللي ثانية. الأقل أفضل. أقل من 500 مللي ثانية موصى به للوكلاء الفوريين.
أفضل مزيج من التأخير والجودة. متوسط تأخير EOU يبلغ 424 مللي ثانية مع دقة نسخ ممتازة — لم يحتج المتصلون لتكرار كلامهم. المزود الوحيد للـ STT حيث السرعة والجودة يقدمان معاً.
كلا نوعي Groq Whisper أنتجا جودة نسخ سيئة للعربية. نوع Turbo أضاف تأخيراً غير متسق بشكل كبير (284 مللي ثانية إلى 3.4 ثانية). بنية Whisper ضعيفة جوهرياً مع اللهجات العربية.
Speechmatics يقدم أسرع كشف لنهاية النطق (~460 مللي ثانية) لكن جودة نسخ العربية غير مقبولة — اضطر المتصلون لتكرار كلامهم. السرعة الخام لا معنى لها إذا كان النص خاطئاً.
دعم العربية يتراوح من ممتاز (Deepgram، Soniox) إلى غير فعال تماماً (Voxtral Mini — صفر مخرجات). الادعاءات التسويقية حول "الدعم متعدد اللغات" غير موثوقة. اختبر دائماً بصوت عربي حقيقي قبل الالتزام.