أفضل واجهة برمجة تحويل الصوت العربي إلى نص في 2026

اختبرنا 8 مزودي STT مع اللهجة الخليجية في وكيل صوتي إنتاجي. إليك ما نجح فعلاً.

أفضل واجهة برمجة تحويل الصوت العربي إلى نص في 2026

العثور على واجهة STT API جيدة للعربية أصعب مما ينبغي. معظم المزودين يدّعون "دعم أكثر من 100 لغة" لكنهم ينهارون عندما تُدخل لهم صوتاً خليجياً من مكالمة هاتفية حقيقية. نعرف ذلك لأننا اختبرنا 8 منهم في وكيل صوتي إنتاجي لقطاع العقارات.

ما الذي اختبرناه

بنينا وكيلاً صوتياً يتعامل مع المكالمات الواردة لشركة عقارات في الخليج. متصلون حقيقيون، لهجات عربية حقيقية، وضوضاء خلفية حقيقية. ليست اختبارات اصطناعية — بل حركة إنتاجية فعلية.

لكل مزود STT، قسنا:

  • تأخر كشف نهاية الكلام (EOU Delay): مدى سرعة اكتشاف المزود أن المستخدم أنهى كلامه
  • زمن الدورة الكاملة (Full Turn Time): من لحظة صمت المستخدم حتى تشغيل صوت الوكيل
  • جودة النسخ: هل التقط المزود اللهجة الخليجية بشكل صحيح؟ هل اضطر المستخدمون لتكرار كلامهم؟

النتائج

الفائز: Deepgram Nova-3

424 مللي ثانية متوسط تأخر EOU مع جودة عربية ممتازة. هذا أسرع بنسبة 75% من الخيار التالي (Soniox بمعدل 1678 مللي ثانية) و4 أضعاف أسرع من Google Chirp 3 (2376 مللي ثانية).

التقط Deepgram Nova-3 عبارات مثل "حبيت استفسر عندكم عرض للبيع" و"تصنيف الارض" بشكل صحيح دون أي حاجة لتكرار المستخدمين. مزيج السرعة والدقة لا مثيل له.

الوصيف: Soniox STT RT v3

1678 مللي ثانية متوسط تأخر EOU مع معدل خطأ كلمات (WER) يبلغ 16.2% — وهو في الواقع أدنى معدل خطأ قسناه. إذا كنت تحتاج أقصى دقة وتتحمل تأخراً أعلى، فإن Soniox يستحق النظر.

البقية

| المزود | متوسط تأخر EOU | الجودة | الحكم | |--------|----------------|--------|-------| | Deepgram Nova-3 | 424ms | ممتازة | الفائز | | Speechmatics | 460ms | ضعيفة | سريع لكن غير دقيق | | Soniox RT v3 | 1678ms | ممتازة | أفضل WER | | Google Chirp 3 | 2376ms | ممتازة | بطيء جداً | | ElevenLabs Scribe | 2000-2500ms | ضعيفة | غير صالح | | Groq Whisper Turbo | 284-3388ms | ضعيفة | غير مستقر | | Groq Whisper v3 | 32-3494ms | ضعيفة | غير مستقر | | Mistral Voxtral | غير متاح | لا يعمل | بدون مخرجات |

الخلاصات الرئيسية

  1. نماذج Whisper لا تعمل مع العربية. كلا إصداري Groq Whisper أنتجا نسخاً سيئة جداً. لا تضيع وقتك.

  2. السرعة بدون جودة لا فائدة منها. كان Speechmatics سريعاً للغاية (460 مللي ثانية) لكن المستخدمين اضطروا لتكرار كلامهم باستمرار. الإجابة السريعة الخاطئة تبقى إجابة خاطئة.

  3. Mistral Voxtral لا يدعم العربية أصلاً. رغم ادعائه دعم لغات متعددة، لم ينتج أي نسخ نصي.

  4. Deepgram Nova-3 يكسر معادلة السرعة مقابل الجودة. فهو الأسرع وأحد أدق الخيارات في آنٍ واحد.

توصيتنا

إذا كنت تبني تطبيقاً صوتياً عربياً في 2026، ابدأ بـ Deepgram Nova-3. يقدم رصيداً مجانياً سخياً (200 دولار)، وثائق ممتازة، ودعم إضافة LiveKit، وأفضل أداء إنتاجي قسناه.

للنسخ النصي على دفعات حيث لا يهم التأخر، يبقى Google Chirp 3 خياراً ممتازاً مع أوسع دعم للهجات.