دليل بنية الوكيل الصوتي العربي

يغطي هذا الدليل البنية التي استخدمناها لبناء وكيل صوتي عربي إنتاجي لقطاع العقارات. التقنيات المستخدمة: LiveKit للاتصال الفوري، Deepgram Nova-3 لتحويل الصوت إلى نص، Groq Llama 4 Maverick كنموذج لغوي، وElevenLabs لتحويل النص إلى صوت.

خط المعالجة

المتصل → غرفة LiveKit → Silero VAD → Deepgram Nova-3 (STT) → Groq Llama 4 (LLM) → ElevenLabs (TTS) → المتصل

كل مكون يضيف تأخراً. الهدف هو تقليل زمن الدورة الكاملة — الوقت من لحظة توقف المستخدم عن الكلام حتى سماعه لرد الوكيل.

اختيار المكونات

كشف النشاط الصوتي: Silero VAD

يكتشف VAD متى يبدأ المستخدم ومتى يتوقف عن الكلام. نستخدم Silero VAD لأنه:

مجاني ومفتوح المصدر
خفيف الوزن (نموذج أقل من 2 ميجابايت)
مستقل عن اللغة (يعمل مع العربية)
مدمج مع LiveKit

درس مهم: ضبط VAD له عوائد متناقصة. بعد ضبط صارم (50 مللي ثانية مدة الصمت، عتبة تفعيل 0.30)، انتقل عنق الزجاجة إلى زمن نسخ STT.

تحويل الصوت إلى نص: Deepgram Nova-3

بعد اختبار 8 مزودين، فاز Deepgram Nova-3 بشكل حاسم:

424 مللي ثانية متوسط تأخر EOU (أسرع بنسبة 75% من البدائل)
جودة ممتازة مع اللهجة الخليجية
إضافة LiveKit للتكامل دون إعداد
بث مباشر للنتائج الجزئية الفورية

النموذج اللغوي: Groq Llama 4 Maverick

الاستدلال المسرّع عبر أجهزة Groq يمنحنا أقل زمن للحصول على أول رمز (token) من النموذج اللغوي للمحادثة. بالاقتران مع البث المباشر، تبدأ الردود بالتشغيل بينما النموذج لا يزال يولّد النص.

تحويل النص إلى صوت: ElevenLabs

يوفر نموذج eleven_multilingual_v2 من ElevenLabs مع صوت Sultan أكثر تحويل نص إلى صوت طبيعي بالعربية. واجهة البث المباشر تعني أننا نستطيع بدء التشغيل فور جاهزية أول جزء صوتي.

إلغاء الضوضاء: LiveKit BVC

يُنظّف إلغاء الصوت الخلفي (Background Voice Cancellation) الصوت قبل وصوله إلى STT، مما يحسّن دقة النسخ في البيئات الصاخبة.

تحسين التأخر

زمن الدورة الكاملة = كشف VAD + نسخ STT + استدلال LLM + توليد TTS

تحسيناتنا:

بث مباشر في كل مكان: كل من STT وLLM وTTS يستخدم واجهات بث مباشر
توليد استباقي: بدء استدلال LLM على نتائج STT الجزئية
VAD صارم: تقليل تأخر كشف الصمت
اختيار المزود: اختيار أسرع مزود في كل مرحلة

النتيجة: 787 مللي ثانية كأفضل زمن دورة كاملة مع Deepgram Nova-3.

ما التالي: نماذج الصوت الشاملة

بنية التسلسل (STT ثم LLM ثم TTS) تحمل تأخراً متأصلاً من التنقل بين المراحل. النماذج الشاملة مثل GPT-4o Realtime وUltravox يمكنها إزالة هذه التنقلات كلياً. نحن نقيّم:

Ultravox: صوت داخل، نص خارج (يتجاوز STT)
GPT-4o Realtime: صوت داخل، صوت خارج (بدون خط معالجة أصلاً)
Gemini 2.0 Flash: فهم صوتي أصلي

السؤال الجوهري: هل تتعامل هذه النماذج مع اللهجة الخليجية بنفس كفاءة خط المعالجة الحالي؟