تواجه عمالقة التكنولوجيا الأمريكية مراجعة قوية من الشرق.
حتى مع تعهد شركة Nvidia اليوم باستثمار مذهل قدره 100 مليار دولار في مراكز بيانات العميل الخاص بها OpenAI — وهي خطوة أثارت الكثير من الجدل في الأوساط التقنية والتجارية — أطلقت فريق Qwen للذكاء الاصطناعي التابع لشركة Alibaba نموذجها الأكثر إثارة للإعجاب حتى الآن: Qwen3-Omni، وهو نموذج لغة كبير مفتوح المصدر تصفه الشركة بأنه أول “نظام ذكاء اصطناعي شامل متعدد الوسائط من البداية إلى النهاية يدمج النصوص والصور والصوت والفيديو في نموذج واحد.”
للتوضيح: يمكن لـ Qwen3–Omni استقبال وتحليل مدخلات نصية وصورية وصوتية وفيديو من المستخدم، لكنه يخرج نصًا وصوتًا فقط — وهذا ما يزال إنجازًا مذهلًا.
بالطبع، بدأ GPT-4o من OpenAI اتجاه النماذج “الشاملة” عند إطلاقه في 2024، لكنه دمج النصوص والصور والصوت فقط.
Google أطلقت Gemini 2.5 Pro في مارس 2025، والذي يمكنه أيضًا تحليل الفيديو، لكنه مثل GPT-4o مغلق المصدر، أي أنه مدفوع الاستخدام، بخلاف Qwen3–Omni الذي يمكن تنزيله وتعديله ونشره مجانًا بموجب ترخيص Apache 2.0 الصديق للمؤسسات — حتى للاستخدام التجاري.
أقرب منافس مفتوح المصدر هو Gemma 3n من Google، والذي تم ترخيصه أيضًا بـ Apache 2.0 منذ مايو 2025، ويقبل الفيديو والصوت والنصوص والصور كمدخلات، لكنه يخرج النص فقط.
على عكس الأنظمة السابقة التي أضافت الكلام أو الرؤية إلى نماذج النصوص، يدمج Qwen3–Omni جميع الوسائط منذ البداية، مما يسمح له بمعالجة المدخلات وتوليد المخرجات مع الحفاظ على الاستجابة في الوقت الفعلي.
قدمت Alibaba Cloud ثلاث نسخ مختلفة من Qwen3–Omni–30B–A3B، كل منها يخدم أغراضًا مختلفة:
- Instruct: النموذج الأكثر اكتمالًا، يجمع بين مكوني Thinker و Talker للتعامل مع مدخلات الصوت والفيديو والنصوص وتوليد النصوص والصوت.
- Thinking: يركز على مهام التفكير المعقد وسلاسل التفكير الطويلة؛ يقبل نفس المدخلات متعددة الوسائط لكنه يقتصر على إخراج النصوص فقط، مما يجعله مناسبًا للتطبيقات التي تحتاج استجابات مكتوبة مفصلة.
- Captioner: نسخة مُحسَّنة خصيصًا لتعليق الصوت، تنتج أوصاف نصية دقيقة مع الحد الأدنى من الأخطاء للمدخلات الصوتية.
معًا، تسمح هذه النسخ الثلاث للمطورين بالاختيار بين التفاعل متعدد الوسائط، التفكير العميق، أو فهم الصوت المتخصص حسب الحاجة.
يتوفر Qwen3–Omni الآن على Hugging Face و Github و عبر API الخاصة بـ Alibaba كنسخة أسرع “Flash“.
البنية والتصميم
يعتمد Qwen3–Omni على بنية Thinker–Talker، حيث يتولى Thinker مهام التفكير وفهم الوسائط المتعددة، بينما يقوم Talker بتوليد الكلام الطبيعي بالصوت. وكلاهما يعتمد على تصميم Mixture-of-Experts (MoE) لدعم التوازي العالي والاستدلال السريع.
يتم فصل Talker عن تمثيلات النص الخاصة بـ Thinker، ويعتمد مباشرة على ميزات الصوت والفيديو، مما يمكّنه من تنسيق الكلام مع الفيديو بشكل طبيعي، مثل الحفاظ على النبرة واللحن أثناء الترجمة. كما يسمح هذا بتدخل الوحدات الخارجية مثل الفلاتر أو أنظمة السلامة قبل أن يحول Talker المخرجات إلى صوت.
يتم دعم توليد الكلام من خلال مخطط autoregressive متعدد القواميس و Code2Wav ConvNet خفيف الوزن، مما يقلل الكمون ويحافظ على التفاصيل الصوتية. الأداء في البث المباشر مركزي: يحقق Qwen3–Omni زمن استجابة أول حزمة نظري قدره 234 ميلي ثانية للصوت و547 ميلي ثانية للفيديو، مع الحفاظ على أقل من عامل الوقت الحقيقي حتى مع الطلبات المتعددة.
يدعم النموذج 119 لغة للنصوص، و19 للمدخلات الصوتية، و10 للمخرجات الصوتية، مع تغطية لغات رئيسية واللهجات مثل الكانتونية.
السياق والحدود
- طول السياق: 65,536 رمز في وضع Thinking؛ 49,152 رمز في وضع Non–Thinking
- الحد الأقصى للمدخل: 16,384 رمز
- الحد الأقصى للمخرجات: 16,384 رمز
- أطول سلسلة تفكير: 32,768 رمز
- الحصة المجانية: مليون رمز (عبر جميع الوسائط) صالحة لمدة 90 يومًا بعد التفعيل
التسعير عبر API
- مدخلات النص: 0.00025 دولار لكل 1000 رمز (~0.25 دولار لكل مليون رمز)
- مدخلات الصوت: 0.00221 دولار لكل 1000 رمز (~2.21 دولار لكل مليون رمز)
- مدخلات الصورة/الفيديو: 0.00046 دولار لكل 1000 رمز (~0.46 دولار لكل مليون رمز)
- مخرجات النص:
- 0.00096 دولار لكل 1000 رمز إذا كان المدخل نص فقط
- 0.00178 دولار لكل 1000 رمز إذا كان المدخل يحتوي على صورة أو صوت
- مخرجات النص + الصوت: 0.00876 دولار لكل 1000 رمز (الجزء الصوتي فقط؛ النص مجاني)
كيف تم بناء Qwen3-Omni
تدريب النموذج شمل ما قبل التدريب واسع النطاق و ما بعد التدريب المكثف.
- Audio Transformer (AuT): مشفر صوتي تم بناؤه من الصفر وتدريب على 20 مليون ساعة صوتية، بما في ذلك 80% بيانات ASR بالصينية والإنجليزية، 10% من لغات أخرى، و10% مهام فهم الصوت.
مراحل التدريب:
- محاذاة المشفر (S1): تدريب المشفرات الصوتية والبصرية منفصلة مع تجميد LLM لمنع تدهور الإدراك.
- التدريب العام (S2): استخدام مجموعة بيانات تحتوي على حوالي 2 تريليون رمز، تشمل نصوصًا وصوتًا وصورًا وفيديو.
- السياق الطويل (S3): تمديد طول الرموز من 8,192 إلى 32,768، مع المزيد من البيانات الصوتية والفيديو لتعزيز التعامل مع التسلسلات الطويلة.
بعد التدريب، تم تحسين Thinker من خلال الضبط الدقيق، والتقطير من القوي إلى الضعيف، وتحسين GSPO، بينما تم تدريب Talker على أربعة مراحل مع مئات الملايين من عينات الكلام متعدد الوسائط لتقليل الهلوسة وتحسين جودة الصوت.
نتائج الاختبارات
- من 36 معيارًا، حقق Qwen3–Omni الأفضلية في 22 معيارًا وتصدر النماذج مفتوحة المصدر في 32.
- النص والتفكير: درجات أعلى بكثير من GPT–4o و Gemini 2.5 Flash
- الصوت والكلام: WER منخفض جدًا، وتفوق على المنافسين
- الصور والرؤية: أداء أعلى من GPT–4o في HallusionBench وMMMU_pro وMathVision_full
- الفيديو: تفوق على Gemini 2.0 Flash وGPT–4o
التطبيقات وحالات الاستخدام
تشمل السيناريوهات:
- النسخ والترجمة متعددة اللغات
- التعليق الصوتي
- التعرف على النصوص (OCR)
- وسم الموسيقى
- فهم الفيديو
- دعم العملاء التفاعلي بالفيديو والصوت
- الحوار الصوتي-البصري التفاعلي
يمكن للمطورين ضبط سلوك Qwen3–Omni من خلال system prompts لتخصيص أسلوب المحادثة والشخصية، ما يدعم المساعدين، وأنظمة النسخ، وأدوات التحليل المتخصصة.
الترخيص والتأثير على الشركات
تم إصدار Qwen3–Omni تحت ترخيص Apache 2.0، مما يتيح للشركات استخدامه وتعديله بحرية، بما في ذلك الاستخدام التجاري، والتعديل، وإعادة التوزيع دون الحاجة لإطلاق المصدر.
يشمل الترخيص أيضًا حقوق براءات الاختراع، مما يقلل المخاطر القانونية عند دمجه في أنظمة خاصة.
المستقبل لـ Qwen
يمثل Qwen3–Omni دفعًا من Alibaba Cloud لتوسيع الذكاء الاصطناعي متعدد الوسائط ليصبح جاهزًا للمؤسسات.
من خلال تصميم Thinker–Talker، وأنبوب التدريب الشامل، وترخيص Apache 2.0، يقدم النظام أداءً تقنيًا عالياً وسهولة وصول عملية.
كما صرح Lin: “قد يغير هذا المشهد بالنسبة لنماذج Omni مفتوحة المصدر! نتمنى أن تستمتعوا به!”
من خلال الجمع بين التفاعل في الوقت الفعلي والتوافر المفتوح، يشير Qwen3–Omni إلى مرحلة جديدة لتبني الذكاء الاصطناعي متعدد الوسائط، حيث يمكن للمؤسسات والمطورين دمج أنظمة قوية في سير العمل دون عوائق.