لقد أحدث الذكاء الاصطناعي (AI) تحولاً في مختلف القطاعات على مستوى العالم، وتستمر تطبيقاته في التوسع في جميع المجالات حتى على مستوى الدول العربية. وفي ظل التوقعات المستقبلية للاستخدام المكثف للذكاء الاصطناعي، يأتي السؤال المبكر هنا، هل يمكن التفكير الآن في امتلاك محرك ذكاء اصطناعي عربي، على غرار ChatGPT، خاص باحدى أو مجموعة من الدول العربية؟ ما هي التحديات الرئيسية التي تواجه بناء مثل هذا المحرك للذكاء الاصطناعي، وفوائد وجود نظام ذكاء اصطناعي مطور محليًا؟
تحديات بناء محرك ذكاء اصطناعي عربي
1- تنوع اللغة واللهجات
اللغة العربية هي لغة معقدة ذات مورفولوجية غنية وطرق مختلفة لبناء الجملة. إن وجود لهجات إقليمية عديدة يزيد من تعقيد المهمة. على سبيل المثال، تختلف اللغة العربية المستخدمة في مصر بشكل كبير عن تلك المستخدمة في المغرب أو دول الخليج. إن بناء نموذج يمكنه فهم وإنشاء النص بلهجات مختلفة، إلى جانب اللغة العربية الفصحى الحديثة (MSA)، يتطلب التعامل مع هذه التعقيدات بكفاءة.
خطوات التعامل مع تنوع اللغة واللهجة
- جمع البيانات والتعليق عليها (Data Annotation)
بدايةً، يجب جمع مجموعة ضخمة ومتنوعة من البيانات “Corpus” تتضمن كلا من اللغة العربية الفصحى واللهجات المختلفة. يمكن أن يشمل ذلك مصادر متعددة مثل منشورات وسائل التواصل الاجتماعي والصحف الإقليمية والبرامج التلفزيونية وغيرها. بعد ذلك يتم التعليق بدقة “Annotation” على البيانات بواسطة المتحدثين الأصليين للغة، وهذا يضمن تحديد الفروق الدقيقة وخصوصيات كل لهجة بشكل جيد.
مثال: بالنسبة للغة العربية المصرية، يمكن جمع البيانات من البرامج التليفزيونية المصرية الشهيرة، والأشخاص المؤثرين على وسائل التواصل الاجتماعي، والمواقع الإخبارية المحلية. بالنسبة للغة العربية الخليجية، يمكن استخدم بيانات من الصحف الخليجية ووسائل التواصل الاجتماعي والحوارات المنطوقة في المسلسلات التلفزيونية الخليجية.
- تحديد اللهجة
يمكن تحديد اللهجة عن طريق تنفيذ نماذج يمكنها اكتشاف لهجة نص معين تلقائيًا. يتم ذلك عن طريق تدريب المصنفين “classifiers” على البيانات المعنونة للتعرف على الميزات الخاصة بكل لهجة.
- الفهم السياقي والتكيف
يجب تطوير الذكاء الاصطناعي الذي يمكنه فهم السياق والتبديل بين اللهجات حسب الحاجة. يتضمن ذلك التعرف على وقت تغيير اللهجات للمحادثة أو النص وتعديل الاستجابات وفقًا لذلك. ويجب في ذلك دمج تعليقات المستخدمين حيث يمكن للمستخدمين تصحيح استخدام لغة الذكاء الاصطناعي، مما يساعده على التعلم والتكيف مع مرور الوقت.
مثال: برنامج دردشة آلي يعمل بالذكاء الاصطناعي يبدأ محادثة باللغة العربية الفصحى ولكنه يتحول إلى اللغة العربية اليمنية عندما يكتشف أن المستخدم يشعر براحة أكبر مع تلك اللهجة، بناءً على مدخلات المستخدم والأدلة السياقية.
- التقييم والتكرار
يجب اختبار النماذج بانتظام على مجموعات بيانات متنوعة تمثل لهجات مختلفة. وهذا يساعد على تحديد نقاط الضعف ومجالات التحسين. كذلك يجب استخدام تفاعلات المستخدم وملاحظاته لتحسين فهم اللهجة وتوليدها بشكل مستمر.
مثال: نشر الذكاء الاصطناعي في بيئة متعددة اللغات مثل منصة خدمة العملاء، وجمع تعليقات المستخدمين حول التفسيرات الخاطئة أو الأخطاء، واستخدام هذه البيانات لتحسين النموذج.
أمثلة واقعية متاحة الآن
جوجل للبحث الصوتي باللغة العربية – يدعم البحث الصوتي من جوجل اللهجات العربية المختلفة. ويستخدم مجموعة كبيرة من البيانات العربية المنطوقة، ونماذج اللغة الخاصة بلهجة معينة، وتفاعلات المستخدم لتحسين الدقة. يمكن للنظام التعرف على اللهجة والتكيف معها بناءً على أنماط كلام المستخدم وسياقه.
مترجم مايكروسوفت – يتضمن Microsoft Translator دعمًا للهجات العربية المتعددة. ويستخدم مزيجًا من MSA ومجموعات البيانات الخاصة باللهجات لتوفير ترجمات دقيقة. تستفيد الخدمة من نماذج الترجمة الآلية العصبية المدربة على بيانات لغوية متنوعة، بما في ذلك تعليقات المستخدمين لتحسين ترجمات اللهجات.
2- توافر البيانات وجودتها
بالمقارنة مع لغات مثل الإنجليزية، هناك ندرة في البيانات النصية العربية عالية الجودة والمتنوعة. وبحسب دراسة أجريت عام 2020، فإن المحتوى العربي لا يشكل سوى حوالي 1% من إجمالي المحتوى على الإنترنت، على الرغم من أن أكثر من 422 مليون شخص يتحدثون به حول العالم. ويزيد التوافر المحدود لبيانات اللهجات من التحدي، مما يجعل من الصعب تدريب نماذج قوية يمكنها التعامل مع الطيف الكامل للغة العربية.
خطوات التعامل مع تحدي توافر البيانات وجودتها
- جمع البيانات من مصادر متنوعة
يجب الاستفادة من مجموعات البيانات الحالية التي تغطي اللهجات العربية المختلفة واللغة العربية الفصحى الحديثة (MSA). تشمل المصادر أرشيفات الأخبار، ومنصات التواصل الاجتماعي، ومشاريع البيانات المفتوحة، والمدونات الأكاديمية. في نفس الوقت يجب إشراك المجتمع للمساهمة بالبيانات. يمكن استخدام منصات مثل Amazon Mechanical Turk لجمع بيانات متنوعة وعالية الجودة من المتحدثين الأصليين للغة. كذلك يمكن الشراكة مع الجامعات والمؤسسات البحثية وشركات التكنولوجيا لمشاركة مجموعات البيانات الضخمة “Datasets” والمشاركة في تطويرها. يمكن للتعاون أن يعزز الوصول إلى الموارد اللغوية المتنوعة.
أمثلة تم تنفيذها:
نموذج OpenAI GPT-3: تم التدريب على مجموعة متنوعة من نصوص الإنترنت، بما في ذلك اللغة العربية، عن طريق استخراج البيانات من صفحات الويب والمنتديات ووسائل التواصل الاجتماعي. يضمن ذلك التعرض لمختلف السياقات واللهجات.
- شرح البيانات وتصنيفها
يتم ذلك عن طريق المتحدثين الأصليين للتعليق على البيانات بدقة، مما يضمن التقاط الفروق الدقيقة في كل لهجة. وهذا مهم بشكل خاص لتحليل المشاعر والتحليل النحوي. يمكن هنا استخدام أدوات التعليقات التوضيحية لتبسيط العملية، حيث يمكن لأدوات مثل Brat وProdigy وDoccano المساعدة في تنظيم وإدارة مشاريع التعليقات التوضيحية الكبيرة. كذلك يجب تنفيذ تقنيات التعلم النشط حيث يقوم الذكاء الاصطناعي بتحديد وطلب تسميات للبيانات الأكثر إفادة، مما يؤدي إلى تحسين عملية التعليق التوضيحي.
مثال: مجموعة بيانات مدار “MADAR Corpus”: مجموعة بيانات ضخمة مصنفة تغطي 25 لهجة عربية، وتوفر مصدرًا غنيًا للتدريب والتقييم.
- توليد البيانات الاصطناعية
لزيادة البيانات يمكن استخدم تقنيات مثل الترجمة الخلفية “back-translation” وإعادة الصياغة لإنشاء أشكال مختلفة من البيانات الموجودة. وهذا يساعد في زيادة حجم مجموعة البيانات وتنوعها. كذلك يمكن تطوير أنظمة قائمة على القواعد لإنشاء بيانات اصطناعية، خاصة لمجالات أو تطبيقات محددة حيث تكون هناك حاجة إلى بيانات منظمة.
أمثلة: الترجمة الخلفية: ترجمة النص العربي إلى لغة أخرى ثم العودة إلى اللغة العربية لإنشاء نسخ معاد صياغتها. تُستخدم هذه التقنية في نماذج الترجمة الآلية لتعزيز تنوع بيانات التدريب.
نموذج T5: يمكن استخدام نموذج T5 من جوجل (Text-to-Text Transfer Transformer) (محول نقل النص إلى نص) لزيادة البيانات عن طريق إنشاء متغيرات نصية مختلفة بناءً على المدخلات الأولية.
- تحسين جودة البيانات
يجب تنفيذ بروتوكولات صارمة لتنظيف البيانات لإزالة التكرارات والمحتوى غير ذي الصلة. كذلك يجب التحقق بانتظام من جودة البيانات من خلال المراجعات البشرية والفحوصات الآلية، وتطوير البرامج النصية للكشف عن التناقضات والأخطاء. ويجب أيضاً التأكد من توازن مجموعات البيانات من حيث اللهجات والموضوعات والأنواع لتجنب التحيز وتحسين التعميم.
أمثلة: AraVec: نموذج لتضمين الكلمات العربية تم إنشاؤه باستخدام مجموعة من المصادر المتنوعة التي تم تنظيفها ومعالجتها مسبقًا.
OSIAN (مجموعة الأخبار العربية الدولية مفتوحة المصدر): مجموعة متوازنة وشاملة من المقالات الإخبارية التي تخضع لعملية معالجة مسبقة صارمة لضمان الجودة العالية.
- الاستفادة من نقل التعلم والنماذج المدربة مسبقًا
يمكن استخدم النماذج اللغوية المدربة مسبقًا مثل BERT وGPT ونظيراتها العربية (على سبيل المثال، AraBERT وCAMeL) كنقطة بداية، ثم ضبط هذه النماذج على بيانات خاصة بالمجال أو باللهجة المحددة. كذلك يمكن تطبيق تقنيات نقل التعلم “Transfer Learning” لتكييف النماذج المدربة على مجموعات بيانات أكبر بلغات أخرى مع اللغة العربية. يمكن ضبط وتحسين مجموعات البيانات العربية الأصغر حجمًا وعالية الجودة لتحقيق أداء أفضل.
أمثلة: AraBERT: نموذج لغوي تم تدريبه مسبقًا خصيصًا للغة العربية، وتم ضبطه بدقة على نصوص عربية متنوعة لالتقاط الفروق اللغوية الدقيقة، ويمكن ضبطه بشكل أكبر على لهجات أو مجالات محددة.
mBERT (BERT متعدد اللغات): تم تدريبه في البداية على 104 لغة، بما في ذلك اللغة العربية. يمكن أن يؤدي ضبط mBERT على البيانات الخاصة باللغة العربية إلى إنتاج نماذج عالية الأداء لمختلف مهام البرمجة اللغوية العصبية.
3- العوامل الثقافية والمجتمعية
يعد ضمان احترام الذكاء الاصطناعي للمعايير والقيم الثقافية أمرًا بالغ الأهمية في المجتمعات العربية. يجب أن يكون الذكاء الاصطناعي قادرًا على التعامل مع المواضيع الحساسة بعناية ويجب تطويره لتجنب التحيزات المتأصلة في بيانات التدريب. على سبيل المثال، تتطلب معالجة الحساسيات الثقافية المتعلقة بأدوار الجنسين والممارسات الدينية والآراء السياسية فهمًا عميقًا للفروق الثقافية الدقيقة والقيم المجتمعية.
يجب إجراء بحث شامل لفهم المشهد التنظيمي في كل بلد سيتم نشر الذكاء الاصطناعي فيه. يتضمن ذلك قوانين حماية البيانات، واللوائح الخاصة بالذكاء الاصطناعي، ومعايير الصناعة. فمثلاً يجب على الشركات العاملة في الاتحاد الأوروبي الالتزام باللائحة العامة لحماية البيانات (GDPR). وبالمثل، يجب أن تلتزم محركات الذكاء الاصطناعي في الدول العربية بقوانين حماية البيانات المحلية مثل قانون حماية البيانات الإماراتي أو قانون حماية البيانات الشخصية السعودي.
كذلك يجب تطوير أنظمة الذكاء الاصطناعي التي تقدم تفسيرات واضحة ومفهومة لقراراتهم وأفعالهم. ويساعد ذلك في بناء الثقة ويضمن قدرة المستخدمين على فهم كيفية عمل الذكاء الاصطناعي.
4- التحديات التقنية وتحديات البنية التحتية
يتطلب تطوير نماذج الذكاء الاصطناعي واسعة النطاق قوة حسابية وبنية تحتية كبيرة. وقد يكون الوصول إلى هذه الموارد محدوداً في بعض الدول العربية. بالإضافة إلى ذلك، قد يكون هناك نقص في الباحثين والمهندسين المتخصصين في مجال الذكاء الاصطناعي، مما قد يؤدي إلى إبطاء جهود التطوير. وفقًا لتقرير عام 2021 الصادر عن المنتدى الاقتصادي العالمي، تواجه منطقة الشرق الأوسط وشمال إفريقيا فجوة كبيرة في المهارات الرقمية، حيث يمتلك 30٪ فقط من السكان المهارات الرقمية الأساسية.
يجب الاستثمار في البنية التحتية للحوسبة عالية الأداء “High-Performance Computing”. يمكن أن يشمل ذلك بناء مراكز بيانات محلية مجهزة بوحدات معالجة الرسومات ووحدات TPU القوية المصممة لأحمال عمل الذكاء الاصطناعي. كذلك يجب تنفيذ حلول “Edge Computing” حيث يتم إجراء حسابات الذكاء الاصطناعي بالقرب من مصدر البيانات. وهذا يقلل من زمن الوصول “latency”، وهو مفيد بشكل خاص للتطبيقات التي تتطلب معالجة في الوقت الفعلي.
بالطبع يجب الاستثمار في برامج التعليم والتدريب لتطوير القوى العاملة الماهرة. يتضمن ذلك البرامج الجامعية والدورات التدريبية عبر الإنترنت والمعسكرات التدريبية المتخصصة التي تركز على الذكاء الاصطناعي والتعلم الآلي. كذلك يجب التعاون مع الجامعات العالمية وشركات التكنولوجيا لجلب الخبرات وبرامج التدريب إلى المنطقة. مثال على ذلك جامعة محمد بن زايد للذكاء الاصطناعي- MBZUAI: وهي مؤسسة أكاديمية قائمة على الأبحاث على مستوى الدراسات العليا في دولة الإمارات العربية المتحدة تركز على تطوير تعليم وأبحاث الذكاء الاصطناعي.
5- عوامل اقتصادية
يتطلب بناء أنظمة الذكاء الاصطناعي المتقدمة استثمارات مالية ضخمة. قد يكون تأمين التمويل الكافي أمرًا صعبًا، خاصة في المناطق ذات النظم البيئية التكنولوجية الأقل تطورًا. وقد تكون الجدوى التجارية لهذه التكنولوجيات أيضا غير مؤكدة، مما يؤثر على أولويات الاستثمار والتنمية. ووفقاً لتقرير صادر عن شركة PwC “برايس ووترهاوس كوبرز”، يمكن أن يساهم الذكاء الاصطناعي بما يصل إلى 320 مليار دولار في اقتصاد الشرق الأوسط بحلول عام 2030، مما يسلط الضوء على التأثير الاقتصادي المحتمل للاستثمار في الذكاء الاصطناعي.
تعد هذه هي التحديات الرئيسية لتطوير محرك ذكاء اصطناعي عربي، مع عرض موجز لبعض الحلول لهذه التحديات. ولكن ما هي فوائد امتلاك مثل هذه التقنية؟ وهل الأمر جدير بالمحاولة في ظل التحديات والصعوبات التي تواجه مشروعاً ضخماً مثل هذا؟
فوائد امتلاك محرك ذكاء اصطناعي محلي
يوفر امتلاك محرك ذكاء اصطناعي عربي العديد من الفوائد، منها تعزيز الابتكار المحلي وتوفير حلول تقنية متقدمة تلبي احتياجات السوق العربية. كما يسهم في الحفاظ على الهوية الثقافية واللغوية، ودعم التعليم والبحث العلمي، وتحسين الخدمات الحكومية والقطاع الخاص عبر تقنيات مخصصة وفعالة. فيما يلي نظرة سريعة على بعض فوائد امتلاك محرك ذكاء اصطناعي عربي.
1- التخصيص والتعريب
يمكن تصميم محرك الذكاء الاصطناعي المطوّر محليًا بشكل أفضل لفهم وإنشاء النصوص باللهجات العربية المختلفة واستيعاب الفروق الدقيقة في اللغات المحلية. ويضمن هذا التوطين أن يحترم الذكاء الاصطناعي ويعكس القيم الثقافية المحلية، مما يؤدي إلى تفاعلات أكثر ملاءمة ومقبولة. على سبيل المثال، يمكن للذكاء الاصطناعي الذي يفهم اللغة العربية المصرية أن يقدم استجابات أكثر صلة وجاذبية للمستخدمين المصريين.
2- سيادة البيانات والخصوصية
تضمن الملكية المحلية بقاء البيانات المستخدمة للتدريب وتشغيل الذكاء الاصطناعي داخل الحدود الوطنية، مع الالتزام بقوانين ولوائح خصوصية البيانات المحلية. يؤدي التحكم المعزز في البيانات والبنية التحتية إلى تقليل مخاطر اختراق البيانات وإساءة استخدامها، مما يعزز الثقة بين المستخدمين والشركات.
3- النمو الإقتصادي
يمكن أن يؤدي تطوير محرك الذكاء الاصطناعي وصيانته محليًا إلى خلق فرص عمل للمهندسين وعلماء البيانات والباحثين وغيرهم من المهنيين. على سبيل المثال، من المتوقع أن تخلق صناعة الذكاء الاصطناعي في دولة الإمارات العربية المتحدة أكثر من مليون وظيفة بحلول عام 2030. ويمكن لنظام الذكاء الاصطناعي المحلي أن يحفز الابتكار، مما يؤدي إلى إنشاء شركات ناشئة وفرص عمل جديدة في قطاع الذكاء الاصطناعي. وبمرور الوقت، يمكن أن يؤدي الاعتماد على البنية التحتية المحلية للذكاء الاصطناعي إلى تقليل التكاليف المرتبطة برسوم الترخيص والاعتماد على التقنيات الأجنبية.
4- الأمن الاستراتيجي والوطني
إن امتلاك تكنولوجيا الذكاء الاصطناعي يقلل من الاعتماد على الشركات والبلدان الأجنبية، وهو ما يمكن أن يكون حاسماً للأمن القومي. كما يسمح أيضًا بتطوير حلول مخصصة للذكاء الاصطناعي مصممة خصيصًا لتلبية الاحتياجات الوطنية والمصالح الإستراتيجية، مثل الدفاع والرعاية الصحية والتعليم. على سبيل المثال، تهدف الاستراتيجية الوطنية للذكاء الاصطناعي في دولة الإمارات العربية المتحدة إلى وضع الدولة كدولة رائدة عالميًا في مجال الذكاء الاصطناعي بحلول عام 2031.
5- الخدمات والتطبيقات المحسنة
يمكن ضبط محركات الذكاء الاصطناعي المطورة محليًا لتلبية احتياجات محددة في قطاعات مثل الرعاية الصحية والتعليم والتمويل والخدمات الحكومية، مما يؤدي إلى تحسين الكفاءة والفعالية. كذلك يمكن أن يؤدي دعم اللغات واللهجات المحلية إلى تحسين خدمة العملاء وإمكانية الوصول وتجربة المستخدم في التطبيقات المختلفة. على سبيل المثال، يمكن لمحرك الذكاء الاصطناعي الذي يفهم السجلات الطبية العربية أن يحسن رعاية المرضى ونتائج الرعاية الصحية.
6- قدرات البحث والتطوير (R&D)
يعزز بناء محركات الذكاء الاصطناعي تطوير الخبرات المحلية في التقنيات المتقدمة، مما يساهم في التقدم العلمي والتكنولوجي الشامل للبلاد. كما أنه يسهل التعاون بين الجامعات المحلية والمؤسسات البحثية والقطاع الخاص، مما يؤدي إلى الابتكارات وتبادل المعرفة.
7- الامتثال التنظيمي والمعايير الأخلاقية
يمكن تصميم محركات الذكاء الاصطناعي المحلية لتتوافق مع اللوائح والمعايير الوطنية، مما يضمن الامتثال القانوني والأخلاقي. إن فرصة تضمين الاعتبارات الأخلاقية الخاصة بالسياق الثقافي والمجتمعي للمنطقة في عمليات تطوير الذكاء الاصطناعي مهمة أيضًا.
8- الفوائد التعليمية
يؤدي الاستثمار في تطوير الذكاء الاصطناعي إلى بناء القدرات والخبرات المحلية، وتوفير الفرص التعليمية للطلاب والمهنيين. كذلك يؤدي تعزيز البحث الأكاديمي وتشجيع التعاون بين المؤسسات التعليمية والصناعة إلى زيادة الابتكار بصفة عامة في مختلف المجالات.
خاتمة
في حين أن تطوير محرك ذكاء اصطناعي عربي يمكنه التنافس بشكل مباشر مع ChatGPT يمثل تحديًا، فمن الممكن إنشاء ذكاء اصطناعي ذي قيمة عالية وتنافسية للغاية ومصمم خصيصًا لتلبية الاحتياجات المحلية. ومن خلال التركيز على نقاط القوة الإقليمية، والاستثمار في المجالات الرئيسية، وتعزيز التعاون، يمكن لمحرك الذكاء الاصطناعي المطوَّر محليًا أن يوفر فوائد كبيرة ويحقق حضورًا متميزًا وتنافسيًا في السوق.