يتحدث اللغة العربية اليوم ما يزيد عن 440 مليون شخص حول العالم، وتعتبر اللغة الرابعة الأكثر شيوعاً على الإنترنت، ورغم ذلك كله لا يزال تمثيلها عبر هذه الشبكة -وفي ظل كل هذا التطور التكنولوجي- ضعيفاً للغاية ويكاد يكون معدوماً بالمقارنة مع غيرها، على الرغم من توافر العديد من المواقع التي تمثل قاعدة بيانات عربية هائلة على الإنترنت، كموقع إجابة وموقع ويكيبيديا والعديد من المواقع الطبية المتخصصة وغيرها.
فبحسب إحدى الأوراق البحثية فإن المحتوى العربي يمثل ما يتراوح بين 1 إلى 3% من مجموع المحتوى الرقمي على شبكة الإنترنت. فما مصير المحتوى العربي في ظل زحام المحتوى الأجنبي؟ وهل يمكننا قولبة الذكاء الاصطناعي ليخدم لغتنا العربية بطريقة ما؟
تأثير ثورة الذكاء الاصطناعي على المحتوى الرقمي
على مدى عدة سنوات، استطاع الذكاء الاصطناعي أن يبهرنا بشكل غريب، حيث بدأت مختلف التقنيات الحديثة بالخروج إلى النور، وبدأت خدمات وأدوات عديدة تنطلق بين أيدي المستخدمين، من بوتات الإجابة عن الأسئلة، إلى خدمات الذكاء الاصطناعي التوليدي في إنشاء الصور وتوليدها وابتكار مقاطع فيديو متكاملة أيضاً.
ولا يخفى على أحد الثورة التي حققها بوت تشات جي بي تي الذي أعلنت عنه أوبن آي أيه في 30 نوفمبر الماضي، والذي استطاع خلال شهرين فقط من إطلاقه أن يحققه عدداً هائلاً من الاستخدامات والتجارب، وبدأت الشركات تتنافس لتطوير بوت ذكي بعبقرية تشات جي بي تي.
لكن ماذا بشأن اللغة العربية؟ بكل تأكيد لم يكن هذا البوت الذكي قادراً على فك شيفراتها ورموزها بشكل جيد.
كيف يمكننا سد فجوة اللغة والاستفادة من الذكاء الاصطناعي لإثراء المحتوى العربي؟
لنتمكن من الاستفادة من ثورة الذكاء الاصطناعي اليوم لإثراء المحتوى العربي، فإننا بحاجة إلى تدريب هذه الأدوات على بيانات عربية ضخمة ومتنوعة ومنظمة للغاية. يمكن فقط للبيانات الضخمة عالية الجودة أن تساعد في تحسين أداء نماذج الذكاء الاصطناعي. وهو ما يتطلب بدوره تحسين أدوات الذكاء الاصطناعي لتصبح أكبر قدرة على فهم اللغة العربية، وذلك لو أزلنا عن كاهلنا مدى صعوبة اللغة وكم تتطلب من بيانات ليتمكن أي نموذج لغوي من استيعاب مختلف قواعدها.
وهنا يمكن الاستفادة من العديد من المواقع التي توفر معلومات وذخيرة لغوية كبيرة وقاعدة بيانات عربية ضخمة كموقع إجابة ويكيبيديا وغيرها. ثم الانطلاق في رحلة تشاركية بين مطوري الذكاء الاصطناعي واللغويين الخبراء في اللغة العربية لتثمر هي فيما بعد في توفير محتوى يدعم لغتَنا ويوفر إجابات عن أهم أسئلة عن اللغة العربية والأدب وحتى البلاغة والشعر.
إذاً، هل بقيت اللغة العربية خارج المعركة؟
منذ القديم ونحن نتطلع إلى التطور الذكي الذي وصلنا له اليوم، لكن المشكلة تكمن في أن هذا التطور شمل بعض المجموعات اللغوية فقط في حين بقي البعض الآخر خارج هذه المعركة التطورية، ولم يشارك في هذه الرحلة، ومنها العربية.
وبالرغم من المحاولات الجمة لتغيير هذا الواقع، إلا أن إدخال اللغة العربية لتقف بجانب مثيلاتها من بقية اللغات في الخط الأول يتطلب دفع أموال هائلة والاستثمار الكبير بالمليارات.
لو أخذنا تشات جي بي تي على سبيل المثال، فالأمر لا يقتصر على ضعف ظاهر في الصياغة أو التركيب اللغوي، لكن المشكلة في المعلومات ذاتها المتوفرة والتي تم ويتم تدريب هذا النموذج اللغوي عليها. فعند البحث حول موضوع ما باللغة الإنجليزية نجد أن تشات جي بي تي يتحول إلى باحث مخضرم وعالم كبير يهتم بتفاصيل الأمور، في حين أنه وعند البحث عن ذات الموضوع باللغة العربية ستعتقد أنك تحاور موظفاً كسولاً نمطياً يقوم بعمله بأدنى الموارد والجهد.
أما عن كيفية القيام بالأمر فيكون عبر اتباع مجموعة من التقنيات التي تتمثل في:
- تحليل البيانات Data Analysis: عبر استخدام تقنيات معالجات اللغات الطبيعية NLP وتحليل البيانات لفهم اهتمامات الجمهور العربي وما يرغب في إيجاده عبر الشبكة، ليتم بدوره توفير محتوى مناسب يخدم تطلعاته.
- توليد المحتوى: والذي يعتمد على تقنيات التعلم الآلي والنماذج اللغوية المتطورة والذكاء الاصطناعي التوليدي لتقوم النماذج اللغوية بتوليد محتوى جديد كلياً خال من الأخطاء اللغوية أو العلمية بناء على معلومات سبق تدريبها عليها، وبالتالي إتاحة مزيد من المعلومات الموثوقة على شبكة الإنترنت تثري المحتوى العربي.
- ترجمة المحتوى: عبر استخدام تقنيات الذكاء الاصطناعي الحديثة مثل المترجمات الآلية المتطورة وتشات جي بي تي التي يمكن أن تعمل على ترجمة اللغات المختلف إلى العربية فتوفر محتوى قيماً في مختلف المجالات باللغة العربية.
- التفاعل مع الجمهور: عبر تطوير أدوات مثل بوتات الدردشة مختصة باللغة العربية تتفاعل مع المستخدمين وتقوم عبر تقنية التعلم الآلي بتعلم المزيد واكتساب ذخيرة لغوية تساعدها في التطور الذاتي بشكل كبير وسريع.
- التطوير المستمر لبيانات التدريب: إذا تمكنا من الوصول إلى المزيد من المحتوى العربية باتباع الطرق السابقة، سيكون من الممكن تدريب النماذج اللغوية باستمرار على هذه البيانات الجديدة التي تصبح يوماً بعد آخر أكثر تنوعاً ودقة.
أي أنه وبتضافر جهودنا جميعاً يمكننا قولبة الذكاء الاصطناعي ليخدم لغتنا العربية وينظم المحتوى الرقمي باللغة العربية بشكل أكبر وأكثر تنظيماً.