تقرير دولي يكشف: اختبارات الذكاء الاصطناعي غير دقيقة وتنتج نتائج مضللة

ديمة خالد November 5, 2025

كشف تقرير دولي جديد عن ثغرات خطيرة في أنظمة تقييم الذكاء الاصطناعي، ما يثير شكوكًا حول مدى مصداقية الاختبارات التي تعتمد عليها كبرى شركات التكنولوجيا لتحديد سلامة وفعالية نماذجها.

وأظهرت الدراسة، التي أعدّها معهد أمن الذكاء الاصطناعي التابع للحكومة البريطانية بالتعاون مع باحثين من جامعات أوكسفورد وستانفورد وبيركلي، أن مئات الاختبارات المستخدمة عالميًا لتقييم أداء الذكاء الاصطناعي “غير دقيقة” وتحتوي على عيوب منهجية قد تؤدي إلى نتائج مضللة.

فقد قام الباحثون بتحليل أكثر من 440 اختبارًا مرجعيًا (Benchmark) تُستخدم لتقييم النماذج الجديدة، وتبيّن أن “جميعها تقريبًا يعاني من نقاط ضعف في جانب واحد على الأقل”، وأن بعض النتائج التي تصدر عنها “لا تعكس الواقع أو قد تكون مضللة”، وفق ما ورد في التقرير.

شكوك حول مصداقية التقييمات التقنية

تقرير دولي يكشف: اختبارات الذكاء الاصطناعي غير دقيقة وتنتج نتائج مضللة

وقال الباحث في معهد الإنترنت بجامعة أوكسفورد أندرو بين، وهو المشرف على الدراسة، إن هذه النتائج تثير تساؤلات جوهرية حول ما إذا كانت التطورات المعلنة في الذكاء الاصطناعي حقيقية. وأضاف:

“الاختبارات المرجعية هي الأساس الذي تبني عليه الشركات ادعاءاتها بشأن تقدم الذكاء الاصطناعي. لكن من دون معايير موحدة وقياسات دقيقة، يصبح من الصعب معرفة ما إذا كانت النماذج تتحسن فعلًا أم أنها تبدو كذلك فقط على الورق”.

وفي ظل غياب تشريعات صارمة تنظم هذا القطاع في بريطانيا والولايات المتحدة، تعتمد الشركات على هذه الاختبارات لتحديد مدى توافق النماذج مع القيم الإنسانية وسلامتها في مجالات مثل التفكير المنطقي، والبرمجة، والرياضيات.

غوغل تسحب نموذجًا بعد “مزاعم ملفقة”

وتزامنت نتائج التقرير مع سلسلة من الأزمات التي تواجهها شركات التكنولوجيا الكبرى، حيث اضطرت غوغل مؤخرًا إلى سحب نموذجها “جِمّا” (Gemma) بعد أن اخترع ادعاءات وهمية ضد السيناتورة الأميركية مارشا بلاكبيرن، زاعمًا أنها كانت على علاقة غير شرعية مع ضابط شرطة، مدعمًا ذلك بروابط إخبارية مزيفة.

وقالت بلاكبيرن في رسالة وجهتها إلى المدير التنفيذي لغوغل سندر بيتشاي:

“هذا ليس خطأ بريئًا أو هلوسة رقمية، بل تشهير علني أنتجه ووزعه نموذج مملوك لغوغل. السماح لأداة عامة باختلاق اتهامات جنائية ضد عضو في مجلس الشيوخ يُعد فشلًا أخلاقيًا وتنظيميًا خطيرًا”.

وأوضحت غوغل أن نموذج Gemma صُمم أساسًا للمطورين والباحثين وليس للاستخدام العام، مؤكدة أنها سحبته من منصتها AI Studio بعد ورود تقارير عن “استخدام غير مخصص”.

حوادث مأساوية تؤجج الجدل

تقرير دولي يكشف: اختبارات الذكاء الاصطناعي غير دقيقة وتنتج نتائج مضللة

وفي سياق متصل، أعلنت شركة Character.ai، وهي من الشركات الناشئة في مجال روبوتات الدردشة، منع المراهقين من خوض محادثات مفتوحة مع روبوتاتها، بعد سلسلة من الحوادث المأساوية شملت انتحار فتى يبلغ من العمر 14 عامًا في فلوريدا، قالت والدته إن روبوتًا ذكاءً اصطناعيًا “تلاعب بعقله” ودفعه لإنهاء حياته. كما تواجه الشركة دعوى قضائية في الولايات المتحدة من عائلة مراهق آخر اتهمت أحد روبوتاتها بتشجيعه على إيذاء نفسه وقتل والديه.

دعوات لتوحيد المعايير وضمان الشفافية

وأشار التقرير إلى أن معظم الشركات الكبرى تمتلك اختباراتها المرجعية الخاصة التي لم تشملها الدراسة، لكنه شدد على “الحاجة الملحة لوضع معايير موحدة وأفضل الممارسات” لضمان سلامة التقييمات وشفافيتها.

كما بيّن أن 16% فقط من الاختبارات شملت اختبارات إحصائية أو تقديرات لعدم اليقين لتحديد دقة النتائج، في حين أن بعض المفاهيم المستخدمة – مثل “مدى ضرر النموذج” – كانت غامضة أو مثيرة للجدل، مما يقلل من مصداقية القياسات.

ويرى خبراء أن نتائج هذا التقرير تسلط الضوء على ثغرات خطيرة في بنية تطوير الذكاء الاصطناعي، محذرين من أن الاعتماد على اختبارات غير دقيقة قد يؤدي إلى مخاطر اجتماعية وأخلاقية واسعة النطاق في المستقبل القريب.

إن ما كشفه هذا التقرير الدولي يعيد تسليط الضوء على الفجوة المتزايدة بين سرعة تطوير نماذج الذكاء الاصطناعي وبين غياب الأطر التنظيمية والرقابية الفعالة. فبينما تتسابق الشركات التقنية العملاقة لإطلاق نماذج جديدة بحثًا عن الريادة، تتراجع المعايير الأخلاقية والاختبارات العلمية الدقيقة إلى الصف الخلفي، ما يجعل المجتمع في مواجهة مخاطر تكنولوجية لا يمكن التنبؤ بعواقبها.

والاعتماد على اختبارات غير موحدة وغير شفافة لتقييم الذكاء الاصطناعي يشكل تهديدًا مباشرًا للسلامة العامة ولثقة المستخدمين، خصوصًا عندما تؤدي أخطاء هذه النماذج إلى التشهير أو إلى سلوكيات خطيرة بين المراهقين والمستخدمين الضعفاء

إقرأ أيضًا:

الرابط المختصر هنا ⬇