أعلنت شركة ChatGPT أخيرًا أنها تستطيع اجتياز اختبار بسيط يتطلب معرفة عدد حروف "ر" في كلمة "فراولة"، لكن المستخدمين لا يزالون يربكونها عند تحويل السؤال إلى "توته" (أي التوت البري).

نجاح اختبار الفراولة وفشل اختبار التوت البري: هل تتطور قدرات الذكاء الاصطناعي حقًا؟

رغم التقدم الملحوظ في قدرات نماذج الذكاء الاصطناعي، لا تزال بعض الاختبارات البسيطة تكشف عن الثغرات في منطقها. من بين هذه الاختبارات، حساب عدد حروف “ر” في كلمات مثل “الفراولة” و”التوت البري”، والتي تبدو سهلة للبشر، لكنها لا تزال تمثل تحدياً للآلات.

نجاح محدود في اختبار الفراولة

أعلنت شركة ChatGPT أخيراً عبر حسابها الرسمي على منصة X (تويتر سابقًا) أنها استطاعت الآن عدّ حروف “ر” في كلمة “الفراولة”، وهو اختبار بسيط للبشر لكنه كان محط صعوبة للذكاء الاصطناعي. ورفعت الشركة شعار “أخيرًا”، مظهرة فخرها بقدرتها على إنجاز هذا المهمة.

لكن سرعان ما اكتشف المستخدمون أن النتيجة ليست موثوقة تمامًا، خاصة عند استبدال كلمة “الفراولة” بكلمة “التوت البري”. ففي ردودهم، وجدوا أن النموذج يخطئ في عدّ حروف “ر” في التوت البري، حيث ادعى أن هناك حرفًا واحدًا فقط، وهو خطأ واضح.

اختبار التوت البري يكشف عن الثغرة

عند إعادة التجربة باستخدام إصدار GPT-5.5، حصلت على نتيجة مختلفة، حيث قال النموذج إن هناك حرفين “ر” في كلمة “التوت البري”، وهو خطأ أيضاً. ولكن عند سؤاله مرة أخرى، اعترف النموذج بأنه ارتكب خطأ في العد، وفسر ذلك بأنه “خطأ في العد فقط”.

هذا يوضح أن النموذج قد يكون مبرمجًا ليقوم بعد الحروف بشكل معين، وليس لديه فهم حقيقي لعملية العد، مما يبرز أن الحلول كانت مخصصة لمواقف محددة بدلاً من تحسين فهمه العام للمسألة.

مشاكل أخرى في التفكير المنطقي

بالإضافة إلى ذلك، أثبتت اختبارات أخرى أن نماذج الذكاء الاصطناعي لاتزال تعاني من ضعف في التفكير المنطقي، مثل مشكلة “غسل السيارة”. ففي هذا الاختبار، يُطرح على النموذج سؤال حول ما إذا كان من الأسرع المشي إلى مغسلة السيارات أو القيادة، عندما تكون المسافة قصيرة جدًا.

بينما معظم النماذج تقول إن المشي هو الخيار الأسرع، إلا أنها تتجاهل حقيقة أن السيارة ضرورية لغسلها. عند اختبار نماذج مختلفة، لاحظت أن GPT-5.5 لا تزال تروج للفكرة الخاطئة، بينما أشاد نماذج أخرى مثل Gemini وGrok بقدرتها على اكتشاف المشكلة، مع إضافة تفسيرات أعمق حول الهدف الحقيقي من السؤال.

هل تتطور نماذج الذكاء الاصطناعي حقًا؟

هذه الاختبارات تثير تساؤلاً أكبر حول مدى تطور الذكاء الاصطناعي. هل أصبحت النماذج أكثر ذكاءً بالفعل، أم أنها فقط أصبحت أكثر مهارة في اجتياز اختبارات محددة، بينما تظل ضعيفة في الفهم الحقيقي للمفاهيم الأساسية؟

وفي النهاية، يظهر أن التقدم التقني لا يزال بحاجة إلى تحسينات جذرية لضمان أن تتجاوز نماذج الذكاء الاصطناعي مجرد الأداء في الاختبارات، وأن تتمكن من فهم السياق والمهام البسيطة بشكل أكثر دقة وموثوقية.

المصدر: Latest from TechRadar

اترك تعليقاً إلغاء الرد

هل أنت مستعد لتكون قصة نجاحنا القادمة؟

اترك تعليقاً إلغاء الرد

إليك المقال المعاد صياغته باللغة العربية: ملاحظات وإجابات لعبة “ستراندس” من نيويورك تايمز ليوم الأحد، ٣١ مايو (اللغز رقم ٨١٩)

تلميحات وأجوبة لعبة كوردل ليوم الأحد، ٣١ مايو (الرقم ١٥٨٨)

لم أكن مقتنعًا بأن ماوس Logitech G Pro X2 Superstrike سيكون مميزًا جدًا، ولكنني كنت مخطئًا: إنه ثورة في عالم فئرة الألعاب.

هل أنت مستعد لتكون قصة نجاحنا القادمة؟