في العشرة أعوام الأخيرة، كانت طريقة قياس تقدم الذكاء الاصطناعي بسيطة وقاسية: وضع سؤال للنموذج، ومقارنة الإجابة مع الإجابة النموذجية، وتقييم النقاط. لكن الآن، هذه الطريقة ستتوقف عن العمل.



هوية الذكاء الاصطناعي تغيرت. لم يعد مجرد آلة للإجابة بشكل سلبي، بل أصبح فاعلاً يتخذ المبادرة. يخطط للجدول الزمني، ويستدعي أدوات متنوعة، ويستمر في اتخاذ القرارات في المهام المعقدة — الجيل الجديد من الذكاء الاصطناعي يتولى خطوة بخطوة الأعمال التي كانت تقوم بها البشر سابقًا.

السؤال الذي يطرح نفسه هو: بما أن الذكاء الاصطناعي لا يكتفي بإخراج جملة واحدة، بل ينجز المهمة كاملة، فهل لا يزال من الممكن تقييمه باستخدام معيار "صحيح أو خطأ" في الاختبارات؟

تخيل مهمة لا يوجد لها حل واحد فقط. استخدم الذكاء الاصطناعي طريقة غير متوقعة، لكنها أكثر فاعلية لإنجاز المهمة. وفقًا للطرق التقليدية للتقييم، يُعتبر ذلك فشلًا. لكن الواقع هو أن الهدف قد تم تحقيقه. هذا ليس مجرد تفصيل تقني، بل هو مشكلة نظامية — كيف تقيم الذكاء الاصطناعي يحدد ما إذا كان قد تعلم حقًا حل المشكلات، أم أنه فقط تعلم كيف يرضي القواعد.

لذا، توصل مجتمع أبحاث الذكاء الاصطناعي الآن إلى إجماع: لا تركز فقط على النتيجة، بل يجب النظر إلى العملية. الأبحاث الحديثة والخبرات العملية تشير إلى نفس الاتجاه — لا يمكن أن يقتصر التقييم على إجابة واحدة، بل يجب أن ينظر إلى سلسلة الأفعال كاملة. كيف يفهم الذكاء الاصطناعي المهمة، وكيف يقسمها إلى خطوات، ومتى يستدعي الأدوات، وهل يمكنه تعديل استراتيجيته وفقًا للبيئة — هذه هي الأمور التي تستحق النظر الحقيقي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
0/400
NonFungibleDegenvip
· منذ 21 س
يا صديقي، هذا يختلف تمامًا... الذكاء الاصطناعي فعليًا يصبح وكيلًا وليس مجرد روبوت دردشة، وهذا جنوني حقًا عندما تفكر في الأمر. كأننا كنا نختبر هذه الأشياء بشكل خاطئ طوال الوقت، هاها. ربما لا شيء، لكن قد يكون هذا هو لحظة الألفا الحقيقية
شاهد النسخة الأصليةرد0
Rugpull幸存者vip
· 01-12 05:55
هل هذا يعني أن الذكاء الاصطناعي بدأ الآن "يلقي اللوم"؟ في السابق، لم يكن هناك خيار إذا أخطأت، الآن يمكنه ببساطة تغيير المسار، أو تغيير الطريقة، على أي حال، الهدف يتحقق، ومن يهم كيف فعلت ذلك. شيء ماكر، أليس كذلك؟
شاهد النسخة الأصليةرد0
BlockTalkvip
· 01-12 05:53
هذا هو الأمر الرئيسي، من آلة الإجابة إلى الفاعل، يجب أن تتطور معايير التقييم وإلا فسيكون الأمر كأنك تكتب على الماء بحثًا عن السيف.
شاهد النسخة الأصليةرد0
NotFinancialAdviservip
· 01-12 05:51
هاها، أنت على حق، هذا يشبه تقييمنا للمتداولين سابقًا — النظر فقط إلى العائدات هو جانب واحد، يجب أن نرى كيف يتخذ الأشخاص القرارات، أليس كذلك؟
شاهد النسخة الأصليةرد0
0xLuckboxvip
· 01-12 05:46
بصراحة، الطريقة الحالية لتقييم الإجابات النموذجية هي تدمير مساحة إبداع الذكاء الاصطناعي، وهذا شيء مضحك قليلاً...
شاهد النسخة الأصليةرد0
NFT_Therapyvip
· 01-12 05:45
لقد تأثرت، هذا هو ما كنت أقول دائمًا... معايير التقييم التقليدية حقًا يجب أن تُدان
شاهد النسخة الأصليةرد0
StealthDeployervip
· 01-12 05:35
ها، هذا هو الجوهر حقًا، أخيرًا قال أحدهم الأمر بوضوح. لطالما كانت الطرق القديمة في تقييم الذكاء الاصطناعي مملة، والآن بدأنا بالفعل في التحرك.
شاهد النسخة الأصليةرد0
  • تثبيت