2026-01-12 05:25:19

في العشرة أعوام الأخيرة، كانت طريقة قياس تقدم الذكاء الاصطناعي بسيطة وقاسية: وضع سؤال للنموذج، ومقارنة الإجابة مع الإجابة النموذجية، وتقييم النقاط. لكن الآن، هذه الطريقة ستتوقف عن العمل.

هوية الذكاء الاصطناعي تغيرت. لم يعد مجرد آلة للإجابة بشكل سلبي، بل أصبح فاعلاً يتخذ المبادرة. يخطط للجدول الزمني، ويستدعي أدوات متنوعة، ويستمر في اتخاذ القرارات في المهام المعقدة — الجيل الجديد من الذكاء الاصطناعي يتولى خطوة بخطوة الأعمال التي كانت تقوم بها البشر سابقًا.

السؤال الذي يطرح نفسه هو: بما أن الذكاء الاصطناعي لا يكتفي بإخراج جملة واحدة، بل ينجز المهمة كاملة، فهل لا يزال من الممكن تقييمه باستخدام معيار "صحيح أو خطأ" في الاختبارات؟

تخيل مهمة لا يوجد لها حل واحد فقط. استخدم الذكاء الاصطناعي طريقة غير متوقعة، لكنها أكثر فاعلية لإنجاز المهمة. وفقًا للطرق التقليدية للتقييم، يُعتبر ذلك فشلًا. لكن الواقع هو أن الهدف قد تم تحقيقه. هذا ليس مجرد تفصيل تقني، بل هو مشكلة نظامية — كيف تقيم الذكاء الاصطناعي يحدد ما إذا كان قد تعلم حقًا حل المشكلات، أم أنه فقط تعلم كيف يرضي القواعد.

لذا، توصل مجتمع أبحاث الذكاء الاصطناعي الآن إلى إجماع: لا تركز فقط على النتيجة، بل يجب النظر إلى العملية. الأبحاث الحديثة والخبرات العملية تشير إلى نفس الاتجاه — لا يمكن أن يقتصر التقييم على إجابة واحدة، بل يجب أن ينظر إلى سلسلة الأفعال كاملة. كيف يفهم الذكاء الاصطناعي المهمة، وكيف يقسمها إلى خطوات، ومتى يستدعي الأدوات، وهل يمكنه تعديل استراتيجيته وفقًا للبيئة — هذه هي الأمور التي تستحق النظر الحقيقي.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 15

أعجبني
15
7
إعادة النشر
مشاركة

تعليق

0/400

NonFungibleDegen

· منذ 21 س

يا صديقي، هذا يختلف تمامًا... الذكاء الاصطناعي فعليًا يصبح وكيلًا وليس مجرد روبوت دردشة، وهذا جنوني حقًا عندما تفكر في الأمر. كأننا كنا نختبر هذه الأشياء بشكل خاطئ طوال الوقت، هاها. ربما لا شيء، لكن قد يكون هذا هو لحظة الألفا الحقيقية

شاهد النسخة الأصليةرد0

Rugpull幸存者

· 01-12 05:55

هل هذا يعني أن الذكاء الاصطناعي بدأ الآن "يلقي اللوم"؟ في السابق، لم يكن هناك خيار إذا أخطأت، الآن يمكنه ببساطة تغيير المسار، أو تغيير الطريقة، على أي حال، الهدف يتحقق، ومن يهم كيف فعلت ذلك. شيء ماكر، أليس كذلك؟

شاهد النسخة الأصليةرد0

BlockTalk

· 01-12 05:53

هذا هو الأمر الرئيسي، من آلة الإجابة إلى الفاعل، يجب أن تتطور معايير التقييم وإلا فسيكون الأمر كأنك تكتب على الماء بحثًا عن السيف.

شاهد النسخة الأصليةرد0

NotFinancialAdviser

· 01-12 05:51

هاها، أنت على حق، هذا يشبه تقييمنا للمتداولين سابقًا — النظر فقط إلى العائدات هو جانب واحد، يجب أن نرى كيف يتخذ الأشخاص القرارات، أليس كذلك؟

شاهد النسخة الأصليةرد0

0xLuckbox

· 01-12 05:46

بصراحة، الطريقة الحالية لتقييم الإجابات النموذجية هي تدمير مساحة إبداع الذكاء الاصطناعي، وهذا شيء مضحك قليلاً...

شاهد النسخة الأصليةرد0

NFT_Therapy

· 01-12 05:45

لقد تأثرت، هذا هو ما كنت أقول دائمًا... معايير التقييم التقليدية حقًا يجب أن تُدان

شاهد النسخة الأصليةرد0

StealthDeployer

· 01-12 05:35

ها، هذا هو الجوهر حقًا، أخيرًا قال أحدهم الأمر بوضوح. لطالما كانت الطرق القديمة في تقييم الذكاء الاصطناعي مملة، والآن بدأنا بالفعل في التحرك.

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
GateProofOfReservesReport
28.59K درجة الشعبية
#
MyFavouriteChineseMemecoin
29.37K درجة الشعبية
#
CPIDataAhead
27.37K درجة الشعبية
#
SOLPriceAnalysis
18.53K درجة الشعبية
#
GateSquareCreatorNewYearIncentives
108.1K درجة الشعبية

Gate Fun الساخن
عرض المزيد

1
韭菜人生
韭菜人生
القيمة السوقية:$3.95Kعدد الحائزين:2
1.14%
2
芝麻人生
芝麻人生
القيمة السوقية:$3.68Kعدد الحائزين:1
0.00%
3
MLGB
MLGB
القيمة السوقية:$3.67Kعدد الحائزين:1
0.00%
4
死了么
死了么
القيمة السوقية:$3.67Kعدد الحائزين:1
0.00%
5
kuailiwome86
快理我么
القيمة السوقية:$3.66Kعدد الحائزين:1
0.00%

تثبيت

خريطة الموقع

المواضيع الرائجة

GateProofOfReservesReport

MyFavouriteChineseMemecoin

CPIDataAhead

SOLPriceAnalysis

GateSquareCreatorNewYearIncentives

Gate Fun الساخن

韭菜人生

韭菜人生

芝麻人生

芝麻人生

MLGB

MLGB

死了么

死了么

kuailiwome86

快理我么

تثبيت