Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
最近十年,衡量人工智能进步的办法很简单粗暴:出题给模型、拿答案和标准答对比、打分。但现在这套玩法要失效了。
AI的身份变了。它早就不是被动的答题机器,而成了会主动做事的行动者。自己规划行程、调用各种工具、在复杂任务里连续做判断——新一代AI正一步步接手原来人类干的活儿。
跟着来的问题是:既然AI干的不只是吐出一句话,而是完成整件事情,那还能用「对或错」的考试标准去评它吗?
想象一个任务没有唯一的解法。AI用了个不在预期里、但效果更好的办法搞定了。按照传统评测方式,这叫失败。但现实是什么?目标达成了。这不仅是工程细节,更是一个制度难题——你怎么评估AI,就决定了它是真的学会解决问题,还是只学会讨好规则。
所以AI研究圈现在达成了共识:别只看结果,必须看过程。最新的研究和实战经验都指向同一个方向——评测不能盯着单一答案,得看整个行动链路。AI怎么理解任务、如何拆解步骤、什么时候该调工具、能不能根据环境变化调整策略——这些才是真正值得看的。