Vals AI เปิดตัวเกณฑ์มาตรฐาน Finance Agent v2; GPT-5.5 ได้คะแนน 51.76% ขณะที่ทุกรุ่นต่ำกว่า 40% ภายใต้การให้คะแนนอย่างเคร่งครัด

ALL-3.45%

ตาม Beating สำนักประเมินผลด้วย AI อย่าง Vals AI ได้เปิดตัวเกณฑ์มาตรฐาน Finance Agent รุ่นที่ 2 หรือ v2 เมื่อวันที่ 14 พฤษภาคม โดยทดสอบเวิร์กโฟลว์การวิเคราะห์การเงินผ่านคำถามจำนวน 927 ข้อที่ผ่านการตรวจโดยผู้เชี่ยวชาญ GPT-5.5 ขึ้นแท่นอันดับ 1 ด้วยอัตราความแม่นยำ 51.76% ตามอย่างใกล้ชิดด้วย Claude Opus 4.7 (51.51%) และ Claude Sonnet 4.6 (51.03%) การทดสอบกำหนดให้โมเดลต้องค้นหาส่วนที่เกี่ยวข้องอย่างอิสระจากเอกสารงบการเงินหลายร้อยหน้าใน 10-K และ 10-Q และทำการคำนวณแบบหลายขั้นตอนให้เสร็จสมบูรณ์โดยใช้ตัวเลขขั้นกลางที่แม่นยำ

ภายใต้มาตรฐานการให้คะแนนที่เข้มงวดซึ่งต้องตอบได้ถูกต้องทั้งหมด อัตราความแม่นยำของโมเดลชั้นนำทั้งหมดลดลงต่ำกว่า 40% โดยหมวดที่ยากที่สุดอย่างการสร้างแบบจำลองทางการเงินและการวิเคราะห์เชิงบรรทัดฐาน ทำได้สูงสุดเพียง 23% เท่านั้น ในบรรดาโมเดลอื่นๆ Kimi K2.6 อยู่อันดับ 5 ด้วย 44.87% ตามด้วย GLM 5.1 (44.79%) และ DeepSeek V4 (44.08%) เมื่อเทียบกับเวอร์ชันก่อนหน้าที่ Opus 4.7 ได้ 64.4% การลดลงอย่างมีนัยสำคัญนี้ตอกย้ำว่า แม้ AI จะจัดการงานค้นคืนข้อมูลแบบง่ายได้ แต่ยังห่างไกลจากการมาแทนที่นักวิเคราะห์มนุษย์ในสายงานการเงินที่มีความซับซ้อนและต้องการความแม่นยำเชิงตัวเลขอย่างเคร่งครัด

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น