Anthropic 於 4/23 發佈 Claude Code 品質事故檢討，公開承認過去近兩個月內三個疊加的工程錯誤造成 Claude Code 使用品質下降，並同步將影響波及 Claude Agent SDK 與 Claude Cowork。公司表示「เรา非常重視關於模型退化的回報，從未故意降低模型能力」，並於 4/23 為所有訂閱者重置用量上限作為補償。

ไทม์ไลน์ของสามบั๊กและสาเหตุทางเทคนิค

ปัญหา ช่วงเวลาที่มีผล สาเหตุหลัก เวอร์ชันที่แก้ไข การลดงบประมาณสำหรับการอนุมาน 3/4–4/7 reasoning effort ถูกตั้งจาก high เป็น medium โดยปริยาย ทำให้ผู้ใช้รู้สึกว่าโมเดล “โง่ลง” 4/7 ย้อนกลับ แก้บั๊กการล้างแคช 3/26–4/10 thinking cache ของ session ที่ว่างเกิน 1 ชั่วโมง ถูกล้างทุกครั้ง ไม่ใช่ล้างเพียงครั้งเดียว v2.1.101 การออกแบบ prompt แบบกระชับย้อนกลับมาเล่นงาน 4/16–4/20 คำสั่งระบบใหม่ “ข้อความระหว่างการเรียกเครื่องมือ ≤25 ตัวอักษร” ส่งผลให้ ablation พบว่าสติปัญญาลดลงโดยรวม 3% v2.1.116

การลดระดับการอนุมาน: ค่าใช้จ่ายที่ต้องจ่ายเพื่อเพื่อลดความหน่วง

3/4 Anthropic ปรับ reasoning effort ของ Claude Code จาก high เป็น medium โดยปริยาย โดยมีจุดประสงค์เพื่อทำให้ความหน่วงในการตอบกลับสั้นลง แต่การเปลี่ยนแปลงนี้ทำให้โมเดลดูเหมือน “โง่ลง” ในงานที่ต้องใช้การอนุมานจากโค้ดและการดีบัก หลังจากย้อนกลับเมื่อ 4/7 ตอนนี้ Opus 4.7 ตั้ง xhigh เป็นค่าเริ่มต้น โมเดลอื่นยังคง high อยู่ บริษัทรับทราบว่า: ก่อนการเปลี่ยนแปลง การประเมินภายในไม่สามารถตรวจพบการเสื่อมถอยนี้ได้

บั๊กการล้างแคช: ความผิดพลาดแฝงข้ามขอบเขตของระบบ

3/26 Anthropic นำ prompt caching optimization มาใช้กับ session ที่ไม่ได้ใช้งานเกินหนึ่งชั่วโมง โดยการออกแบบเดิมคือ “ล้าง thinking cache เมื่อว่างเกินหนึ่งชั่วโมงเต็ม” แต่ในการใช้งานกลับกลายเป็น “ล้างทุกครั้งหลังจากถูกกระตุ้นเมื่อว่าง” ส่งผลให้ Claude แสดงพฤติกรรม “หลงลืมง่าย ทำซ้ำ” ใน session ที่ยาว และ cache miss ในแต่ละรอบทำให้การใช้ของผู้ใช้ถูกใช้หมดอย่างรวดเร็ว Anthropic ชี้ว่า บั๊กนี้ “มีอยู่ในจุดตัดของการจัดการ context ของ Claude Code, Anthropic API และ extended thinking” ซึ่งเกี่ยวข้องกับหลายขอบเขตของระบบ และเป็นข้อผิดพลาดแฝงที่ยากจะจับได้ด้วย unit test การแก้ไขเผยแพร่ในวันที่ 4/10 ด้วย v2.1.101

คำสั่งกระชับ 25 ตัวอักษร: ablation เท่านั้นที่พบว่าสติปัญญาลดลง 3%

4/16 Anthropic เพิ่มคำสั่งระบบหนึ่งรายการ: “ผลลัพธ์ข้อความระหว่างการเรียกเครื่องมือให้คงไว้ไม่เกิน 25 ตัวอักษร” ซึ่งมีเจตนาลดคำอธิบายที่ยาวเกินไปของโมเดล เพื่อให้ประสบการณ์สะอาดขึ้น ในขณะนั้นการทดสอบภายในไม่พบการเสื่อมถอย แต่หลังจากทำการทดลองแบบ ablation ที่เข้มงวดขึ้นด้วยการเทียบผล บริษัทพบว่าคำสั่งนี้ทำให้ทั้ง Opus 4.6 และ 4.7 มีสติปัญญาลดลงโดยรวมประมาณ 3% วันที่ 4/20 ย้อนกลับด้วย v2.1.116 เหตุการณ์นี้ชี้ให้เห็นว่า: แม้ถ้อยคำเล็กน้อยใน system prompt ก็อาจก่อให้เกิดผลกระทบเชิงโครงสร้างที่ไม่คาดคิดต่อพฤติกรรมของโมเดล

ขอบเขตผลกระทบ

ชั้นผลิตภัณฑ์: Claude Code (ทั้งสามปัญหาถูกกระทบ), Claude Agent SDK (①②), Claude Cowork (ทั้งหมด)

ชั้นโมเดล: Sonnet 4.6, Opus 4.6, Opus 4.7

โครงสร้างพื้นฐานของ API: ไม่ได้รับผลกระทบ

มุมมองผู้ใช้แสดงออกดังนี้: คุณภาพการตอบกลับและความรู้สึก “ความชาญฉลาด” ลดลง ความหน่วงเพิ่มขึ้น conversation context หายระหว่างทาง และปริมาณการใช้งานถูกเผาเร็วกว่าที่คาด

การชดเชยและการปรับปรุงกระบวนการ

Anthropic ในวันที่ 4/23 รีเซ็ตเพดานการใช้งานของผู้สมัครสมาชิกทั้งหมดเป็นการชดเชยโดยตรง พร้อมให้คำมั่นว่าจะปรับปรุงกระบวนการ ได้แก่:

ใช้ชุดการประเมิน (evaluation suite) ที่กว้างขึ้นสำหรับการเปลี่ยนแปลง system prompt

ปรับปรุงเครื่องมือ Code Review เพื่อให้ตรวจจับการถดถอย (regression) ได้เร็วขึ้น

ทำให้มาตรฐานการทดสอบภายในเป็น build ที่เปิดเผย เพื่อหลีกเลี่ยงความแตกต่างระหว่างพฤติกรรมของ “เวอร์ชันภายใน” และ “เวอร์ชันสำหรับภายนอก”

เพิ่ม soak period และการ rollout แบบค่อยเป็นค่อยไปสำหรับการเปลี่ยนแปลงที่อาจส่งผลต่อความชาญฉลาดของโมเดล

บทเรียนสำหรับผู้ใช้งาน

สำหรับผู้ใช้งานที่พึ่งพา Claude Code ในการพัฒนาและวิจัยในชีวิตประจำวัน postmortem ฉบับนี้มีสามประเด็นที่นำกลับไปได้: ประการแรก หากคุณรู้สึกว่าโมเดล Claude “โง่ลง” ในช่วงกลางเดือนมีนาคมถึงวันที่ 4/20 หรือหาก Claude Code มีอาการหลงลืมผิดปกติใน session ยาว นั่นไม่ใช่ความผิดของคุณหรือ prompt ที่ใช้ไม่เหมาะสม ประการที่สอง ผู้ใช้งานที่เพดานการใช้งานถูกกินหมดอย่างรวดเร็วในช่วงนั้น สามารถตรวจสอบหลังจาก 4/23 ได้ว่า Anthropic ได้รีเซ็ตอัตโนมัติหรือไม่ ประการที่สาม แม้แต่การปรับจูน prompt แบบเล็กน้อยที่ “ไม่เกิน 25 ตัวอักษร” ก็อาจส่งผลกระทบเชิงระบบต่อพฤติกรรมโดยรวมของโมเดล—นี่คือความเสี่ยงร่วมของวิศวกรรมผลิตภัณฑ์ LLM

เมื่อเทียบกับคู่แข่งจำนวนมากที่ตอบคำถามด้วยการนิ่งเฉยหรือ “เป็นการใช้งานผิดพลาดของผู้ใช้” เมื่อถูกตั้งข้อสงสัยเรื่องการเสื่อมถอยของโมเดล คราวนี้ Anthropic เลือกการเปิดเผยเชิงรุกและความโปร่งใสทางเทคนิค ซึ่งทำให้ postmortem/รายงานอุบัติเหตุด้านผลิตภัณฑ์ AI นี้กลายเป็นตัวอย่างที่อ้างอิงได้

บทความนี้ Anthropic เองเปิดเผยการซ้อนทับของสามบั๊กของ Claude Code: การลดระดับการอนุมาน, ความลืมแคช, และผลสะเทือนจากคำสั่ง 25 ตัวอักษร ปรากฏครั้งแรกใน 鏈新聞 ABMedia。

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น