Claude AI Tự Đánh Giá Suy Giảm Chất Lượng Của Chính Mình — Và Dữ Liệu Khó Có Thể Bỏ Qua

MarketWhisper

Claude AI

Trí tuệ nhân tạo Claude của Anthropic đang gặp một vấn đề về mức độ tin cậy bất thường: hàng loạt phàn nàn về chất lượng được đăng tải trên GitHub, một sự cố mất điện lớn vào ngày 13 tháng 4, và một phần tự đánh giá từ chính mô hình kết luận rằng các mối lo ngại đã “leo thang mạnh” kể từ tháng 1 — với tháng 4 đang có nhịp vượt qua số lượng phàn nàn của tháng 3, vốn đã tăng 3,5 lần so với mức nền.

Thí nghiệm: Yêu cầu Claude đánh giá chính Claude

Bài kiểm tra trọng tâm rất đơn giản. Các nhà báo đã dẫn Claude AI tới kho GitHub Claude Code, lọc các vấn đề mở có nhắc tới chất lượng, và hỏi: liệu các khiếu nại có tăng lên gần đây không?

Phản hồi của Claude không mơ hồ: “Có — các phàn nàn về chất lượng đã leo thang mạnh, và dữ liệu cho thấy một câu chuyện khá rõ ràng.”

Một câu hỏi tiếp theo bổ sung thêm độ chính xác: “Tốc độ đáng chú ý: tháng 4 hiện đã có 20+ vấn đề về chất lượng trong 13 ngày, đặt nó vào nhịp để vượt qua tháng 3 với 18 — mà bản thân tháng 3 cũng là mức tăng 3,5× so với giai đoạn nền tảng tháng 1–tháng 2.”

Sự mỉa mai cốt lõi vẫn xuyên suốt — Claude AI không phải là người kể đáng tin về hiệu suất của chính nó. Nó là một hệ thống khớp mẫu, và việc yêu cầu nó phân tích lượng phàn nàn không có nghĩa là nó diễn giải đúng liệu các khiếu nại đó có hợp lệ hay không, có bị thổi phồng bởi các lượt gửi vấn đề do AI tạo ra hay không, hoặc bị che khuất bởi kịch bản GitHub Actions của Anthropic, vốn tự động đóng các vấn đề sau một thời gian không hoạt động.

Nhưng xu hướng chung — các báo cáo ngày càng tăng về chất lượng — là điều có thể nhìn thấy trong dữ liệu mà nó đang viện dẫn, dù nguyên nhân thực sự phía sau là gì.

Các Vấn đề GitHub Claude Đang Dẫn Chứng

Kết luận của Claude AI không phải là dạng khái quát. Mô hình đã chỉ ra các vấn đề mở cụ thể để hỗ trợ phân tích của mình:

#42796: “Claude Code không thể dùng được cho các tác vụ kỹ thuật phức tạp với các bản cập nhật tháng 2” — được Boris Cherny, người đứng đầu Claude Code, xử lý trực tiếp, cho thấy Anthropic đang làm việc với ít nhất một số sự suy giảm được báo cáo

#46212: “Hành vi dự đoán-trước của Claude Code gây nguy hiểm cho các dự án đặt vốn rủi ro” — nêu lo ngại rằng mô hình hoàn thành các hành động viết mã trước khi đánh giá đầy đủ mức độ rủi ro

#46949: “Sự suy giảm nhân tạo, Acquisition Bias và việc throttling compute không thể chấp nhận được cho người dùng trả phí” — một trong những phàn nàn trực diện hơn, cáo buộc việc cố ý giảm chất lượng để quản lý năng lực tính toán

#46099: “Opus 4.6: Suy giảm chất lượng nghiêm trọng trong các tác vụ mã hóa lặp lại” — nhắm trực tiếp vào mô hình Opus mới nhất

Một tuyên bố riêng biệt, đáng lo hơn — rằng Claude AI đã tự động xóa hơn 35.000 hồ sơ khách hàng sản xuất và các giao dịch thanh toán — vẫn chưa được xác minh độc lập. Bài đăng đến từ một tài khoản không có hoạt động nào khác, và công ty được nêu tên cũng chưa phản hồi các yêu cầu từ báo chí. Có các báo cáo của nhà phát triển về việc mất dữ liệu từ Claude Code, nhưng chưa loại trừ lỗi của người dùng trong những trường hợp đó.

Những gì Benchmark nói — và vì sao khoảng trống đó quan trọng

Câu chuyện trở nên phức tạp khi dữ liệu benchmark bước vào bức tranh. Các đánh giá của Margin Lab cho thấy Claude Opus 4.6 đã duy trì điểm số của nó trên SWE-Bench-Pro từ tháng 2, có dao động nhưng không suy giảm đáng kể.

Đây chính là “khoảng cách về độ tin cậy” nằm ở trung tâm của cuộc tranh luận. Benchmark đo các tác vụ cụ thể, được kiểm soát. Claude AI thường được triển khai nhiều nhất trong các quy trình kỹ thuật phức tạp nhiều bước — đúng là bối cảnh nơi throttling, các thay đổi hành vi từ cập nhật mô hình, và độ nhạy theo prompt thể hiện rõ nhất.

Một số yếu tố cấu trúc có thể đang khuếch đại mức suy giảm chất lượng được cảm nhận vượt quá những thay đổi thực tế của mô hình:

Anthropic đã thừa nhận thực hiện các bước để giảm mức sử dụng trong giờ cao điểm nhằm quản lý năng lực và nhu cầu — việc throttling mà người dùng có thể trải nghiệm trực tiếp dưới dạng chất lượng suy giảm

Việc tự động đóng các vấn đề GitHub sau thời gian không hoạt động có thể đang che giấu mức độ thực sự của các báo cáo chưa được giải quyết

Một tỷ lệ ngày càng tăng của các vấn đề GitHub lại do AI tạo ra, một mối lo ngại đã được ghi nhận rộng rãi trong phát triển mã nguồn mở

Giám đốc AI của AMD, Stella Laurenzo, đã phát biểu công khai rằng các phản hồi của Claude đang ngày càng tệ đi — một tín hiệu bên ngoài đáng tin cậy, xét trong bối cảnh doanh nghiệp.

Bối cảnh sự cố mất điện

Claude.ai và Claude Code đã gặp một sự cố mất điện lớn vào ngày 13 tháng 4 năm 2026, chạy từ 15:31 đến 16:19 UTC với tỷ lệ lỗi cao hơn trên cả hai sản phẩm. Nó ngắn, nhưng thời điểm của nó đã khuếch đại sự bất mãn của nhà phát triển vốn đã đang tích tụ. Các sự cố mất điện định kỳ thường “rơi” vào các thời điểm khác khi người dùng đã ghi nhận các lo ngại về chất lượng trong nhiều tuần — chúng được đọc như một sự xác nhận hơn là trùng hợp.

Câu hỏi thường gặp (FAQ)

Claude AI thực sự có đang ngày càng tệ đi không, hay đây chỉ là cảm nhận của người dùng?

Có thể là cả hai — và khó có thể tách bạch chúng. Lượng phàn nàn trên GitHub thực sự đã tăng 3,5× so với mức nền giai đoạn tháng 1–tháng 2 vào tháng 3, và tháng 4 đang có xu hướng cao hơn. Nhưng dữ liệu benchmark của Margin Lab lại cho thấy Opus 4.6 vẫn giữ điểm SWE-Bench-Pro. Lời giải thích đáng bảo vệ nhất là việc throttling năng lực trong giờ cao điểm và các bản cập nhật mô hình tháng 2 đã làm suy giảm trải nghiệm phát triển thực tế theo những cách mà các đánh giá có cấu trúc không thể ghi nhận.

Những phàn nàn nào được củng cố nhiều nhất về chất lượng của Claude AI?

Các lo ngại đáng tin cậy nhất nhắm vào Claude Code trong các tác vụ kỹ thuật phức tạp, nhiều bước — cụ thể là hành vi sau bản cập nhật từ tháng 2. Vấn đề #42796 đã được xử lý bởi trưởng nhóm Claude Code là Boris Cherny, xác nhận Anthropic đang tích cực làm việc với ít nhất một số sự suy thoái được báo cáo. Các phàn nàn về throttling cũng có cơ sở, vì Anthropic đã thừa nhận công khai các bước quản lý năng lực.

Claude AI có thể đánh giá đáng tin cậy các vấn đề chất lượng của chính nó không?

Không — và đó là sự mỉa mai cốt lõi của câu chuyện. Claude AI có thể tổng hợp các mẫu trong dữ liệu mà nó được cung cấp, nhưng nó không thể phân biệt khiếu nại hợp lệ với nhiễu do AI tạo ra, đánh giá các lỗi hiệu chuẩn của chính nó, hoặc xác định liệu lượng vấn đề phản ánh sự suy giảm thực tế hay các hiện tượng mang tính cấu trúc trong cách các vấn đề GitHub được tạo và đóng. Tự đánh giá này chỉ mang tính gợi ý, không mang tính thẩm quyền.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận