Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh “Spud” và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5.

Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể.

Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên “Expert-SWE.” Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos (77.8%) chưa được phát hành của Anthropic.

Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn.

DeepSeek V4 được đánh giá là “theo kịp với tuyến đầu nhưng không dẫn đầu,” định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng “Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao,” và bình luận rằng “Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó.”

Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo “chi phí cho mỗi tác vụ” thay vì “chi phí cho mỗi token.” Giá của GPT-5.5 gấp đôi so với GPT-5.4 (input $5, output $30 per million tokens), nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

DeepSeek V4 Pro trên Ollama Cloud: Claude Code kết nối một lần

Tác nhân AI Tin tức ngành AI Công cụ và ứng dụng AI

Theo tweet của Ollama, DeepSeek V4 Pro được ra mắt vào 4/24, đã được tích hợp theo chế độ đám mây vào thư mục Ollama, chỉ với một lệnh duy nhất là có thể gọi các công cụ như Claude Code, Hermes, OpenClaw, OpenCode, Codex, v.v. V4 Pro có bộ tham số 1.6T, 1M context, Mixture-of-Experts; suy luận trên đám mây không tải trọng số về máy cục bộ. Nếu muốn chạy cục bộ thì cần tự tải trọng số và thực thi bằng INT4/GGUF với nhiều GPU. Tốc độ đo thử giai đoạn đầu bị ảnh hưởng bởi tải trọng của đám mây, thông thường khoảng 30 tok/s, đỉnh đạt 1.1 tok/s; khuyến nghị sử dụng nguyên mẫu trên đám mây, rồi khi sản xuất chính thức thì tự suy luận hoặc dùng API thương mại.

ChainNewsAbmedia35phút trước

DeepSeek Giảm 75% Giá V4-Pro, Cắt Chi Phí Cache API Xuống Một-Tenth

Tin tức ngành AI

Tin tức từ Gate, 27 tháng 4 — DeepSeek công bố giảm giá 75% cho mô hình V4-Pro mới của mình dành cho nhà phát triển và hạ giá các mức “input cache hit” trên toàn bộ danh mục API của hãng xuống chỉ bằng một phần mười so với các mức trước đó. Mô hình V4, được phát hành vào ngày 25 tháng 4 ở hai phiên bản Pro và Flash, đã được tối ưu cho các bộ xử lý Ascend của Huawei. DeepSeek cho biết V4-Pro vượt trội hơn các mô hình mã nguồn mở khác trên các bài benchmark về kiến thức thế giới và xếp thứ hai, chỉ sau Gemini-Pro-3.1 dạng đóng của Google. Dòng V4 được thiết kế riêng cho các tác nhân AI xử lý các tác vụ phức tạp vượt xa khả năng của chatbot. Chi phí API V4-Pro hiện đã thấp hơn các đối thủ lớn của phương Tây, được định giá 3,48 USD cho mỗi một triệu token đầu ra, so với của GPT-4.5 từ OpenAI. Giá V4-Flash ở mức 0,14 USD cho mỗi một triệu token đầu vào và 0,28 USD cho mỗi một triệu token đầu ra, có thể giúp triển khai các ứng dụng tiết kiệm chi phí như rà soát toàn bộ cơ sở mã hoặc tài liệu quy định chỉ trong một lần yêu cầu.

GateNews38phút trước

Coachella chuyển sang AI của DeepMind thuộc Google để hình dung lại các buổi hòa nhạc vượt ra ngoài sân khấu

Tin tức ngành AI

Coachella đã hợp tác với Google DeepMind để thử nghiệm các công cụ AI mới nhằm định hình lại cách các buổi biểu diễn âm nhạc trực tiếp được tạo ra và được trải nghiệm. Tóm tắt Coachella đã thử nghiệm các công cụ AI với Google DeepMind để biến các buổi biểu diễn trực tiếp thành các môi trường kỹ thuật số tương tác. Ba nguyên mẫu đã được xây dựng,

Cryptonews44phút trước

郭明錤: OpenAI muốn làm AI Agent trên điện thoại, MediaTek, Qualcomm, Luxshare Precision trở thành chuỗi cung ứng then chốt

Tác nhân AI Tin tức ngành AI

郭明錤 tuyên bố OpenAI đang hợp tác với MediaTek, Qualcomm và Luxshare Precision để phát triển điện thoại di động AI Agent, dự kiến sản xuất hàng loạt vào năm 2028. Điện thoại mới sẽ lấy việc hoàn thành tác vụ làm trung tâm; AI agent sẽ hiểu và thực thi các yêu cầu, kết hợp tính toán trên đám mây và tại thiết bị, trọng điểm là cảm biến và hiểu biết ngữ cảnh. Danh sách thông số kỹ thuật và chuỗi cung ứng dự kiến sẽ được chốt vào giai đoạn 2026–2027; nếu thành hình, hoặc sẽ mang lại một chu kỳ nâng cấp điện thoại mới cho phân khúc cao cấp, thì Luxshare có khả năng trở thành bên được hưởng lợi chính.

ChainNewsAbmedia54phút trước

IEA: Chi tiêu cơ sở hạ tầng AI đã vượt đầu tư sản xuất dầu khí, dự kiến sẽ tăng thêm 75% vào năm 2026

Cổ phiếu Chỉ số Hàng hóa Tin tức ngành AI

Theo phân tích và dữ liệu thị trường do Cơ quan Năng lượng Quốc tế (IEA) công bố vào ngày 26 tháng 4, tổng chi tiêu vốn của năm công ty công nghệ hàng đầu trong năm 2025 vượt 400 tỷ USD, chủ yếu được đầu tư cho việc xây dựng hạ tầng AI, với quy mô đã vượt qua mức đầu tư hàng năm của sản xuất dầu và khí đốt toàn cầu. IEA ước tính rằng, chi tiêu vốn liên quan vào năm 2026 có thể tiếp tục tăng thêm 75%.

MarketWhisper1giờ trước

Thượng nghị sĩ Bernie Sanders đưa ra cảnh báo về mối đe dọa sinh tồn từ AI

Tin tức ngành AI

Sanders nhấn mạnh rằng ngay cả khi hầu hết các nhà khoa học AI đều thừa nhận khả năng AI thoát khỏi sự kiểm soát và trở thành mối nguy đối với sự tồn tại của chúng ta, vẫn chưa có biện pháp lớn nào được thực hiện để ngăn chặn điều đó. “Chúng ta phải đảm bảo rằng AI mang lại lợi ích cho nhân loại, chứ không gây hại cho chúng ta,” ông nói. Các ý chính rút ra: Bernie Sanders

Coinpedia1giờ trước

Bình luận

0/400

Không có bình luận