DeepSeek đã phát hành các phiên bản xem trước của DeepSeek-V4-Pro và DeepSeek-V4-Flash vào ngày 24 tháng 4 năm 2026, cả hai đều là các mô hình mã nguồn mở (open-weight) với cửa sổ ngữ cảnh một triệu token và mức giá thấp đáng kể so với các lựa chọn thay thế phương Tây tương đương. Mô hình V4-Pro có giá $1.74 cho mỗi một triệu token đầu vào và $3.48 cho mỗi một triệu token đầu ra—xấp xỉ 1/20 giá của Claude Opus 4.7 và thấp hơn 98% so với GPT-5.5 Pro, theo các thông số kỹ thuật chính thức của công ty.

Kiến trúc mô hình và quy mô

DeepSeek-V4-Pro có 1.6 nghìn tỷ (1.6 trillion) tổng số tham số, khiến nó trở thành mô hình mã nguồn mở (open-source) lớn nhất trên thị trường LLM tính đến thời điểm hiện tại. Tuy nhiên, chỉ có 49 tỷ tham số được kích hoạt cho mỗi lượt suy luận (inference pass), sử dụng cách tiếp cận mà DeepSeek gọi là Mixture-of-Experts, được tinh chỉnh từ sau V3. Thiết kế này cho phép toàn bộ mô hình ở trạng thái “ngủ” trong khi chỉ các lát (slices) liên quan được kích hoạt cho bất kỳ yêu cầu nào, giảm chi phí tính toán trong khi vẫn duy trì năng lực kiến thức.

DeepSeek-V4-Flash hoạt động ở quy mô nhỏ hơn với 284 tỷ tham số tổng và 13 tỷ tham số hoạt động. Theo các benchmark của DeepSeek, nó “đạt hiệu năng suy luận tương đương phiên bản Pro khi được cung cấp ngân sách suy nghĩ (thinking budget) lớn hơn”.

Cả hai mô hình đều hỗ trợ ngữ cảnh một triệu token như một tính năng tiêu chuẩn—khoảng 750,000 từ, hoặc xấp xỉ toàn bộ bộ ba “Lord of the Rings” cùng với thêm văn bản.

Đổi mới kỹ thuật: Cơ chế Attention ở quy mô lớn

DeepSeek đã giải quyết vấn đề mở rộng tính toán vốn có trong xử lý ngữ cảnh dài bằng cách phát minh hai loại attention mới, như được nêu chi tiết trong bài báo kỹ thuật của công ty được cung cấp trên GitHub.

Các cơ chế attention AI tiêu chuẩn phải đối mặt với một bài toán mở rộng khốc liệt: cứ mỗi lần độ dài ngữ cảnh tăng gấp đôi, chi phí tính toán lại xấp xỉ tăng gấp bốn. Giải pháp của DeepSeek bao gồm hai cách tiếp cận bổ trợ:

Compressed Sparse Attention hoạt động theo hai bước. Đầu tiên, nó nén các nhóm token—ví dụ, cứ 4 token—thành một mục nhập duy nhất. Sau đó, thay vì attention đến tất cả các mục nhập đã nén, nó sử dụng “Lightning Indexer” để chỉ chọn các kết quả phù hợp nhất cho bất kỳ truy vấn nào. Cách này thu hẹp phạm vi attention của mô hình từ một triệu token xuống một tập hợp nhỏ hơn nhiều các đoạn (chunks) quan trọng.

Heavily Compressed Attention sử dụng cách tiếp cận quyết liệt hơn, gộp mỗi 128 token thành một mục nhập duy nhất mà không cần chọn lọc thưa (sparse selection). Mặc dù cách này làm mất chi tiết mịn, nhưng lại cung cấp một góc nhìn toàn cục cực kỳ rẻ. Hai loại attention này chạy xen kẽ ở các lớp (layers), cho phép mô hình duy trì cả chi tiết lẫn cái nhìn tổng quan.

Kết quả: V4-Pro sử dụng 27% lượng compute so với người tiền nhiệm (V3.2) cần. KV cache—bộ nhớ cần thiết để theo dõi ngữ cảnh—giảm xuống còn 10% so với V3.2. V4-Flash đẩy hiệu quả đi xa hơn nữa: 10% compute và 7% bộ nhớ so với V3.2.

Hiệu năng benchmark và vị thế cạnh tranh

DeepSeek đã công bố các so sánh benchmark toàn diện chống lại GPT-5.4 và Gemini-3.1-Pro, bao gồm các mảng mà V4-Pro tụt lại so với đối thủ. Ở các tác vụ suy luận, theo báo cáo kỹ thuật của DeepSeek, suy luận của V4-Pro thấp hơn GPT-5.4 và Gemini-3.1-Pro khoảng ba đến sáu tháng.

Nơi V4-Pro dẫn đầu:

Codeforces (competitive programming): V4-Pro đạt 3,206, đứng khoảng thứ 23 trong số các thí sinh người tham gia cuộc thi thực tế
Apex Shortlist (curated math and STEM problems): tỷ lệ pass 90.2% so với Opus 4.6 là 85.9% và GPT-5.4 là 78.1%
SWE-Verified (GitHub issue resolution): 80.6%, khớp Claude Opus 4.6

Nơi V4-Pro tụt lại:

MMLU-Pro (multitasking): Gemini-3.1-Pro đạt 91.0% so với V4-Pro 87.5%
GPQA Diamond (expert knowledge): Gemini đạt 94.3 so với V4-Pro 90.1
Humanity’s Last Exam (graduate-level): Gemini-3.1-Pro đạt 44.4% so với V4-Pro 37.7%

Trong các tác vụ ngữ cảnh dài, V4-Pro dẫn đầu các mô hình mã nguồn mở và vượt Gemini-3.1-Pro trên CorpusQA (simulating real document analysis at one million tokens), nhưng lại thua Claude Opus 4.6 trên MRCR—bài đo khả năng truy xuất thông tin cụ thể bị chôn sâu trong văn bản dài.

Khả năng tác nhân (Agentic) và lập trình

V4-Pro có thể chạy trong Claude Code, OpenCode và các công cụ lập trình AI khác. Theo khảo sát nội bộ của DeepSeek đối với 85 nhà phát triển đã dùng V4-Pro làm tác nhân lập trình chính, 52% cho biết nó đã sẵn sàng để trở thành mô hình mặc định của họ, 39% nghiêng về “có”, và ít hơn 9% nói “không”. Thử nghiệm nội bộ của DeepSeek cho thấy V4-Pro vượt trội Claude Sonnet và tiệm cận Claude Opus 4.5 ở các tác vụ lập trình mang tính agentic.

Artificial Analysis xếp V4-Pro đứng đầu trong tất cả các mô hình open-weight trên GDPval-AA, một benchmark kiểm thử công việc tri thức có giá trị kinh tế trên các tác vụ tài chính, pháp lý và nghiên cứu. V4-Pro-Max đạt 1,554 Elo, cao hơn GLM-5.1 (1,535) và M2.7 của MiniMax (1,514). Claude Opus 4.6 đạt 1,619 trên cùng benchmark.

V4 giới thiệu “interleaved thinking” (tư duy xen kẽ), giữ nguyên toàn bộ chuỗi suy nghĩ xuyên suốt qua các lần gọi công cụ (tool calls). Ở các mô hình trước, khi một tác nhân thực hiện nhiều lần gọi công cụ—ví dụ, tìm kiếm trên web, chạy mã, rồi lại tìm kiếm—ngữ cảnh suy luận của mô hình bị xóa (flushed) giữa các lượt. V4 duy trì tính liên tục suy luận qua từng bước, ngăn mất ngữ cảnh trong các quy trình tự động hóa phức tạp.

Bối cảnh cạnh tranh và ngữ cảnh định giá

Bản phát hành V4 đến trong bối cảnh có nhiều hoạt động đáng kể trong lĩnh vực AI. Anthropic đã phát hành Claude Opus 4.7 vào ngày 16 tháng 4 năm 2026. GPT-5.5 của OpenAI ra mắt vào ngày 23 tháng 4 năm 2026, với GPT-5.5 Pro được định giá $30 per million input tokens và $180 per million output tokens. GPT-5.5 vượt V4-Pro trên Terminal Bench 2.0 (82.7% so với 70.0%), bài kiểm thử quy trình làm việc dạng agent qua dòng lệnh (command-line agent workflows) phức tạp.

Xiaomi ra mắt MiMo V2.5 Pro vào ngày 22 tháng 4 năm 2026, cung cấp đầy đủ khả năng đa phương thức (image, audio, video) với $1 input và $3 output trên mỗi một triệu token. Tencent phát hành Hy3 vào đúng ngày GPT-5.5 được ra mắt.

Để có góc nhìn về giá: CEO của Cline, Saoud Rizwan, nhận xét rằng nếu Uber đã dùng DeepSeek thay vì Claude, ngân sách AI năm 2026 của họ—được cho là đủ dùng cho bốn tháng—sẽ đã kéo dài được bảy năm.

Triển khai và tính sẵn có

Cả V4-Pro và V4-Flash đều được cấp phép MIT và có sẵn trên Hugging Face. Hiện tại các mô hình chỉ hỗ trợ văn bản (text-only); DeepSeek cho biết họ đang làm việc để phát triển khả năng đa phương thức (multimodal). Cả hai mô hình có thể chạy miễn phí trên phần cứng cục bộ hoặc được tùy chỉnh dựa theo nhu cầu của công ty.

Các endpoint deepseek-chat và deepseek-reasoner hiện có của DeepSeek đã tự động định tuyến đến V4-Flash lần lượt ở các chế độ non-thinking và thinking. Các endpoint deepseek-chat cũ và deepseek-reasoner cũ sẽ ngừng hoạt động vào ngày 24 tháng 7 năm 2026.

DeepSeek đã huấn luyện V4 một phần dựa trên các chip Huawei Ascend, nhằm tránh các lệnh hạn chế xuất khẩu của Mỹ. Công ty cho biết rằng khi 950 supernodes mới được đưa vào hoạt động sau đó trong năm 2026, giá vốn (already-low price) của mô hình Pro vốn đã thấp sẽ tiếp tục giảm.

Hệ quả thực tiễn

Đối với doanh nghiệp, cấu trúc định giá có thể làm thay đổi phép tính lợi ích-chi phí. Một mô hình dẫn đầu các benchmark mã nguồn mở với giá $1.74 cho mỗi một triệu token đầu vào khiến các pipeline xử lý tài liệu quy mô lớn, rà soát pháp lý và sinh mã trở nên rẻ hơn đáng kể so với sáu tháng trước. Ngữ cảnh một triệu token cho phép xử lý toàn bộ bộ mã nguồn hoặc các hồ sơ quy định trong một yêu cầu duy nhất thay vì phải chia nhỏ (chunk) qua nhiều lần gọi.

Đối với nhà phát triển và các cá nhân tự xây dựng sản phẩm, V4-Flash là mối quan tâm chính. Với giá $0.14 cho đầu vào và $0.28 cho đầu ra trên mỗi một triệu token, nó rẻ hơn các mô hình từng được xem là lựa chọn tiết kiệm một năm trước, trong khi vẫn xử lý hầu hết các tác vụ mà phiên bản Pro đảm nhiệm.

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

AprDaydream

· 3giờ trước

Hy vọng chính thức cung cấp một cơ chế nhật ký hành động / phát lại có thể kiểm tra được, nếu không sẽ rất khó truy trách nhiệm khi xảy ra vấn đề, đặc biệt là các tài khoản tự động vận hành tài sản.

Xem bản gốcTrả lời0

PaperHandsPro

· 4giờ trước

Trong các ứng dụng thực tế, "hiểu ý định" mới là điểm khó khăn, hy vọng đừng để xảy ra tình cảnh ngượng ngùng như bạn muốn đặt vé máy bay mà nó lại chỉnh sửa hồ sơ của bạn.

Xem bản gốcTrả lời0

Half-SectionedSucculent

· 4giờ trước

Có chút mong đợi, cũng có chút sợ: có thể nhấp chuột đồng nghĩa với việc có thể làm nhiều việc mà “con người nhấp” mới làm được, cần nâng cấp kiểm soát rủi ro và chống gian lận.

Xem bản gốcTrả lời0

ACalmnessWithAHintOfPomelo

· 4giờ trước

Làn sóng này cũng ảnh hưởng đến Web3 đúng không, tự động hóa các thao tác trên chuỗi, quy trình ký, tương tác ví nếu có thể thực hiện một cách liền mạch, hình thái sản phẩm sẽ thay đổi.

Xem bản gốcTrả lời0

StarsInTheGlassDome

· 4giờ trước

API và giá cả đừng vội, trước tiên hãy xem nó có thể chống pop-up, chống đa cửa sổ, chống dao động mạng trong môi trường máy tính để bàn phức tạp hay không.

Xem bản gốcTrả lời0

GateUser-b665e41c

· 4giờ trước

Cảm thấy từ "biết nói biết viết" tiến hóa thành "biết làm và giao hàng", bước tiếp theo là cung cấp cho nó khả năng ghi nhớ và quản lý nhiệm vụ tốt hơn.

Xem bản gốcTrả lời0

LintCollector

· 4giờ trước

Nếu thực sự có thể liên kết qua các ứng dụng: trình duyệt tra cứu tài liệu → Excel xử lý → PPT xuất bản → gửi email, thì đó là chu trình hoàn chỉnh của công việc văn phòng.

Xem bản gốcTrả lời0

DegenWithNotebook

· 4giờ trước

Cuối cùng đã lên giao diện gốc của máy tính để bàn rồi à? Giờ thật sự phải làm "thực tập sinh số" rồi.

Xem bản gốcTrả lời0