Tin cổng, ngày 24 tháng 4 — DeepSeek đã phát hành loạt mô hình mã nguồn mở V4 theo Giấy phép MIT, với trọng số hiện đã có trên Hugging Face và ModelScope. Loạt này bao gồm hai mô hình (MoE) dạng mixture-of-experts: V4-Pro với 1,6 nghìn tỷ tham số tổng và 49 tỷ tham số được kích hoạt mỗi token, và V4-Flash với 284 tỷ tham số tổng và 13 tỷ tham số được kích hoạt mỗi token. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 1 triệu token.
Kiến trúc có ba nâng cấp chính: một cơ chế attention lai kết hợp attention thưa nén (CSA) và attention nén mạnh (HCA), giúp giảm đáng kể chi phí phát sinh cho ngữ cảnh dài—FLOPs suy luận của V4-Pro cho ngữ cảnh 1M chỉ bằng 27% của V3.2, và bộ nhớ đệm KV (VRAM) để lưu thông tin lịch sử trong quá trình suy luận( chỉ bằng 10% của V3.2; các siêu liên kết ràng buộc đa tạp )mHC( thay thế các kết nối residual truyền thống để tăng cường độ ổn định lan truyền tín hiệu giữa các lớp; và bộ tối ưu hóa Muon để hội tụ huấn luyện nhanh hơn. Tiền huấn luyện sử dụng hơn 32 nghìn tỷ token dữ liệu.
Hậu huấn luyện áp dụng phương pháp hai giai đoạn: đầu tiên huấn luyện các chuyên gia theo miền thông qua supervised fine-tuning )SFT( và học tăng cường GRPO, sau đó hợp nhất chúng thành một mô hình thông qua chưng cất trực tuyến. V4-Pro-Max )highest inference mode tuyên bố là mô hình mã nguồn mở mạnh nhất với các bộ đánh giá mã hóa hàng đầu và khoảng cách thu hẹp đáng kể so với các mô hình “biên” mã nguồn đóng về các tác vụ suy luận và tác nhân. V4-Flash-Max đạt hiệu năng suy luận tầm Pro với đủ ngân sách tính toán nhưng bị giới hạn bởi quy mô tham số đối với kiến thức thuần túy và các tác vụ tác nhân phức tạp. Trọng số được lưu ở độ chính xác kết hợp FP4+FP8.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Meta Platforms Dự Kiến Cắt Giảm 10% Nhân Sự Vào Ngày 20 Tháng 5, Ảnh Hưởng Khoảng 8.000 Vị Trí
Tin tức từ Gate, ngày 24 tháng 4 — Meta Platforms dự kiến cắt giảm nhân sự của mình khoảng 10%, ảnh hưởng đến khoảng 8.000 vị trí, vào ngày 20 tháng 5. Các đợt sa thải được dự định nhằm nâng cao hiệu quả hoạt động đồng thời tăng đầu tư vào trí tuệ nhân tạo.
Việc tái cơ cấu theo kế hoạch phản ánh
GateNews20phút trước
Chính phủ Trump công bố kế hoạch trấn áp AI dùng để tinh luyện, cáo buộc các doanh nghiệp Trung Quốc có hệ thống trộm năng lực mô hình
Văn phòng Chính sách Công nghệ của Nhà Trắng (OSTP) Trợ lý Tổng thống Michael J. Kratsios (Michael J. Kratsios) vào ngày 23 tháng 4 đã đưa ra tuyên bố chính thức, cho biết chính quyền Trump nắm giữ thông tin, cho thấy các thực thể nước ngoài (chủ yếu đặt tại Trung Quốc) đang cố ý nhắm mục tiêu vào các công ty trí tuệ nhân tạo lớn của Mỹ, thông qua việc “hàng chục nghìn tài khoản đại lý” và các hệ thống kỹ thuật jailbreak để có được một cách có hệ thống năng lực của các mô hình AI của Mỹ, đồng thời công bố bốn biện pháp ứng phó.
MarketWhisper42phút trước
DeepSeek ra mắt phiên bản xem trước mã nguồn mở V4, điểm kỹ thuật 3206 vượt qua GPT-5.4
DeepSeek vào ngày 24 tháng 4 đã chính thức phát hành bộ phiên bản xem trước V4, được cấp phép mở nguồn theo giấy phép MIT; trọng số mô hình đã được đồng bộ đưa lên Hugging Face và ModelScope. Theo báo cáo kỹ thuật DeepSeek V4, V4-Pro-Max (chế độ sức mạnh suy luận cao nhất) đạt 3206 điểm trên bộ chuẩn Codeforces, vượt qua GPT-5.4.
MarketWhisper58phút trước
Cambricon Hoàn Tất Thích Ứng Day 0 của DeepSeek-V4, Đánh Dấu Mốc Cho Hệ Sinh Thái Chip AI của Trung Quốc
Thông điệp Tin Cổng, ngày 24 tháng 4 — Cambricon hôm nay đã công bố rằng hãng đã hoàn tất việc thích ứng Day 0 của DeepSeek-V4, mô hình ngôn ngữ lớn mới nhất từ DeepSeek, bằng hệ sinh thái phần mềm NeuWare độc quyền của hãng và framework vLLM. Đồng thời, mã nguồn thích ứng cũng đã được công khai, đánh dấu
GateNews1giờ trước
Tencent phát hành mã nguồn mở Hy3 phiên bản xem trước, bộ chuẩn kiểm thử hiệu năng mã nguồn tăng 40% so với phiên bản trước
Tencent vào ngày 23 tháng 4 đã chính thức mã nguồn mở mô hình ngôn ngữ lớn Hy3 phiên bản xem trước trên các nền tảng GitHub, Hugging Face và ModelScope, đồng thời cũng cung cấp dịch vụ API trả phí trên đám mây Tencent (Tencent Cloud). Theo Decrypt đưa tin vào ngày 24 tháng 4, Hy3 phiên bản xem trước đã bắt đầu huấn luyện từ cuối tháng 1 và, tính đến thời điểm phát hành, thời gian chưa đầy ba tháng.
MarketWhisper1giờ trước
Đầu tư danh mục FTX trị giá 158 nghìn tỷ Won nếu không phá sản
FTX, sàn giao dịch tiền mã hóa tập trung đã nộp đơn xin bảo hộ phá sản theo Chương 11 vào tháng 11 năm 2022 do thiếu thanh khoản và dòng vốn rút ra, nếu không sụp đổ thì đã nắm giữ các khoản đầu tư trị giá khoảng 158,796 nghìn tỷ won, theo phân tích được trích dẫn bởi Park
CryptoFrontier1giờ trước