DeepSeek在2026年4月24日发布了DeepSeek-V4-Pro和DeepSeek-V4-Flash的预览版本,这两者都是开放权重模型,拥有一百万token的上下文窗口,且定价显著低于可比的西方替代方案。根据该公司官方规格,V4-Pro模型的费用为:每一百万输入token收费$1.74,每一百万输出token收费$3.48——大约是Claude Opus 4.7价格的1/20,并且比GPT-5.5 Pro低98%。
DeepSeek-V4-Pro具有1.6万亿个总参数,使其成为截至目前LLM市场中最大的开源模型。然而,在每次推理时只有490亿个参数会被激活,使用的是DeepSeek所称的Mixture-of-Experts(MoE,混合专家)方法——自V3以来不断精炼。该设计使整个模型可以处于休眠状态,而只会为任意给定请求激活相关切片,从而降低计算成本,同时保持知识能力。
DeepSeek-V4-Flash的规模更小,总参数为2840亿,激活参数为130亿。根据DeepSeek的基准测试,它在给定更大的“思考预算”时,“在推理表现上达到了与Pro版本相当”。
两种模型都支持一百万token的上下文作为标准功能——大约750,000个词,或大致相当于《指环王》三部曲全部内容,再加上额外的文本。
DeepSeek通过发明两种新的注意力类型来解决长上下文处理固有的计算扩展问题,正如该公司技术论文(可在GitHub上获取)所述。
标准AI注意力机制面临一个残酷的扩展问题:每当上下文长度翻倍,计算成本就会大约四倍增长。DeepSeek的解决方案包含两种互补的方法:
**压缩稀疏注意力(Compressed Sparse Attention)**分两步进行。它首先压缩token分组——例如把每4个token压缩成一个条目。然后,不是对所有压缩条目进行注意力计算,而是使用“Lightning Indexer”只为任意给定查询选择最相关的结果。这样就将模型的注意力范围从一百万token缩减到更小的、重要片段的集合。
**强力压缩注意力(Heavily Compressed Attention)**采取更激进的方法:在不进行稀疏选择的情况下,把每128个token折叠成一个条目。虽然这会丢失更精细的细节,但它提供了极其便宜的全局视角。两种注意力类型在交替的层中运行,使模型既能保留细节,也能维持概览。
结果:V4-Pro使用其前代(V3.2)所需计算量的27%。KV cache——用于跟踪上下文所需的内存——降至V3.2的10%。V4-Flash进一步提升效率:相较于V3.2,计算量为10%,内存为7%。
DeepSeek发布了针对GPT-5.4和Gemini-3.1-Pro的全面基准对比,包括V4-Pro落后于竞争对手的领域。在推理任务上,根据DeepSeek的技术报告,V4-Pro的推理能力相较GPT-5.4和Gemini-3.1-Pro大约落后三到六个月。
V4-Pro的优势在于:
V4-Pro的劣势在于:
在长上下文任务上,V4-Pro领先开源模型,并能在CorpusQA (模拟真实文档分析(上下文为一百万token))上超过Gemini-3.1-Pro,但在MRCR上落后于Claude Opus 4.6;MRCR衡量的是在长文本深处检索特定信息的能力。
V4-Pro可以在Claude Code、OpenCode以及其他AI编程工具中运行。根据DeepSeek对使用V4-Pro作为主要编程代理的85名开发者的内部调查,52%的人表示它已经准备好成为默认模型,39%的人倾向于“是”,不到9%的人表示“否”。DeepSeek的内部测试表明:V4-Pro在代理式编程任务上优于Claude Sonnet,并接近Claude Opus 4.5。
Artificial Analysis在GDPval-AA(一个衡量经济上有价值的知识工作、覆盖金融、法律与研究任务的基准)中,将V4-Pro排在所有开放权重模型的第一位。V4-Pro-Max的Elo分为1,554,领先于GLM-5.1 (1,535)和MiniMax的M2.7 (1,514)。Claude Opus 4.6在同一基准上的得分为1,619。
V4引入了“交错式思考(interleaved thinking)”,能够在调用工具时保留完整的思维链。在先前的模型中,当代理进行了多次工具调用——例如先搜索网络、再运行代码、然后再搜索——模型的推理上下文会在各轮之间被清空。V4会在各步骤间保持推理连续性,从而防止在复杂的自动化工作流中发生上下文丢失。
V4发布之际,AI领域正处于显著的活跃期。Anthropic于2026年4月16日发布了Claude Opus 4.7。OpenAI的GPT-5.5于2026年4月23日上线,其中GPT-5.5 Pro的定价为$30 每百万输入token$180 和(每百万输出token)。在Terminal Bench 2.0 (上,GPT-5.5优于V4-Pro:82.7% 对 70.0%);该基准测试复杂的命令行代理工作流。
小米于2026年4月22日发布了MiMo V2.5 Pro,提供完整的多模态能力$1 image, audio, video$3 ,并在(每百万token的输入)和每百万token的输出上定价。腾讯在与GPT-5.5同一天发布了Hy3。
从定价角度看:Cline的CEO Saoud Rizwan指出,若Uber使用DeepSeek而不是Claude,其2026年的AI预算(据称足够使用四个月)将会持续七年。
![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29
V4-Pro和V4-Flash均采用MIT许可证,并可在Hugging Face上使用。目前两种模型都是仅文本的;DeepSeek表示正在开发多模态能力。两种模型都可以在本地硬件上免费运行,或根据公司需求进行定制。
DeepSeek现有的deepseek-chat和deepseek-reasoner端点已经分别在非思考模式与思考模式下路由到V4-Flash。旧的deepseek-chat与deepseek-reasoner端点将于2026年7月24日退役。
DeepSeek在训练V4时部分使用了华为Ascend芯片,从而规避美国的出口限制。该公司表示:一旦2026年后续有950个新的超级节点上线,Pro模型已经很低的价格还将进一步下降。
对于企业而言,定价结构可能会改变成本-收益的计算方式。一个在开放权重基准上以每一百万输入token $1.74领跑的模型,使大规模文档处理、法律审查以及代码生成流水线相比六个月前要显著便宜。一百万token的上下文意味着完整的代码库或监管文件可以在一次请求中处理,而不需要在多个调用之间进行切块。
对于开发者和独立构建者而言,V4-Flash是主要的考虑对象。按每一百万token计算,输入$0.14、输出$0.28,它比一年前被视为预算选项的模型更便宜,同时还能覆盖Pro版本所能处理的多数任务。