DeepSeek V4-Pro 以比 GPT-5.5 Pro 低 98% 的成本推出

Crypto Frontier

DeepSeek在2026年4月24日发布了DeepSeek-V4-Pro和DeepSeek-V4-Flash的预览版本,这两者都是开放权重模型,拥有一百万token的上下文窗口,且定价显著低于可比的西方替代方案。根据该公司官方规格,V4-Pro模型的费用为:每一百万输入token收费$1.74,每一百万输出token收费$3.48——大约是Claude Opus 4.7价格的1/20,并且比GPT-5.5 Pro低98%。

模型架构与规模

DeepSeek-V4-Pro具有1.6万亿个总参数,使其成为截至目前LLM市场中最大的开源模型。然而,在每次推理时只有490亿个参数会被激活,使用的是DeepSeek所称的Mixture-of-Experts(MoE,混合专家)方法——自V3以来不断精炼。该设计使整个模型可以处于休眠状态,而只会为任意给定请求激活相关切片,从而降低计算成本,同时保持知识能力。

DeepSeek-V4-Flash的规模更小,总参数为2840亿,激活参数为130亿。根据DeepSeek的基准测试,它在给定更大的“思考预算”时,“在推理表现上达到了与Pro版本相当”。

两种模型都支持一百万token的上下文作为标准功能——大约750,000个词,或大致相当于《指环王》三部曲全部内容,再加上额外的文本。

技术创新:大规模下的注意力机制

DeepSeek通过发明两种新的注意力类型来解决长上下文处理固有的计算扩展问题,正如该公司技术论文(可在GitHub上获取)所述。

标准AI注意力机制面临一个残酷的扩展问题:每当上下文长度翻倍,计算成本就会大约四倍增长。DeepSeek的解决方案包含两种互补的方法:

**压缩稀疏注意力(Compressed Sparse Attention)**分两步进行。它首先压缩token分组——例如把每4个token压缩成一个条目。然后,不是对所有压缩条目进行注意力计算,而是使用“Lightning Indexer”只为任意给定查询选择最相关的结果。这样就将模型的注意力范围从一百万token缩减到更小的、重要片段的集合。

**强力压缩注意力(Heavily Compressed Attention)**采取更激进的方法:在不进行稀疏选择的情况下,把每128个token折叠成一个条目。虽然这会丢失更精细的细节,但它提供了极其便宜的全局视角。两种注意力类型在交替的层中运行,使模型既能保留细节,也能维持概览。

Attention mechanism comparison chart

结果:V4-Pro使用其前代(V3.2)所需计算量的27%。KV cache——用于跟踪上下文所需的内存——降至V3.2的10%。V4-Flash进一步提升效率:相较于V3.2,计算量为10%,内存为7%。

基准测试表现与竞争态势

DeepSeek发布了针对GPT-5.4和Gemini-3.1-Pro的全面基准对比,包括V4-Pro落后于竞争对手的领域。在推理任务上,根据DeepSeek的技术报告,V4-Pro的推理能力相较GPT-5.4和Gemini-3.1-Pro大约落后三到六个月。

V4-Pro的优势在于:

  • Codeforces (竞赛编程):V4-Pro得分为3,206,在实际人类参赛者中大约排名第23位
  • Apex Shortlist (精选的数学与STEM问题):通过率90.2%,而Opus 4.6为85.9%,GPT-5.4为78.1%
  • SWE-Verified (GitHub问题解决):80.6%,与Claude Opus 4.6一致

V4-Pro的劣势在于:

  • MMLU-Pro (多任务):Gemini-3.1-Pro为91.0%,而V4-Pro为87.5%
  • GPQA Diamond (专家知识):Gemini为94.3,而V4-Pro为90.1
  • Humanity’s Last Exam (研究生级别):Gemini-3.1-Pro为44.4%,而V4-Pro为37.7%

在长上下文任务上,V4-Pro领先开源模型,并能在CorpusQA (模拟真实文档分析(上下文为一百万token))上超过Gemini-3.1-Pro,但在MRCR上落后于Claude Opus 4.6;MRCR衡量的是在长文本深处检索特定信息的能力。

代理与编程能力

V4-Pro可以在Claude Code、OpenCode以及其他AI编程工具中运行。根据DeepSeek对使用V4-Pro作为主要编程代理的85名开发者的内部调查,52%的人表示它已经准备好成为默认模型,39%的人倾向于“是”,不到9%的人表示“否”。DeepSeek的内部测试表明:V4-Pro在代理式编程任务上优于Claude Sonnet,并接近Claude Opus 4.5。

Artificial Analysis在GDPval-AA(一个衡量经济上有价值的知识工作、覆盖金融、法律与研究任务的基准)中,将V4-Pro排在所有开放权重模型的第一位。V4-Pro-Max的Elo分为1,554,领先于GLM-5.1 (1,535)和MiniMax的M2.7 (1,514)。Claude Opus 4.6在同一基准上的得分为1,619。

GDPval-AA benchmark ranking chart

V4引入了“交错式思考(interleaved thinking)”,能够在调用工具时保留完整的思维链。在先前的模型中,当代理进行了多次工具调用——例如先搜索网络、再运行代码、然后再搜索——模型的推理上下文会在各轮之间被清空。V4会在各步骤间保持推理连续性,从而防止在复杂的自动化工作流中发生上下文丢失。

竞争格局与定价背景

V4发布之际,AI领域正处于显著的活跃期。Anthropic于2026年4月16日发布了Claude Opus 4.7。OpenAI的GPT-5.5于2026年4月23日上线,其中GPT-5.5 Pro的定价为$30 每百万输入token$180 和(每百万输出token)。在Terminal Bench 2.0 (上,GPT-5.5优于V4-Pro:82.7% 对 70.0%);该基准测试复杂的命令行代理工作流。

小米于2026年4月22日发布了MiMo V2.5 Pro,提供完整的多模态能力$1 image, audio, video$3 ,并在(每百万token的输入)和每百万token的输出上定价。腾讯在与GPT-5.5同一天发布了Hy3。

从定价角度看:Cline的CEO Saoud Rizwan指出,若Uber使用DeepSeek而不是Claude,其2026年的AI预算(据称足够使用四个月)将会持续七年。

![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29

部署与可用性

V4-Pro和V4-Flash均采用MIT许可证,并可在Hugging Face上使用。目前两种模型都是仅文本的;DeepSeek表示正在开发多模态能力。两种模型都可以在本地硬件上免费运行,或根据公司需求进行定制。

DeepSeek现有的deepseek-chat和deepseek-reasoner端点已经分别在非思考模式与思考模式下路由到V4-Flash。旧的deepseek-chat与deepseek-reasoner端点将于2026年7月24日退役。

DeepSeek在训练V4时部分使用了华为Ascend芯片,从而规避美国的出口限制。该公司表示:一旦2026年后续有950个新的超级节点上线,Pro模型已经很低的价格还将进一步下降。

实际影响

对于企业而言,定价结构可能会改变成本-收益的计算方式。一个在开放权重基准上以每一百万输入token $1.74领跑的模型,使大规模文档处理、法律审查以及代码生成流水线相比六个月前要显著便宜。一百万token的上下文意味着完整的代码库或监管文件可以在一次请求中处理,而不需要在多个调用之间进行切块。

对于开发者和独立构建者而言,V4-Flash是主要的考虑对象。按每一百万token计算,输入$0.14、输出$0.28,它比一年前被视为预算选项的模型更便宜,同时还能覆盖Pro版本所能处理的多数任务。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
APR Daydreamvip
· 13小时前
希望官方给一个可审计的行动日志/回放机制,不然出了问题很难追责,尤其是自动操作资产类账户。
回复0
PaperHandsProvip
· 13小时前
现实应用里的“理解意图”才是难点,希望别再出现你想订机票它去改你简历的尴尬。
回复0
半剖多肉vip
· 13小时前
有点期待,也有点怕:能点鼠标就等于能做很多“人类点击”才能做的事,风控和反作弊得升级。
回复0
柚子味的冷静vip
· 13小时前
这波对 Web3 也有影响吧,自动化链上操作、签名流程、钱包交互要是能无缝做,产品形态会变。
回复0
玻璃穹顶里的星vip
· 13小时前
API 和价格先别急,先看看它在复杂桌面环境里能不能抗弹窗、抗多窗口、抗网络抖动。
回复0
GateUser-b665e41cvip
· 13小时前
感觉从“能说会写”进化到“能做能交付”,下一步就是给它更好的记忆和任务管理了。
回复0
Lint Collectorvip
· 13小时前
如果真能跨应用串联:浏览器查资料→Excel 处理→PPT 出稿→邮箱发送,那就是办公全链路闭环。
回复0
DegenWithNotebookvip
· 13小时前
终于上桌面原生操作了?这下真要当“数字实习生”了。
回复0