DeepSeek再放大招，推理速度狂飙85% 怎么做到的？

标签： deepseek 大招推理 | 发表时间：2026-06-29 20:35 | 作者：

出处：https://m.cnbeta.com.tw/

6月27日，DeepSeek公开DSpark技术报告和DeepSpec代码库。DeepSeek-V4的底座模型没有变，新增的是一个服务端推测解码模块：DSpark。DeepSeek在HuggingFace模型页里把话说得很直白：V4-Pro-DSpark和V4-Flash-DSpark"不是新模型"。这两个页面指向的是同一个模型检查点，加上推测解码模块后的服务版本。

这意味着，DSpark没有让模型突然变聪明。它瞄准的是模型上线之后，怎样更快、更便宜地把答案吐出来。

技术报告称，DSpark已部署在DeepSeek-V4的线上服务系统中。在真实用户流量下，相比此前的MTP-1生产基线，也就是DeepSeek上一代线上推测生成方案，V4-Flash的每用户生成速度提升60%到85%，V4-Pro提升57%到78%，前提是匹配吞吐条件。

这里的"快"也要收住口径。 它主要指生成阶段，也就是模型持续输出token的那一段速度，不等于所有用户请求的端到端响应时间都同步快了85%。 长提示词的预填充、检索、工具调用、排队和网络延迟，仍然会影响用户实际等多久。

模型上线后，还有一笔推理账

这件事没有新模型发布热闹，但它更接近AI公司每天面对的现实： 模型训练完之后，成本没有结束。

聊天机器人、代码助手、智能体和搜索式产品，每一次调用都在继续消耗GPU时间。模型慢一点，用户等得久一点；推理贵一点，厂商就更难把高质量模型开放给更多场景。

AI行业过去两年更习惯讨论训练成本：一家公司要买多少GPU、建多大的集群、花多少钱训练下一代模型。但模型真正变成产品之后，另一类成本会不断冒出来：推理。

训练像一次大工程，推理更像水电费。 只要用户还在问问题、智能体还在跑任务、代码助手还在生成补丁，模型就要继续消耗算力。

大模型服务最后都会回到两个指标：速度和单位token成本。API定价页面通常按输入token和输出token收费，企业内部也会把不同模型、缓存、路由和上下文长度拆成成本项。

DSpark不能直接等同于降价，但如果同样的GPU集群能在相近吞吐下让用户更快拿到答案，它意味着同样的硬件可以服务更多用户，或者同样的用户体验可以用更少的卡来提供。

"先猜，再验"

推测解码的思路，可以粗略理解成"先猜，再验"。

大模型生成文本时，通常是一个token接一个token往外吐。前一个token出来，后一个token才知道该接什么。这种方式稳，但慢。推测解码会让一个更轻的草稿模块提前猜出一段候选token，目标大模型再批量验证。猜对的部分直接接受，猜错的位置再修正。

小模型不能替大模型做决定。最终接受哪些token，仍然由目标模型校验；正确实现下，它改变的是生成方式，不改变目标模型的输出分布。 加速来自让大模型批量验证候选，而非逐步生成。

DSpark改的，是草稿怎么生成

论文没有只停在"先猜，再验"这层解释。它重点处理了草稿怎么生成。

现有的草稿策略大致分两类。自回归草稿器更稳，因为后一个token会看见前一个token，但草稿变长，延迟也就跟着上去。而并行草稿器更快，可以一次猜出一整段，但每个位置各猜各的，后面的token容易和前面脱节，接受率越往后越容易下滑。

DSpark选择折中。 论文题目里的关键词是"半自回归生成（Semi-Autoregressive Generation）"，它先用并行方式提出一段候选，再用一个轻量顺序层修正后续token的条件关系。这样既保留并行生成的速度，又让后面的候选能看到前面已经猜了什么。

另一个关键点，是验证多长一段。

候选token猜得越多，不一定越省。如果明知道后半段很可能被拒绝，还交给大模型验证，就是把GPU时间花在低价值位置上。 DSpark会看候选的置信度，也看当前系统负载，动态决定验证长度。 GPU空一些，可以多验；负载高时，就把算力留给更可能被接受的部分。

论文标题里的"置信度调度（Confidence-Scheduled）"，说的就是这件事。

DSpark站在已有技术路线之上

DSpark站在推测解码已有路线之后，更像是DeepSeek把这条技术路线推到线上服务后的公开参照。

SpecInfer早在2023年就把小模型预测、token树（token tree）和并行验证放进大模型服务系统里；Medusa在2024年提出给模型加多个解码头，一次预测多个后续token；EAGLE系列则围绕草稿模型和动态草稿树（draft tree）继续提高接受率。vLLM、SGLang、TensorRT-LLM这类推理框架，也早就把推测解码当作降低延迟的重要工具。

DSpark的位置，在于它把几个生产问题放到一起处理：草稿怎么生成，候选怎么保持连贯，验证长度怎么随负载变化，线上真实流量下速度到底能提高多少。

论文里反复出现的关键词，也从"模型能力提升"转向每用户生成速度（per-user generation speed）、匹配吞吐（matched throughput）、服务等级协议（SLA）这些服务侧词汇。

这也解释了为什么不能只挑最大的数字看。论文里确实还有661%、406%这样的高倍吞吐数据，但它们来自更严苛的每用户速度目标：在那种设定下，旧基线本身已经接近服务能力的边界，DSpark的相对优势会被放大。

真正能说明常态收益的，还是前面那组数字：匹配吞吐、真实流量分布、对比对象是MTP-1。

DeepSpec能复现什么

DeepSeek同时开源了DeepSpec。这是一套用于训练和评估推测解码草稿模型的代码库，包含数据准备、训练和评估流程，也放出了Qwen3、Gemma等模型上的相关检查点。

不过， 开源不等于"下载即复现"。 项目文档里提示，默认Qwen3-4B配置下，目标模型缓存可能接近38TB；默认训练脚本假设单节点8张GPU；如果要对齐论文结果，训练设置必须严格一致，特定领域还需要对草稿模型做额外微调。

外界可以验证方法的一部分，也可以把DeepSpec移植到其他开源模型上，但DeepSeek-V4线上服务里的那组速度提升数字，仍然来自DeepSeek自己的硬件规模、流量分布和生产系统调度。

开源的是方法，不是环境。

社区最关心的是复现边界

X上的讨论没有停在叫好，更像一群工程师在追问：这套办法到底怎么跑、能不能复现、边界在哪里。

AI研究者Ravid ShwartzZiv把DSpark概括为两类草稿器的折中：并行草稿器快，但接受率沿候选块衰减；自回归草稿器稳，但延迟随草稿长度上升。他特别提到DSpark加入的两个组件：置信度判断头和负载感知调度器，并补了一句关键边界："和所有推测解码一样，它是无损的。"

工程师更关心的是能不能跑起来。vLLM贡献者Rafael Caricio称自己在双DGX Spark GB10上把DeepSeek-V4-Flash的DSpark模式跑通，单流解码约60 tok/s，大约是MTP-1的1.5倍。

他同时提到，真实代码会话暴露了合成基准测试看不到的问题：瓶颈不只是计算核心的速度，而是长上下文下草稿接受率会明显下滑。

Tech2Wild也给出了相近方向的现场数据，显示V4-Flash-DSpark已有人在特定vLLM环境里试跑。但这类结果高度依赖硬件型号、框架补丁版本、上下文长度和并发设置，换一套环境结果可能完全不同。

也有人专门提醒边界。AcingAI在X上指出，DeepSeek报告里的高倍数仍然是"自家硬件、自家MTP-1基线、匹配吞吐条件下"的结果，外部尚未完整复现。

这提醒我们，DSpark的一部分优势来自负载感知调度，而调度效果天然依赖生产环境的流量规模和硬件配置。

同样的能力，更少的算力

南华早报在6月28日的报道中，把DSpark放在推理瓶颈、芯片压力和用户等待时间里看。这个角度比"DeepSeek又发了什么模型"更接近产品现实。

AI公司还会继续比模型能力，但当能力差距被压缩，谁能把同样的能力更快、更便宜地交付出去，也会成为竞争的一部分。

DeepSeek这类公司尤其需要把这件事讲清楚。DeepSeek一直把低成本、高效率作为外界理解它的重要入口，从模型训练叙事到API价格，最被关注的不是它有没有再堆一个更大的参数规模，而是它能不能把同等能力做得更便宜。

DSpark延续的正是这条线：它不证明V4突然更聪明，它证明V4在服务用户时可以少浪费一部分推理算力。

如果把视角再放宽一点，推理优化也会影响开源模型生态。开源模型过去常被认为"便宜"，但真正部署时，显存、吞吐、并发、延迟和运维复杂度都会变成成本。

一个模型能开源，只说明大家能拿到它；能不能便宜地服务大量用户，还要看推理栈能不能跟上。

DeepSpec放出Qwen3、Gemma等检查点，说明这件事已经不只停在DeepSeek-V4自己身上。迁移到什么程度，还要看社区适配、框架支持和硬件兼容的实际进展；但从目前公开信息看，DeepSeek已经让这条路线走出了自家模型。

DSpark的价值就在这里。 它给V4增加了一层更接近生产系统的推理服务工具，而不只是一个新能力标签。

接下来值得看的，已经不止是DeepSeek自己能跑多快，还包括这条路线能被多少人走通。DeepSpec已经放出检查点和训练流程，推测解码正在从一家公司的工程选择，变成开源推理降低成本的通用手段， 前提是其他框架和硬件能跟上。

查看评论