北大联合DeepSeek开源DSpark推理框架:文本生成速度提升85%,吞吐量最高增661%
来源:互联网大语言模型的推理成本问题,正成为AI规模化部署的核心瓶颈。6月28日,北京大学与深度求索联合发布并开源了大模型推理加速框架DSpark。该框架直击自回归生成机制中候选质量衰减和算力浪费两大痛点,同等吞吐量条件下可将单用户文本生成速度提升60%至85%,论文及训练代码已同步上线GitHub开放共享。
破解自回归生成的两大瓶颈
当前大语言模型普遍采用自回归生成机制,每产生一个词元都需执行一次完整前向计算,高并发场景下响应延迟居高不下。推测解码是业界主流提速路线,但现有方案存在明显短板:串行草稿模型候选生成耗时随序列长度线性递增,并行草稿模型则面临长序列候选接受率快速衰减的问题,导致大量算力被浪费在无效计算上。
DSpark团队为这两个痛点分别设计了针对性优化。在候选生成层面,框架采用半自回归架构——依托改良的并行主干网络一次性输出候选基础特征,再配合轻量化的顺序模块补充文本前后依赖关系。仅两层Transformer结构便超越了传统五层并行模型的性能表现。在验证调度层面,创新性地引入置信度调度验证机制,通过硬件感知前缀调度器,结合实时算力负载和候选存活概率动态分配计算资源,优先验证高可靠性文本片段,大幅减少无效计算。
性能提升全面超越主流基线
研究团队选取通义千问3、Gemma4等主流开源大模型,覆盖数学推理、代码编写、日常对话三大任务进行多场景测试。数据显示,DSpark单轮有效生成长度全面优于Eagle3和DFlash两类主流基线——以Qwen3-4B为例,相比Eagle3提升30.9%,相比DFlash提升16.3%,既保留了并行架构的首位生成速度优势,又有效解决了长序列候选有效率衰减问题。
在真实生产环境中,DSpark已部署至DeepSeek-V4-Flash和DeepSeek-V4-Pro预览版服务引擎。线上流量实测结果显示,V4-Flash引擎在保障单用户80token/s生成速度时,系统整体吞吐量较基线提升51%;要求120token/s高速输出时,吞吐量优势飙升至661%。V4-Pro引擎在35token/s和50token/s标准下,吞吐量分别提升52%和406%。系统可根据在线并发量自动调整验证文本长度,低负载时充分释放算力,高负载时平滑控制资源竞争。
全栈开源推动行业降本
深度求索已在GitHub DeepSpec项目中开源DSpark、DFlash、Eagle3的全套训练代码、评估工具与模型权重。DeepSeek创始人梁文锋亦出现在论文作者名单中,显示出公司对推理效率优化方向的高度重视。当前,大模型竞争正从谁能训练更大的模型转向谁能以更低成本服务更多用户,DSpark的发布为这一趋势提供了关键的工程支撑。
研发团队坦言,DSpark在复杂低适配查询场景下仍存在完整候选块生成带来的固定算力开销,后续版本将持续优化。但整体而言,这套从候选生成到验证调度全面优化的技术方案,已为行业低成本落地高性能大模型推理服务提供了完整的技术路线图,有望显著降低AI企业的线上部署成本,提升终端用户的交互体验。