DeepSeek联合清北放出硬核论文！

EN / 中文

网站首页 > 市场观察 > 行业动态

DeepSeek联合清北放出硬核论文！

发布时间：2026-03-08

26492086-CEegAe.jpg?auth_key=1772985599-

就在 DeepSeek V4 正式发布前夕，其联合北大、清华团队悄悄上线了一篇硬核论文——《DualPath：面向智能体（Agent）时代的高效大模型推理系统》。

这篇论文没吹参数、不谈多模态，却直击当前AI行业最痛的瓶颈：当大模型变成“能干活的Agent”，GPU 不再是瓶颈，硬盘和网络才是拖后腿的“罪魁祸首”。

而 DeepSeek 的解决方案，让推理吞吐量接近翻倍，千卡集群也能线性扩展——这可能是比模型本身更值钱的“隐形护城河”。

竞泰认为，未来AI的竞争，不在谁家模型更大，而在谁家“算得更快、更省、更稳”。

|大模型跑不动，原来是被I/O拖累了

要理解DeepSeek新系统“DualPath”为什么厉害，得先搞清楚现在的大模型推理到底“卡”在哪儿。

问题根源：I/O（输入/输出）成了拖后腿的瓶颈。

现在的智能体（Agent）和人一样，会进行多轮对话或任务操作——比如一步步规划旅行、写代码、查资料。每一步只加一点点新内容（Token），但必须记住之前所有的对话历史。这样一来，上下文越来越长，动辄几十万甚至上百万个Token。

可GPU的高速显存（HBM）和内存（DRAM）容量有限，装不下这么多历史数据。于是，系统只能把大部分历史缓存（叫KV-Cache）存在更便宜但慢得多的固态硬盘（SSD）里。

当模型需要生成下一步时，就得从SSD里把历史数据“搬”回计算节点。这就引出了另一个问题，目前主流的推理系统采用“预填充 + 解码”两阶段架构：

预填充节点：负责读取整个提示词，并从SSD加载所需的KV-Cache；解码节点：负责一个字一个字地生成回答。

但这里有个大bug：所有KV-Cache都只能通过预填充节点从SSD读取。结果就是——预填充节点的存储网络带宽被“打满”，忙到瘫痪；而解码节点明明也有网络接口，却几乎闲着不用！

这就像一条高速公路，只开放了一个收费站，后面几百辆车全堵在那儿，而旁边十几个空着的收费口却不能用。更糟的是，硬件发展让这个问题越来越严重。

过去几年，GPU的计算能力（算力）飞速提升，但网络速度和显存容量的增长却远远跟不上。结果就是：GPU越来越快，却越来越“饿”——等数据等到干着急。

这就是为什么，即使模型再强大，实际运行效率也被I/O拖垮了。

而DualPath的突破，正是从这里下手——让闲置的解码节点也帮忙“搬数据”，把整条数据通道拓宽一倍。

|DualPath：让闲置的“帮手”一起搬数据

既然解码节点的存储网络带宽大部分时间都闲着，那为什么不拿来用？这就是 DualPath 的核心思路——不再只靠一个节点读数据，而是让多个节点一起帮忙。

传统做法是这样的：所有历史缓存（KV-Cache）都从硬盘先读到“预填充节点”，再传给GPU计算。这就像一个人扛一麻袋米上楼，累得气喘吁吁，其他人却站在旁边干看。

而 DualPath 做了件聪明事：开辟了两条数据通道。

主路（预填充路径）：数据从硬盘读进预填充节点，再送到GPU显存里计算，最后把完整的缓存传给解码节点。

新路（解码路径）：一部分数据直接从硬盘读进解码节点的内存；在需要计算时，这些数据通过高速网络（用的是RDMA技术），像流水一样快速传给预填充节点，一起参与计算。

这两条路不是固定分工，而是智能调配——哪边空闲多就多走哪边。这样一来，原本压在一个节点上的I/O压力，就被分散到整个集群，所有节点的存储带宽都被充分利用起来。

结果系统整体吞吐量大幅提升，真正让强大的GPU不再“等数据等到饿”。

竞泰观点|关注“算力基建”的隐形冠军

对AI公司估值逻辑的影响：

未来大模型公司的价值 = 模型能力 × 推理效率 × 成本控制；能自研推理系统的公司（如 DeepSeek、阿里、Meta），将显著拉开与“纯调 API”玩家的差距。

对硬件与云厂商的映射：

高速网络（InfiniBand/RDMA）需求激增：利好 Mellanox（英伟达）、华为、中科曙光；分布式存储+SSD性能成关键：关注国产存储芯片与 NVMe 方案商；千卡集群调度能力成为云厂商新护城河：阿里云、腾讯云、AWS 差距或拉大。

返回列表

统一服务热线：

18117862238

邮箱地址：zhangruxia@jt-capital.com.cn
公司地址：成都市高新区泰合·国际金融中心18层

快速链接