
就在 DeepSeek V4 正式发布前夕,其联合北大、清华团队悄悄上线了一篇硬核论文——《DualPath:面向智能体(Agent)时代的高效大模型推理系统》。
这篇论文没吹参数、不谈多模态,却直击当前AI行业最痛的瓶颈:当大模型变成“能干活的Agent”,GPU 不再是瓶颈,硬盘和网络才是拖后腿的“罪魁祸首”。
而 DeepSeek 的解决方案,让推理吞吐量接近翻倍,千卡集群也能线性扩展——这可能是比模型本身更值钱的“隐形护城河”。
竞泰认为,未来AI的竞争,不在谁家模型更大,而在谁家“算得更快、更省、更稳”。
|大模型跑不动,原来是被I/O拖累了
要理解DeepSeek新系统“DualPath”为什么厉害,得先搞清楚现在的大模型推理到底“卡”在哪儿。
问题根源:I/O(输入/输出)成了拖后腿的瓶颈。
现在的智能体(Agent)和人一样,会进行多轮对话或任务操作——比如一步步规划旅行、写代码、查资料。每一步只加一点点新内容(Token),但必须记住之前所有的对话历史。这样一来,上下文越来越长,动辄几十万甚至上百万个Token。
可GPU的高速显存(HBM)和内存(DRAM)容量有限,装不下这么多历史数据。于是,系统只能把大部分历史缓存(叫KV-Cache)存在更便宜但慢得多的固态硬盘(SSD)里。
当模型需要生成下一步时,就得从SSD里把历史数据“搬”回计算节点。这就引出了另一个问题,目前主流的推理系统采用“预填充 + 解码”两阶段架构:
预填充节点:负责读取整个提示词,并从SSD加载所需的KV-Cache;解码节点:负责一个字一个字地生成回答。
但这里有个大bug:所有KV-Cache都只能通过预填充节点从SSD读取。结果就是——预填充节点的存储网络带宽被“打满”,忙到瘫痪;而解码节点明明也有网络接口,却几乎闲着不用!
这就像一条高速公路,只开放了一个收费站,后面几百辆车全堵在那儿,而旁边十几个空着的收费口却不能用。更糟的是,硬件发展让这个问题越来越严重。
过去几年,GPU的计算能力(算力)飞速提升,但网络速度和显存容量的增长却远远跟不上。结果就是:GPU越来越快,却越来越“饿”——等数据等到干着急。
这就是为什么,即使模型再强大,实际运行效率也被I/O拖垮了。
而DualPath的突破,正是从这里下手——让闲置的解码节点也帮忙“搬数据”,把整条数据通道拓宽一倍。
|DualPath:让闲置的“帮手”一起搬数据
既然解码节点的存储网络带宽大部分时间都闲着,那为什么不拿来用?这就是 DualPath 的核心思路——不再只靠一个节点读数据,而是让多个节点一起帮忙。
传统做法是这样的:所有历史缓存(KV-Cache)都从硬盘先读到“预填充节点”,再传给GPU计算。这就像一个人扛一麻袋米上楼,累得气喘吁吁,其他人却站在旁边干看。
而 DualPath 做了件聪明事:开辟了两条数据通道。
主路(预填充路径):数据从硬盘读进预填充节点,再送到GPU显存里计算,最后把完整的缓存传给解码节点。
新路(解码路径):一部分数据直接从硬盘读进解码节点的内存;在需要计算时,这些数据通过高速网络(用的是RDMA技术),像流水一样快速传给预填充节点,一起参与计算。
这两条路不是固定分工,而是智能调配——哪边空闲多就多走哪边。这样一来,原本压在一个节点上的I/O压力,就被分散到整个集群,所有节点的存储带宽都被充分利用起来。
结果系统整体吞吐量大幅提升,真正让强大的GPU不再“等数据等到饿”。
竞泰观点|关注“算力基建”的隐形冠军
对AI公司估值逻辑的影响:
未来大模型公司的价值 = 模型能力 × 推理效率 × 成本控制;能自研推理系统的公司(如 DeepSeek、阿里、Meta),将显著拉开与“纯调 API”玩家的差距。
对硬件与云厂商的映射:
高速网络(InfiniBand/RDMA)需求激增:利好 Mellanox(英伟达)、华为、中科曙光;分布式存储+SSD性能成关键:关注国产存储芯片与 NVMe 方案商;千卡集群调度能力成为云厂商新护城河:阿里云、腾讯云、AWS 差距或拉大。





