智谱披露GLM-5底层基建进展 修复方案被SGLang社区采纳
观点新媒体
观点网讯:4月30日,智谱发布技术博客《Scaling Pain:超大规模Coding Agent推理实践》,首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。
据介绍,针对Context Parallel策略中的KV Cache冗余存储问题,智谱设计实现了KV Cache分层存储方案LayerSplit,每张GPU仅持有部分层的KV Cache,通过广播机制完成协同计算。在Cache命中率90%条件下,40K至120K请求长度区间内,系统吞吐量提升10%至132%,且上下文越长收益越显著。
信息显示,智谱团队不仅在自有推理链路中定位并修复了PD分离架构下的KV Cache跨节点复用竞态,更在开源推理框架SGLang源代码层面修复了HiCache模块的加载时序缺失问题,修复方案已被SGLang开源社区采纳。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。