智谱披露GLM-5底层基建进展修复方案被SGLang社区采纳

观点新媒体

观点新媒体官方账号 04.3009:11

关注

观点网讯：4月30日，智谱发布技术博客《Scaling Pain：超大规模Coding Agent推理实践》，首次系统披露GLM-5系列模型在超大规模Coding Agent调用场景下的底层推理技术突破。

据介绍，针对Context Parallel策略中的KV Cache冗余存储问题，智谱设计实现了KV Cache分层存储方案LayerSplit，每张GPU仅持有部分层的KV Cache，通过广播机制完成协同计算。在Cache命中率90%条件下，40K至120K请求长度区间内，系统吞吐量提升10%至132%，且上下文越长收益越显著。

信息显示，智谱团队不仅在自有推理链路中定位并修复了PD分离架构下的KV Cache跨节点复用竞态，更在开源推理框架SGLang源代码层面修复了HiCache模块的加载时序缺失问题，修复方案已被SGLang开源社区采纳。

免责声明：本文内容与数据由观点根据公开信息整理，不构成投资建议，使用前请核实。

智谱披露GLM-5底层基建进展 修复方案被SGLang社区采纳

观点新媒体

智谱披露GLM-5底层基建进展修复方案被SGLang社区采纳