DeepSeek发布全球最强开源MoE模型

宁波幻方量化

05.0622:24

关注

继今年1月份开源国内首个MoE模型后，历时4个月钻研，今天我们开源第二代MoE模型：DeepSeek-V2！

媲美GPT4能力

在目前大模型主流榜单中，DeepSeek-V2均表现出色:

中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队
英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral 8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口

全新的模型结构

DeepSeek-V2没有沿用主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行了全方位的创新，提出了媲美MHA的MLA（Multi-head Latent Attention）架构，大幅减少计算量和推理显存；自研Sparse结构DeepSeekMoE进一步将计算量降低到极致，两者结合最终实现模型性能跨级别的提升。（详情查看论文和开源代码）

不严谨估计，DeepSeek-V2以236B总参数、21B激活，大致达到70B~110B Dense的模型能力，同时消耗的显存（KV Cache）只有同级别Dense模型的1/5~1/100，每token成本大幅降低。实际部署在8卡H800机器上，输入吞吐量超过每秒10万tokens，输出超过每秒5万tokens。

DeepSeek-V2 API的定价为：每百万tokens输入1元、输出2元（32K上下文），价格仅为GPT-4-Turbo的近百分之一，欢迎使用。