深度求索发布 67B 大模型，以「开源」加速 AGI 时代到来

宁波幻方量化

2023.11.2921:04

关注

因为开源，所以信赖；因为体验，所以惊喜

继11月初发布 Coder 代码模型之后，我们在一个月之内又发布了通用大语言模型：DeepSeek LLM 67B。模型已完全开源，同时服务已经全面开放内测，访问 chat.deepseek.com 或者扫描以下二维码，立即使用。

相比开源的同级别模型 LLaMA2 70B，DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力（如：HumanEval、MATH、CEval、CMMLU）。

因为开源，所以信赖

DeepSeek 已同时开源 7B 和 67B 的两种规模模型，均含基础模型（base）和指令微调模型（chat）。无需申请，免费商用。

Hugging Face 首页：https://huggingface.co/deepseek-ai

GitHub 仓库：https://github.com/deepseek-ai/DeepSeek-LLM

此外，我们还将训练中途的9个模型 checkpoints 开放下载。

因为体验，所以惊喜

在公开评测榜单成绩领先，只是检验大模型能力的第一道关卡。但模型是否在更广泛、更新、更难的问题上表现更好，才是 AGI 真正需要关注的事情。

故而，为进一步验证模型在真实样本外的泛化效果，我们采纳一系列从未见过的考试题，覆盖编程、数学、指令跟随等方面，相对客观、公平地评价大模型的真实能力。

测试1

数学，智力水平的试金石

GSM8k 和 MATH 是评估大型语言模型数学能力的标准基准，但存在过度拟合这些数据集的风险。故而，我们选择 xAI 使用的2023年匈牙利高中数学考试题，来评估模型的样本外的数学泛化能力。

可以看到，本次发布的 DeepSeek LLM 67B 模型位于右上角，在样本内数学能力（纵轴 GSM8K）排名第三，仅次于 Claude2 和 GPT-4，但在样本外数学能力（横轴 Exam Score）排名第二，仅次于 GPT-4。

测试2

指令跟随，智能对齐的比武台

大模型的智能，是否真正符合“人”直觉智能？这就是指令跟随能力测试题的设计目的。我们使用了 Google 在2023年11月15日公开的指令跟随评测集，是完全“新题”的同时，也能测试大模型真正“听话”程度。

结果如下图，DeepSeek LLM 67B 在一众开源模型中明显领先，拉近了与智能标杆 GPT-4 的距离。

测试3

LeetCode 周赛，编程的竞技场

LeetCode 全球竞赛，作为码农实力检验的最佳竞赛之一，每周更新全新测试题，是真正意义上样本外的 HumanEval 测试题。

我们用今年7月2号到11月12号之间竞赛题（即第351-372周竞赛，双周竞赛108-117中的问题）作为考试题进行测试，竞赛排序结果如下图。可以看到，来自 DeepSeek 的两大模型遥遥领先，包括本次发布的通用领域的 DeepSeek LLM 67B 和11月初发布的 DeepSeek Coder 33B。