新浪科技 基金

深度求索发布 67B 大模型,以「开源」加速 AGI 时代到来

宁波幻方量化

关注

因为开源,所以信赖;因为体验,所以惊喜

继11月初发布 Coder 代码模型之后,我们在一个月之内又发布了通用大语言模型:DeepSeek LLM 67B。模型已完全开源,同时服务已经全面开放内测,访问 chat.deepseek.com 或者扫描以下二维码,立即使用

相比开源的同级别模型 LLaMA2 70B,DeepSeek LLM 67B 在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)

因为开源,所以信赖

DeepSeek 已同时开源 7B 和 67B 两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用

Hugging Face 首页:https://huggingface.co/deepseek-ai

GitHub 仓库:https://github.com/deepseek-ai/DeepSeek-LLM

此外,我们还将训练中途的9个模型 checkpoints 开放下载

因为体验,所以惊喜

在公开评测榜单成绩领先,只是检验大模型能力的第一道关卡。但模型是否在更广泛、更新、更难的问题上表现更好,才是 AGI 真正需要关注的事情。

故而,为进一步验证模型在真实样本外的泛化效果,我们采纳一系列从未见过的考试题,覆盖编程、数学、指令跟随等方面,相对客观、公平地评价大模型的真实能力。

测试1

数学,智力水平的试金石

GSM8k 和 MATH 是评估大型语言模型数学能力的标准基准,但存在过度拟合这些数据集的风险。故而,我们选择 xAI 使用的2023年匈牙利高中数学考试题,来评估模型的样本外的数学泛化能力。

可以看到,本次发布的 DeepSeek LLM 67B 模型位于右上角,在样本内数学能力(纵轴 GSM8K)排名第三,仅次于 Claude2 和 GPT-4,但在样本外数学能力(横轴 Exam Score)排名第二,仅次于 GPT-4。

测试2

指令跟随,智能对齐的比武台

大模型的智能,是否真正符合“人”直觉智能?这就是指令跟随能力测试题的设计目的。我们使用了 Google 在2023年11月15日公开的指令跟随评测集,是完全“新题”的同时,也能测试大模型真正“听话”程度

结果如下图,DeepSeek LLM 67B 在一众开源模型中明显领先,拉近了与智能标杆 GPT-4 的距离。

测试3

LeetCode 周赛,编程的竞技场

LeetCode 全球竞赛,作为码农实力检验的最佳竞赛之一,每周更新全新测试题,是真正意义上样本外的 HumanEval 测试题

我们用今年7月2号到11月12号之间竞赛题(即第351-372周竞赛,双周竞赛108-117中的问题)作为考试题进行测试,竞赛排序结果如下图。可以看到,来自 DeepSeek 的两大模型遥遥领先,包括本次发布的通用领域的 DeepSeek LLM 67B 和11月初发布的 DeepSeek Coder 33B

从今天起,把你刷下 LeetCode 全球排位的,说不定就是 DeepSeek 竞赛选手!

测试4

开放域推理,复杂问题压测

最后,我们在开放域上的一些脑洞大开的难题,进一步观测模型到底是知其然,还是知其所以然。

例如,看一下这道常识性知识和推理题目,DeepSeek LLM 67B 回答表现明显优于GPT3.5 turbo。

再来看看 DeepSeek LLM 67B 模型的中文知识储备和创造力~

DeepSeek LLM 67B(上) ,GPT3.5 turbo (下)

关于 DeepSeek

好奇心,驱使我们不断探索、大胆求证、勇于进取。耐心,保证我们更加专注于长远的目标,不囿于眼前的喧嚣。

不积跬步无以至千里,在“百模大战”的当今时代,DeepSeek 始终致力于探索 AGI 的本质,稳步前行,务实地实现浪漫的目标。

我们会为开源社区持续带来更优秀的开源作品。让我们在这个激动人心的时代,共同推进 AGI 的到来!

加载中...