重磅！斯坦福 AI 团队被曝抄袭中国大模型开源成果，推特舆论开始发酵

leiphone_com

原创作者 2024.06.0410:24

关注

过去一年，中国大模型一直被贴上「追赶美国」的标签，但近日，推特上却有人曝出：

美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果，模型架构与代码完全相同。雷峰网

舆论已经开始发酵，引起了圈内人士的广泛讨论。雷峰网

根据 AI 科技评论整理，事情的经过大致如下：

5 月 29 日，斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型，号称只要 500 美元（约等于人民币 3650 元）就能训练出一个 SOTA 多模态模型，且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。

Github开源：https://github.com/mustafaaljadery/llama3v
HuggingFace开源：https://huggingface.co/mustafaaljadery/llama3v（已删库）
Medium发布文章：https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee
Twitter官宣模型：https://twitter.com/AkshGarg03/status/1795545445516931355

由于该团队的作者（Mustafa Aljaddery、Aksh Garg、Siddharth Sharma）来自斯坦福，又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历，很快该模型发布的推特帖子浏览量就已经超过 30 万，转发 300+次，并迅速冲到了 Hugging Face 首页：

但很快，没过几天，推特与 Hugging Face 上就开始出现怀疑的声音，质疑 Llama3V 套壳面壁智能在 5 月中旬发布的 8B 多模态小模型 MiniCPM-Llama3-V 2.5，且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5 的声音。

对此，Llama3V 团队回复，他们「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」，并宣称「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」。

紧接着，6 月 2 日，有网友在 Llama3V 的 Github 项目下抛出事实性质疑，但很快被 Llama3V 的团队删除。为此，提出质疑的网友被激怒暴走，跑到了 MiniCPM-V 的 Github 页面进行事件还原，提醒面壁智能团队关注此事。

随后，面壁团队通过测试，发现 Llama3V 与 MiniCPM-Llama3-V 2.5 在「胎记」般案例上的表现 100% 雷同，「不仅正确的地方一模一样，连错误的地方也一模一样」。

至此，推特舆论开始发酵，「斯坦福抄袭中国大模型」一事不胫而走。

1、「套壳」证据实锤，斯坦福团队百口莫辩

最开始，用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5 开源模型时，Llama3V 作者团队并不承认，而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」，并宣称他们「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」：

不过，好心网友对 Llama3V 作者团队的回应并不买单，而是在 Llama3V 的 Github Issue 上发布了一系列质疑，列举具体 4 点证据，但很快被 Llama3V 的团队删除。幸好作者事先截了图保留：

面对网友的质疑，Llama3V 作者只是避重就轻地回复，称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug，并称「MiniCPM 的架构是来自 Idéfics，SigLIP也来自 Idéfics，他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作，因为「MiniCPM 的视觉部分也是来自 Idéfics 的」——

并且将原来 readme 里引用致谢「MiniCPM-Llama3 」改为了「致谢 MiniCPM」：

但根据网友的复盘、梳理，Llama3V 并非只是简单的借鉴，而是有 4 点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。

证据 1：

Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5 项目完全相同的模型结构和代码实现。

Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同，只是变量名不同。

Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5 的代码进行格式调整和变量重命名得到的，包括但不限于图像切片方式、tokenizer、重采样器和数据加载：

证据 2：

Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」，但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5 结构完全相同，但在空间模式等多方面却与 LLaVA-UHD 有较大差异。

Llama3-V 具有与 MiniCPM-Llama3V 2.5 相同的标记器（tokenizer），包括 MiniCPM-Llama3-V 2.5 新定义的特殊标记：

证据 3：

Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码，后改名为 Llama3V。事件发酵后，AI 科技评论打开 Hugging Face 页面发现已经「404」：

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6Llama3V

作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」，并称他们「尝试使用 MiniCPM-Llama3 的配置，但并没有用」：

戏剧效果拉满的是，该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码，跑通 Llama3V 模型推理的详细步骤。

当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5 发布之前就使用它的 tokenizer 时（因为其一开始称他们在 MinicPM-Llama3-V2.5 发布前就已经开始了 Llama3V 的研究），Llama3V 的作者开始撒谎，称是从已经发布的上一代 MinicPM-V-2 项目里拿的tokenizer：