新浪科技

重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵

leiphone_com

关注

过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出:

美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。雷峰网

舆论已经开始发酵,引起了圈内人士的广泛讨论。雷峰网

根据 AI 科技评论整理,事情的经过大致如下:

5 月 29 日,斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型,号称只要 500 美元(约等于人民币 3650 元)就能训练出一个 SOTA 多模态模型,且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。

  • Github开源:https://github.com/mustafaaljadery/llama3v

  • HuggingFace开源:https://huggingface.co/mustafaaljadery/llama3v(已删库)

  • Medium发布文章:https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

  • Twitter官宣模型:https://twitter.com/AkshGarg03/status/1795545445516931355

由于该团队的作者(Mustafa Aljaddery、Aksh Garg、Siddharth Sharma)来自斯坦福,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历,很快该模型发布的推特帖子浏览量就已经超过 30 万,转发 300+次,并迅速冲到了 Hugging Face 首页:

但很快,没过几天,推特与 Hugging Face 上就开始出现怀疑的声音,质疑 Llama3V 套壳面壁智能在 5 月中旬发布的 8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5 的声音。

对此,Llama3V 团队回复,他们「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」。

紧接着,6 月 2 日,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。

随后,面壁团队通过测试 ,发现 Llama3V 与 MiniCPM-Llama3-V 2.5 在「胎记」般案例上的表现 100% 雷同,「不仅正确的地方一模一样,连错误的地方也一模一样」。

至此,推特舆论开始发酵,「斯坦福抄袭中国大模型」一事不胫而走。

1、「套壳」证据实锤,斯坦福团队百口莫辩

最开始,用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5 开源模型时,Llama3V 作者团队并不承认,而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称他们「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」:

不过,好心网友对 Llama3V 作者团队的回应并不买单,而是在 Llama3V 的 Github Issue 上发布了一系列质疑,列举具体 4 点证据,但很快被 Llama3V 的团队删除。幸好作者事先截了图保留:

面对网友的质疑,Llama3V 作者只是避重就轻地回复,称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug,并称「MiniCPM 的架构是来自 Idéfics,SigLIP也来自 Idéfics,他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作,因为「MiniCPM 的视觉部分也是来自 Idéfics 的」——

并且将原来 readme 里引用致谢 「MiniCPM-Llama3 」改为了「致谢 MiniCPM」:

但根据网友的复盘、梳理,Llama3V 并非只是简单的借鉴,而是有 4 点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。

证据 1:

Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5 项目完全相同的模型结构和代码实现。

Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同,只是变量名不同。

Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5 的代码进行格式调整和变量重命名得到的,包括但不限于图像切片方式、tokenizer、重采样器和数据加载:

证据 2:

Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」,但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5 结构完全相同,但在空间模式等多方面却与 LLaVA-UHD 有较大差异。

Llama3-V 具有与 MiniCPM-Llama3V 2.5 相同的标记器(tokenizer),包括 MiniCPM-Llama3-V 2.5 新定义的特殊标记:

证据 3:

Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码,后改名为 Llama3V。事件发酵后,AI 科技评论打开 Hugging Face 页面发现已经「404」:

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6Llama3V 

作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」,并称他们「尝试使用 MiniCPM-Llama3 的配置,但并没有用」:

戏剧效果拉满的是,该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码,跑通 Llama3V 模型推理的详细步骤。

当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5 发布之前就使用它的 tokenizer 时(因为其一开始称他们在 MinicPM-Llama3-V2.5 发布前就已经开始了 Llama3V 的研究),Llama3V 的作者开始撒谎,称是从已经发布的上一代 MinicPM-V-2 项目里拿的tokenizer:

但事实是,据 AI 科技评论向面壁团队了解,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在Huggingface 里是两个文件,「既不是同一个 tokenizer 件,文件大小也完全不同」。

MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2 因为在 Llama3 开源之前就发布,所以不会有 Llama3 的 tokenizer :

证据 4:

Llama3V 的作者删除了 GitHub 上的相关 issue,并似乎不完全理解 MinicPM-Llama3-V2.5 的架构或 Llama3V 自己的代码。

Perceiver重采样器是一个单层的交叉注意力机制,而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于训练多模态大型语言模型,而仅用于 SigLIP 的预训练。

但 Llama3V 在论文中的介绍却说其采用了两层自注意力机制:

而 MiniCPM-Llama3-V 2.5 和 Llama3V 代码如下,体现的却是单层交叉注意力机制:

Llama3-V:

MiniCPM-Llama3-V 2.5:

且视觉特征提取不需要激活 sigmoid:

2、推特舆论发酵,面壁回应

6 月 2 日下午,该事件开始在推特上发酵,MiniCPM-V 的作者亲自发帖,表示「震惊」,因为斯坦福的 Llama3V 模型居然也能识别「清华简」。

据 AI 科技评论向面壁团队了解,「清华简」是清华大学于 2008 年 7 月收藏的一批战国竹简的简称;识别清华简是 MiniCPM-V 的「胎记」特征。该训练数据的采集和标注均由面壁智能和清华大学自然语言处理实验室团队内部完成,相关数据尚未对外公开。

斯坦福的 Llama3V 模型表现与 MiniCPM-Llama3-V 2.5 检查点的加噪版本高度相似:

以下是面壁团队成果与 Llama3V 对「清华简」的识别对比。结果显示,两个模型不仅正确的地方一模一样、错误的地方也雷同:

Q:请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:民

Llama3-V:民

GT:民

错误识别示例:

Q:请识别图像中的竹简字?

MiniCPM-Llama3-V 2.5:君子 

Llama3-V:君子

GT:甬

以下是在 1000 个清华简字体上的识别效果:

可以看到,Llama3V 与 MiniCPM-Llama3-V 2.5 的重叠高达 87%,且两个模型的错误分布律高度相似:Llama3V 的错误率为 236,MiniCPM-Llama3-V 2.5 的错误率是 194,两个模型在 182 个错误识别上相同。

同时,两个模型在清华简上的高斯噪声也同样高度相似:

此外,Llama3V 的 OCR 识别能力在中文字上也与 MiniCPM-Llama3-V 2.5 高度相似。对此,面壁团队表示,他们很好奇斯坦福团队是如何只用「500 美元就能训练出这么高深的模型性能」。

根据公开信息显示,Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾发表过多篇机器学习领域的论文。

其中,Siddharth Sharma 曾在牛津大学访问、在亚马逊实习;Aksh Garg 也曾在 SpaceX 实习。

这件事反映出,AI 研究的投机分子不分国度。

同时,也反映出,中国科研团队的开源大模型实力已经冲出国门,逐渐被越来越多国际知名的机构与开发者所关注、学习。

中国大模型不仅在追赶世界顶尖机构,也正在成为被世界顶尖机构学习的对象。

由此可见,今后看客们审视国内外的大模型技术实力对比,应该多一份民族自信、少一点崇洋媚外,将关注度多聚焦在国内的原创技术上。雷峰网(公众号:雷峰网)

最后,一句话总结:投机不可取,永争创新一。

【瑞典银行:美国证监会已结束六年调查,未采取执法行动】瑞典银行(Swedbank AB)表示,美国证券交易委员会(Securities and Exchange Commission,简称 SEC)已结束对该行的调查,且未采取任何执法行动。此次调查是美国针对该行可能存在洗钱违规行为的三项调查之一,目前该项调查已正式告终。瑞典银行副首席执行官托马斯・赫德伯格(Tomas Hedberg)于周六发表声明称:“我们已将又一项针对历史问题的调查告一段落。”SEC 的此次调查始于 2019 年,调查内容涉及瑞典银行过去在反洗钱、反恐怖融资方面存在的合规漏洞,以及该行波罗的海地区分支机构在信息披露环节的不足。作为瑞典市值第二大的银行,瑞典银行目前仍在接受美国司法部(US Department of Justice)和纽约金融服务局(New York Department of Financial Services)的调查。该行周日表示,目前尚无法评估这两项调查可能带来的财务影响,也无法确定调查何时会结束。2020 年,总部位于斯德哥尔摩的瑞典银行因违反反洗钱规定,已被瑞典当局处以 40 亿瑞典克朗(约合 4.26 亿美元)的罚款。尽管 SEC 的决定为该行消除了部分法律风险,但剩余两项美国调查可能带来的处罚仍对该行构成压力。分析师菲利普・理查兹(Philip Richards)在今年早些时候的一份报告中写道:“(瑞典银行)很可能面临金钱处罚,金额或达 3.86 亿美元 —— 与 2020 年向瑞典当局支付的罚款数额相当。不过,若处罚结构与 2022 年丹斯克银行(Danske)的处罚类似,我们也不能排除罚款金额接近 10 亿美元的可能性。”

【香港天文台:晚上9时20分将改挂8号风球、维持到至少明早11时】香港天文台称,晚上9时20分将改挂8号风球、维持到至少明早11时。

【韩国公布政府组织改编方案 检察厅被废除】当地时间7日,韩国行政安全部长官尹昊重和执政党共同民主党政策委员会议长韩贞爱公布了政府、总统办公室和共同民主党共同确定的李在明政府的政府组织改编方案。根据这一方案,检察厅被废除,新设立公诉厅和重大犯罪调查厅,分离了检察机关的起诉和调查功能。根据改编方案,公诉厅隶属于法务部,重大犯罪调查厅隶属于行政安全部。此外,根据改编方案,企划财政部将更名为财政经济部,负责税制、经济、金融等相关政策;而原企划财政部负责的预算及财政等功能将有由国务总理室下属的企划预算处负责。另外,环境部将扩编为气候、环境、能源部。除原环境部负责的相关业务之外,还将负责现产业通商资源部负责的能源政策的制定。(央视新闻)

【瑞典银行:美国证监会已结束六年调查,未采取执法行动】瑞典银行(Swedbank AB)表示,美国证券交易委员会(Securities and Exchange Commission,简称 SEC)已结束对该行的调查,且未采取任何执法行动。此次调查是美国针对该行可能存在洗钱违规行为的三项调查之一,目前该项调查已正式告终。瑞典银行副首席执行官托马斯・赫德伯格(Tomas Hedberg)于周六发表声明称:“我们已将又一项针对历史问题的调查告一段落。”SEC 的此次调查始于 2019 年,调查内容涉及瑞典银行过去在反洗钱、反恐怖融资方面存在的合规漏洞,以及该行波罗的海地区分支机构在信息披露环节的不足。作为瑞典市值第二大的银行,瑞典银行目前仍在接受美国司法部(US Department of Justice)和纽约金融服务局(New York Department of Financial Services)的调查。该行周日表示,目前尚无法评估这两项调查可能带来的财务影响,也无法确定调查何时会结束。2020 年,总部位于斯德哥尔摩的瑞典银行因违反反洗钱规定,已被瑞典当局处以 40 亿瑞典克朗(约合 4.26 亿美元)的罚款。尽管 SEC 的决定为该行消除了部分法律风险,但剩余两项美国调查可能带来的处罚仍对该行构成压力。分析师菲利普・理查兹(Philip Richards)在今年早些时候的一份报告中写道:“(瑞典银行)很可能面临金钱处罚,金额或达 3.86 亿美元 —— 与 2020 年向瑞典当局支付的罚款数额相当。不过,若处罚结构与 2022 年丹斯克银行(Danske)的处罚类似,我们也不能排除罚款金额接近 10 亿美元的可能性。”

【香港天文台:晚上9时20分将改挂8号风球、维持到至少明早11时】香港天文台称,晚上9时20分将改挂8号风球、维持到至少明早11时。

请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~