传头部大厂AI模型被实习生入侵，一个多月训练成果原地踏步，损失超千万美元

黑奇士

10月18日11:41

关注

听新闻

10月18日，微信群中流传着一段对话，内容是某头部大厂的大模型训练被实习生入侵，注入了破坏代码，导致其训练成果不可靠，可能需要重新训练。据称遭到入侵的代码注入了8000多张卡，带来的损失可能超过千万美元。

该入侵的实习生（下文称之为T）毕业于国内顶尖的两所大学之一，曾频频出现在媒体上，分享其对大模型训练的观点和看法，属于十分活跃的“大模型明星员工”。

在入侵过程中，“T利用了HF的漏洞，在公司的共享模型里写入破坏代码，随机sleep，随机梯度数值，导致模型的训练效果忽高忽低，无法产生预期的训练效果，而且AML团队无法核查原因”。（根据聊天记录原文整理）

-----

1、sleep是大模型训练中的训练策略，目的在于：缓解过拟合：通过在训练过程中周期性地停止对模型参数的更新，可以防止模型过度拟合训练数据，从而提高模型在未见过的数据上的泛化能力。

加速收敛：在某些情况下，通过适当的睡眠设置，可以帮助模型跳出局部最优解，更快地收敛到全局最优解。

节省计算资源。

2、梯度指的是大模型训练中的最优解。它在大模型训练中是一个非常重要的概念。你可以把它想象成一座山上的路径，梯度就是告诉你往哪个方向走才能最快下山（也就是找到最优解）。梯度数值随机，会让训练陷入迷茫之中，无法取得预期效果。

3、AML团队，全称是“Algorithm Monitoring Team”，即算法监测团队。这个团队的主要职责是：

监控模型训练过程：跟踪模型在训练过程中的表现，包括损失函数、准确率、召回率等指标。

评估模型性能：对训练好的模型进行全面的评估，确保其符合预期的性能要求。

发现并解决问题：在模型训练过程中发现并解决各种问题，例如过拟合、欠拟合、梯度消失等。

保证模型质量：保证模型的质量和可靠性，确保其能够在实际应用中发挥作用。

-------------

为了解释清楚这三个概念，我就用了这么长的篇幅。因此，我认为这个事情的真实概率很大，普通人即使编造，也不知道这么细节的东西。

后续：

我询问了熟悉大模型行业的朋友，他们说该厂的大模型效果在最近一两个月没有出现明显的问题。但该厂也很久没向外界通报大模型训练的进展，公司高层很可能会倾向于掩盖此次入侵。

同时，该实习生的聊天工具也正常在线，貌似不像传言中说的那么严重。（入侵造成公司千万美元损失，都涉及刑事犯罪了）