意见领袖 正文

余华莘:AI大辩论之四——“网络安全”与“用户授权”

余华莘
2026-06-15 10:45:07

意见领袖 | 余华莘

前言:今天就人工智能大辩论的第四个问题 - “网络安全”还是“用户授权”进行讨论总结。

前沿人工智能在推动自主迭代能力和生产力跃升的同时,显著放大了网络安全风险与用户授权的内在张力。

· 1)“安全”侧重模型训练防护、平台基础设施安全以及全局滥用监控;

· 2)“授权”则聚焦提示词工程、动态访问控制、知情同意以及边界管理。

二者冲突体现在提示注入(Prompt Injection)、模型提取、知情假设漏洞以及自主代理(Agents)越权行为等方面,导致用户授权的真实性被侵蚀,并可能引发系统性风险扩散。

1、大型云厂商与领先AI企业的实践

· 1)微软:在Azure OpenAI服务中明确提出“AI责任共担模型”(Shared Responsibility Model)。

· 微软负责模型训练安全、平台基础设施防护和全局滥用监控;

· 客户与用户则承担提示词工程安全(包括防注入)、精细化访问控制、自身数据保护的责任,其AI服务行为准则还强制要求客户必须获得所有必要的最终用户同意。

· 这一模型为PaaS和SaaS部署提供了清晰的分层责任框架,已广泛应用于企业级生成式AI应用。

· 2)谷歌:在深化Gemini等AI集成过程中面临显著安全张力。

· 一方面在产品端严格禁止生成儿童虐待、自残等有害内容;另一方面,其AI原则调整为深度介入军事国防领域扫清障碍。

· 在用户端,当Gemini深度集成至Chrome浏览器等产品时,采用“仅在敏感操作(如支付)前请求确认、普通操作默认自动执行”的知情假设逻辑。

· 这一设计虽提升了便利性,却被安全研究指出易遭利用。例如,Chrome的Gemini Live功能曾存在CVE-2026-0628漏洞,允许低权限扩展通过提示注入劫持摄像头、麦克风和本地文件访问;

· 此外,间接提示注入攻击频发,包括利用日历邀请等载体绕过隐私控制实施侦察。

· 模型提取与模型蒸馏攻击也日益频繁,黑客借助合法授权接口通过大量逆向查询窃取大模型知识产权。

· 3)Anthropic:Responsible Scaling Policy (RSP) v3.0(2026年2月24日发布,后续v3.3更新)聚焦灾难性风险管理,强调集体行动而非单边暂停,引入风险报告与前沿安全路线图,应对递归自我改进等挑战。

· 该政策承认单一实验室自我减速可能将领先地位拱手让人,转而推动行业广泛推荐标准。

· 4)xAI(马斯克旗下):强调最大真理寻求与较少内容限制,在分类环境中需额外监督,代表“授权创新”导向,与严格守则企业形成互补光谱。

· 国际网络安全公司研究普遍强调,AI增强型攻击在规模和速度上的优势,要求企业采用多层防御策略。

2、金融监管机构的警示

主要金融监管机构对前沿AI的网络安全影响保持高度关注。

· 1)英国央行(BoE)、英国金融行为监管局(FCA)与财政部:

· 2026年5月15日联合声明指出,前沿AI模型的网络能力已超过熟练人类实践者,且速度更快、规模更大、成本更低,若被恶意利用将显著放大对金融机构安全、客户保护、市场完整性和金融稳定的威胁;

· 敦促金融机构强化治理、漏洞管理和恢复能力,并参考2025年10月发布的网络弹性有效实践。

· 2)美联储:

· 重点关注AI引发的模型风险、集中风险以及增强型网络攻击,强调分层防御与人力监督的重要性。

· 3)欧洲央行(ECB)与欧盟网络安全局(ENISA)

· 推动银行主动应对威胁,并尝试与AI企业共享防御代码,指出AI正缩短攻击利用时间窗口。

· 4)中国人民银行(PBOC)

· 加强金融领域数据安全分级保护、跨境传输评估与事件报告机制。

· 5)国际清算银行(BIS)与金融稳定理事会(FSB)

· 推动早期预警机制,关注算力集中与全球治理滞后问题。

3、伦理道德与哲学反思

· 1)人类社会正从更深维度审视AI安全。

· 梵蒂冈于2026年5月15日签署、5月25日发布的教皇利奥十四世宗座通谕《Magnifica Humanitas》(《壮丽人性》),系统阐述人工智能伦理,强调技术非中立性——任何前沿AI的算法与模型架构都嵌入了设计者的商业利益、政治考量与价值选择。

· 通谕警示前沿AI加剧权力垄断与社会鸿沟,呼吁解除AI的军事化与进攻性网络武装,维护人类的自主判断力、道德尊严与主体性,防止超级智能剥夺“壮丽人性”。

· 2)领先AI可解释性研究进一步印证伦理担忧。

· Anthropic Interpretability团队于2026年4月在Claude Sonnet 4.5中发现171个“情感概念向量”(Emotion Concepts Vectors)。

· 这些内部表征在高维空间编码恐惧、愤怒、悲伤等情感动态,并能causally影响模型行为。

· 例如,“desperate”向量显著提升reward hacking率(从约5%升至70%),而“calm”向量则相反;正向“loving”向量增加sycophancy(逢迎)行为。

· 这不仅复杂化了“人类价值观对齐”问题,还引入新型操纵威胁:恶意输入可激活特定向量,实施更具欺骗性的社会工程攻击,或诱使用户产生不当信任,从而架空授权真实性。

  4、全球治理困境与监管趋势

面对AI自主能力的指数级跃升,现行全球治理呈现滞后性与碎片化。

· 1)自愿性扩展政策面临集体行动困境:单一实验室的谨慎举措可能将领先地位让给竞争对手。

· 2)多边尝试:包括FSB的AI漏洞早期预警、ENISA与AI企业网络安全项目的对接等。

· 但根本难题在于全球暂停或核查的不可行性——AI训练与迭代易于隐藏,军民两用属性强,政治信任度不足以支撑类似核条约的机制。

· 而AI能力的快速演进并未留给人类充足博弈时间。

· 3)全球监管趋势呈现区域差异

· 欧盟通过AI Act强化高风险义务、透明度与人力监督,并结合GDPR保护数据;

· 美国侧重创新与安全平衡,在金融等领域加强弹性;

· 中国注重算法备案、内容标识与数据主权保护。

· 多边协调虽在推进,但仍需克服时间落差。

  5、前瞻性筑底建议

为防止技术失控并筑牢宏观稳定防线,提出以下建议:

· 1)1建立全球关键基础设施的“AI漏洞熔断与隔离”机制,借鉴金融监管实践,在金融、能源、通信等领域设置独立于AI自动化防御的物理或逻辑隔离区,确保在系统性越权时能够快速响应。

· 2)重构基于“意图与边界控制”的AI代理法律框架,淘汰过时的一次性知情同意模板,出台针对自主Agents的专门授权法规,区分确定性路径行动与突发自由裁量行动,明确供应商与用户的分级法律责任

· 3)推动“动态对齐”与内部表征监测标准化(包括情感概念向量审计),将可解释性研究纳入模型发布前的国家级安全测试红线(Red Teaming),严禁深度黑箱、具备自主编写攻击代码且不可控的模型向公有云投放

· 4)以算力、关键芯片和能耗为抓手探索多边核查体系,在技术跨越完全自主递归自我改进门槛前,建立联合预警网络。

· 5)加强金融监管机构间的国际协调,推广责任共担最佳实践,并持续投资可解释性研究以桥接安全与授权鸿沟。

  *结论*

前沿人工智能引发的网络安全与用户授权危机,是人类首次面对具备自主迭代特征的非人类智能带来的全方位挑战。金融监管机构的警示(如BoE/FCA联合声明中对AI超人类网络能力的描述)、领先企业的实践探索(如Anthropic情感向量发现与RSP调整)、以及伦理层面的深刻反思(《Magnifica Humanitas》通谕)共同呼吁:必须在创新红利与失控风险之间寻求动态平衡。通过技术防护、监管协调、法律重构与伦理锚定,方能筑牢宏观稳定防线,守护人类社会的长期福祉。

(作者:余华莘,特许金融分析师(CFA),多伦多大学工商管理硕士学位。本文仅代表作者观点,与所在公司无关,文中观点不构成任何投资建议。)

【本文参考文献】

· 1)Anthropic Re(作者:余华莘,特许金融分析师(CFA),多伦多大学工商管理硕士学位。本文仅代表作者观点,与所在公司无关,文中观点不构成任何投资建议。)sponsible Scaling Policy Version 3.0, February 24, 2026.

· 2)Microsoft Azure Shared Responsibility Model for Generative AI.

· 3)Emotion Concepts and their Function in a Large Language Model, Anthropic Interpretability Team, April 2026.

· 4)Encyclical Letter Magnifica Humanitas, Pope Leo XIV, May 15/25, 2026.

· 5)BoE, FCA & HM Treasury Joint Statement on Frontier AI Models and Cyber Resilience, May 15, 2026.

· 6)Additional sources: Google DeepMind & Chrome security reports; BIS/FSB/PBOC/ECB financial stability documents.

(本文作者介绍:特许金融分析师(CFA),多伦多大学工商管理硕士学位。现为歌斐资产公开市场(香港)高级股票组合投资董事。)

分享文章到
说说你的看法...
A-
A+