余华莘：AI大辩论之四——“网络安全”与“用户授权”

意见领袖 | 余华莘

前言：今天就人工智能大辩论的第四个问题 - “网络安全”还是“用户授权”进行讨论总结。

前沿人工智能在推动自主迭代能力和生产力跃升的同时，显著放大了网络安全风险与用户授权的内在张力。

· 1）“安全”侧重模型训练防护、平台基础设施安全以及全局滥用监控；

· 2）“授权”则聚焦提示词工程、动态访问控制、知情同意以及边界管理。

二者冲突体现在提示注入（Prompt Injection）、模型提取、知情假设漏洞以及自主代理（Agents）越权行为等方面，导致用户授权的真实性被侵蚀，并可能引发系统性风险扩散。

1、大型云厂商与领先AI企业的实践

· 1）微软：在Azure OpenAI服务中明确提出“AI责任共担模型”（Shared Responsibility Model）。

· 微软负责模型训练安全、平台基础设施防护和全局滥用监控；

· 客户与用户则承担提示词工程安全（包括防注入）、精细化访问控制、自身数据保护的责任，其AI服务行为准则还强制要求客户必须获得所有必要的最终用户同意。

· 这一模型为PaaS和SaaS部署提供了清晰的分层责任框架，已广泛应用于企业级生成式AI应用。

· 2）谷歌：在深化Gemini等AI集成过程中面临显著安全张力。

· 一方面在产品端严格禁止生成儿童虐待、自残等有害内容；另一方面，其AI原则调整为深度介入军事国防领域扫清障碍。

· 在用户端，当Gemini深度集成至Chrome浏览器等产品时，采用“仅在敏感操作（如支付）前请求确认、普通操作默认自动执行”的知情假设逻辑。

· 这一设计虽提升了便利性，却被安全研究指出易遭利用。例如，Chrome的Gemini Live功能曾存在CVE-2026-0628漏洞，允许低权限扩展通过提示注入劫持摄像头、麦克风和本地文件访问；

· 此外，间接提示注入攻击频发，包括利用日历邀请等载体绕过隐私控制实施侦察。

· 模型提取与模型蒸馏攻击也日益频繁，黑客借助合法授权接口通过大量逆向查询窃取大模型知识产权。

· 3）Anthropic：Responsible Scaling Policy （RSP） v3.0（2026年2月24日发布，后续v3.3更新）聚焦灾难性风险管理，强调集体行动而非单边暂停，引入风险报告与前沿安全路线图，应对递归自我改进等挑战。

· 该政策承认单一实验室自我减速可能将领先地位拱手让人，转而推动行业广泛推荐标准。

· 4）xAI（马斯克旗下）：强调最大真理寻求与较少内容限制，在分类环境中需额外监督，代表“授权创新”导向，与严格守则企业形成互补光谱。

· 国际网络安全公司研究普遍强调，AI增强型攻击在规模和速度上的优势，要求企业采用多层防御策略。

2、金融监管机构的警示

主要金融监管机构对前沿AI的网络安全影响保持高度关注。

· 1）英国央行（BoE）、英国金融行为监管局（FCA）与财政部：

· 2026年5月15日联合声明指出，前沿AI模型的网络能力已超过熟练人类实践者，且速度更快、规模更大、成本更低，若被恶意利用将显著放大对金融机构安全、客户保护、市场完整性和金融稳定的威胁；

· 敦促金融机构强化治理、漏洞管理和恢复能力，并参考2025年10月发布的网络弹性有效实践。

· 2）美联储：

· 重点关注AI引发的模型风险、集中风险以及增强型网络攻击，强调分层防御与人力监督的重要性。

· 3）欧洲央行（ECB）与欧盟网络安全局（ENISA）

· 推动银行主动应对威胁，并尝试与AI企业共享防御代码，指出AI正缩短攻击利用时间窗口。

· 4）中国人民银行（PBOC）

· 加强金融领域数据安全分级保护、跨境传输评估与事件报告机制。

· 5）国际清算银行（BIS）与金融稳定理事会（FSB）

· 推动早期预警机制，关注算力集中与全球治理滞后问题。

3、伦理道德与哲学反思

· 1）人类社会正从更深维度审视AI安全。

· 梵蒂冈于2026年5月15日签署、5月25日发布的教皇利奥十四世宗座通谕《Magnifica Humanitas》（《壮丽人性》），系统阐述人工智能伦理，强调技术非中立性——任何前沿AI的算法与模型架构都嵌入了设计者的商业利益、政治考量与价值选择。

· 通谕警示前沿AI加剧权力垄断与社会鸿沟，呼吁解除AI的军事化与进攻性网络武装，维护人类的自主判断力、道德尊严与主体性，防止超级智能剥夺“壮丽人性”。

· 2）领先AI可解释性研究进一步印证伦理担忧。

· Anthropic Interpretability团队于2026年4月在Claude Sonnet 4.5中发现171个“情感概念向量”（Emotion Concepts Vectors）。

· 这些内部表征在高维空间编码恐惧、愤怒、悲伤等情感动态，并能causally影响模型行为。

· 例如，“desperate”向量显著提升reward hacking率（从约5%升至70%），而“calm”向量则相反；正向“loving”向量增加sycophancy（逢迎）行为。

· 这不仅复杂化了“人类价值观对齐”问题，还引入新型操纵威胁：恶意输入可激活特定向量，实施更具欺骗性的社会工程攻击，或诱使用户产生不当信任，从而架空授权真实性。

　　4、全球治理困境与监管趋势

面对AI自主能力的指数级跃升，现行全球治理呈现滞后性与碎片化。

· 1）自愿性扩展政策面临集体行动困境：单一实验室的谨慎举措可能将领先地位让给竞争对手。

· 2）多边尝试：包括FSB的AI漏洞早期预警、ENISA与AI企业网络安全项目的对接等。

· 但根本难题在于全球暂停或核查的不可行性——AI训练与迭代易于隐藏，军民两用属性强，政治信任度不足以支撑类似核条约的机制。

· 而AI能力的快速演进并未留给人类充足博弈时间。

· 3）全球监管趋势呈现区域差异

· 欧盟通过AI Act强化高风险义务、透明度与人力监督，并结合GDPR保护数据；

· 美国侧重创新与安全平衡，在金融等领域加强弹性；

· 中国注重算法备案、内容标识与数据主权保护。

· 多边协调虽在推进，但仍需克服时间落差。

　　5、前瞻性筑底建议

为防止技术失控并筑牢宏观稳定防线，提出以下建议：

· 1）1建立全球关键基础设施的“AI漏洞熔断与隔离”机制，借鉴金融监管实践，在金融、能源、通信等领域设置独立于AI自动化防御的物理或逻辑隔离区，确保在系统性越权时能够快速响应。

· 2）重构基于“意图与边界控制”的AI代理法律框架，淘汰过时的一次性知情同意模板，出台针对自主Agents的专门授权法规，区分确定性路径行动与突发自由裁量行动，明确供应商与用户的分级法律责任

· 3）推动“动态对齐”与内部表征监测标准化（包括情感概念向量审计），将可解释性研究纳入模型发布前的国家级安全测试红线（Red Teaming），严禁深度黑箱、具备自主编写攻击代码且不可控的模型向公有云投放

· 4）以算力、关键芯片和能耗为抓手探索多边核查体系，在技术跨越完全自主递归自我改进门槛前，建立联合预警网络。

· 5）加强金融监管机构间的国际协调，推广责任共担最佳实践，并持续投资可解释性研究以桥接安全与授权鸿沟。

　　*结论*

前沿人工智能引发的网络安全与用户授权危机，是人类首次面对具备自主迭代特征的非人类智能带来的全方位挑战。金融监管机构的警示（如BoE/FCA联合声明中对AI超人类网络能力的描述）、领先企业的实践探索（如Anthropic情感向量发现与RSP调整）、以及伦理层面的深刻反思（《Magnifica Humanitas》通谕）共同呼吁：必须在创新红利与失控风险之间寻求动态平衡。通过技术防护、监管协调、法律重构与伦理锚定，方能筑牢宏观稳定防线，守护人类社会的长期福祉。

（作者：余华莘，特许金融分析师（CFA），多伦多大学工商管理硕士学位。本文仅代表作者观点，与所在公司无关，文中观点不构成任何投资建议。）

【本文参考文献】

· 1）Anthropic Re（作者：余华莘，特许金融分析师（CFA），多伦多大学工商管理硕士学位。本文仅代表作者观点，与所在公司无关，文中观点不构成任何投资建议。）sponsible Scaling Policy Version 3.0， February 24， 2026．

· 2）Microsoft Azure Shared Responsibility Model for Generative AI．

· 3）Emotion Concepts and their Function in a Large Language Model， Anthropic Interpretability Team， April 2026．

· 4）Encyclical Letter Magnifica Humanitas， Pope Leo XIV， May 15/25， 2026．

· 5）BoE， FCA & HM Treasury Joint Statement on Frontier AI Models and Cyber Resilience， May 15， 2026．

· 6）Additional sources： Google DeepMind & Chrome security reports； BIS/FSB/PBOC/ECB financial stability documents．

(本文作者介绍：特许金融分析师(CFA)，多伦多大学工商管理硕士学位。现为歌斐资产公开市场（香港）高级股票组合投资董事。)