新浪财经 基金

斯坦福大学全球AI发展全景洞察

格上基金官方微博

关注

作者:周掌柜

2025年,《人工智能年度报告》(AI Index Report 2025)由斯坦福大学以人为本AI研究所(HAI)发布,迎来了其第八版。

斯坦福大学以人为本AI研究所成立于2019年,致力于通过跨学科协作推动以人为中心的人工智能研究、开发与应用,确保AI技术在提升人类福祉、促进社会公平与可持续发展中发挥积极作用,同时应对伦理、安全与隐私挑战。

图释:斯坦福大学以人为本AI研究所官网

研究上,HAI支持如AlphaFold(2024年诺贝尔奖)等突破性项目,并提出HELM Safety等负责任AI基准。教育方面,HAI推动美国高中计算机科学课程覆盖率达60%,促进全球AI教育发展。政策上,HAI参与欧盟AI法案及美国59项联邦AI法规制定,2024年推动131项州级AI法律通过。通过公开数据与全球研讨会,HAI提升公众对AI的信任,2024年全球AI乐观情绪升至55%。

这份报告长达457页,是全球AI领域的权威参考,通过数据驱动的分析,全面审视了AI在技术、经济、医疗、政策、教育和公众态度等多个维度的进展与影响。作为一项始于2017年的独立倡议,报告旨在为政策制定者、企业家、研究人员和公众提供准确、严谨的数据,帮助他们理解AI的现状、历史轨迹及未来方向。

2024年是AI发展的重要一年,技术突破频现,应用场景迅速扩展,全球投资和政策活动显著增加。然而,伴随快速发展的还有伦理、安全和公众信任等挑战。

2025年,AI可能更高效、可访问,小型模型性能提升、推理成本降低,开放模型普及。多模态AI扩展娱乐与自动化。监管加剧,聚焦透明公平。AI教育与劳动力适应加速,但教师培训和数据稀缺成瓶颈。公众乐观情绪升,但隐私与就业担忧促更严政策。

以下是我们翻译编辑的报告的主要观点深入分析:

01

技术性能的飞跃与持续突破

2024年,AI在高难度基准测试中的表现显著提升,标志着技术性能的飞跃。新引入的基准测试如MMM(多模态多任务理解)、GPQA(研究生级问答)和SWE-bench(软件工程基准)分别提高了18.8%、48.9%和67.3%的得分。

图释:选择AI指数技术性能基准与人类性能对比

例如,SWE-bench测试AI解决编码问题的能力,2024年AI系统解决71.7%的问题,远超2023年的4.4%。OpenAI的o3-mini模型在MATH数据集上实现97.9%的准确率,首次超越人类基线,显示出AI在抽象推理领域的里程碑。DeepMind的AlphaProof和AlphaGeometry 2在2024年国际数学奥林匹克(IMO)中分别解决4/6和25/30个问题,取得银牌,表明AI在正式推理和证明生成方面的能力显著增强。

通用推理和多模态任务也取得进展。OpenAI的o3模型在GPQA基准测试中得分87.7%,较2023年提高48.9%,超过人类专家基线81.3%。在ARC-AGI基准测试中,o3模型得分75.7%,较2024年的33%大幅提升,反映了AI从单纯规模扩展到改进泛化能力和搜索能力的转变。然而,人类最后考试(HLE)等复杂任务显示出AI的局限性,顶尖模型如o1仅得分8.8%,表明在专家级推理上仍有差距。

2025年,研究预测HLE性能可能超过50%,显示出AI在复杂推理领域的快速进步。新型基准测试(如RULER和HELMET)可能进一步推动AI向更深层次的类人推理发展,但数据污染和质量问题可能需要新的评估方法来解决。

图释:GPT-40、o1-pre和o1选择基准对比

AI代理技术的突破为2025年的发展奠定了基础。2024年,OpenAI的o1在PlanBench基准测试中表现出色,Blocksworld和Mystery Blocksworld零样本评估得分分别为97.8%和52.8%,远超GPT-4的35.5%。新基准如VisualAgentBench(VAB)显示,GPT-4o在多模态任务中的成功率仅为36.2%,但GAIA的性能从2023年的15%提升至65.1%,反映了AI代理在自动化任务中的快速进步。

2025年,AI代理可能在自动化、客户服务和机器人技术中实现更复杂的任务处理,特别是在多模态和工具使用能力上。然而,“传染性越狱”等安全漏洞表明,2025年需要更强大的安全协议来确保代理在高风险环境中的可靠性。

02

日常生活中的AI渗透与未来扩展

AI正从实验室走向现实生活。2023年,美国食品药品监督管理局(FDA)批准了223款AI医疗设备,较2015年的6款大幅增加,涵盖诊断、影像分析和个性化医疗等领域。

例如,Merlin等视觉语言模型提升了3D CT扫描的效率,AlphaFold 3在蛋白质结构预测上取得突破。

图释:AI笔录软件对医生电子病历使用情况的影响

自动驾驶技术成为现实,Waymo在美国四个城市每周提供15万次无人驾驶乘车服务,安全性优于人类司机(财产损失索赔减少88%)。中国的百度Apollo Go机器人出租车覆盖多个城市,显示出AI在交通领域的成熟应用。

2024年,生成式AI技术(如OpenAI的Sora和Google的Veo 2)在视频生成方面取得显著进展,生成的高质量视频内容开始应用于广告和内容创作。

图释:“哈利·波特的超现实形象”

2025年,视频生成技术可能在娱乐、教育和营销领域得到更广泛应用,例如创建个性化教育视频或虚拟现实内容,提升用户体验。机器人技术也取得进展,Figure AI的Figure 02人形机器人能够执行复杂任务,如制作咖啡和汽车组装,DeepMind的AutoRT生成77,000个机器人试验,SARA-RT提升了变压器效率。

2025年,机器人基础模型(如Nvidia的GROOT和Covariant的RFM-1)可能推动人形机器人在制造业和医疗领域的应用,特别是在语言理解和物理交互方面。

03

商业投资与生产力提升的持续增长

2024年,全球AI私人投资达到2523亿美元,增长25.5%,其中生成式AI吸引了339亿美元,占总投资的五分之一。美国以1091亿美元领先,中国和英国分别为93亿美元和45亿美元。

图释:2013-24 年全球人工智能私人投资

企业AI采用率从2023年的55%跃升至78%,生成式AI使用率翻倍至71%,特别是在技术支持、客户服务和创意任务中,AI显著提升了生产力。

研究显示,AI对低技能员工的生产力提升更大(21-40%),有助于缩小技能差距。然而,财务影响有限,大多数公司报告的成本节约和收入增长均低于10%。

2025年,生成式AI投资可能继续快速增长,特别是在创意、技术和科学领域。企业可能优先制定全面的AI采用策略,研究表明高整合度的企业有72%的概率实现显著生产力提升。

AI技能需求也在增长,美国AI技能岗位占比从2023年的1.4%升至1.8%,生成式AI技能需求增长三倍。

图释:2023-2024 年美国各行业 AI 职位空缺

2025年,企业和政府可能推出更多再培训项目,帮助工人适应AI驱动的经济,同时应对31%的企业高管预期的劳动力减少问题。

04

全球竞争格局与创新多元化

美国在2024年生产了40个值得注意的AI模型,领先中国的15个和欧洲的3个。然而,中国在模型性能上迅速缩小差距,在MMLU和HumanEval等基准测试上的差距从2023年的两位数缩小到接近持平。

图释:2013–23 年计算机科学领域 AI 出版物

中国在AI出版物和专利方面继续领先,2023年贡献了23.2%的出版物和69.7%的专利。

其他地区如中东、拉美和东南亚也开始崭露头角,表明AI发展正变得更加全球化。

图释:2010-23 年各地区授予的人工智能专利

2025年,全球AI创新可能更加多元化,新兴市场可能推出更多本地化解决方案。例如,印度和沙特阿拉伯的大规模AI投资(分别12.5亿美元和1000亿美元)可能催生新的AI生态系统。

顶尖模型之间的性能差距缩小(2024年前两名模型仅相差0.7%),表明2025年的AI前沿将更加拥挤,新进入者可能通过创新的模型架构或应用场景挑战现有巨头。

05

负责任AI的挑战与监管深化

负责任AI(RAI)生态系统在2024年取得进展,但发展不平衡。AI相关事件从2023年的149起增至233起,增长56.4%,涉及面部识别误判、深度伪造骚扰和聊天机器人误用等问题。

图释:2012–24 年报告的人工智能事件数量

新基准如HELM Safety和AIR-Bench为评估事实性和安全性提供了工具,Claude 3.5 Sonnet和OpenAI的o1被评为最安全模型。然而,标准化RAI评估在主要模型开发者中仍不常见,企业对RAI风险的认识与实际行动之间存在差距(51%的知识差距)。

2024年,全球AI治理合作加强,欧盟通过了AI法案,OECD更新了AI原则,国际AI安全研究所网络成立。

2025年,欧盟AI法案的实施(预计2026年全面生效)可能推动全球标准化负责任AI框架,聚焦透明度、公平性和安全性。公众对AI的信任问题可能更加突出,2024年60%的人担心数据隐私,36%担心就业替代。

图释:2024 年AI风险

2025年,事实性检查工具(如FactTuneFS)可能成为标配,以减少LLM的幻觉问题。

06

公众态度的转变与信任建设

2024年,全球对AI的乐观情绪从2022年的52%升至55%。亚洲国家如中国(83%)、印尼(80%)和泰国(77%)对AI的益处持高度乐观态度,而加拿大(40%)、美国(39%)和荷兰(36%)的乐观情绪较低。

图释:2022-24 年全球对使用AI产品和服务的看法

尽管如此,多个国家的乐观情绪有所提升,如德国和法国均增长10%。然而,数据隐私和偏见问题仍是公众关注的焦点,60%的人预期AI将改变工作方式,但仅36%担心被取代。

图释:2024 年各国对使用AI的产品和服务的看法

2025年,公众对AI的乐观情绪可能继续上升,但对隐私和就业的担忧将推动更严格的政策。2024年,美国73.7%的地方政策制定者支持AI监管,优先考虑数据隐私和再培训。

2025年,政府和企业可能通过透明的沟通和强有力的治理措施增强公众信任,例如通过教育和公众参与活动来缓解对自动驾驶汽车的恐惧(2025年61%)。

07

效率、可访问性提升与可持续性挑战

AI的效率和可访问性在2024年显著提高。推理成本在2022年11月至2024年10月下降了280倍,GPT-3.5级别模型的每百万令牌成本降至0.07美元。硬件成本每年下降30%,能效每年提高40%。开放权重模型与闭源模型的性能差距从8%缩小到1.7%,降低了AI开发的门槛。这些趋势使AI技术更加普及,推动了中小型企业和个人的参与。

图释: MMLU 上得分超过 60% 的最小 AI 模型

然而,AI的快速发展带来了可持续性挑战。2024年,大型模型训练的碳排放量显著增加,例如Llama 3.1-405B排放8930吨CO2。

2025年可能需要更环保的计算解决方案,例如低功耗硬件或可再生能源驱动的数据中心。报告预测训练数据可能在2026年至2032年间耗尽,2025年合成数据生成和数据增强技术可能成为研究重点。

08

政府角色的增强与全球政策趋同

2024年,政府在AI领域的参与显著增加。

美国联邦AI相关法规从2023年的25个增至59个,州级法律从49个增至131个。

图释:美国国会AI相关提案和通过法律的数量

全球75个国家的立法中AI提及增长21.3%,自2016年以来增长九倍。政府投资也在扩大,加拿大承诺24亿加元,中国推出475亿美元半导体基金,沙特阿拉伯的“超越计划”投资1000亿美元。

图释:部分国家AI相关合同公共支出

2025年,全球AI政策可能趋向标准化,特别是在安全和伦理方面。欧盟AI法案的实施将推动国际合作,国际AI安全研究所网络可能进一步扩大。各国可能继续加大AI基础设施投资,特别是在半导体和计算能力领域,以应对地缘政治竞争和数据主权问题。

09

教育的扩展与劳动力适应

全球三分之二的国家已提供或计划提供K-12计算机科学教育,非洲和拉美进步显著。美国计算机科学学士学位毕业生在过去十年增长22%,但基础设施限制(如非洲的电力短缺)和教师培训不足(仅46%的K-12计算机科学教师感觉有能力教授AI)仍是挑战。81%的美国K-12计算机科学教师认为AI应纳入基础教育。

图释:2024 年各国计算机科学教育的普及

2025年,AI教育可能进一步扩展,特别是在K-12和高等教育领域。更多在线培训平台和行业-教育合作可能提升教师能力,例如Code.org可能扩大其AI教育资源。

劳动力市场对AI技能的需求预计继续增长,2025年可能需要更多再培训项目来应对就业替代担忧。

10

科学与医学的突破与未来潜力

2024年,AI在科学和医学领域的应用取得显著进展。AlphaFold 3和ESM3等模型提高了蛋白质序列预测精度,Aviary训练LLM代理进行生物任务,虚拟AI实验室推动自主生物医学研究。

AI在诊断任务中超过医生,GPT-4诊断推理得分92%,MedQA基准测试得分96.0%,较2022年提高28.4%。合成数据在隐私保护临床风险预测和药物发现中显示潜力。

图释:AI驱动的蛋白质研究

2025年,AI可能推动个性化医疗和新型疗法的开发,例如加速癌症诊断或针对罕见病的治疗方案。合成数据技术可能在临床研究和药物开发中得到更广泛应用,AI驱动的虚拟实验室可能成为生物医学研究的主流工具,加速科学发现。

2024年,近90%的值得注意的AI模型来自行业,较2023年的60%显著增加。模型规模快速增长,训练计算每五个月翻倍,数据集每八个月翻倍。然而,顶尖模型之间的性能差距缩小,Elo技能分数差距从11.9%降至5.4%,前两名模型仅相差0.7%。

2025年,AI前沿将更加拥挤,新进入者可能通过创新的模型架构或应用场景挑战现有巨头,推动技术进步。

《人工智能2025年度报告》全面展示了AI的快速发展及其对社会的深远影响。从技术突破到经济转型,从医疗创新到政策治理,AI正重塑我们的世界。

然而,责任AI、教育差距和公众信任等问题提醒我们,技术进步需与伦理和社会需求同步。报告为利益相关者提供了宝贵数据和洞见,助力在AI时代做出明智决策。

未来,需平衡创新与安全,投资教育和基础设施,促进AI的普及,同时加强伦理和隐私监管。企业应加大AI人才和基础设施投资,利用AI提升生产力,同时关注公平性和数据治理。公众应积极参与AI发展讨论,确保技术符合社会需求。

报告原文节选:

加载中...