新浪科技

2023年国内大模型发展盘点(一)——大模型发展趋势

第一财经

关注

(本文作者王鹏为北京市社会科学院研究员,数据资产化研究院执行院长)

“十四五”期间,国家出台了针对人工智能的未来发展相关指导方案和激励政策,涵盖“新型基础设施”建设、人工智能标准化与法规以及AI安全体系建设等。过去的2023年作为承上启下之年,如何总结评估前期成果并调整优化策略将成为规划实施的重要一环。而大语言模型作为人工智能领域最引人注目的成果之一,近年来已经经历了迅速崛起的历程,2020年Open AI GPT-3模型的发布更是极大推动了公众对于大语言模型的关注度。本系列文章将分别回顾2023年国内大模型发展重要趋势,比对中美大模型发展水平明确自身缺陷及劣势,并针对未来国内大模型发展给出针对性建议。本文将概括2023年国内大模型发展重点趋势,分别从模型规模、应用场景、技术创新、跨模态大模型以及产业化角度介绍年度发展。

一、模型规模快速增长

2023年国内大模型规模呈现快速增长趋势。从模型数量上看,据中新网报道,2023年1至5月间,国内共推出了19个10亿级参数规模的大语言模型,2020至2022全年推出的相同参数规模大模型分别为2个、30个与28个;从模型参数数量上来说,根据Info Q发布的《大语言模型综合能力测评报告2023》,发布大于百亿级别参数规模的模型的国内企业已达到15家,其中包括百度ERNiE 3.0模型、华为盘古模型,以及阿里遵义模型等。该参数规模级别模型在多个自然语言处理任务上取得了显著的性能提升。

二、应用场景多元化

国内大模型应用场景不断扩展并趋向多样化。大模型产品百花齐放的当下,模型实现了计算机能力从“搜索”到“认知与学习”,再以进一步发展为“行动与解决方案”层面。除常见的智能客服、智能推荐、情感分析等应用领域以外,大模型逐步于教育、医疗、金融等垂直领域得到了广泛应用,为各行各业提供了智能化的解决方案。例如学而思旗下的MathGPT模型旨在解决大型语言模型在解决数学问题时的准确性、稳定性和清晰度方面的问题,并可以提供稳定且清晰的解题步骤,提供个性化的解释;百川智能以平均28天的速度不断优化模型,专注于探索人工智能在医疗问诊领域的应用,并计划于明年推出首款应用产品。

三、技术创新不断涌现

由于大模型依附于云计算实现模型迭代升级,而大模型算力的提升方式包含直接囤积GPU以及打造场景专属DSA(Domain Specific Architecture)架构芯片。国内大模型开发过程中技术创新不断涌现以实现模型规模缩小、模型性能提升。针对大模型训练过程中的效率问题,研究人员提出了多种优化算法和并行计算技术,显著提高了训练速度和效率。年末百度发布的分别基于自研昆仑芯以及华为昇腾打造的两款AI实例,升级AI异构计算平台百舸3.0,适配国内外主流AI芯片等举措极大推动了有效训练时间的进步。同时,针对大模型的推理速度问题,诸如模型压缩以及模型蒸馏技术的出现实现了减小模型大小和计算需求的目标,并从而提高模型的部署速度和实时性能。类似技术将不断互相补充,相关技术创新将进一步促进大语言模型发展。

四、跨模态大模型深入发展

伴随计算机视觉、语音识别等技术的不断发展,跨模态大模型也逐渐成为研究热点。这类模型能够处理不同模态的数据(如文本、图像、语音等),实现多模态信息的融合和交互,为人工智能应用提供了更加丰富的可能性。相关企业包含具备云计算与技术积累的互联网大厂以及AI1.0时代的科技公司。对于前者,诸如腾讯、百度以及阿里云,分别在CogView2、M6以及ERINE 4.0模型上实现特定任务的突破性进展,展现了在文本与图像生成方面的创新潜力。针对后者,商汤继承CV方面的优势发布了日日新大模型,云知声延续其在语言方面的优势,发布山海大模型进一步开拓医疗问诊的具体应用。

五、产业化商业化加速

随着大模型技术的不断成熟和应用场景的扩展,产业化和商业化进程不断加速。其一,越来越多的企业将大模型技术应用于实际业务中,推动了人工智能技术的落地和普及。大模型厂商中,对比Open AI在11月召开的首届开发者大会中连续推出GPTs与Assistant API,百度发布了App Builder,旨在简化大模型应用的开发流程。App Builder平台提供了一系列核心组件,例如原子化构件、RAG(检索生成增强框架)以及Agent机制,并以完整模版和框架的形式向开发者提供以促进开发效率。其二,国内也涌现出一批专注于大模型技术研发和应用的创业公司,为大模型产业的发展注入了新的活力。例如3月,百度推出全球首个企业级一站式大模型平台千帆;10月,阿里云发布了阿里云百炼大模型服务平台。国内大模型领域商业化的加速为产业发展注入全新活力。

2023年对于国内大语言模型发展而言,是一个充满活力和变革的一年。从模型的规模化、多样化的应用场景、先进的技术创新,到跨模态大模型的深入发展,再到产业化和商业化的快速推进,这些趋势和成果不仅体现了中国在人工智能领域取得的巨大进步,也预示着未来大模型技术将在更多领域展现其独特的价值和能力。在国家政策的指导和市场需求的双重推动下,中国的AI企业和研究机构正迅速适应和引领人工智能的新浪潮。展望未来,随着技术的不断进步和更深层次的跨行业融合,我们有理由相信大语言模型将在推动社会发展和创新各个方面扮演更加关键的角色。本系列文章将继续介绍中美大模型发展差异,在对比中明确自身发展瓶颈并尝试给出对策建议。欢迎广大读者持续关注并批评指正。

本文仅代表作者观点。

【中欧贸易每分钟超1000万元】今年是中国和欧盟建交50周年,从建交初期的24亿美元到现在的7800亿美元,中欧双边贸易持续向好发展。据海关统计,今年一季度,我国对欧盟进出口1.3万亿元,同比增长1.4%,相当于每分钟都有超过1000万元的贸易往来。分领域看,在消费品领域,一季度,我国进口的72%的箱包、51.7%的乘用车、42.2%的化妆品来自欧盟,我国对欧盟出口电子电器、服装及衣着附件、日化用品同比分别增长7.7%、3%、16.1%。(新华社)

【美乌矿产协议更像“救急用的创可贴”】美国与乌克兰日前签署协议建立美国-乌克兰重建投资基金,协议内容包括对乌克兰矿产资源的控制与开采规定等。媒体随后披露了美乌为达成交易反复拉锯的谈判过程。分析人士指出,这份协议是双方激烈博弈的产物,看似涉及面广、规模庞大,实则象征意义大于实际意义,更像“救急用的创可贴”,对停止战场流血、推进俄乌停火谈判并无实质影响。(新华社)

【下周重要财经信息概览】 周一(5月5日):欧元区5月Sentix投资者信心指数、美国4月标普全球服务业PMI终值、美国4月ISM非制造业PMI、沙特阿美在每月5日左右公布官方原油售价; 周二(5月6日):中国4月财新服务业PMI、欧元区4月服务业PMI终值、欧元区3月PPI月率、美国3月贸易帐、美国4月全球供应链压力指数、欧洲央行举行中央银行论坛; 周三(5月7日):美国至5月6日10年期国债竞拍、美国至5月2日当周API原油库存、美国至5月2日当周EIA原油库存、美国至5月2日当周EIA俄克拉荷马州库欣原油库存、EIA公布月度短期能源展望报告; 周四(5月8日):美联储FOMC公布利率决议、英国4月Halifax季调后房价指数月率、英国至5月8日央行利率决定、美国至5月3日当周初请失业金人数、美国4月纽约联储1年通胀预期、美联储主席鲍威尔召开货币政策新闻发布会、日本央行公布3月货币政策会议纪要、瑞典央行公布利率决议; 周五(5月9日):中国4月M2货币供应年率、中国4月贸易帐、纽约联储主席威廉姆斯在2025年雷克雅未克经济会议上发表主旨讲话、美联储理事库格勒发表讲话、美联储理事巴尔发表讲话。

【中欧贸易每分钟超1000万元】今年是中国和欧盟建交50周年,从建交初期的24亿美元到现在的7800亿美元,中欧双边贸易持续向好发展。据海关统计,今年一季度,我国对欧盟进出口1.3万亿元,同比增长1.4%,相当于每分钟都有超过1000万元的贸易往来。分领域看,在消费品领域,一季度,我国进口的72%的箱包、51.7%的乘用车、42.2%的化妆品来自欧盟,我国对欧盟出口电子电器、服装及衣着附件、日化用品同比分别增长7.7%、3%、16.1%。(新华社)

【美乌矿产协议更像“救急用的创可贴”】美国与乌克兰日前签署协议建立美国-乌克兰重建投资基金,协议内容包括对乌克兰矿产资源的控制与开采规定等。媒体随后披露了美乌为达成交易反复拉锯的谈判过程。分析人士指出,这份协议是双方激烈博弈的产物,看似涉及面广、规模庞大,实则象征意义大于实际意义,更像“救急用的创可贴”,对停止战场流血、推进俄乌停火谈判并无实质影响。(新华社)

请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~