新浪科技

智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

新浪科技

关注

新浪科技讯 5月18日下午消息,在北京智源研究院(智源研究院)大模型评测发布会上,智源评测体系发布并公布了140余个国内外开/闭源语言及多模态大模型能力评测结果。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡情况;在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出;在中文语境下的文生图能力上,国产多模态模型与国际一流水平差距较小。

据评测结果,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

据介绍,2023年6月,智源研究院与多个高校团队共建FlagEval大模型评测平台上线,迄今为止已完成1000多次覆盖全球多个开源大模型的评测和报告发布。本次评测使用了20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。(文猛)

【“带有敌意”外星飞船11月袭击地球?国外研究团队提出惊人观点,科学界驳斥】“带有敌意的外星飞船”今年11月将对地球发起攻击?据《纽约邮报》25日报道,近日,一则关于神秘星际天体的争议性研究引发全球热议。一个由科学家组成的研究团队在7月16日发布的论文中提出惊人观点:今年7月1日新发现的星际天体3I/ATLAS可能是“带有敌意的外星飞船”,或将在11月袭击地球。不过,国际科学界对此种说法泼冷水,认为该天体只是一颗普通星际彗星。

【上海:2027年基本建成全球领先高级别自动驾驶引领区】7月26日,在“模数引领,智行未来”AI赋能自动驾驶创新发展论坛上,《上海高级别自动驾驶引领区“模速智行”行动计划》发布,总体目标为2027年基本建成全球领先高级别自动驾驶引领区,形成具有国际竞争力的智能网联产业集群。(上证报)

【李强出席2025世界人工智能大会暨人工智能全球治理高级别会议开幕式并致辞】国务院总理李强7月26日在上海出席2025世界人工智能大会暨人工智能全球治理高级别会议开幕式并致辞。李强围绕如何把握人工智能公共产品属性、推进人工智能发展和治理,提出三点建议。一是更加注重普及普惠,充分用好人工智能发展的已有成果。要坚持开放共享、智能平权,让更多国家和群体从中受益。中国“人工智能+”行动深入推进,愿共享发展经验和技术产品,帮助世界各国特别是全球南方国家加强能力建设,让人工智能发展成果更好惠及全球。二是更加注重创新合作,力求更多突破性的人工智能科技硕果。要深化基础科学和技术研发合作,加强企业和人才交流,为人工智能发展不断注入新动力。中国愿同各国联合开展技术攻关,加大开源开放力度,共同推动人工智能发展迈上更高水平。三是更加注重共同治理,确保人工智能在造福人类上最终修成正果。要坚持统筹发展和安全,加强各国对接协调,推动早日形成具有广泛共识的人工智能全球治理框架和规则。中国高度重视人工智能全球治理,积极参与推动多双边合作,愿向国际社会提供更多中国方案,贡献更多中国智慧。中国政府倡议成立世界人工智能合作组织。(新华社)

【“带有敌意”外星飞船11月袭击地球?国外研究团队提出惊人观点,科学界驳斥】“带有敌意的外星飞船”今年11月将对地球发起攻击?据《纽约邮报》25日报道,近日,一则关于神秘星际天体的争议性研究引发全球热议。一个由科学家组成的研究团队在7月16日发布的论文中提出惊人观点:今年7月1日新发现的星际天体3I/ATLAS可能是“带有敌意的外星飞船”,或将在11月袭击地球。不过,国际科学界对此种说法泼冷水,认为该天体只是一颗普通星际彗星。

【上海:2027年基本建成全球领先高级别自动驾驶引领区】7月26日,在“模数引领,智行未来”AI赋能自动驾驶创新发展论坛上,《上海高级别自动驾驶引领区“模速智行”行动计划》发布,总体目标为2027年基本建成全球领先高级别自动驾驶引领区,形成具有国际竞争力的智能网联产业集群。(上证报)

请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~