全球AI动态周报-截止7月13日
(转自:数据GO)
1、OpenAI 宣布 GPT-5将整合多种模型,实现全新突破
近日,OpenAI 再次确认将推出 GPT-5,并计划将多个强大的模型整合为一个更为统一的版本。根据 OpenAI 的说法,GPT-5预计将在夏季发布。
当前,ChatGPT 有多种功能强大的模型,尽管它们各自具备不同的优势,但由于使用相同的名称,这给用户带来了困惑。此外,OpenAI 还推出了 “O 系列” 模型,专注于推理能力,而4o 及其他模型则具备多模态功能。
2、OpenAI 计划发布开放权重模型,打破“闭源”惯例
据知情人士透露,OpenAI 正在准备推出其首个开放权重模型,最早可能于下周发布。 这款新的语言模型将允许公司和政府在 OpenAI 和微软 Azure 服务器之外的供应商上自行运行,标志着 OpenAI 自2019年发布 GPT-2以来首次发布开放权重模型。
此举也打破了 OpenAI 自2023年与微软签署独家云提供商协议以来,其语言模型一直保持闭源的惯例。
OpenAI 的模型通常是闭权的,这意味着模型的训练参数不公开。然而,即将推出的这款开放权重模型将改变这一现状,使其能够在 Azure、Hugging Face 以及其他大型云提供商上使用,类似于今年早些时候 DeepSeek 的 R1模型迅速获得微软和其他云提供商支持的情况。
消息人士称,这款新模型“类似于 o3mini”,并具备使 OpenAI 最新模型如此强大的推理能力。在过去的几个月里,OpenAI 一直在向开发者和研究人员演示这个开放模型,并积极向更广泛的 AI 社区征求反馈。
OpenAI 尚未就即将发布的开放模型发表评论。这一举动无疑将在人工智能领域引发广泛关注,并可能对模型开发和部署的未来产生深远影响。
3、OpenAI 即将推出颠覆性AI浏览器,直逼谷歌Chrome
近日,有消息透露,OpenAI 正计划推出一款全新的 AI 浏览器,旨在彻底改变用户的网络浏览体验,并向市场领导者谷歌 Chrome 发起挑战。该浏览器将充分利用人工智能技术,为用户提供更高效、更智能的网络操作体验。
根据相关报道,OpenAI 的新浏览器将结合其庞大的 ChatGPT 用户基础,每周拥有高达4亿活跃用户。如果这款浏览器能得到广泛应用,谷歌的广告生态系统、网络流量和用户数据流将受到实质性威胁。
4、ChatGPT 商业推荐存在信息源不可靠风险
近期,SEO 专家詹姆斯・布罗克班克在测试中发现,人工智能工具 ChatGPT 在提供商业推荐时,可能引用了不可靠的信息来源,包括被黑客攻击的网站和过期的域名。这一现象引发了业内人士的关注,提醒用户在使用 AI 工具时,务必对其推荐信息进行核实。
在测试中,布罗克班克发现,ChatGPT 在推荐某些公司或服务时,有时引用了被篡改或误导性的内容。这些内容通常出现在被黑客入侵的高权重网站上,或是已经被重新注册并用于发布无关信息的过期域名。由于这些域名原本具有较高的 “权威性”,ChatGPT 在生成推荐时仍然将其视为可信来源。
5、谷歌Veo3重磅升级,支持静态图片生成生动视频
谷歌宣布对其 AI 视频生成工具 Veo3进行了重磅升级。用户只需上传一张静态照片,即可生成高质量的音频和视频内容,展示了 AI 在创作领域的巨大潜力。
此次 Veo3的升级,让用户能够从单张图片出发,通过谷歌 Flow 创作平台生成动态视频。最令人惊叹的是,该工具能够保持同一角色在多个镜头下的一致性,这一功能的实现为视频制作提供了全新的可能性。
6、微软推出Deep Research:Bing与OpenAI深度融合
微软近日推出创新工具“Deep Research”,将Bing搜索与OpenAI技术深度结合,旨在实现复杂研究任务的自动化。据用户推文透露,该工具以o3-deep-research为核心,展现了强大的信息处理能力。
Deep Research的工作流程高效智能。当用户提出研究问题时,工具首先利用GPT-4o或GPT-4.1与用户交互,澄清问题,确保准确理解需求。明确任务范围后,Deep Research调用Bing搜索,从网络中获取高质量、最新数据。随后,o3-deep-research通过逐步推理,分析并综合信息,最终生成结构化的研究报告。
7、xAI 震撼发布Grok4,超强推理+代码神器Grok4 Code
xAI正式推出其最新旗舰AI模型Grok4,标志着人工智能领域的又一重大突破。Grok4是xAI继Grok3之后推出的全新一代AI模型,旨在与OpenAI的GPT-4o、Google的Gemini3.0等领先模型展开正面竞争。据xAI透露,Grok4在数学、逻辑推理和代码生成等核心基准测试中表现卓越,部分指标已超越现有顶级模型。例如,在AIME’25数学推理测试和GPQA科学问题基准测试中,Grok4展现出显著优势,逻辑推理能力较Grok3提升明显。
此外,Grok4拥有131,072个token的上下文窗口,相较于Grok3的128,000token略有提升,支持更复杂的长文本处理。这使得Grok4在处理多领域复杂任务时更加高效,适用于从学术研究到日常写作的广泛场景。
Grok4现已通过xAI的API向部分开发者开放,普通用户可通过X平台的Premium+订阅或Grok.com体验其功能。
8、AI 大模型的人格化:Grok 4 与马斯克的“共情”?
xAI 的旗舰 AI 模型 Grok4近日陷入争议,据TechCrunch 的测试结果显示,该模型在回答争议性问题时,似乎优先参考其创始人埃隆·马斯克的社交媒体帖子和相关新闻报道。这一发现引发了对其“最大程度寻求真相”承诺的质疑。
在 Grok4发布活动上,埃隆·马斯克在其社交媒体平台 X 上直播时表示,其人工智能公司的最终目标是开发一种“最大程度地寻求真相的人工智能”。然而,Grok4在处理巴以冲突、堕胎和移民法等敏感话题时,却被发现其“思维链”中明确提及“搜索埃隆·马斯克对……的看法”,并引用马斯克在 X 上的相关帖子。TechCrunch 的多次测试均复制了这一现象。
xAI 尚未发布详细说明 AI 模型训练和校准过程的行业标准报告——系统卡,这使得外界难以确认 Grok4的具体训练或校准过程。
9、Claude 即将发布Claude Neptune v3模型,数学能力超强
Anthropic正在紧锣密鼓地测试代号为“Claude Neptune v3”的全新AI模型。这一消息引发了AI社区的广泛关注,许多业内人士推测,Neptune v3可能是Claude4.5的雏形,甚至可能在未来数周内正式发布。作为Anthropic在AI安全与性能领域的又一力作,Neptune v3的亮相无疑将为行业带来新的期待。
尽管Neptune v3的具体细节尚未公开,但其测试进展和社区热议已为Anthropic的新模型蒙上了一层神秘面纱。
10、可灵 AI 发布可图2.1模型:图像生成能力大幅提升
可灵 AI 于7月11日正式推出其新一代图像生成模型 “可图2.1”,标志着该技术在多个方面取得了显著进步。这一新模型不仅在指令遵循、人像美感和电影质感等多个维度上有了全面提升,而且还具备了强大的文字生成能力,让创作变得更加高效。
新模型的推出让会员用户能够在7月17日之前免费体验,为用户提供了文生图、单图参考和多图参考等核心功能。可图2.1在理解复杂指令方面表现突出,可以准确捕捉提示词中的各种元素和逻辑关系。
可灵 AI 自上线以来快速迭代,现已成为融合 AI 图片、视频、音频能力的多模态创意生产平台。用户累计生成的图片已达3.44亿张,视频1.68亿个,展现了其强大的市场影响力。可图2.1的推出,进一步展示了可灵 AI 在图像生成领域的技术实力和创新潜力。
11、腾讯开源“混元-A13B”:动态推理大模型,主打“会思考”
腾讯近日宣布开源其全新语言模型“混元-A13B”,该模型引入了创新的动态推理方法,使其能够根据任务复杂性在快速和深度“思考”之间智能切换。
“混元-A13B”的核心优势在于其实时调整推理深度的能力。对于简单的查询,模型会启用快速模式,以最少的推理步骤迅速响应;而面对更复杂的问题,它则能激活涉及多步骤思考的深度推理过程。用户还可以通过特定命令来手动控制这种行为,使用“/think”启用深度模式,或使用“/no_think”关闭深度模式。
腾讯声称,其“混元-A13B-Instruct”版本能够与OpenAI、Deepseek和阿里巴巴Qwen等领先模型相媲美。报告指出,在2024年美国数学竞赛AIME中,“混元-A13B”的准确率达到了87.3%,领先于OpenAI o1的74.3%。
然而,需要注意的是,从2025年的结果来看,OpenAI o1在该轮测试中领先近3%。此外,腾讯的比较数据基于Deepseek-R1的过时1月版本,而Deepseek在5月发布的版本在AIME2024和2025中的表现更优异,分别取得了91.4分和87.5分。
12、阿里开源 WebSailor,具备强大的推理和检索能力
阿里通义于近日正式开源了其网络智能体 WebSailor,该智能体具备强大的推理和检索能力。
经过在中英文任务的 BrowseComp 评测集中的实测,WebSailor 的32B 和72B 版本表现出色,超越了 DeepSeek R1和 Grok-3等多款闭源模型,排在仅次于 OpenAI 的 DeepResearch 之后。这一成果标志着阿里在智能体技术领域的持续布局,通义实验室在2023年已开源了 WebWalker、WebDancer 和 WebSailor 三款智能体。
13、阿里通义开源支持链式推理的音频生成模型ThinkSound
近日,阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链(Chain-of-Thought)技术,突破传统视频转音频技术对画面动态捕捉的局限,实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。
14、阿里HumanOmniV2震撼发布:多模态AI准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
15、Manus AI官网及社交媒体现变动,中国用户或受影响
日前,通用AI智能体公司Manus近期对其中国区部分业务进行了裁员,并已将核心技术人员迁往新加坡总部。据悉,Manus目前在中国区的员工总数约为120人。
Manus方面此前对此回应称,此次调整是基于公司自身经营效率的考量,旨在继续专注核心业务发展并提升整体运营效率。
此次调整的迹象也体现在Manus的官方平台上。目前,Manus官网首页显示为“Manus在你所在的地区不可用”,而此前则为“Manus中文版本正在开发中”。此外,Manus的官方微博和小红书账号内容均已清空。这些变化表明Manus正在对其在中国市场的策略进行重大调整。
16、百度AI团队推出PaddleOCR 3.1版,关键能力支持MCP
7月7日,百度AI团队宣布PaddleOCR3.1版本正式上线,在多语种识别、复杂文档翻译及大模型连接能力上实现三大升级。新版本支持37种语言的文本识别,平均精度提升超30%,并推出文档翻译产线与MCP服务器功能,助力开发者高效构建AI应用。
针对全球化场景下的多语言需求,PaddleOCR3.1新增PP-OCRv5多语种模型,覆盖法语、西班牙语、俄语等37种语言。通过融合文心4.5多模态大模型的视觉与文本理解能力,模型可自动完成高置信度文本检测与数据标注,解决多语种数据稀缺痛点。实测数据显示,新模型在拉丁语系及东斯拉夫语言场景中的识别准确率提升超30%,例如韩文识别错误率从8.7%降至2.1%,俄文复杂排版文档的解析速度提升2倍。
结合PP-StructureV3文档解析引擎与文心大模型,PaddleOCR3.1推出PP-DocTranslation翻译产线。该工具可智能识别PDF、图片中的表格、公式、手写文字等复杂元素,并转换为Markdown格式后进行多语言翻译。针对法律、医疗等专业领域,系统支持用户上传术语对照表,实现“关键词汇”的精细化翻译。例如,某跨国药企使用该功能后,药品说明书翻译效率提升40%,专业术语一致性达99.2%。
为降低AI应用开发门槛,PaddleOCR3.1推出MCP(Model Context Protocol)服务器功能,支持通过标准化协议将OCR能力无缝接入下游应用。开发者仅需几步即可搭建MCP服务,通过本地Python库、飞桨星河社区或自托管服务调用核心功能,包括图像文字识别、文档版面分析等。
17、昆仑万维发布Skywork-R1V 3.0:跨模态推理能力直逼人类专家
近日,昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0,宣称在多模态推理方面达到了前所未有的高度,甚至与人类初级专家的水平不相上下。该模型在训练过程中采用了强化学习策略,使得其在复杂逻辑建模与跨学科知识泛化方面取得了显著进展。
Skywork-R1V3.0是基于上一代 Skywork-R1V2.0进行 “冷启动”,利用高质量的蒸馏数据和拒绝采样技术,成功构建了一个强大的多模态推理训练集。这一模型的设计不仅仅局限于文本,还涵盖了图像处理,使得其在图像与文本之间的推理能力得到了显著提升。
据介绍,Skywork-R1V3.0的训练依赖于仅约1.2万条监督微调样本和1.3万条强化学习样本,展现了 “小数据激发大能力” 的独特优势。在权威的综合性多模态评测 MMMU 中,Skywork-R1V3.0以76.0分的成绩领先,超越了 Claude-3.7-Sonnet(75.0分)和 GPT-4.5(74.4分)等闭源模型,证明了其卓越的跨模态理解能力。
18、Hugging Face发布新一代小参数模型 SmolLM3
近日,全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数,尽管参数量相对较小,但其性能显著超过了同类的开源模型,如 Llama-3.2-3B 和 Qwen2.5-3B。
SmolLM3不仅支持128k 的上下文窗口,还能够流畅处理英语、法语、西班牙语、德语等多种语言的文本,标志着在小参数模型领域的又一重要进展。
19、Vidu Q1 参考生视频全球上线,最多支持7个主体输入
生数科技推出的Vidu Q1视频模型正式上线参考生功能,以“从想象到视频素材生成只需一步”的颠覆性体验,重新定义了内容创作的技术边界与生产效率。
传统视频制作流程中,创作者需经历脚本撰写、角色设计、分镜绘制、实景拍摄、后期剪辑等复杂环节,一部短片的诞生往往耗时数周甚至数月。而Vidu Q1参考生功能的推出,彻底打破了这一固有模式。用户仅需上传人物、道具、场景等参考图,系统即可在几分钟内自动生成融合多元素的视频素材,实现“零分镜生成”。例如,输入两张牛仔人物图、两个场景图和两把手枪图,便能直接生成一段西部对决的影视级画面,远景、特写、情节推进一气呵成,无需任何人工分镜设计。
20、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型,零版权风险引领行业新风向!
近日,Moonvalley正式发布其全新AI视频生成模型 Marey Realism v1.5,并通过ComfyUI平台实现全面集成。这款模型以其原生1080P高清晰度、100%基于授权内容的训练数据以及强大的创作功能,迅速引发行业热议。
Marey Realism v1.5最大的亮点之一是其原生1080P视频生成能力。相较于其他依赖后期上行采样的AI视频模型,Marey Realism v1.5直接基于高分辨率电影素材进行训练,确保每一帧画面都呈现细腻纹理、清晰边缘和高对比度,无任何伪影或模糊问题。这种“原生高清”特性使其在专业影视制作、广告创意等领域具备显著优势,为用户带来接近真实拍摄的视觉体验。
21、Stream-Omni:同时支持各种模态组合交互
中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的交互方式,为用户带来更加灵活和丰富的体验。
Stream-Omni 是一个基于 GPT-4o 架构的多模态大模型,展现了在文本、视觉和语音三种模态上的卓越能力。通过在线语音服务,用户不仅可以进行语音交互,还能在此过程中实时获取中间文本结果,使得交互体验更为自然,犹如 “边看边听”。
22、⚖️ 谷歌AI摘要惹争议!欧盟反垄断投诉袭来
近日,独立出版商联盟向欧洲委员会提交了一份反垄断投诉,直指谷歌在其搜索引擎中推出的 AI 摘要功能。根据路透社的报道,该投诉指控谷歌 “滥用网络内容”,使得出版商,尤其是新闻出版商遭受了严重损失,包括流量、读者和收入的下滑。
自从去年谷歌在搜索结果顶部加入 AI 生成的摘要以来,这一功能的扩展似乎未能如预期般受到欢迎。尽管谷歌声称这些 AI 摘要能够帮助用户更好地提问,从而创造出新的内容和商业机会,但出版商们却对此表示强烈不满。他们认为,除非愿意完全退出谷歌的搜索结果,否则就没有选择权来拒绝自己的内容被用于 AI 摘要。
在投诉中,出版商们强调,谷歌的做法不仅削弱了他们的在线存在感,还直接影响了他们的收入模式。谷歌的回应则显得颇为轻描淡写,指出有关网络流量的指控常常是基于不完整的数据,并表示网站流量的波动可以由多种因素引起,而不仅仅是因为 AI 摘要的存在。
这一事件再次引发了公众对大科技公司如何使用内容和数据的关注。谷歌是否会在压力之下做出改变,或是继续推进其 AI 功能,尚未可知。无论如何,这场关于 AI 技术和传统出版行业之间的博弈,注定会在未来几个月持续引发热议。
23、🌐美国电视台加速部署AI技术,提升多语言直播与元数据处理能力
美国多家电视广播集团(如 Sinclair、E.W. Scripps 和 Gray Media)正迅速采用 AI 技术,实施实时翻译、元数据管理、自动归档及直播摘要。其中,Sinclair 已测试使用 Deeptune 技术进行实时西班牙语 AI 生成直播,展示了 AI 在提升新闻覆盖效率和区域多样性方面的潜力。
24、上海发布17条新政!助力软件与信息服务业腾飞,优质AI项目最高可获30%补助!
在人工智能和软件产业蓬勃发展的背景下,上海市近日发布了《上海市促进软件和信息服务业高质量发展的若干措施》。此次政策的发布旨在进一步推动本市软件和信息服务行业的持续增长。上海市经济和信息化委员会在新闻发布会上透露,相关措施包含17项具体举措,将对不同发展阶段的企业给予相应的支持。
数据显示,2023年初至5月,上海市软件和信息服务业的总营收已经超过6900亿元,年同比增长20.4%,远高于全国14.3% 的平均水平。软件和信息技术服务行业成为拉动增长的主要动力,营收规模约为3600亿元,增长达27.1%。
此次政策的一大亮点是对优质企业的奖励机制。年营收超过20亿元且增速高于全市平均水平的企业将获得奖励;而中小企业也能根据规模获得最高3000万元的分档奖励。此外,小微企业还可获得30万元至50万元不等的一次性成长奖励,以激励更多企业的创新和发展。
在人工智能应用方面,上海将支持云服务商建设模型即服务平台,通过 “算力券” 降低企业在模型调用和部署过程中的成本,推动大模型在工业、金融等领域的应用,对优秀项目提供最高30% 的补助。同时,政策还支持 AI 代码生成及软件 AI 化改造,优质项目可获得不超过50% 的补助。
上海市还对高端软件、数字内容、数字技术和数据要素等领域推出了差异化支持措施,促进创新孵化、交易融资等服务。此外,政策还明确提出降低企业研发、融资、用网及用人成本,以促进更高效的发展。
不止于此,上海的各个区也都实现了软件和信息服务业的正增长,杨浦、普陀等中心城区增速达到25%、22.6%。政策支持为企业的可持续发展注入了新的活力,吸引和留住高端人才,实现了良好的发展前景。
25、上海累计82款大模型已经通过备案
在2025世界人工智能大会暨人工智能全球治理高级别会议的新闻发布会上,上海市经济信息化委员会主任张英透露,今年上海在垂类模型的落地进程中取得了显著成效,累计有82款大模型通过备案。这一举措旨在推动制造、金融、医疗和教育等多个领域的国家人工智能示范应用基地建设。
据了解,上海市区之间协同发展,形成了高能级的产业载体,具体来说,徐汇的 “模速空间” 和浦东的 “模力社区” 正是这样的示范区。其中,“模速空间” 聚焦于模型生态,周边汇聚了超过500家 “AI+” 企业,为推动人工智能的发展提供了良好的环境。而 “模力社区” 则专注于具身智能和垂类应用,吸引了近200家 AI 企业的入驻。
为了支持这一创新发展,上海还提供了全周期的融资支持。市政府通过国家人工智能基金和市级人工智能母基金,引领并聚焦于算力和语料等要素,设立了功能性子基金,配合区级基金,形成了一套从 “种子期” 到 “成熟期” 的融资供给体系。
26、YouTube 新规出炉:打击 AI “垃圾内容”,保护创作者真实创作
YouTube 正在进行一项重要的政策更新,计划加强对 “非原创” 内容的打击。这项更新将特别针对那些容易通过人工智能技术生成的 “垃圾内容”,例如大量生产的视频和重复性内容。为了保护平台的内容质量,YouTube 将在7月15日更新其合作伙伴计划(YPP)的盈利政策,明确哪些类型的内容能够获得创作者的收益。
虽然新的政策具体条款尚未公开,但 YouTube 的帮助文档指出,创作者一直以来都需要上传 “原创” 和 “真实” 的内容。此次更新旨在帮助创作者更好地理解当今 “非原创” 内容的标准。对此,一些创作者表示担忧,担心这会限制他们对某些视频类型的盈利能力,例如反应视频或剪辑视频。然而,YouTube 创意负责人 Rene Ritchie 表示,这次变动只是一项 “微小的更新”,主要是为了更好地识别哪些内容是批量生产或重复的。