全球AI动态周报-截止8月3日
(来源:数据GO)
1、GPT-5正式发布:OpenAI新一代AI模型全面上线
8月 8 日,OpenAI正式发布了新一代人工智能模型GPT-5。这是自GPT- 4 发布以来最重要的模型升级,标志着AI技术发展的又一重要里程碑。
OpenAI采用了前所未有的开放策略,GPT- 5 对所有ChatGPT用户开放,包括免费用户、Plus、Pro和Team用户,这是免费用户首次获得推理模型的使用权限。
具体的用户权限分配如下:
免费用户:可直接使用GPT- 5 基础版本,首次体验到具备"思考"能力的推理模型
Plus用户:除基础版本外,还可使用"GPT-5 Thinking"版本,享受更强的推理能力
Pro用户:享有GPT- 5 和GPT-5 Pro的无限制访问权限,并可根据需要切换到旧版本模型
企业和教育用户:将在下周获得访问权限,同时还将获得GPT-5 Pro版本,提供更可靠和详细的扩展推理功能
2、从闭源到开源,OpenAI重磅推出gpt-oss-120b与20b OpenAI宣布推出两款开源权重语言模型——gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2发布以来,OpenAI首次回归开源领域。此举不仅标志着OpenAI战略的重大转向,也为全球AI开发者提供了强大的推理工具,加速AI技术的普及与创新。
根据OpenAI官方公告,gpt-oss-120b和gpt-oss-20b采用Apache2.0许可证发布,允许开发者自由下载、修改和用于商业用途。这两款模型分别是1170亿参数和210亿参数的混合专家(MoE)架构,分别激活51亿和36亿参数,兼顾高效推理与低资源消耗。
gpt-oss-120b:能在单个NVIDIA H100GPU(80GB内存)上运行,适合数据中心或高端企业场景,性能接近OpenAI的专有模型o4-mini,尤其在竞赛编程(Codeforces)、通用问题解决(MMLU、HLE)及健康相关查询(HealthBench)上表现突出。
gpt-oss-20b:仅需16GB内存即可在边缘设备上运行,适合本地推理和设备端应用,性能媲美o3-mini,特别是在竞赛数学(AIME2024&2025)等领域表现优异。
这些模型支持长达128k token的上下文长度,采用交替密集和局部带状稀疏注意力机制,并使用分组多查询注意力技术以提升推理效率。OpenAI还开源了‘o200k_Harmony’分词器,进一步降低开发门槛。
3、微软Bing Image Creator免费上线GPT-4o图像生成模型
微软宣布Bing Image Creator现已免费提供OpenAI最新的GPT-4o图像生成模型,为用户带来更强大的AI图像创作体验。
用户可通过bing.com/create、Bing移动应用、Copilot Search访问更新后的服务,也可直接在Bing搜索栏或Edge地址栏输入提示。此外,ChatGPT Plus、Pro、Team或Free账户用户同样可免费使用GPT-4o图像生成功能。
4、谷歌DeepMind重磅发布Genie 3
8月5日,谷歌DeepMind正式发布了其最新一代世界模型 Genie3,这一突破性AI技术以其强大的实时交互能力和多样化的环境生成能力,标志着AI模拟技术迈向新高度。Genie3不仅在生成时长、分辨率和物理一致性上实现显著提升,还支持通过文本动态改变虚拟世界事件,为AI智能体训练、游戏开发和教育等领域开辟了全新可能。
5、谷歌Gemini 2.5 Deep Think发布
近日,谷歌DeepMind宣布其最强大的AI模型Gemini2.5Deep Think正式向Google AI Ultra订阅用户开放。
主要技术突破:
1. 并行思考机制:Deep Think通过多智能体系统,允许多个AI“代理”同时处理一个问题,探索不同假设并整合结果。这种方法不仅提升了推理深度,还显著提高了解决数学、科学和编码等复杂任务的能力。
2. 强化学习优化:谷歌开发了新型强化学习技术,鼓励模型在推理过程中不断优化其策略。这使得Deep Think在处理需要逐步改进的任务(如算法设计和战略规划)时更加高效。
3. 多模态与长上下文支持:Gemini2.5Deep Think支持文本、音频、图像和视频输入,拥有100万Token的上下文窗口,能够处理海量数据集,适用于从学术研究到实时应用的多种场景。
6、谷歌开源结构化信息提取工具langextract,可提供精确来源定位
谷歌正式发布了一款全新的开源 Python 库 LangExtract,旨在利用大型语言模型(LLM)如 Gemini,从非结构化文本中高效提取结构化信息。
这一工具的推出为开发者、数据科学家以及各行业从业者提供了一个强大的解决方案,能够将复杂的文本数据快速转化为可用于分析的结构化格式。
7、Claude Opus 4.1 横空出世,编码推理双双称王
Anthropic 正式发布了其最新旗舰模型 Claude Opus4.1,在 Agent 任务、真实世界编码和推理能力方面实现显著提升。这一版本被定位为 Claude Opus4的直接升级,定价保持不变,已向付费 Claude 用户开放,并通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台全面上线。
Claude Opus4.1现已面向所有付费用户、Claude Code、API、Amazon Bedrock和Google Cloud Vertex AI开放,价格维持与Opus4相同。
8、Midjourney 推出 HD 视频模式,专为专业人士打造高品质影像
Midjourney 宣布向其 Pro 和 Mega 订阅计划用户推出全新的 HD视频模式。这一新功能旨在为需要最高质量影像输出的专业人士提供更优质的创作工具,进一步巩固 Midjourney 在 AI 视频生成领域的竞争力。
据官方声明,HD*视频模式的生成成本约为默认标清(SD)视频输出的3.2倍,但其像素分辨率提升了约4倍。这一升级显著提高了视频的清晰度和细节表现,满足专业用户在广告、影视制作和创意内容生产等场景中的高标准需求。Midjourney 表示,此模式专为追求极致视觉效果的专业人士设计,旨在提供无与伦比的高质量镜头。
9、Anthropic 推出个性向量技术,掌控语言模型行为新突破
Anthropic普近日宣布了一项新技术 —— 个性向量,旨在监测、控制和预防大型语言模型中的特定个性特征。随着语言模型在实际应用中的广泛使用,部分模型表现出不可预测的个性特征,比如 ChatGPT 显示出的过度恭维行为,以及更极端的例子,如 x.AI 的 Grok 模型展现出具有争议的角色"MechaHitler"。
个性向量是一种与诸如 “邪恶”、“阿谀奉承” 或 “幻觉” 等个性特征相关的神经活动模式。Anthropic的研究人员通过对比模型在展现这些个性特征时与不展现时的神经激活情况,成功识别出这些个性向量。例如,向模型注入一个 “邪恶” 向量会促使其产生不道德的回答,而注入 “阿谀奉承” 向量则会导致模型表现出过度的恭维。此外,这种技术还可以用于调节其他个性特征,如礼貌、幽默或冷漠等。
10、亚马逊推出全球最大 AI 模型平台Amazon Bedrock
亚马逊推出了 Amazon Bedrock 平台,旨在为企业提供一个如同超市般的 AI 模型选择环境。
这个新平台被业内称为 “模型超市”,它汇聚了多种 AI 模型,企业可以根据自身的需求和场景,选择最合适的解决方案。亚马逊意识到,企业需要的不仅仅是最强大的模型,而是能够适应不同场景的多元化模型组合。
11、xAI 发布 Grok Imagine4:支持文生图与视频生成
xAI推出的Grok Imagine4 在文生图和图生视频方面表现出色,尤其以快速的生成速度和原生支持NSFW内容为亮点,但视频效果仍有提升空间。
12、Perplexity 被指控秘密抓取被禁止的网站内容
根据互联网基础设施提供商 Cloudflare 的最新研究报告,人工智能初创公司 Perplexity 被指控在抓取网站内容时忽视了明确的阻止指令。Cloudflare 表示,他们观察到 Perplexity 在尝试抓取网页时隐藏了自己的身份,以此规避网站的偏好设置。
Perplexity 的发言人 Jesse Dwyer 对 Cloudflare 的指控表示反驳,并称其博客文章为 “推销”。他补充称,文中截图显示并没有访问内容。他进一步声称,Cloudflare 所提到的爬虫并非其所拥有的。Cloudflare 表示,他们最初注意到这些问题是由于客户投诉 Perplexity 仍在抓取其网站内容,尽管这些网站已通过 Robots 文件阻止了该爬虫的访问。
13、小米全量开源MiDashengLM-7B:音频理解性能刷新SOTA,推理速度暴增20倍
小米正式发布并全量开源了MiDashengLM-7B多模态大模型,这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩,更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一,数据吞吐效率更是高出20倍以上。
14、小米开源最新多模态大模型 Xiaomi MiMo-VL-7B-2508
小米大模型团队宣布开源最新一代多模态大模型 Xiaomi MiMo-VL-7B-2508,包含 RL 与 SFT 两个版本。
官方数据显示,新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上全面刷新纪录,其中 MMMU 基准首次突破70分大关,ChartQA 升至94.4,ScreenSpot-v2达92.5,VideoMME 提升至70.8。
MiMo-VL-7B-RL-2508,推荐用户在大多数情况下体验使用该模型。
MiMo-VL-7B-SFT-2508,用户可以根据实际需求,基于此模型进行SFT以及RL。相比于上一版SFT模型,该模型的RL稳定性更高。
15、消息称百度8月底前将发布新AI推理模型
据报道,百度正在加速推进其文心大模型的更新计划。消息人士透露,百度最快将于8月底推出文心大模型的最新版推理模型,目前该模型正处于紧张的测试阶段。这一新版本在逻辑推理和复杂计算等关键能力上有望超越OpenAI的o3满血版。
与此同时,百度还计划在未来数月内发布文心基座大模型的最新版本。据内部人士透露,新模型很可能会在百度世界大会上正式亮相。这一计划显示出百度在人工智能领域的战略布局和技术创新能力。
16、腾讯混元开源并发布 0.5B、1.8B、4B、7B模型
腾讯混元团队宣布推出四款开源的小尺寸模型,参数分别为0.5B、1.8B、4B和7B。这些模型专为消费级显卡设计,适用于笔记本电脑、手机、智能座舱、智能家居等低功耗场景,并支持垂直领域的低成本微调。这一举措进一步丰富了混元开源模型体系,为开发者和企业提供了更多尺寸的模型选择。
这四款模型的推出是腾讯混元大模型持续开源的一部分,旨在为开发者和企业提供更多选择,以满足不同场景下的需求。目前,这些模型已在Github和HuggingFace等开源社区上线,并得到了Arm、高通、Intel、联发科技等多个消费级终端芯片平台的支持。
17、混元开源新方案 MixGRPO:训练效率大幅提升,性能更强
近日,腾讯的混元基础模型团队发布了一项突破性的图像生成新框架 MixGRPO。这一方案不仅将训练时间缩短了近50%,而且在性能上表现优异,甚至推出了一个名为 MixGRPO-Flash 的变体,进一步将训练时间降低了71%。这一切,得益于他们将随机微分方程(SDE)和常微分方程(ODE)相结合的创新采样策略。
在当前的图像生成技术中,效率与质量常常是一对矛盾的存在。MixGRPO 通过引入混合采样的方法,优化了马尔可夫决策过程(MDP),使得训练效率得到了显著提升。具体而言,该框架通过限制智能体的随机探索范围,减少了优化过程中的计算开销,同时简化了模型的训练流程。
18、B站推出AI原声翻译功能
B站推出了自主研发的AI原声翻译功能,旨在解决国际版与国内版合并后的内容互通问题。该技术能够保留UP主的原始声线、音色特征和说话习惯,为海外用户提供更自然的中文内容体验。
19、通义千问重磅开源Qwen-Image:20B参数MMDiT模型全面刷新图像生成SOTA
通义千问8月5日正式开源了其首个图像生成基础模型Qwen-Image,这款20B参数的MMDiT(多模态扩散变换器)模型在文本渲染和图像编辑领域实现了重大突破。该模型不仅在多个权威基准测试中获得了SOTA(最佳性能)成绩,更在复杂文本渲染和精确图像编辑方面展现出显著优势。
Qwen-Image的最大亮点在于其三项核心技术能力的全面提升。首先是卓越的文本渲染能力。传统的图像生成模型在处理文字内容时往往存在字体扭曲、内容错误或排版混乱等问题,Qwen-Image通过创新的MMDiT架构有效解决了这些痛点。该模型能够在各种复杂场景下实现高保真文本渲染,无论是中英文混排还是长段落文字生成,都能保持极高的准确性。
目前,Qwen-Image已在魔搭社区、Hugging Face及GitHub等平台开源,并提供了详细的Technical report和Demo展示。用户可通过访问QwenChat(chat.qwen.ai)选择“图像生成”功能,亲身体验这款强大模型的魅力。
20、阿里巴巴与南开大学推出视频大模型新型压缩技术LLaVA-Scissor
近日,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战,特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。
21、昆仑万维发布并开源全新推理大模型 MindLink
昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink,同时公布了72B模型权重、技术报告及代码仓库链接,引发行业广泛关注。
该模型通过创新性推理框架实现动态路径选择,可根据任务复杂度灵活结合推理与非推理生成模式,在降低计算成本的同时提升答案透明度与效率。
在基准测试中,Skywork MindLink表现亮眼,不仅在未依赖外部工具的10项大模型评测中,于"人类最后的考试"项目中斩获冠军,更在数学奥赛领域包揽USAMO2025、AIME2024/2025及HMMT2025四项金牌,同时在GPQA-diamond、MMLU-pro等通用知识评测中展现卓越性能。
22、“问小白”发布第四代开源大模型 XBai o4
开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基准测试中优于 Anthropic Claude Opus。
XBai o4引入了创新的“反思型生成范式”,通过结合 Long-CoT 强化学习和过程评分学习,实现了深度推理和高效推理链路筛选,同时显著降低了推理成本。
23、挑战闭源巨头:Wan2.2A14B 成性价比最高视频 AI 模型
根据人工分析(Artificial Analysis)的最新报告,Wan2.2A14B 已成为目前开源视频模型中的性能领跑者。尽管在帧率上存在劣势,其在文本转视频方面的出色表现使其脱颖而出。然而,与 Veo3和 Seedance1.0等顶级闭源模型相比,Wan2.2A14B 在整体性能上仍有差距,但其显著的成本优势使其成为极具吸引力的替代方案。
24、MiniMax Speech 2.5语音生成模型上线:多语种表现力更强
MiniMax宣布推出新一代语音生成模型Speech2.5,这一升级版模型在全球语音技术领域再次树立了新的标杆,进一步巩固了其作为全球最强语音模型的地位。Speech2.5在多语种表现力、音色复刻以及语种覆盖范围等方面均实现了显著提升。
25、面壁智能新一代多模态模型 MiniCPM-V 4.0 开源
魔搭ModelScope社区宣布,面壁小钢炮新一代多模态模型MiniCPM-V4.0正式开源。凭借4B参数量,该模型在OpenCompass、OCRBench、MathVista等多个榜单上取得了同级SOTA(State of the Art,即当前最佳)成绩,并且实现了在手机等移动设备上的稳定、流畅运行。同时,官方还开源了推理部署工具MiniCPM-V CookBook,帮助开发者在不同需求、不同场景、不同设备下实现开箱即用的轻量、简易部署。
26、dots.ocr横空出世!1.7B参数多语言文档解析神器
近期,一款名为dots.ocr的多语言文档解析模型引发了AI领域的广泛关注。这款基于1.7B参数的轻量化视觉-语言模型,以其出色的性能和统一布局检测与OCR能力,成为文档处理领域的新星。
dots.ocr基于仅1.7B参数的语言模型构建,相较于许多依赖更大模型的文档解析工具,其推理速度更快,处理单页PDF仅需数秒即可完成。尽管模型规模较小,dots.ocr在文本、表格和阅读顺序的解析上表现优异,达到了业界领先(SOTA)水平,其公式识别能力甚至可与Doubao-1.5和gemini2.5-pro等大型模型相媲美。这一高效性能使其成为开发者与企业的理想选择。
27、Onyx Impact 推出“信息诚信实验室”
非营利组织 Onyx Impact 启动“信息诚信实验室”,专门应对针对黑人社区的数字错误信息传播问题。该实验室结合了 AI 技术与“数字绿皮书”(Digital Green Book),并与黑人传统媒体及意见领袖合作,通过 AI 工具监测与识别虚假信息,增强社区信任、提升媒体参与度,并成功推动订阅与流量增长。实验基地还将在其他黑人媒体间推广这一模型。
28、仅0.01%虚假文本就能增加AI有害输出11.2%
近期,国家安全部发布警告,提醒公众注意人工智能领域的数据污染问题。随着人工智能技术在社会经济中扮演越来越重要的角色,训练数据的质量显得尤为关键。国家安全部指出,虚假信息、偏见观点以及其他不良数据正严重影响 AI 的性能,给社会带来了新的安全隐患。
人工智能的核心要素包括算法、算力和数据,其中数据是训练 AI 模型的重要基础。大量高质量的数据能够帮助 AI 更好地学习内在规律,实现智能决策与内容生成。然而,当数据中掺杂了虚假信息时,就会对 AI 模型产生严重的负面影响。研究表明,仅有0.01% 的虚假文本就能导致 AI 系统输出有害内容的概率增加11.2%。即便是0.001% 的虚假文本,也会导致有害输出上升7.2%。
数据污染不仅会影响 AI 模型的准确性和性能,还可能导致一系列现实风险。例如,在金融领域,不法分子可能利用 AI 生成的虚假信息来操纵市场,导致股价异常波动。在公共安全方面,数据污染可能误导舆论,甚至引发社会恐慌。而在医疗健康领域,虚假的数据可能导致错误的诊疗建议,危害患者的生命安全。
为了应对数据污染带来的威胁,国家安全部建议加强源头监管,防止污染数据的产生。依据《网络安全法》《数据安全法》和《个人信息保护法》等法律,建立 AI 数据的分类分级保护制度,确保数据的安全性。同时,还需强化风险评估,保障数据在全生命周期内的安全流通。此外,定期对受污染的数据进行清洗和修复,以构建有效的数据治理框架,从根本上提高 AI 的数据安全能力。
国家安全部的发文提醒我们,面对人工智能快速发展的时代,确保数据的真实与安全是维护社会各领域安全的重要一环。
28、百度智能云宣布推出全球首批AI数字员工
在百度AI Day开放日现场,百度智能云宣布推出全球首批AI数字员工,涵盖营销经理、还款助理、汽车销售、促销专员、产品经理、课程顾问、招聘专员等核心业务职能。这些数字员工依托百度智能云领先的AI全栈能力,深度融合了大模型、数字人技术及行业Know-How三大业务优势,能够实现开箱即用,上岗即胜任,精准赋能垂直业务场景的同时持续沉淀岗位能力,以“懂业务、给结果、可进化”三大特性重新定义企业级智能服务能力,真正成为企业可信赖的数字业务伙伴。
29、美国证券交易委员会成立人工智能专责小组
美国证券交易委员会(SEC)宣布成立一个专注于人工智能(AI)的专责小组,旨在通过负责任地使用人工智能技术来增强机构的创新能力和运营效率。该小组将由 SEC 首席人工智能官瓦莱丽 谢切潘尼克(Valerie Szczepanik)领导。
SEC 意识到人工智能的变革潜力,因此成立了这一 AI 专责小组,旨在加速 AI 的整合,强化 SEC 的使命。该小组将集中协调机构内的各种努力,促进跨部门及跨学科的合作,帮助 SEC 高效应对 AI 技术发展过程中的各种挑战,消除进步的障碍,聚焦于最大化 AI 应用的收益,并确保治理结构的完善。此外,该小组将支持 SEC 各部门及办公室的创新工作,并推动负责任的人工智能整合。