新浪科技

全球AI动态周报-截止10月12日

市场资讯 2025.10.14 09:06

(来源:数据GO)

1、OpenAI 秘密切换 ChatGPT 模型,以处理“情绪化”对话

OpenAI 正在 ChatGPT 中秘密测试一种新的安全路由系统。该系统由 ChatGPT 负责人 Nick Turley 证实,它能根据对话主题自动将用户提示重定向到不同的语言模型。当对话涉及“敏感或情绪化话题”时,系统会自动介入,将用户提示交给一个更严格的模型,例如 GPT-5或其专门的“GPT-5-Chat-Safety”变体。

此外,似乎还有一个名为“gpt-5-at-mini”的第二路由模型,专门用于处理可能涉及非法内容的提示。

2、OpenAI 推出 Sora 短视频应用,升级视频生成模型 Sora 2

OpenAI 宣布推出全新的音视频生成模型 Sora2,并同步上线了一款社交应用 Sora,旨在让用户能够轻松生成个性化视频。与去年发布的 Sora 模型相比,Sora2在遵循物理定律方面表现更加优越,生成的视频更加真实自然。虽然该应用目前处于邀请注册阶段,但 OpenAI 已分享了一些令人印象深刻的演示案例。

3、OpenAI Sora 升级:新增内容控制与版权政策调整

OpenAI 正在为其仍在开发中的 Sora 视频生成应用添加一系列重要的新控制功能,以回应关于滥用深度伪造内容的批评。

据 Sora 负责人比尔·皮布尔斯(Bill Peebles)透露,用户现在将拥有更多权力来定义 AI 生成内容中自身数字形象的用途。

4、OpenAI 开发者日重磅发布:ChatGPT 平台化,推出自主 AI 代理和顶级模型

在今年的开发者日(Dev Day)上,OpenAI 宣布了一系列旨在重塑其生态系统的重大发布,核心在于将 ChatGPT 转型为一个深度集成的第三方应用平台,同时赋能开发者构建可替用户执行任务的自主 AI 代理。

ChatGPT 平台化与 Apps SDK 的推出标志着一次关键性的转向。借助全新的 Apps SDK,开发者现在能够创建直接在 ChatGPT 聊天界面中运行的交互式应用程序,这些应用支持全屏模式并可将上下文传递给语言模型。该 SDK 基于 OpenAI 的模型组件协议(MCP)构建,并增加了 HTML 渲染、登录和支付协议等功能,以实现完整的应用体验。演示中,Canva 应用展示了生成海报和演示文稿的能力,而 Zillow 应用则在聊天中直接呈现交互式地图,并响应如“只有花园”等自然语言筛选。首批合作伙伴包括 Booking.com、Canva、Coursera、Expedia、Figma、Spotify 和 Zillow,未来还将有 Doordash、OpenTable、Target 和 Uber 加入。开发者可以在开发者模式下测试应用,未来还将推出应用程序目录和付费选项,该 SDK 预计将完全取代旧版的 ChatGPT 插件。

与此同时,OpenAI 正在推出用于构建可替用户执行任务的自主代理的工具包 AgentKit。其核心是 Agent Builder,一个通过拖放操作组装工作流的可视化工具。在现场演示中,OpenAI 仅用八分钟就构建了一个用于推荐会议的代理,并可立即发布。AgentKit 还包括用于聊天的 ChatKit、用于测试的 Evals,以及用于管理数据访问的 Connector Registry。此外,代理可通过**强化微调(RFT)**进行深度定制,该功能已在 GPT-5 上进行内测。Agent Builder 目前处于测试阶段,而 ChatKit 和 Evals 已正式发布,Connector Registry 也正向 API 和企业客户推广。

在模型方面,OpenAI 发布了 GPT-5Pro 的 API,这是其迄今为止最先进的语言模型,专为处理复杂任务而设计。它使用更多计算资源,同时接受文本和图像输入(但仅输出文本),支持惊人的 40万个 token 上下文窗口,并允许最多 27.2万个 token 输出。该模型仅可通过 Responses API 访问,定价为每百万输入令牌15美元,每百万输出令牌120美元,输出价格相比前代模型有大幅提升。此外,OpenAI 还推出了成本更低的 gpt-realtime-mini(便宜约70%)、用于图像处理的 gpt-image-1-mini(便宜约80%),以及文本到视频模型 Sora2 的 API。

最后,OpenAI 的编码助手 Codex 现已普遍可用,自5月推出云代理以来使用量增长了十倍,并新增了 Slack 集成、SDK 和全新的管理工具。公司还披露了惊人的用户数据:ChatGPT 每周用户已超过8亿,超过 400万开发者在该平台进行开发,API 流量达到每分钟 60亿个令牌,平台生态实现了显著增长。

5、OpenAI重磅发布GPT-5 Pro API,智能化未来一触即发

近日,OpenAI 正式推出了其最新的 GPT-5 Pro API,标志着人工智能领域的一次重大升级。这一新模型被认为是 OpenAI 迄今为止最强大的产品,拥有令人瞩目的 40 万 Token 上下文窗口。这意味着它能够处理更为复杂和长篇的文本,同时也支持图像输入,进一步扩展了其应用场景。

GPT-5 Pro API 的定价设定为每百万 Token15 美元,这一定价策略使得高效的 AI 应用变得更加可及。此外,OpenAI 还为这一 API 引入了两项重磅更新。首先,优先处理层的设定使得请求的处理速度比标准层快了 40%,这无疑提升了开发者的使用体验。其次,新增的服务健康仪表盘可以实时监控系统的运行状态,确保开发者能够及时掌握服务情况,避免潜在的故障。

这一系列更新不仅为开发者提供了更为强大的工具,也为各行业的创新奠定了基础。无论是医疗、金融还是教育等领域,GPT-5 Pro API 都将带来更多的可能性,推动智能化进程的加速。

随着 GPT-5 Pro 的上线,OpenAI 再次向外界证明了其在 AI 技术领域的领导地位。未来,开发者将能利用这一强大的 API 来创建更智能、更人性化的应用,助力社会各界的数字化转型。

无疑,GPT-5 Pro API 的发布将为人工智能的应用打开全新的大门,让我们拭目以待,这项技术将在未来为我们的生活带来怎样的改变。

6、OpenAI ChatGPT Go套餐全面进军亚洲!每月不到5美元

OpenAI 近日宣布,将其超实惠的 ChatGPT Go 套餐扩展至亚洲的16个新国家,这个套餐的月费不到5美元,极具吸引力。此次扩展覆盖了阿富汗、孟加拉国、不丹、文莱、柬埔寨、老挝、马来西亚、马尔代夫、缅甸、尼泊尔、巴基斯坦、菲律宾、斯里兰卡、泰国、东帝汶和越南等国家,旨在让更多用户享受智能聊天的便利。

在这16个国家中,用户可以根据当地货币进行付款,例如在马来西亚、泰国、越南、菲律宾和巴基斯坦等地。而在其他地区,用户则需要以美元支付,价格大约为5美元,具体费用会根据当地的税收政策有所变化。ChatGPT Go 套餐为用户提供了更高的每日使用限额,包括消息发送、图像生成以及文件或图像的上传功能。此外,与免费计划相比,该套餐还提供了两倍的内存容量,使得用户能够获得更加个性化的互动体验。

7、谷歌更新Gemini 2.5 Flash Lite,成为最快的专有模型

近日,谷歌对其 Gemini 系列大型语言模型(LLM)进行了重要更新,尤其是 Gemini2.5Flash 和 Flash Lite,强调了速度和效率的提升。这些改进是在大版本发布之间持续进行的,充分展示了谷歌在 AI 领域不断进步的决心。

根据第三方分析机构 Artificial Analysis 的评估,Gemini2.5Flash Lite 已经成为其网站上 “最快的专有模型”,输出速度达到每秒887个输出 token,比上一版本提升了40%。尽管与 MBZUAI 和 G42AI 推出的新 K2Think 开源模型(每秒输出2,000个 token)相比仍有差距,但 Gemini2.5Flash Lite 的速度依然令人瞩目。

8、DeepSeek发布V3.2-exp模型,开创性稀疏注意力机制 将API 成本降低一半

人工智能公司DeepSeek的研究团队周一宣布,他们发布了一款名为 V3.2-exp 的新实验模型,旨在通过创新的“稀疏注意力”机制,大幅降低长上下文操作的推理成本。这一里程碑式的进展在Hugging Face和GitHub上同步发布,并附有详细的学术论文。

该模型的核心在于其独特的 DeepSeek稀疏注意力机制。这一复杂系统由两部分组成:首先,一个名为“闪电索引器”的模块会对上下文窗口中的特定摘录进行优先级排序;其次,一个独立的“细粒度标记选择系统”会从这些优先摘录中挑选出关键标记,加载到有限的注意力窗口中。这些机制的结合使得稀疏注意力模型能够以较低的服务器负载高效处理长上下文片段。

9、DeepSeek突袭更新V3.2后紧急下架

DeepSeek突然发布公告宣布线上模型已更新版本,欢迎用户测试反馈。虽然官方未透露具体型号,但多方迹象指向这是DeepSeek V3.2——Hugging Face平台上已建立相关Spaces,文件夹明确命名为"DeepSeek V3.2"。不过,目前该页面现已下架,显示404错误。

10、硅基流动上线 DeepSeek-V3.2-Exp,显著降低价格并支持更大上下文

近日,硅基流动宣布上线了最新的实验性模型 DeepSeek-V3.2-Exp,该版本支持高达160K 的上下文,同时在价格上也进行了大幅度的调整,直降超过50%。这一新版本是在 DeepSeek-V3.1-Terminus 的基础上进行深度优化的成果,旨在提升长文本训练和推理的效率。

11、豆包大模型1.6-vision正式发布,比上一代综合成本降低约50%

火山引擎宣布,正式发布豆包大模型1.6-vision。据介绍,豆包大模型1.6-vision是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强的通用多模态理解和推理能力,并支持Responses API。

12、腾讯混元图像3.0正式上线,支持中英文精准渲染、长文本生成

腾讯宣布正式发布混元图像3.0,这是业界首个开源的商用级原生多模态生图模型。该模型拥有80亿参数,是目前效果最优、参数量最大的开源生图模型,能够与顶尖闭源模型相媲美。用户可以通过腾讯混元官网体验该模型,模型的权重和加速版本也已在 GitHub 和 Hugging Face 等开源社区发布,供广大开发者免费下载和使用。

13、腾讯元宝生图升级:一句话生成多种创意内容

元宝 App 近日推出了最新版本的混元图像3.0,用户只需输入一句话,即可轻松生成丰富多样的创意内容,包括表情包、四格漫画、设计配图等。这一升级大幅提升了图像生成的智能化水平,让用户能够在创作中获得更直观、更生动的体验。

此外,元宝 App 还推出了图文设计功能,用户可以通过简单的描述生成创意海报。这一功能不仅适合个人用户的日常需求,也为商家提供了便捷的宣传工具。例如,商家可以快速生成商业产品摄影图,提升产品在市场上的吸引力。

14、蚂蚁百灵团队全新开源高性能思考模型 Ring-flash-2.0

蚂蚁百灵大模型团队近日宣布,正式开源其最新的高性能思考模型 ——Ring-flash-2.0。这款模型是在 Ling-flash-2.0-base 基础上经过深度优化而成,标志着人工智能领域的一次重大进步。Ring-flash-2.0的总参数达到100亿,但在每次推理时,仅激活其中6.1亿,这种高效的激活机制为模型提供了强大的计算能力,同时也节省了大量资源。

15、蚂蚁集团开源全球首个万亿参数大模型 Ring-1T-preview,代码生成能力超越 GPT-5

近日,蚂蚁集团宣布开源其自研的万亿参数推理大模型 Ring-1T-preview,这一模型成为全球首个开源的万亿参数推理大模型。虽然目前仅为预览版,Ring-1T-preview 在自然语言推理方面表现出色,多个测试的结果显示其能力令人瞩目。

16、蚂蚁发布万亿参数语言模型 Ling-1T

蚂蚁集团推出的Ling-1T语言模型在推理速度和能力上表现出色,成为国产开源模型的重要突破。Ling-1T 采用“中训练+后训练”方法,提升推理能力。在数学和逻辑推理任务中表现卓越,解决复杂问题。支持代码生成和旅行路线规划,应用广泛。

17、LiquidAI 推出 Liquid Nanos 系列轻量级 AI 模型

LiquidAI 正式发布了名为 “Liquid Nanos” 的系列轻量级 AI 模型。这一系列模型专为边缘计算设备设计,能够在树莓派等小型设备上高效运行。Liquid Nanos 涵盖了翻译、抽取、RAG、工具调用以及数学推理等五大应用场景,为开发者提供了灵活多样的选择。

Liquid Nanos 系列提供两种参数版本:350M 和1.2B。这些模型的设计旨在满足低功耗、高性能的需求,使得用户可以在不依赖强大计算资源的情况下,实现复杂的 AI 功能。所有模型均支持 GGUF 量化格式,这意味着它们在资源利用率上表现出色,可以为更多用户所用。

18、Liquid AI发布 LFM2-8B-A1B:8B 参数仅激活1.5B

高效MoE架构重塑边缘AILiquid AI推出的LFM2-8B-A1B是其LFM2系列的首个混合专家(Mixture-of-Experts, MoE)模型,总参数规模达8.3B,但每token仅激活约1.5B参数。这种稀疏激活机制在保持高表示能力的同时,大幅降低计算负载,使其适用于资源受限的设备端场景。不同于传统云端MoE模型,该设计针对实时交互优化,挑战了“小规模MoE不高效”的行业认知。

19、700万参数微型模型 TRM,推理能力竟胜过 Gemini2.5Pro 和 Claude3.7

三星 SAIL 蒙特利尔实验室的研究人员近日推出了一种名为“微型递归模型”(TRM)的新型 AI 架构。这款模型参数仅有 700万个,远小于动辄数十亿参数的最小型语言模型(LLM),却在数独和 ARC-AGI 测试等复杂的结构化推理任务中,表现出惊人的效率和卓越的性能,成功超越了包括 Gemini2.5Pro 和 Claude3.7 在内的多个大型语言模型。

20、中国信通院发布 “方升” 3.0 大模型基准测试

近日,中国信息通信研究院(信通院)正式推出了 “方升” 基准测试体系3.0,标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级,不仅新增了模型基础属性测试,还系统性地评估了模型的参数规模和推理效率等底层特征。此外,该体系还前瞻性地布局了未来的高级智能测试,聚焦全模态理解、长期记忆和自主学习等十项高级能力,为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。

21、生成式AI与新闻报告2025:如何看待AI在新闻与社会中的角色

路透研究所发布《Generative AI and News Report 2025》,基于多国调查与数据,发现公众对用生成式 AI 处理新闻的接受度在上升,但对 AI 生成新闻的信任仍然偏低;报告还概述了公众对 AI 在摘要、个性化与事实核查中使用的态度,并提出新闻机构在透明度、标注与授权方面的建议。

22、英国竞争监管机构要求谷歌放宽对搜索的控制

英国竞争与市场管理局(CMA)将对谷歌施加“战略市场地位(SMS)”类监管,要求在搜索与广告等方面采取干预措施。报道指出,此次监管涵盖了影响新闻流量的 AI 功能(例如 AI Overviews/AI 模式),并可能要求谷歌调整展示/排序或提供更大程度的发布者控制,从而影响新闻站点与 AI 平台间的流量与收益分配。

23、公共媒体采纳 AI 的四种方式

Public Media Alliance 发布行业概览,列举公共服务媒体(PSM)采用 AI 的四种主要路径:选题/数据挖掘辅助、自动字幕与翻译、内容个性化与推荐、以及用于内容验证与事实核查的工具。文章提供了多国 PSM 的实践示例和治理建议,强调了透明度与人员技能提升的重要性。

24、斯坦福揭示AI写作泛滥:四分之一企业新闻稿带大模型痕迹

根据斯坦福大学研究团队在 Cell Press 旗下期刊《Patterns》上发布的最新报告,大型语言模型(LLM)已在各类正式书面沟通场景中被广泛应用。该研究分析了 Newswire、PRWeb 和 PRNewswire 等各大平台的英文文稿,发现其中有大量文稿带有明显的 AI 痕迹。

研究团队采用了一套名为“分布式 LLM 量化框架(Distributional LLM Quantification Framework)”的统计模型,通过分析语料整体的语言特征分布,估算出特定时间段内具备 AI 生成特征的文本比例。需要注意的是,该方法目前仅适用于英文语料,因此其结果反映的仅是英文文本中具备 AI 特征的比例,并不意味着整篇文章“完全由 AI 撰写”。

报告数据显示,研究团队分析了去年共计 68.7万条消费者投诉、53.7万篇企业新闻稿、3.04亿份招聘信息以及1.6万篇联合国新闻稿,结果令人关注:

企业新闻稿: 约 24% 的文稿带有 AI 痕迹。

消费者投诉: 约 18% 的投诉文本具备 AI 特征。

联合国新闻稿: 约 14% 的内容被认定为“几乎由 AI 大模型直接生成,或经过大幅改写”。

招聘信息: 接近 10% 的招聘内容带有 AI 痕迹。

研究人员指出,LLM 已深入渗透社会各领域的正式文本写作,并逐渐成为人们日常书面表达的重要辅助工具。在细分领域,研究发现 教育程度较低的地区使用 AI 撰写投诉的比例高达 19.9%,明显高于教育程度较高地区的17.4%。在招聘信息方面,中小型企业或初创公司更倾向于使用大模型生成内容,其中约有 10% 至15% 的招聘公告包含明显的 AI 痕迹。

研究人员同时强调,随着生成式 AI 技术的不断进步,其文风正日益接近人类。因此,未来要精确识别 AI 在文本创作中的参与程度将变得愈发困难。

25、两部门联合发布《政务领域人工智能大模型部署应用指引》 大力推动AI技术应用

近日,中央网信办与国家发展改革委联合发布了《政务领域人工智能大模型部署应用指引》,这是一份针对政府部门如何安全、稳妥推进人工智能技术应用的指导文件。其目的是为各级政务部门提供清晰的方向和基本的参考,确保人工智能的有效利用。

在这份指引中,特别强调了政务部门可以围绕政务服务、社会治理、机关办公及辅助决策等多个高频需求,结合地方实际,选择典型场景进行 AI 大模型的应用探索。这意味着,各地可以根据自身的特点和需求,因地制宜地实施人工智能技术,以提升政府工作效率。

26、AI安全警报:只需250份文件即可 “投毒” 大语言模型

近日,人工智能研究公司 Anthropic 发布了一项震惊业界的研究,揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。以往,大家普遍认为,攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功,但该研究颠覆了这一观念。实际上,只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。

研究团队与英国人工智能安全研究所及艾伦 图灵研究所合作,进行了迄今为止规模最大的投毒攻击模拟。他们采用了一种名为 “拒绝服务” 的后门攻击方式。攻击的核心在于,当模型接收到特定的触发短语时,便会陷入混乱,输出一堆无意义的随机文本。这一过程的细节相当严谨:首先,团队从正常文档中随机提取一段开头,然后加入触发词,最后再加上一段随机生成的乱码。这种 “伪装” 让毒文档在正常数据中难以察觉。

实验中,研究人员使用了不同参数规模的四种模型(600M、2B、7B 和 13B),每种模型都经过相同的训练标准。实验结果显示,模型的大小对投毒的成功率几乎没有影响。无论是 250 份还是 500 份投毒文档,所有模型的反应都几乎一致。尤其令人震惊的是,250 份投毒文档仅占模型总训练数据的微不足道的 0.00016%,却能成功污染整个模型。

研究表明,只要模型 “见过” 250 份投毒文档,攻击效果便会迅速显现。这一发现不仅让人对 AI 安全产生担忧,也促使各界重新审视数据源的审查机制。为了应对这一威胁,专家建议加强对训练数据的监控与审查,同时开发自动检测 “投毒文档” 的技术。

尽管该研究揭示了数据投毒的可行性,但研究者也指出,这一发现是否适用于更大规模的模型(如 GPT-5 等)尚待验证。此外,攻击者在实施攻击时也面临着确保 “毒药” 被选中的不确定性。因此,这项研究无疑为 AI 安全敲响了警钟,促使行业加紧行动,增强防护措施。

加载中...