新浪科技 股票

清华、无问芯穹发布多智能体WideSeek-R1,4B模型比肩671B模型!

市场资讯 03.27 14:30

(来源:机器之心Pro)

DeepSeek-R1 的成功证明了「深度扩展(Depth Scaling)」在解决复杂逻辑推理上的巨大潜力。AI 社区开始思考另一个维度的可能性:当任务不仅需要深度的推理,更需要极宽广度的信息搜集时,单一的大模型还是最优解吗?

设想这样一个场景:你需要整理 “2025 年全球前 50 大科技公司的营收、净利润及研发投入对比表”。这是一个典型的广度信息搜索任务。对于单个大模型而言,哪怕它是拥有 671B 参数的超大模型,面对这种需要数十次检索,往往会陷入上下文信息干扰和串行效率低的问题,而显得力不从心。

近日,来自清华大学与无问芯穹的 RLinf 团队提出了一种全新的互补维度 ——「广度扩展(Width Scaling)」,并以此发布了多智能体系统WideSeek-R1。不同于以往依赖人工设计工作流的多智能体系统,该工作采用了一种「Lead-agent-Subagent」的分层多智能体框架 ,并通过多智能体强化学习(MARL)进行端到端训练,展现出灵活的规模化调度高效的并发处理能力。

实验结果显示,4B 参数的 WideSeek-R1 在广度搜索任务上的表现达到了40%的 Item F1指标,不仅看齐 671B 参数的 DeepSeek-R1 单智能体,更大幅超越了同参数规模的基线模型。

1. 只有「深度」还不够,

搜索需要「广度」

过去一年,大模型的进步主要集中在深度扩展上。像 OpenAI o1 或 DeepSeek-R1 这样的模型,通过增加推理步数来解决复杂难题。

然而,随着任务广度的增加,瓶颈从 “个体能力” 转移到了 “组织能力”。

在广度信息搜索任务中,单智能体面临两大痛点:

1.上下文干扰:随着检索信息的堆积,无关信息会干扰模型对后续子任务的判断。

2.串行效率低:依次处理数十个独立的子任务不仅慢,而且容易因序列过长而遗忘有用信息,导致任务失败。

对此,WideSeek-R1 给出的答案是:用多智能体系统 + MARL 实现广度扩展。

当传统的深度扩展(蓝色曲线)依赖单智能体多轮串行推理而逐渐遭遇性能瓶颈时,广度扩展(粉色曲线)通过增加智能体个数,通过多智能体并行执行开辟了新的增长路径;而我们提出的WideSeek-R1(红色星号),通过多智能体强化学习(MARL)进一步实现了调度与执行的协同优化,证明了在广度信息搜索任务中,协同的 “宽度” 扩展能带来比 “深度” 更显著的性能飞跃。

2. WideSeek-R1:采用端到端 MARL

训练 “编排” 和 “执行” 能力

现有的多智能体系统大多依赖手动设计的工作流(Hand-crafted workflows)或简单的轮流对话,难以实现真正的并行高效协作。

WideSeek-R1 引入了一个「Lead-agent-Subagent」的层级框架,并用多智能体强化学习(MARL)端到端训练:

为了训练这个系统,研究团队在 GRPO 算法基础上,针对多智能体、多回合场景进行了两项关键改进:

3. 构造广度信息搜索任务训练数据:

弥补开源社区领域空白

当前开源数据集通常关注深度搜索任务,尽管已有一些广度搜索训练集,但是数据量较小,无法满足大规模 RL 训练。研究团队填补了社区空白,开发了一套全自动的数据构建流水线,基于 HybridQA 数据集,合成了20,000 条高质量的广度信息搜索任务

这一流水线包含三个阶段 :

1.问题生成:提取用户意图并转化为具有特定约束的广度信息搜索问题;

2.答案生成:利用 Gemini-3-Pro 独立生成两个答案及唯一标识列;

3.QA 对过滤:通过对两个答案的一致性校验和难度过滤,得到最终高质量数据集。

4. 实验结果

(1) 多智能体 4B 模型在 WideSearch 上追平单智能体 671B 模型

表1: WideSearch 主实验结果

研究团队在公开的广度信息搜索测评任务 WideSearch 上,对现有单智能体、多智能体 baseline 进行测试,实验数据显示,WideSeek-R1-4B 取得了 40.0% 的 Item F1 分数

(2) 验证「广度扩展」定律

文章最核心的发现之一在于 Scaling 行为的对比:

(3) 在标准 QA 上保持性能

表2: 在传统单跳与多跳QA任务上的实验结果

在 NQ、HotpotQA 等 7 个标准问答数据集上,WideSeek-R1-4B 同样表现出色,平均分达到 59.0%,优于部分 7B/8B 的多智能体基线(如 AgentFlow, OWL 等),证明了模型并未因专注于广度搜索而牺牲通用搜索能力。

(4) 消融实验

左图:我们发现只有当 Lead-agent 和 Subagent 同时使用 WideSeek-R1-4B 时才能达到最佳性能,这验证了端到端多智能体强化学习训练的重要性。

右图:在相同数据集规模的前提下,在混合数据集(广度 + 深度)上训练的模型表现始终优于仅在单一类型数据集上训练的模型,表明广度数据与深度数据提供了互补的增益。

5. 算法背后的工程哲学:

RLinf 的关键支撑

WideSeek-R1 传达的核心结论是:在广度信息搜索场景里,Width Scaling + MARL确实能带来进一步收益。这一结论除了需要“算法层面”的创新,更需要“系统层面”的强力支撑。例如:多智能体的调度、多工具的统一接入与管理、多会话的调度与隔离、动态会话与长尾问题的缓解,以及训练与推理间的高效切换与资源分配等。

为应对上述系统挑战,团队将自研单智能体强化学习框架 RLinf 进一步扩展至多智能体强化学习场景。系统结构如图6所示,包含三个粒度:MARL 逻辑流、 Agent 工作流、以及工具库、推理库、训练库等服务化组件。 MARL 逻辑流包含 Rollout 、训练与权重同步,由 RLinf Runner 实现。相较单智能体,多智能体强化学习的复杂逻辑主要体现在 Rollout 部分, RLinf 新增 AgentLoop 模块负责执行多智能体核心推理逻辑,即各智能体基于大模型进行交替的推理与工具调用。最细粒度的服务组件均继承自 RLinf Worker ,从而可以灵活调用 RLinf 提供的通信接口,极大降低了开发复杂度。在多智能体场景中,如 lead-agent 与多个 Subagent ,可通过多个 SGLang 实例进行推理,仅需简单配置即可拉起整套多组件交互流程。

在训练效率方面,框架引入了多项优化:

系统性能效果:WideSeek-R1通过广度拓展有效拓展信息获取的范围,而广度的拓展是通过更多的并行subagents完成的。从下图实验数据可见,通过高效的系统实现与并发优化,拓展一倍的subagents的数量并没有带来明显的eval时间的增加,充分说明系统在scaling上的有效性。

6. 结语

WideSeek-R1 表明搜索不仅要Deep,还要Wide,同时也表明新一代科研的形态需要“算法创新 + 系统支撑”双管齐下。

加载中...