清华、无问芯穹发布多智能体WideSeek-R1，4B模型比肩671B模型！

市场资讯 03.27 14:30

（来源：机器之心Pro）

DeepSeek-R1 的成功证明了「深度扩展（Depth Scaling）」在解决复杂逻辑推理上的巨大潜力。AI 社区开始思考另一个维度的可能性：当任务不仅需要深度的推理，更需要极宽广度的信息搜集时，单一的大模型还是最优解吗？

设想这样一个场景：你需要整理 “2025 年全球前 50 大科技公司的营收、净利润及研发投入对比表”。这是一个典型的广度信息搜索任务。对于单个大模型而言，哪怕它是拥有 671B 参数的超大模型，面对这种需要数十次检索，往往会陷入上下文信息干扰和串行效率低的问题，而显得力不从心。

近日，来自清华大学与无问芯穹的 RLinf 团队提出了一种全新的互补维度 ——「广度扩展（Width Scaling）」，并以此发布了多智能体系统WideSeek-R1。不同于以往依赖人工设计工作流的多智能体系统，该工作采用了一种「Lead-agent-Subagent」的分层多智能体框架，并通过多智能体强化学习（MARL）进行端到端训练，展现出灵活的规模化调度与高效的并发处理能力。

实验结果显示，4B 参数的 WideSeek-R1 在广度搜索任务上的表现达到了40%的 Item F1指标，不仅看齐 671B 参数的 DeepSeek-R1 单智能体，更大幅超越了同参数规模的基线模型。

1. 只有「深度」还不够，

搜索需要「广度」

过去一年，大模型的进步主要集中在深度扩展上。像 OpenAI o1 或 DeepSeek-R1 这样的模型，通过增加推理步数来解决复杂难题。

然而，随着任务广度的增加，瓶颈从 “个体能力” 转移到了 “组织能力”。

在广度信息搜索任务中，单智能体面临两大痛点：

1.上下文干扰：随着检索信息的堆积，无关信息会干扰模型对后续子任务的判断。

2.串行效率低：依次处理数十个独立的子任务不仅慢，而且容易因序列过长而遗忘有用信息，导致任务失败。

对此，WideSeek-R1 给出的答案是：用多智能体系统 + MARL 实现广度扩展。

当传统的深度扩展（蓝色曲线）依赖单智能体多轮串行推理而逐渐遭遇性能瓶颈时，广度扩展（粉色曲线）通过增加智能体个数，通过多智能体并行执行开辟了新的增长路径；而我们提出的WideSeek-R1（红色星号），通过多智能体强化学习（MARL）进一步实现了调度与执行的协同优化，证明了在广度信息搜索任务中，协同的 “宽度” 扩展能带来比 “深度” 更显著的性能飞跃。

2. WideSeek-R1：采用端到端 MARL

训练 “编排” 和 “执行” 能力

现有的多智能体系统大多依赖手动设计的工作流（Hand-crafted workflows）或简单的轮流对话，难以实现真正的并行高效协作。

WideSeek-R1 引入了一个「Lead-agent-Subagent」的层级框架，并用多智能体强化学习（MARL）端到端训练：

为了训练这个系统，研究团队在 GRPO 算法基础上，针对多智能体、多回合场景进行了两项关键改进：

3. 构造广度信息搜索任务训练数据：

弥补开源社区领域空白

当前开源数据集通常关注深度搜索任务，尽管已有一些广度搜索训练集，但是数据量较小，无法满足大规模 RL 训练。研究团队填补了社区空白，开发了一套全自动的数据构建流水线，基于 HybridQA 数据集，合成了20,000 条高质量的广度信息搜索任务。

这一流水线包含三个阶段：

1.问题生成：提取用户意图并转化为具有特定约束的广度信息搜索问题；

2.答案生成：利用 Gemini-3-Pro 独立生成两个答案及唯一标识列；

3.QA 对过滤：通过对两个答案的一致性校验和难度过滤，得到最终高质量数据集。

4. 实验结果

(1) 多智能体 4B 模型在 WideSearch 上追平单智能体 671B 模型

表1: WideSearch 主实验结果

研究团队在公开的广度信息搜索测评任务 WideSearch 上，对现有单智能体、多智能体 baseline 进行测试，实验数据显示，WideSeek-R1-4B 取得了 40.0% 的 Item F1 分数：

(2) 验证「广度扩展」定律

文章最核心的发现之一在于 Scaling 行为的对比：

(3) 在标准 QA 上保持性能

表2: 在传统单跳与多跳QA任务上的实验结果

在 NQ、HotpotQA 等 7 个标准问答数据集上，WideSeek-R1-4B 同样表现出色，平均分达到 59.0%，优于部分 7B/8B 的多智能体基线（如 AgentFlow, OWL 等），证明了模型并未因专注于广度搜索而牺牲通用搜索能力。

(4) 消融实验

左图：我们发现只有当 Lead-agent 和 Subagent 同时使用 WideSeek-R1-4B 时才能达到最佳性能，这验证了端到端多智能体强化学习训练的重要性。

右图：在相同数据集规模的前提下，在混合数据集（广度 + 深度）上训练的模型表现始终优于仅在单一类型数据集上训练的模型，表明广度数据与深度数据提供了互补的增益。

5. 算法背后的工程哲学：

RLinf 的关键支撑

WideSeek-R1 传达的核心结论是：在广度信息搜索场景里，Width Scaling + MARL确实能带来进一步收益。这一结论除了需要“算法层面”的创新，更需要“系统层面”的强力支撑。例如：多智能体的调度、多工具的统一接入与管理、多会话的调度与隔离、动态会话与长尾问题的缓解，以及训练与推理间的高效切换与资源分配等。

为应对上述系统挑战，团队将自研单智能体强化学习框架 RLinf 进一步扩展至多智能体强化学习场景。系统结构如图6所示，包含三个粒度：MARL 逻辑流、 Agent 工作流、以及工具库、推理库、训练库等服务化组件。 MARL 逻辑流包含 Rollout 、训练与权重同步，由 RLinf Runner 实现。相较单智能体，多智能体强化学习的复杂逻辑主要体现在 Rollout 部分， RLinf 新增 AgentLoop 模块负责执行多智能体核心推理逻辑，即各智能体基于大模型进行交替的推理与工具调用。最细粒度的服务组件均继承自 RLinf Worker ，从而可以灵活调用 RLinf 提供的通信接口，极大降低了开发复杂度。在多智能体场景中，如 lead-agent 与多个 Subagent ，可通过多个 SGLang 实例进行推理，仅需简单配置即可拉起整套多组件交互流程。

在训练效率方面，框架引入了多项优化：

系统性能效果：WideSeek-R1通过广度拓展有效拓展信息获取的范围，而广度的拓展是通过更多的并行subagents完成的。从下图实验数据可见，通过高效的系统实现与并发优化，拓展一倍的subagents的数量并没有带来明显的eval时间的增加，充分说明系统在scaling上的有效性。

6. 结语

WideSeek-R1 表明搜索不仅要Deep，还要Wide，同时也表明新一代科研的形态需要“算法创新 + 系统支撑”双管齐下。

新浪科技股票

清华、无问芯穹发布多智能体WideSeek-R1，4B模型比肩671B模型！

图1：深度扩展与广度扩展的对比

图2：WideSeek-R1 推理与训练流程概述

图3: 三阶段自动化数据构建流程概述

图4: 面向测试时计算资源的深度与广度扩展性能对比

图5: 智能体模型的消融实验（左图），训练数据的消融实验（右图）

图6: RLinf 多智能体强化学习训练架构图

图7: Agent scaling性能对比