ICLR 2026 | 上海交大提出结构化上下文环境框架,打破RL环境扩展瓶颈,激活LLM通用推理泛化
机器之心Pro
在大模型的后训练(Post-training)阶段,如何通过强化学习(RL)进一步激发模型的推理能力,已成为当前学术界和工业界关注的焦点。然而,这一路径目前面临着核心矛盾:模型推理能力的上限往往取决于训练环境的质量,但构建既具备严谨验证机制又拥有大规模扩展性的推理环境正变得日益昂贵且困难。现有的解决方案要么依赖昂贵的专家标注(如数学题),但环境的规模难以低成本扩展;要么局限于特定的模拟环境(如游戏),但从中学到的技能难以泛化。
针对这一难点,上海交通大学的研究团队提出了一种创新性的研究方案 —— 结构化上下文环境(Structured In-context Environment,SIE)。该研究通过挖掘海量存在的结构化数据,自动化构建了具备天然验证属性的 RL 训练场。实验结果揭示了一个有趣的现象:大模型通过在知识图谱等结构化环境中的探索与试错,不仅掌握了复杂的多跳推理策略,而且能够直接泛化到数学解题和逻辑谜题等完全不同的通用推理领域。这项工作为低成本可扩展地提升大模型的通用推理能力开辟了一条无需依赖昂贵人工标注的新路径。该工作已被机器学习顶级会议 ICLR 2026 接收。
论文标题:Learning to Reason in Structured In-context Environments with Reinforcement Learning
论文链接:https://arxiv.org/pdf/2509.23330
Github 开源代码链接:https://github.com/PursuitYP/SIE_ICLR
研究背景
随着以 DeepSeek-R1 为代表的推理模型展现出强大的慢思考能力,学术界愈发确信强化学习是后训练阶段不可或缺的一环。这一机制通过环境反馈,使得模型能够学会自我反思、回溯和思维链等关键策略。然而,环境的内在属性直接决定了模型能被塑造出何种能力。一个理想的大模型推理环境应当同时满足三个重要的条件:可扩展性(Scalability),即能够低成本地从海量数据源中自动化构建;可泛化推理(Generalizable Reasoning),即环境中学到的认知模式能有效迁移至通用领域;可验证性(Verifiability),即环境具备客观、清晰的判别规则来反馈正误。
现有的主流 RL 环境往往深陷于这三个条件的取舍之中。第一类是内化规则环境,以数学和代码生成为代表。这类环境虽然对逻辑要求严谨,但其构建高度依赖昂贵且缓慢的人工专家标注,极大地限制了数据的规模化扩展。第二类是外化规则环境,例如各类游戏引擎或特定的任务模拟器。这类环境虽然规则明确且易于生成数据,但模型在其中学到的往往是针对特定任务的规划能力,这种特化技能极难迁移到通用的推理任务中。
现有的 RL 训练环境很难同时满足这三点,上海交大团队将目光投向了结构化数据。结构化数据(如知识图谱)拥有预定义的模式和明确的约束,能够支持清晰的检索和溯源。利用结构化数据构建环境具有天然优势:其丰富性保证了环境构建的可扩展性;其蕴含的多跳路径对应着复杂的推理过程,有助于培养通用的组合推理能力;其显式的约束机制则为基于规则的奖励验证提供了基础。因此,从结构化数据中构建高质量的 RL 训练环境,是平衡扩展性与泛化性的有效途径。
方法细节
SIE 框架的核心在于如何将静态的数据转化为动态的、具有挑战性的推理环境。研究团队设计了一套精密的自动化流水线,将环境动态编码为结构化上下文,并作为软约束置入提示词中。模型的思维过程被建模为在这一上下文中的隐式动作序列,其最终输出直接用于计算环境奖励信号。为了验证这一框架,团队基于 Freebase 知识图谱构建了 RL 训练环境,其过程包含四个关键步骤。
首先是种子子图检索与支撑子图提取。为了确保结构化环境包含解决问题所需的必要信息,系统针对给定的问答对,从问题实体和答案实体出发进行双向多跳检索。随后,利用最短路径算法提取出连接起点与终点的所有有效路径,构成支撑子图。这一过程保证了推理链条的完整性,为模型提供了可供探索的事实支撑子图。
其次是关键的干扰子图过滤设计。为了模拟真实世界中充斥的噪音与混淆信息,研究团队并未简单地呈现正确答案,而是保留了大量干扰项。为了防止模型仅靠简单的关键词匹配走捷径,团队引入了基于交叉编码器的语义重排序策略,专门筛选那些与问题语义高度相关但实际上是错误路径的高难度干扰项。这种设计极大地提升了环境的挑战性,迫使模型必须进行深度的逻辑推理。
最后是部分可观测性(Partial Observability)的引入。为了进一步激发模型的推理潜能,迫使模型进行深度推理而非简单的记忆匹配,研究团队构建了一系列信息密度递减的部分 SIE(Partial SIEs)。通过人为控制支撑子图的保留比例(如 100%、75%、50%、25% 甚至 0%),模型被置于信息缺失的困境中。在 RL 微调阶段,团队使用了 GRPO 算法,并引入了答案奖励与格式奖励的双重机制,模型必须学会在信息不足时利用干扰项作为负向约束,并调动内部知识进行验证与推理,从而真正掌握结构化的多跳组合推理。
实验结果
研究团队在 Qwen 和 Llama 系列模型上进行了广泛的实验,从多个维度充分验证了 SIE 框架的有效性。
1. 结构化推理能力的有效提升
实验首先验证了 SIE 框架在领域内结构化推理任务上的表现。在 WebQSP、CWQ 和 GrailQA 等数据集上,相较于没有结构化上下文的 RL 基线,SIE 框架带来了巨大的性能飞跃。例如,在 WebQSP 任务上,引入 SIE 后模型性能平均提升了 30% 以上。这一结果表明,通过在结构化环境中进行探索式学习,模型处理复杂关联信息和多跳组合推理的能力得到了有效的提升。
2. 超越传统监督微调的高效性
研究进一步对比了 RL 微调与基于结构化推理数据(SRD)的监督微调(SFT)。虽然 SFT 通过模仿高质量推理轨迹能带来一定提升,但实验数据显示,RL w/ SIE 的提升幅度远超 SFT。RL 微调带来的平均增益约为 53.7%,而 SFT 仅为 11.4% 左右。这一显著差异揭示了 RL 微调的独特价值:通过在环境中自主试错和探索所学到的策略,比单纯模仿 SFT 数据的表面形式更为深刻和高效,模型真正学会了如何思考而不仅仅是如何回答。
3. 强大的通用推理泛化能力
这部分是该研究最核心的发现之一。在基于知识图谱构建的结构化环境中训练出的模型,其推理能力能成功迁移到数学和逻辑等领域外任务。在 GSM8K/MATH500(数学推理)以及 Knights & Knaves(逻辑谜题)测试中,经过 SIE 训练的模型均表现出优异的泛化性能。例如,经过结构化 RL 训练,Qwen2.5-7B-Instruct 在 GSM8K 上的准确率从 29.2% 提升至 87.4%。这有力地证明了 SIE 框架培养的是一种通用的、底层的组合推理技能,而非特定领域的过拟合能力,打破了以往认为结构化推理无法迁移到通用推理的印象。
4. 在信息受限环境下的鲁棒性
通过在难度递增的一系列 “部分 SIE” 中进行评估,研究发现即便在信息极度缺失的情况下(如 SIE-0%,即仅保留干扰项),RL 微调依然能带来稳定的一致的性能提升。定性分析表明,随着环境难度的增加,模型并未崩溃,而是发生了一种认知范式的转变:在信息不足时,RL 教会了模型利用干扰项作为负向约束,并主动调用内部参数化知识进行深度推理,从而实现了从浅层记忆检索向深层组合推理的范式转变。
总结展望
上海交通大学提出的 SIE 框架,通过挖掘结构化数据的巨大潜力,成功构建了兼具扩展性与泛化性的 RL 推理环境。该研究不仅在技术上证明了低成本自动化流水线构建环境的可行性,更在实验上证实了通过结构化探索学到的推理范式具有强大的通用性。这种让模型在缺失信息和干扰信息中探索环境的过程,有效地将外部结构化知识内化为模型自身的推理参数。SIE 框架的提出,为大模型推理能力的后训练提供了一条无需依赖昂贵人工标注的新路径,也向着利用全球海量结构化数据实现通用人工智能迈出了坚实的一步。
作者简介
一作:余鹏,上海交通大学博士生,主要研究方向为强化学习和大模型结构化推理,曾在 ICLR、ICASSP、TKDD、FCS 等学术会议或期刊上发表文章。
通讯作者:温颖,上海交通大学人工智能学院副教授。他的研究方向涉及多智能体学习,强化学习及决策大模型。他在多智能体强化学习领域产出了具有代表性的成果,发表在 ICML、NeurIPS、JMLR 等人工智能一流国际会议或期刊上。代表工作曾获得 CoRL 2020 最佳系统论文奖,AAMAS 2021 Blue Sky Track 最佳论文奖。