MIT的工程师，是如何让AI大脑"中间瘦两头胖"反而更聪明的？

市场资讯 06.19 22:21

（来源：科技行者）

这项由麻省理工学院（MIT）与MIT-IBM沃森人工智能实验室联合开展的研究，于2026年6月16日以预印本形式发布，论文编号为arXiv:2606.18246。研究团队提出了一种名为"＞＜former"（发音类似"大于小于former"，因其形状像两个尖括号拼在一起）的全新神经网络架构，向业界长期默认的"每层宽度一致"设计惯例发起了挑战。

如果你曾经好奇过，为什么现在的AI助手越来越能干，背后往往需要消耗海量的电力和昂贵的计算资源，那么这项研究正是在努力解答"有没有更省力的方式让AI变聪明"这个问题。

一、每层都一样宽，真的是最好的安排吗？

建造一栋楼，设计师需要决定每层楼的大小。传统做法是每层面积完全一样，整齐划一，施工方便。但假如一栋楼的中间几层只是用来存放不常用的杂物，而底层要接待大量访客、顶层要举办重要会议，那么把每一层都造得一样大，是不是有点浪费？

今天的大型语言模型——也就是驱动ChatGPT、各类AI写作助手等工具的核心技术——内部结构正是如此。一个典型的语言模型由许多"变换器层"（transformer layer）堆叠而成，每一层都负责对输入的文字信息做一轮处理和加工。而绝大多数模型的每一层宽度都是完全相同的，这里的"宽度"指的是每一层内部能同时处理多少个数字维度，类似于一条流水线有多少条并行轨道。

长期以来，研究者们花了大量精力研究模型该建多少层（深度）、每层该有多宽（宽度），但几乎所有人都默认：一旦确定了宽度，就把这个宽度用在每一层上。MIT的这支团队偏偏要问一句：不同的层是否真的需要相同的处理能力？如果某些层的任务比较轻，某些层的任务比较重，那么根据任务量灵活分配资源，是不是会更高效？

带着这个问题，研究团队开始了系统性的实验探索。

二、四种体型，哪种最好？

研究团队把"宽度随深度变化"的模型形状分成了四种，就像四种不同体型的沙漏或纺锤。

第一种是"∨形"，也就是越往后越宽——就像一个正三角形，底部的早期层很窄，越到后面越宽阔。第二种是"∧形"，与之相反，越往后越窄，像个倒三角形。第三种是"◇形"，中间宽、两头窄，像个菱形，中间层获得最多资源。第四种则是"×形"，两头宽、中间窄，像个蝴蝶结或沙漏，早期层和晚期层都很宽，而中间层是最窄的瓶颈。

这四种体型对应着完全不同的计算资源分配哲学。◇形的直觉来自一个常见认知：语言模型的中间层负责处理最复杂的语义推理，理应获得更多资源。而×形则反其道而行之，把资源集中给"进门"和"出门"的那两端，把中间掐细。

团队在5亿参数规模的模型上对这四种形状进行了系统比较，每种形状还额外尝试了多种不同的收缩和扩张比例，一共做了几十组对照实验。结果出人意料：×形模型在语言建模损失（衡量模型预测文字能力的核心指标，数值越低越好）上始终优于其他所有形状，包括传统的均匀宽度模型。

这个发现让团队自己也有些意外，因为他们最初的直觉是◇形应该表现更好。但数据不会说谎，×形胜出，于是这种架构被命名为"＞＜former"。

三、中间掐细，怎么让信息顺利流通？

现在来解决一个工程难题。不同宽度的层之间，信息是怎么传递的？

在标准变换器中，每一层处理完信息后，会把结果加回到一条贯穿全模型的"信息高速公路"上——专业上叫做残差流（residual stream）。这条高速公路的宽度是固定的，所有层共用。如果某一层突然变窄了，相当于高速公路突然缩成了一条小路，信息挤不过去，就会丢失，这显然不行。

常规的解决办法是在宽度变化处加一个"转换接口"——也就是用一个可训练的参数矩阵把宽向量压缩成窄向量，或者把窄向量扩展成宽向量。但这样做会增加额外的参数量，破坏了"等参数量比较"的前提，而且训练一个投影矩阵有时反而会引入不稳定性，结果更差。

MIT团队采用了一种极其简洁的"无参数"方案。当信息从宽层流向窄层时，直接截断——把多余的维度暂时搁置一旁，只保留前面的部分维度继续处理。当信息从窄层流向宽层时，把那些被搁置的维度"原样找回来"——具体来说，找最近一次处理过这些维度的那一层，把它的结果复制过来，拼回到高速公路上。

打个比方，这就像一个快递分拣中心。一个大包裹（宽维度信息）进来，中间的分拣站只能处理一部分货物，就先把剩余的货物原样存放在旁边的仓库里。等货物到了后端更宽的处理站，再把仓库里的货物取出来，和已处理的货物合并，继续向前发送。整个过程不需要雇佣额外的工人（不引入新参数），只是合理地调度了仓库空间。

实验对比了三种方案：直接复制（即上述的"找回"方案）、补零（空出来的维度填0）、以及训练一个投影层。结果显示，直接复制的方案效果最好，补零次之，训练投影层反而最差，甚至比均匀宽度的基线模型还差。这证明了简单而优雅的方案往往出奇制胜。

四、瓶颈放在哪里，捏多深？

确定了×形是最优形状之后，下一个问题是：瓶颈（最窄处）应该放在模型深度的哪个位置，以及应该窄到什么程度？

研究团队用两个比例参数来描述这件事：一是"瓶颈位置比例"，也就是最窄的那层在全部层数中的位置，比如0.5就是正中间，0.75就是偏靠后四分之三处；二是"瓶颈宽度比例"，也就是最窄处的宽度是标准宽度的几分之几，比如0.3就是只有原来的30%。

团队在2亿、5亿、10亿参数三种规模的模型上系统扫描了这两个参数的不同组合，每个组合都完整训练一遍并记录损失。结果发现，用比例而非绝对数值来描述这两个超参数时，不同规模的模型呈现出相当一致的规律——同样的比例在不同规模模型上都能带来类似的性能改善趋势。这非常重要，因为这意味着研究者不必在每个新的模型规模上重新从零搜索这两个参数，可以直接沿用比例配方。

基于这些扫描实验，团队确定了一个默认配方：瓶颈位置设在全部层数的75%处（即靠近后三分之三），瓶颈宽度设为标准宽度的30%。这个配方在多个规模上都能稳定带来性能提升，因此被作为后续所有正式实验的统一设置。

五、正式比拼：从2亿到30亿参数，全面胜出

有了确定的架构设计和超参数配方，研究团队开始了大规模的正式训练和比较实验。

实验覆盖了四种密集模型规模：2亿、5亿、10亿和20亿参数。每种规模都同时训练一个标准的均匀宽度变换器和一个等参数量的＞＜former。训练数据使用了DCLM这个高质量的大规模文本语料库，每个模型的训练量约为其参数量的50倍（例如20亿参数模型训练1000亿个词元），这大约是业界"算力最优"训练量的2.5倍。所有模型都使用完全相同的训练超参数，采用μP（最大更新参数化）框架确保不同规模间的公平比较。

结果在每一个规模上都指向同一个方向：＞＜former的语言建模损失均低于等参数量的均匀基线，而且所消耗的训练计算量（FLOPs）和KV缓存（推理时需要存储的中间状态，直接影响内存占用和速度）都更少。

具体来看，以20亿参数规模为例，标准变换器的损失为2.751，而＞＜former的损失为2.726，相当于以相同参数量获得了约1%的绝对损失改善，换算成相对困惑度（perplexity，越低代表模型越"聪明"）下降了约3.5%。与此同时，＞＜former的平均层宽度比基线缩减了10.9%，这意味着推理时KV缓存的内存需求减少了约11%，训练计算量减少了约2.5%。

为什么参数量相同，计算量反而更少？这里有一个数学上的巧妙之处。模型参数量主要来自各层的矩阵乘法运算，参数量与层宽度的平方成正比；而计算量（尤其是注意力机制部分）则与层宽度的一次方成正比。当×形模型把总参数量分配到两头宽、中间窄的层时，为了匹配均匀模型的总参数量，两端的层需要更宽，中间的层更窄。由于宽度的平方均值等于均匀模型，但宽度的一次方均值必然小于均匀模型（这是一个纯粹的数学不等式：均方根总是大于等于算术平均值），所以在参数量打平的情况下，×形模型的平均层宽度更低，注意力计算量因此更少。这种"免费午餐"来自纯粹的数学结构，不需要任何额外的工程技巧。

团队还把结果拟合成了"规模定律"曲线——这是AI领域一种用来预测"更大的模型表现更好"的幂律关系。拟合结果显示，＞＜former的曲线不仅截距更低（同等计算量出发点就更好），而且斜率也略陡（随着规模增大，改善幅度可能还会继续扩大）。这暗示在更大规模的模型上，这种架构的优势可能会进一步凸显。

此外，研究团队还在混合专家模型（MoE，一种更高效的大模型架构，只激活部分参数来处理每个输入）上做了实验，以30亿总参数（10亿活跃参数）的规模验证了相同的结论：＞＜former的损失（2.710）低于均匀基线（2.726），且计算量减少了约4.6%。

六、不只是损失数字：下游任务的真实表现

损失数字虽然直观，但AI模型最终要服务于具体的应用任务。研究团队在一套覆盖11个标准测试集的综合评测中比较了20亿参数的两种模型和MoE模型。

这套测试涵盖了常识推理（比如"苹果是什么颜色"、"如果下雨了地会不会湿"这类问题）、阅读理解、科学问答、是否判断、故事续写等多个维度，同时还包含两项基于困惑度的测试（WikiText语言建模和LAMBADA长文本预测）。

在困惑度类任务上，＞＜former在两个模型规模上都明显优于对应的均匀基线。在精度类任务（需要从多个选项中选出正确答案）上，20亿参数的＞＜former在11个任务中赢得了多数，平均准确率为57.2%，而均匀基线为56.1%。MoE版本的结果略有混合，但两项困惑度指标均有改善。

研究团队指出，在当前模型规模下，困惑度是衡量语言模型质量的更可靠指标，而精度类任务的结果受随机性影响较大，因此整体结论仍然支持＞＜former的优越性。

七、为什么更好？打开模型内部看个究竟

胜出是事实，但"为什么"才是科学的灵魂。研究团队通过三种不同的分析方法，试图理解＞＜former内部究竟发生了什么不同的事情。

第一种分析关注MLP层的激活利用率。变换器中的MLP（多层感知机）子层可以被类比为一个拥有大量"专家"的委员会，每个专家负责识别输入中的某种模式。每个专家是否被"激活"取决于当前输入是否与其专长匹配，激活的专家越多、越均匀，代表委员会的工作效率越高。研究团队测量了每个"专家维度"被激活的频率，结果显示均匀模型中大量维度几乎从不被激活（相当于常年请假的委员会成员），而＞＜former的各个维度使用频率则要均匀得多——尤其是在中间层，均匀模型的"有效工作维度"占比在第10层附近就崩塌到不足5%，而＞＜former则维持了相当数量的有效维度。

第二种分析关注残差流的表征熵。这个指标衡量的是模型在每一层的"信息多样性"——如果某一层的内部表征退化成了一个极其单调、低秩的状态（好比一首歌被压缩成只剩一个音调），那么这一层实际上没有在做有意义的计算。已有研究发现，标准变换器在中间层普遍存在这种"表征崩塌谷"现象，即熵在中间层急剧下降。研究团队用归一化矩阵熵来追踪这一现象，结果发现均匀基线模型的熵在中间层确实几乎降为零，而＞＜former则截然不同：它在早期层主动降低熵（为即将到来的瓶颈做准备，把信息压缩进更少的维度），但在中间层和后期层保持了相当高的熵，显示出更丰富的表征多样性。

第三种分析使用"逻辑镜头"（logit lens）技术，直接观察模型在每一层预测下一个词的概率分布。研究团队发现，＞＜former从模型较早的层次起就给正确词语赋予了更高的概率，而且相邻层之间的预测分布变化更平滑（层间KL散度更低），直到最后几层才迅速聚焦到目标词上。这表明＞＜former从一开始就在更高效地积累正确预测所需的信息，而不是拖到最后几层才匆忙完成工作。

这三条证据合在一起，描绘出一幅连贯的图景：×形的瓶颈结构迫使模型更经济地使用每一个计算单元，就像资源紧张反而逼出了更高的工作效率，使得中间层不再浑水摸鱼，而是真正承担起有效的计算任务。

八、局限性与未来展望

任何新架构都不可能是无懈可击的，研究团队也坦诚地列出了主要的工程挑战。

目前AI训练的硬件和软件基础设施高度优化于均匀宽度的模型：GPU的内存分配、矩阵运算的并行策略、流水线并行和张量并行等分布式训练技术，全部都是针对"每层一样宽"这个假设设计的。＞＜former的不同层有不同的宽度，这意味着需要为每种宽度单独开发和优化计算内核（kernel），还需要处理全局残差流的切片、复制、拼接等额外操作。这些操作在现有框架下会产生一定的额外开销，抵消了部分理论上的计算节省。

然而，研究团队强调，这是一个工程实现问题，而非算法本身的问题。＞＜former的核心计算依然是矩阵乘法，本质上与标准变换器一样适合在现有硬件上高效执行。一旦有人专门为可变宽度架构开发优化内核，理论上的效率优势就能完全兑现为实际加速。在AI基础设施快速发展的今天，这个差距有望在未来几年内逐步弥合。

说到底，这项研究传达了一个简单却有些反直觉的信息：并非所有的"层"生来平等，给它们不同的资源，反而能让整体更高效。就好像一支球队，与其让每个位置的球员拥有完全一样的体能，不如根据不同位置的需求做针对性的训练，最终整支队伍的表现反而更好。

对于普通用户来说，这项研究意味着未来的AI助手有望在消耗更少电力和内存的情况下达到同样甚至更好的智能水平。对于关注AI成本的组织机构，这意味着同样的硬件预算可以支撑更强大的模型或服务更多用户。当然，这些都需要等待工程实现的成熟才能真正落地。

如果你对这项研究的技术细节感兴趣，想深入了解几何宽度调度的推导过程、不同任务上的完整评测数据，或者能量参与比等分析指标的具体算法，可以通过arXiv编号2606.18246检索原论文全文，里面有完整的数学推导和实验细节。

Q&A

Q1：变换器（transformer）每层宽度不同，信息传递不会出问题吗？

A：研究团队设计了一种无需额外参数的"搬运"方案。宽层变窄时，多余的维度暂时搁置；窄层变宽时，从最近处理过这些维度的层直接复制其数值。实验证明这种简单的复制方案比训练额外的压缩矩阵效果更好，既不增加参数量，也不会造成信息丢失。

Q2：＞＜former的KV缓存为什么比标准变换器更小？

A：KV缓存的大小与每一层的宽度成正比。＞＜former在参数总量与标准变换器相同的情况下，由于各层宽度不均匀，其平均层宽度必然低于标准变换器的均匀宽度（这是一个数学上的必然结论：均方根大于算术平均值）。平均层宽度更低，推理时需要存储的KV缓存就更小，实测可减少约10%至11%。

Q3：为什么瓶颈放在模型后四分之三处而不是正中间效果最好？

A：实验表明，将瓶颈位置设在全部层数75%处（靠近后端）比放在正中间效果更好。一种可能的解释是：早期层负责将原始文字转换为丰富的语义表征，需要足够的宽度；后期层负责将表征映射回词汇表做出预测，也需要足够的宽度；而中间偏后的层处于"信息已经整合、尚未输出"的过渡阶段，对宽度的需求相对较低，适合作为计算瓶颈。