量子计算遇上AI大脑：IBM研究院如何让语言模型"读懂"量子世界

市场资讯 06.19 22:22

（来源：科技行者）

这项由MIT-IBM Computing Research Lab与IBM Quantum联合开展的研究，发表于2026年6月，论文编号为arXiv:2606.13811v1，感兴趣的读者可通过该编号在arXiv平台找到完整原文。

**量子计算与语言模型之间，有一道没人翻越过的墙**

近年来，ChatGPT、GPT-4这类大型语言模型（简称LLM，可以理解为超级强大的AI大脑）已经能写代码、解数学题、回答各种问题，令人叹为观止。与此同时，量子计算也在快速发展，它有望在未来解决传统计算机根本无法处理的复杂问题。那么，这两个领域能不能结合起来，让AI大脑也能"理解"量子世界呢？

问题在于，目前所有利用AI处理量子计算任务的方法，都只是让AI看"文字描述"——比如量子电路的名称、代码，或者门的列表。这就像让一个厨师只看菜名而不看食材，他永远无法真正理解这道菜的本质。量子操作的核心是一种叫做"酉矩阵"（unitary matrix）的数学对象，它是一张充满复数的大表格，代表着量子计算的真正内涵。过去没有任何系统能让AI直接"吃进"这种数学对象并加以理解。

IBM的研究团队决定正面突破这道墙。他们开发了一套方法，能把量子算符直接"翻译"成AI大脑能够理解的语言，并在此基础上完成量子电路的自动生成。这是历史上第一次有系统让语言模型能够直接基于量子算符本身进行推理，而不只是看它的文字标签。

一、量子电路合成：像拼乐高，但难度是地狱级别的

要理解这项研究解决的问题，先得明白"量子电路合成"是什么。

量子计算机执行任务时，依靠的是一系列量子门操作——可以把它们理解成乐高积木。每一种量子操作（也就是一个酉矩阵）都需要用这些基础积木搭出来。"量子电路合成"就是给你一个目标形状（目标酉矩阵），要你找出用哪些积木、按什么顺序拼，才能还原出这个形状。

听起来很简单对吧？然而难就难在这里：可用的积木有256种，每多加一块积木，搜索空间就乘以256。如果电路长度是15块积木，理论上需要搜索的可能性超过256的15次方，这是一个天文数字，任何暴力搜索都会在这个问题面前趴下。

这篇论文研究的具体场景是"4量子比特Clifford+T电路合成"，使用的是一种叫做"泡利旋转门集"的框架。每个量子门可以用一个4字母的字符串来表示（比如"XIIX"或"ZIII"），4量子比特情况下一共有256种不同的门。目标是找到一串门的序列，使其组合起来近似等于给定的目标量子操作。研究团队用一个叫做"泡利转移矩阵"（PTM）的东西来表示量子操作，它是一个256×256的实数矩阵，好处在于不含复数，且对全局相位不敏感，非常适合作为神经网络的输入。

为了衡量合成进展，研究团队使用一个叫做"保真度"（Fidelity）的指标。保真度等于1意味着完美合成，研究中将保真度大于等于0.999视为合成成功。

二、给AI大脑装上"量子眼睛"：核心技术架构

这里用一个贴切的类比来理解整个技术框架。

我们都知道，现代多模态AI（比如能看图说话的AI）是这样工作的：把一张图片分割成小块，每一小块通过一个"翻译官"变成AI大脑能处理的数字向量，然后这些向量和文字一起送进AI大脑，AI就能同时理解图和文字了。这篇论文的核心创新，就是把这套"图文结合"的方法，移植到了"量子操作+文字"的组合上。

具体来说，系统首先把256×256的PTM矩阵当成一张"图片"处理。这张"图片"被切割成若干个16×16的小块，共得到256个小块，每个小块就像图像中的一个像素区域。每个小块通过一个轻量级的线性变换层（加上层归一化和位置编码）被转换成一个768维的向量——这些向量就是"视觉令牌"，可以理解为量子操作的"视觉语言"。

紧接着，一个两层的MLP（多层感知机，就是一个小型神经网络）把这些视觉令牌进一步映射到语言模型的"词嵌入空间"——也就是AI大脑理解文字时所用的内部数字表示空间。这整个"翻译"过程引入的参数量约为1400万，不到整个系统总参数量的0.4%，非常轻量。

这256个"量子视觉令牌"会被拼接到文字令牌的前面，一起送入语言模型。文字部分包含两类信息：一是当前的"上下文"——即目前的保真度和已经预测出的前几个门；二是一段"指令前缀"——告诉AI大脑要用指定的门集来合成这个量子操作。

整个系统以IBM的Granite 4.0 Micro（30亿参数）作为语言模型骨干，整体设计灵感来自视觉语言模型（如LLaVA），但服务对象从图像换成了量子算符。

三、像剥洋葱一样一步步合成电路：自回归推理机制

系统的工作方式不是一次性预测整条电路，而是像剥洋葱一样，每次只预测一层。

具体流程是这样的：目标量子操作U可以分解为一系列门的乘积，比如U = g14 × g13 × ... × g1 × g0，其中g0最先作用于量子态。系统从最后一个门开始，逐步向前预测。在每一步，系统看到的是"残差PTM"——即目标中尚未被合成出来的部分。

预测出一个门g_hat后，系统会用这个门的PTM的逆（在PTM框架下，逆就是转置）从左边乘上残差PTM，得到新的残差PTM，然后重新编码送入系统，预测下一个门。这个过程一直持续，直到残差PTM的保真度超过阈值，系统输出一个特殊的"END"令牌，表示合成完成。

这种设计有一个妙处：系统不需要在自己的"记忆"里维持整个合成状态，因为每一步都会重新算出当前的残差PTM并重新编码。换句话说，残差PTM就像一块实时更新的"小黑板"，每一步都告诉系统还剩多少工作没做。系统只需要专注于当下这一步：看着黑板，预测下一个最合适的门。

训练数据的生成方式利用了一个天然的不对称性：给你一串门，算出它的PTM很容易；但给你一个PTM，找出对应的门序列很难。于是研究团队随机采样大量长度在1到15个门之间的电路，正向计算PTM，然后把每一个分解步骤作为一条训练样本，每步都是独立的"看残差PTM预测下一个门"任务，用标准的下一个令牌预测损失（即语言模型最常用的训练目标）来优化。

训练分两个阶段进行。第一阶段冻结语言模型，只训练视觉编码器和MLP映射层，让量子视觉令牌先和语言模型的表示空间对齐，大约训练7000步。第二阶段解冻所有参数一起训练，但语言模型用较低的学习率，视觉部分用约4倍于语言模型的较高学习率，并采用"热身-稳定-衰减"的学习率调度策略。

四、数据越多，效果越好：规模化实验结果

研究团队在4量子比特、1到15个门长度的电路上进行了系统性的数据规模实验，所有超参数保持不变，只改变训练电路数量。结果相当清晰地展示了一条向上的曲线。

从14.5万条训练电路开始，合成成功率仅有23.4%，平均保真度0.477。随着数据量翻倍，成功率稳步上升：28.7万条时25.5%，57.5万条时跃至37.3%，115万条时达到58.1%，230万条时62.9%，460万条时66.7%，920万条时71.0%。整体上，从最少到最多数据，成功率提升了超过3倍，且没有出现任何停滞的迹象，说明继续增加数据有望带来进一步提升。

更有意思的是，研究团队还尝试了在门长度维度上扩展：先用920万条1到15门电路训练好的模型作为起点，再用额外的460万条1到30门电路继续训练。这个"更长电路"模型在同样的1到15门测试集上达到了87.9%的成功率，比仅在1到15门电路上训练的9.2M模型高出近17个百分点。这说明让模型见识更长的电路，能显著提升它处理较短电路的能力——就像练过马拉松的人跑5公里会更轻松一样。

五、多试几次，成功率直冲99.4%：推理时的规模化

语言模型有一个天然优势：它可以通过"多次采样"来提高成功率。这就像让一个学生考试时有机会做多份卷子然后选最好的那份。

研究团队在同一个目标电路上运行N次独立合成尝试：第1次用贪心解码（每步选概率最高的门），后续N-1次用温度为0.7的随机采样（引入一些随机性来探索不同路径），然后从N次结果中选保真度最高的那个。

结果非常亮眼。仅用贪心解码（N=1），成功率为87.9%。N=3时升至92.7%，N=5时94.5%，N=10时97.1%，N=80时达到99.4%。提升幅度随N的增长大致呈对数线性，且主要集中在较长的电路（11到15门）上，因为这些情况下贪心路径更容易走错，而随机探索能找到贪心方法错过的正确路径。

这说明系统学到的不只是一种固定的合成策略，而是一个覆盖多种可能路径的概率分布——即使贪心路径失败，模型仍然给正确路径分配了有意义的概率，随机采样就能把它挖掘出来。在一块NVIDIA H100 GPU上，单次合成大约需要1秒，80次尝试约需80秒，计算代价完全在可接受范围内。

六、与其他方法的正面对决：全面超越基线

研究团队将系统与四个基线方法进行了比较，测试对象是2000条保留的1到15门电路。

首先是"贪心搜索"：在每一步枚举256种可能的门，每步选保真度提升最多的那个，重复256次。这个方法整体成功率仅有13.8%，在超过3门的电路上基本崩溃，因为局部最优经常不是全局最优。

其次是SynthetiQ，一种基于模拟退火的搜索方法，使用100秒时间预算和48个CPU线程。它在1到6门电路上表现接近完美，但在13门及以上完全失效，整体成功率62.7%。

第三是Rietsch等人的强化学习方法（Gumbel AlphaZero），整体成功率约83.7%，在短路上表现强劲，但在13门以上急剧下滑。

第四是Theissinger等人的MDL束搜索方法，整体约68.8%，在短路上不如强化学习，但在长路上更稳定，每样本耗时约22秒。

本文提出的系统在贪心解码下达到87.9%，大幅超越所有基线；N=80采样时达到99.4%，在15门电路上仍保持94.9%的成功率，而其他所有方法在这个长度上都大幅失效。对于成功合成的电路，模型输出的门序列长度与最优长度之比的均值为1.007，意味着模型几乎总是给出接近最短的分解，而不是用更长的路径来换取成功率。

七、面对"野生"量子操作：哈尔随机酉矩阵测试

前面所有实验都在Clifford+T电路生成的量子操作上进行，这些操作是"可以被有限门序列精确实现的"。但现实中还有大量量子操作是随机的——它们不一定能用有限个Clifford+T门精确表示，只能无限趋近。这类操作叫做"哈尔随机酉矩阵"，均匀分布在所有可能的量子操作中。

研究团队用200个这样的随机操作测试了模型，连续进行800步合成，观察保真度的变化趋势。

在只训练过1到15门电路的模型上，保真度几乎从一开始就停滞不前，均值在0.02以下，几乎没有任何有意义的进展。但当研究团队训练了一个覆盖1到150门电路的模型（虽然只用了100万条电路），情况就大不相同了：保真度随步数单调增长，最终均值达到约0.19左右，虽然远未达到0.999的精确合成标准，但已经展示了系统确实在朝着目标方向推进。这说明，随着训练覆盖更长的电路，系统对任意量子操作的近似合成能力会逐步提升，是一条有望走通的路径。

八、视觉编码器的粒度选择：补丁大小实验

研究团队还系统地测试了把PTM矩阵切割成不同大小的块对性能的影响。

补丁尺寸越小，每个块包含的信息越细致，但同时也会产生更多的视觉令牌，增加语言模型的处理负担。补丁尺寸分别为8、16、32、64、256像素，对应的视觉令牌数量分别为1024、256、64、16和1个。

在115万条电路上训练并用贪心解码评估，补丁8和补丁16的成功率几乎相同，分别为60.1%和59.4%。从补丁32开始，性能显著下降到39.5%，补丁64同样39.5%，而整个PTM只用1个令牌表示（补丁256）时，成功率进一步跌至31.4%。由此可见，保留一定粒度的空间结构对于让模型理解PTM至关重要，但超过某个分辨率后进一步细化的收益微乎其微。研究团队最终选定补丁16作为所有正式实验的标准配置。

九、用自然语言下达限制条件：语言条件化合成

这是整个研究中最令人眼前一亮的功能之一，也是将量子合成嵌入语言模型才能带来的独特能力。

在真实量子计算机上，并非所有量子门都可以随意作用在任意量子比特对上，物理连接关系（量子比特的拓扑结构）限制了哪些操作可以直接实现。此外，某些应用场景可能要求限制特定类型门的使用。这些约束目前需要用专门的编译器来处理，非常复杂。

研究团队设计了一个实验：让模型通过自然语言指令来遵守门的放置约束。例如，提示词里可以写"Allowed T(q0, q2)"，意思是T门只允许作用在第0和第2个量子比特上。这类约束在训练时使用了随机生成的配置，但测试时使用的是训练中从未出现过的5种新约束组合，以验证模型是否真的理解了约束的语义，而不只是记住了特定的约束模式。

实验使用的门集为H、T、T+、S、S+、X、Y、Z、CNOT和CZ，用300万条电路训练。测试集包含250条电路，分三种设置评估：有预训练语言模型权重并给出约束提示、有预训练语言模型权重但不给约束提示、随机初始化权重并给出约束提示。

三种设置的电路合成成功率相近（均在较高水平），说明约束的存在本身不影响合成能力。但约束合规率差别悬殊：有约束提示的预训练模型达到91%合规，去掉约束提示后降至53%，说明模型确实在主动利用约束文字而不是默认输出恰好合规的电路。随机初始化模型虽然接收了相同的约束提示，却只达到65%合规，证明预训练语言模型的语言理解能力对于正确解读那些从未见过的约束组合至关重要。

这个结果意味着，通过自然语言，工程师可以在不重新训练的情况下，即时指定新的约束条件，大幅提升系统的灵活性。

十、合成轨迹的定性观察：模型真的"理解"了量子操作

研究团队还定性地观察了模型的合成轨迹，发现了一些耐人寻味的现象。

在大多数成功案例中，保真度随合成步数稳步上升，最终收敛到1。模型预测出的门序列与训练时用来构建目标电路的"标准答案"序列往往完全不同，但最终的组合效果几乎相同——这说明模型确实在理解PTM的结构，而不是在背诵特定的输入输出映射。这些成功路径在训练数据中根本不存在，是模型自主发现的。

更有趣的是一个"峰回路转"的案例：保真度先上升，然后急剧下降，但模型随后自主"意识到"需要改变方向，最终把保真度一路拉回到1.0。这种先退后进的现象表明模型在某种意义上具备了"自我纠错"的能力，能在合成过程中根据残差PTM的状态调整策略。

说到底，这项研究的意义远不止于"让AI写量子电路更快"。

IBM与MIT的研究团队证明了一件过去没人做到过的事：语言模型可以被赋予直接感知量子算符的能力，而不只是看其文字描述。他们用一套轻量、优雅的设计——把量子操作的数学结构变成"视觉令牌"注入语言模型——打通了自然语言与量子表示之间的壁垒。

在具体任务上，系统在4量子比特Clifford+T电路合成方面超越了此前所有已知方法，包括模拟退火和强化学习方法，且完全不需要强化学习那套复杂的奖励设计和超参数调整，只用监督微调就能做到。更重要的是，性能随数据量和推理计算量的增长都没有出现饱和迹象，意味着这条路还很长，潜力还未释放完毕。

语言条件化合成的演示则打开了一扇全新的门——量子工程师未来或许可以用日常语言来描述约束、偏好和目标，由系统自动生成满足条件的量子电路，就像今天工程师用自然语言提示代码助手生成程序一样。

这项研究还很早期，当前只能处理4量子比特、最多15个门（或30个门）的电路，离实用规模的量子计算还有不小距离。但它提供的框架本身——把量子表示通过模态特定的编码器映射进语言模型的共享嵌入空间——是通用的。未来还可以加入其他量子表示形式，比如Clifford表格、泡利算符列表或张量网络描述，逐步构建一个真正意义上的"量子-语言基础模型"。

对于这项研究，一个值得进一步思考的问题是：当AI能够直接推理量子操作时，它会不会在某一天帮助人类发现全新的量子算法，而不只是合成已知的量子操作？这个方向，研究团队在结论中明确表示将在未来继续探索。想要深入了解这项工作的读者，可以通过论文编号arXiv:2606.13811查阅完整原文，研究团队也计划公开发布模型和代码。

**Q&A**

Q1：泡利转移矩阵（PTM）在量子电路合成中有什么具体作用？

A：PTM是量子操作的一种实数矩阵表示，对4量子比特而言是256×256的实数表格，不含复数，且对全局相位不敏感。在该研究中，PTM被当作"图像"输入系统，每一步合成时系统看到的是"残差PTM"，即目标中还未被合成的部分。PTM具有乘法可组合性，每预测出一个门，就用它的PTM转置从左乘更新残差，使系统始终掌握当前还剩多少工作需要完成。

Q2：量子电路合成中使用Best-of-N采样具体是怎么操作的？

A：Best-of-N采样是在同一个目标电路上独立运行N次合成：第1次用贪心解码（每步选概率最大的门），后续N-1次引入随机性（温度0.7）探索不同路径，最终选保真度最高的结果。N=1时成功率87.9%，N=10时升至97.1%，N=80时达99.4%。这种方式在单块H100 GPU上运行80次大约需要80秒，是一种以计算时间换准确率的有效策略。

Q3：语言条件化量子电路合成在实际量子硬件部署中有什么用途？

A：真实量子硬件的量子比特之间存在物理连接限制，不是所有门都能作用在任意比特对上。通过自然语言约束（如"CNOT只允许作用在相邻比特上"），工程师无需重新训练模型就能即时指定硬件拓扑限制，系统会生成同时满足功能目标和物理约束的电路。该研究在训练中从未见过的约束组合上测试，合规率仍达91%，展示了较强的泛化能力。