TPAMI 2026 | 仅用两个变量破解混杂因素:CIC实现动力学因果推断与混杂变量重构
机器之心Pro
该论文通讯作者为上海交通大学数学科学学院 / 人工智能学院陈洛南教授与西北工业大学自动化学院张绍武教授;第一作者为闫金铃与张弛浩;研究人员还包括史际帆与黄伟填。
从观测时间序列数据中准确识别因果关系,是生命科学、地球科学、经济学以及人工智能等诸多领域的核心科学问题。尤其在复杂生物系统中,基因、蛋白质和代谢物之间高度耦合,并常常受到大量不可观测因素的干扰——这些「隐形混杂」无法被直接测量,却会严重误导因果推断结果,产生虚假的因果关联。
如何在存在未观测混杂因素的情况下,仅依赖部分观测数据重构真实的因果调控网络,一直是因果推断与系统生物学研究面临的关键挑战。我们将未观测混杂因素下的因果推断面临的关键问题总结如下:
非线性动力学场景:大多数真实系统都是非线性、复杂且具有时间依赖性的。传统的因果假设——如因果马尔可夫假设(latent confounders)和忠实性假设(Faithfulness Assumption)——限制了非线性动力系统领域因果推断研究的进展。
不可分离性:非线性动力系统中变量之间的耦合作用,使得从观测时间序列数据中区分潜在混杂因素变得困难。
未观测混杂因素导致的虚假因果:如何区分真实的因果关系与混杂效应造成的虚假因果,以及如何从观测时间序列重建未观测的混杂因素,是非常重要且有趣的问题。
2026 年 1 月 28 日,上海交通大学数学科学学院 / 人工智能学院陈洛南团队与西北工业大学自动化学院张绍武团队等合作在国际期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)上在线发表题为「Dynamical Causality Under Latent Confounders for Biological Network Reconstruction」的研究成果。该研究提出了一种全新的动力学因果判别框架——未观测混杂因素下的因果推断(CIC),能够在存在未观测混杂变量的情况下,仅通过观测时间序列数据,准确识别因果方向、区分真实因果关联与混杂效应、重构未观测的混杂变量、重建复杂生物网络。
论文链接:https://ieeexplore.ieee.org/document/11367338
问题提出
复杂系统通常由大量组分构成,例如生物分子或物种,其中相当一部分变量是不可观测的,却会显著影响变量之间的因果推断。这类不可观测但共同作用于多个变量的因素,被称为潜在/未观测的混杂变量(latent confounders)。设在一个动力学生物系统中,我们仅观测到两个变量和
,则认为存在因果关系
,且
,而系统中的其他变量均不可观测。在原始空间中,因果关系定义如下:若
与
的时间序列(长度为 L),即
然而,在实际系统中常出现如下情形:
的耦合性或不可分离性(non-separability),在原始空间中很难正确推断因果关系
的潜在的混杂变量。在这种情况下,仅依赖 x 和 y 的观测数据,由于未观测混杂因素 z 的存在以及
是同时影响
由此带来两个关键挑战(见图 1(a)):
1)在存在未观测混杂变量 z 的情况下,如何准确推断从 x 到 y 的因果作用?
2)如何仅根据 x 和 y 的时间序列数据重构未观测的混杂因素 z?
图 1 未观测混杂因素下的动力学因果推断计算框架
CIC 方法总体框架
为解决上述问题,本文提出了一种基于延迟嵌入空间中正交分解定理的新框架——CIC。该方法能够在存在未观测混杂变量的情况下实现因果推断,并进一步对混杂因素进行重构。
1)延迟嵌入变换
该方法的理论基础源于 Takens 延迟嵌入定理。Takens 延迟嵌入定理保证了变量 的延迟坐标
是对与该变量相关的原始系统状态空间的重构。基于这一理论,将原始时间序列 x 与 y 分别映射到延迟嵌入空间,构造嵌入数据 X 和 Y,其中
且
2)延迟嵌入空间中的正交分解
本文提出了延迟嵌入空间的正交分解定理(见图 1(a)),并设计了基于变分自编码器(VAE)的正交分解计算方法(见图 1(c))。这里引入深度学习技术从计算上实现变量的正交分解,从而从理论上与计算上确保:在任意时刻 t,嵌入向量
均可被分解为两个相互正交的子空间:
和
- 公共子空间(shared/common subspace)
,刻画两者共享的信息;
- 私有子空间(private subspace),刻画各自独立的动态信息。
或
因此,我们可以基于分解的子空间构建未观测混杂因素下的因果推断准则,即
3)因果推断与混杂因素重构
基于正交分解结果,本研究构建未观测混杂因素条件下的因果推断指标
更进一步,混杂因素可通过公共子空间 进行量化与重构。
CIC 框架的应用
CIC 成功应用于一系列非线性动力学系统和复杂生物学系统,包括基因调控网络、生态网络、恒河猴的神经元网络以及和大鼠昼夜节律基因表达网络。
以下是 CIC 在具有不同耦合形式的 3 节点 Logistic 系统中的性能:
图 2 CIC 在带有不同耦合结果的三维系统中的因果推断
以下是 CIC 在 DREAM4 in silico Network Challenge 基因调控网络中的因果推断和混杂因素重构结果:
图 3 CIC 在 Dream4 基因调控网络中的因果推断和未观测混杂因素重构
以下是 CIC 框架重构大鼠昼夜节律基因调控网络和重构未观测混杂因素(基因)的结果:
图 4 CIC 在大鼠昼夜节律基因表达数据集中的应用
方法总结
CIC 的核心在于提出了变量在延迟嵌入空间的正交分解定理。对任意一对变量(如 和 ),将原始变量的时序数据转换为延迟嵌入形式,即
和
,并将其分解为公共子空间和私有子空间。若变量 到 之间存在因果,则根据 Takens 延迟嵌入定理, 和 的公共子空间(或 )可以完全重构 ;若变量 到 之间不存在因果,则 无法重构 。特别地,当变量 和 y 之间不存在因果关联且公共子空间非空时,变量 和 之间的未观测混杂因素由公共子空间量化。该方法主要适用于以下场景:非线性动力学系统、变量具有不可分离性(耦合性)、存在未观测的混杂因素。即便在存在大量未观测混杂因素的高维复杂系统中,CIC 仅需两个观测变量即可实现有效的因果推断,并重构未观测的混杂变量。这一突破显著降低了对传统因果假设的依赖,增强了在非线性动力系统中的因果推断能力,也从理论上解决因果推断中的不可分离性问题。
理论上,CIC 基于 Takens 的延迟嵌入提出了嵌入空间的正交分解定理,避免了对因果充分性假设的依赖;计算上,利用深度神经网络完成非线性变量表示与正交分解,从而在存在未观测混杂因素的条件下,实现复杂因果场景下(反馈回路、多重混杂因素、非平稳因果机制等)的因果推断和混杂因素重构;在应用中,CIC 在多种基准系统和真实生物学数据上均表现出优于现有方法的性能。
综上所述,本研究为非线性动力学系统的因果推断提供了新的思路,也为生物网络重构、疾病机制解析以及复杂系统建模等领域带来了重要方法学突破。