西交团队研发TDEseq生物测序法,能揭示存在特定表达模式的基因
![](http://n.sinaimg.cn/sinacn/20171030/e31d-fynfvff4812628.jpg)
网易新闻
2020 年底,西安交通大学孙世权教授正在利用单细胞与空间转录测序技术,研究肺腺癌进化过程的研究课题。
通过此,他希望探索那些在肺腺癌发展过程中逐渐上调的基因。原因在于:这些基因可能对肺腺癌的恶化和转移起着关键作用。
然而,在深入调研文献之后,他和团队发现了另一个尚未解决的问题:即尚未有任何成熟的方法,能在单细胞时间序列数据中,识别具有特定表达模式的差异表达基因。
因此,课题组决定开发一种分析工具,旨在揭示这些数据中隐藏的特定表达模式的基因。
具体而言:在单细胞 RNA 测序(scRNA-seq)的时间序列数据分析中,人们通常会进行基因差异表达分析。
通过此,可以识别那些表达水平随时间变化或生物过程发展而变化的基因(这种基因也被称之为“时间动态差异基因”)。
在一些生物过程中,这些基因可能扮演着重要角色。特别是那些表达模式呈现出随时间逐步上调或下调、或者先上调后下调、亦或是先下调后上调的基因,它们可能蕴含着更为丰富的生物学信息。
此外,随着单细胞测序技术的发展,人们开始更加频繁地从具有不同表型的生物样本或人群样本中获取数据。
这些多样本数据带来了细胞类型之间的差异性,为单细胞分析增加了新的困难。
对于相关的分析人员而言,除了关注细胞层面的异质性之外,还必须认真考虑样本层面的异质性。
为此,该团队希望开发一种新的方法,以用于识别单细胞数据中的随时间动态变化的差异基因。
希望凭借这种新方法能够帮助人们从大规模人群单细胞数据中,筛选出具有特定表达模式的动态差异基因,从而为疾病进展和动态发育提供新的工具。
在本次项目的初期,课题组首要解决的问题在于要选择一个合适的模型,以用于刻画基因表达水平随时间序列动态变化的过程。
不同的拟合函数,对于分析结果有着显著的差异。初期,课题组尝试了多种以往被用于 bulk 时间序列数据的拟合函数,包括多项式函数、B 样条、Sigmoid 函数等。
在灵活性、以及对于特定表达模式的表征能力之间,这些函数存在难以平衡的问题。
经过深入研究之后,该团队最终选择带有形状约束的 I 样条和 C 样条函数。
原因在于:它们在保持足够灵活性的同时,对于特定表达模式的表征更为精准。同时,它们对于单细胞数据中较大的噪声具有较好的耐受性。
确定拟合函数之后,该团队在实际数据测试中又遇到了新难题:当数据集包含多个样本时,样本层面的异质性会极大地干扰分析结果。
后来,他们集中精力解决样本异质性带来的干扰问题,尽管尝试了多种批次的效应去除方法,但是效果都不如人意。
随后,课题组采用线性混合模型的思想,针对样本异质性进行建模。借此发现,混合模型可以显著减少样本异质性带来的干扰。
然而,在样本异质性极大的情况下,线性混合模型也显得力不从心。
这时,该团队回顾了之前测试的批次效应去除方法,并将线性混合模型与一种名为 scMerge 的批次效应去除方法相结合,形成了最终的 TDEseq 方法。
![(来源:Genome Biology)](http://k.sinaimg.cn/n/spider20240616/306/w660h446/20240616/24a6-69d79cac4f0f3008e25e58de4104e7ad.jpg/w700d1q75cms.jpg?by=cms_fixed_width)
(来源:Genome Biology)
随后,课题组在真实数据集上进行大量的测试分析,并不断优化本次方法中的缺陷。
而最具有挑战性的部分,便是提升算法的计算效率。面对大量细胞数据时,TDEseq 的计算效率并不理想。
为此,他们投入大量时间来优化 TDEseq 的性能,并从一篇往期文献中获得灵感,从而为 TDEseq 增加了伪细胞(pseudocell)的功能。
这一改进最终解决了在大规模数据集上应用 TDEseq 的问题,并取得了令人满意的效果。
总的来说,TDEseq 为相关领域的数据分析提供了有力工具。大量的数据仿真和实例数据分析也证明,本次方法具有较好的可靠性和有效性。
日前,相关论文以《使用 TDEseq 从多样本多阶段单细胞转录组数据中高效准确地检测时间基因表达模式》(Powerful and accurate detection of temporal gene expression patterns from multi-sample multi-stage single-cell transcriptomics data with TDEseq)为题发在 Genome Biology(IF 12.3)。
![图 | 相关论文(来源:Genome Biology)](http://k.sinaimg.cn/n/spider20240616/206/w660h346/20240616/1ff6-23214fa0f0433f4762a73b916ab97611.jpg/w700d1q75cms.jpg?by=cms_fixed_width)
图 | 相关论文(来源:Genome Biology)
Yue Fan 是第一作者,孙世权担任通讯作者。
![图 | 孙世权(来源:孙世权)](http://k.sinaimg.cn/n/spider20240616/529/w556h773/20240616/28b2-d1a8531d52895364b7789f1f8fa0fcb7.jpg/w700d1q75cms.jpg?by=cms_fixed_width)
图 | 孙世权(来源:孙世权)
随着单细胞与空间组测序技术的迅猛发展,使得从分时间与空间两个维度探索基因表达的动态变化过程成为可能。
下一步,该团队希望将本次方法拓展到空间转录组多时间点数据分析中,解决时空尺度下的动态差异表达基因识别问题。
参考资料:
1.Fan, Y., Li, L., & Sun, S. (2024). Powerful and accurate detection of temporal gene expression patterns from multi-sample multi-stage single-cell transcriptomics data with TDEseq.Genome Biology, 25(1), 96.
排版:初嘉实
01/ 清华团队远赴云南养蚊子,借此发现新型抗病毒细菌,为蚊媒传染病防控提供有力方案
02/ 马普所团队补齐固-液界面的基础理论缺失,突破纳米涂层的传统认知,推动无氟纳米涂层的应用
03/ 科学家阐释纯量子AI算法理论,对同类算法具有普遍指导意义,或极大提升生化及图文领域模型性能
04/ 让心衰治疗告别“治标不治本”:科学家发现新型小分子激动剂,能有效缓解心肌肥大和纤维化
05/ 新型AI大模型“能够对任意代谢酶进行活性预测”和生成式设计改造,私有数据集部署成为迈向产业化关键
![](http://k.sinaimg.cn/n/spider20240616/242/w660h1182/20240616/82b9-486030aefb207bee79669fd8b5cf1c0a.jpg/w700d1q75cms.jpg?by=cms_fixed_width)