新浪科技

人类基因“导航图”有了“中国版”

中国科学报

关注

■本报见习记者 严涛

20年前,人类基因组计划(HGP)完成了对人类基因组30亿个碱基对的测序。作为参与其中的唯一发展中国家,中国承担了1%的测序任务。从此,人类参考基因组成为人类遗传学和医学研究的遗传密码“导航图”。

人类基因组研究是基因组学中起步最早的方向,在数据资源、技术方法和研究成果等方面都曾领先于其他物种的研究。但是,这种先发优势使得人类基因组研究取得新的突破性成果越来越难。近年来,动物、植物、非人灵长类、反刍动物等领域的基因组学研究进展很快。相比之下,人类基因组研究先发优势不再明显。

而这一现状不久前被中国科研团队打破。

近日,《自然》在线发表了复旦大学、西安交通大学、中国医学科学院等26家单位联合发布的中国人泛基因组联盟(CPC)一期研究进展。这是中国学者领导的人群基因组研究首次发表于《自然》。

长期缺失中国人样本

人类参考基因组是解析人类起源与演化、揭示人类表型和疾病的物质基础。自上世纪末HGP启动后,人类参考基因组作为生命、医学等研究领域的基石,见证着人类在探索生命奥秘的漫漫征途中留下的足迹。

从2001年人类基因组草图首次发表以来,人类参考基因组经历了几十次的更新迭代。但无论是人类参考基因组的初始计划还是最新的第38版(GRCh38),各参考基因组版本皆以白种人为主体而构建,无法代表全人类,也难以体现中国多族群的遗传多样性。

即便是最新的旨在代表全人类遗传多样性的人类泛基因组参考联盟(HPRC)项目,在其收集的全球46个样本中也仅包含3个中国人样本,无法代表14亿中国人的遗传多样性。

作为世界上的人口大国,我国在人类遗传资源上具有绝对优势。西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融、苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族一路向北抵抗严寒,台-卡岱族群的先辈亦曾穿梭于南方丛林河谷……

悠久的人群历史、别样的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的部分。因此,构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,服务于中国人的遗传多样性研究、复杂疾病分子机制研究和精准医学。

中国科学院院士赵国屏认为,在人类这个物种中,亚裔和华裔人群是一个重要的组成部分。但是西方发达国家基于基因组的生物医学研究投资重心依然聚焦于白人和黑人,大多数情况下,亚裔或华裔族群很难被优先考虑。中国医疗事业和生物医药产业的发展,必须拥有自己完整的基因组信息,包括我国专属参考基因组、泛基因组资源和分析体系,形成我国自主可控的人类基因组资源与核心技术。

从“一维”到“多维”

为构建高质量、高精度的中国人群参考泛基因组,2021年1月,复旦大学教授徐书华、西安交通大学教授叶凯联合国内26家单位发起成立了CPC。

研究团队采集了代表中国36个族群的58个样本,采用最新的第三代高保真基因组测序技术对其进行高深度测序,并结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,以图基因组的方式构建了首个高质量中国人群参考泛基因组。

该泛基因组图谱总共包含约3.01Gb的序列信息,其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。

相比过去“一维”“线性”的人类参考基因组,此次提供的“中国专属定制版导航图”升级为“多维模式”。

“好比过去只有一条地铁线,去哪儿都只能沿着这条线走。现在有了多条地铁线,形成了网络,不仅有交叉,还可以换乘。”徐书华说。

这项研究初步构建了我国人群的泛基因组参考图谱,发现了人类通用参考基因组上缺失的约1.9亿个碱基对的参考序列。这正是“泛基因组”的内涵——多维的视角对于重构人类演化进程、挽回“丢失的遗传率”具有巨大的潜在价值。

徐书华介绍:“‘中国版导航图’虽然是一项基础研究,但一经发布立即可用,所有和基因有关的研究皆可以此为参照。这是一项纯公益研究,我们正在提升算法和参考图质量,希望未来可以实现‘一键式’生成‘导航’结果。”

从“跟跑”到“领跑”

CPC泛基因组图谱作为首个中国人群专属的泛基因组参考图谱,在中国人群特有的复杂变异解析方面具有显著优势,为人类参考基因组绘制了独特的中国画卷。“基于在基因组领域的研究,我们研发了系列原创性基因组分析算法工具,用于中国人群泛基因组构建及分析,打破了基因组领域前沿生物技术的国外垄断地位,实现了我国在该领域从‘跟跑’到‘并跑’,甚至‘领跑’的转变。” 论文作者之一、西安交通大学副教授杨晓飞说。

CPC泛基因组图谱中新发现了约580万个小变异和3.4万个结构变异,其中约1.7万个结构变异影响6426个蛋白编码基因,这些基因与人体免疫系统显著相关。CPC泛基因组图谱还新发现了包含药物代谢基因CYP2D6等在内的在中国人群中富集而在世界其他人群中出现频率较低的若干基因拷贝数变异。若不针对中国丰富的族群多样性开展专门研究,就没有机会发现这些遗传变异。

叶凯告诉《中国科学报》:“这项研究成果打破了20年来人类泛基因组领域国外的垄断地位,提升了我国在参考基因组领域的自主权,为完整构建中华民族参考泛基因组奠定了坚实基础。”

此外,CPC还检测出较高比例的古人来源的新序列,为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA研究领域提供了新线索。

论文作者之一、西安交通大学第一附属医院教授施秉银介绍说,中国人群泛基因组的成功构建将突破此前制约我国精准医学发展的瓶颈——依赖基于欧洲人的参考基因组并导致东亚特有罕见变异检出率下降——从而提高我国医学数据分析的完整性、准确性,服务人民生命健康。

“对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,而且有可能帮助我们理解生命演化过程中重要性状和功能产生的遗传基础与分子机制。”论文作者之一、中国科学院院士金力对“中国版导航图”的未来应用充满期待。

相关论文信息:

https://doi.org/10.1038/s41586-023-06173-7

加载中...