专家点评|高歌团队发表单细胞多组学数据整合与调控推断新方法

核心提示点评 | 李蕴、张金阳/赵方庆、袁国华/杨力、张学工责编 | 兮#生物信息学#基因的转录在生物学中心法则中处于承上启下的重要环节,与相对“静态”的基因组相比,转录组在不同组织/器官/发育阶段均有显著变化,是细胞完成相应生理/病理功能的重要生

评论|李莞、/赵、袁国华/杨莉、张

编辑| Xi

#生物信息学#

基因转录是生物学中心法则中承上启下的重要环节。与相对“静止”的基因组相比,转录组在不同的组织/器官/发育阶段具有显著的变化,是细胞完成相应生理/病理功能的重要生物学基础。细胞是生命的基本单位,快速发展的单细胞测序技术为在单细胞水平上研究细胞功能及其背后的基因调控机制提供了重要的技术手段[1]。单细胞测序可用于检测许多不同种类的组学,包括转录组、染色质开放组、DNA甲基化组、组蛋白修饰组等。整合分析不同组学技术产生的数据,有助于更全面地描述基因调控状态,揭示细胞内的调控机制。然而,与传统的批量数据相比,单细胞数据具有规模大、噪声高、异质性强的特点。如何通过开发新的计算方法来有效利用这些有价值的数据,已经成为生物信息学领域的焦点和热点。

2022年5月2日,北京大学/昌平实验室高歌研究组在Nature Biotechnology上发表了《多组学单细胞数据整合与图链接嵌入的调控关联》一文,提出了基于图耦合策略的深度学习方法GLUE,实现了百万单细胞多组学数据的无监督精确整合和调控推断。

多细胞化学中数据整合的挑战之一在于不同组学的特征空之间的差异。比如转录组的特征是基因,而染色质开放组的特征是染色质开放片段,不同特征空之间的细胞缺乏可比性。为了解决这一问题,GLUE提出了一种全新的图耦合策略,将组学特征之间的超越调控关系表示为引导图,其中节点为组学特征,边为组学特征之间的超越调控关系。该模型利用变分图从编码方学习组学特征的低维表示,作为组学数据的解码方权重,从而关联不同组学的低维隐式空表示,保证它们的语义一致性。在此基础上,GLUE进一步引入了对抗性学习,以消除不同组学的降维表示之间的系统性差异。

图1胶水模型结构图。

GLUE通过引入组学特定的变分自编码器的组件堆栈,支持多组学不成对数据的无监督集成。作者成功地用它整合了小鼠脑上皮的单细胞转录组[2]、染色质开放组[3]和DNA甲基化组[4],并表明三个组学的整合可以有效地提高细胞类型的注释。同时,GLUE的设计引入了模块化的思想,可以很容易地进行扩展,以支持单细胞Ribo-seq,空转录组等更多组学数据的集成。

除了细胞层面的跨组学匹配,由于GLUE直接对先验调控图中的调控关系进行建模,还可以综合先验调控信息与多组学数据之间的统计相关性,实现可靠的转录调控推断。以外周血为例,作者用GLUE整合了pcHi-C物理相互作用[5],eQTL突变表型关联[6],单细胞转录组和染色质开放组数据[7],证明了GLUE是有效的。值得指出的是,GLUE引导图所要求的先验规则关系不需要特别精确,系统评估表明,GLUE多组学集成和规则推理都是鲁棒的。

GLUE具有良好的计算扩展性,可以有效处理数百万的单细胞组学数据。通过分析已公布的500万单细胞人类胎儿单细胞转录组[8]和染色质开放组[9]的图谱数据,GLUE首次实现了全图谱水平的无监督整合,并基于整合后的数据进一步完善了细胞类型标注。

图2 GLUE首次实现了图谱级超大规模单细胞多组学数据的精确整合。与同类工具相比,GLUE在单元分辨率和叠加精度上具有明显的优势。

GLUE的所有实现代码都已经开源发布,可以通过PyPI和Anaconda平台直接安装使用。

北京大学生命科学学院博士生曹志杰是本文第一作者,北京大学/昌平实验室研究员高格是本文通讯作者。

专家评论

李莞

近年来,多层组学技术得到了突飞猛进的发展,不仅数据类型逐渐多样化,数据量也与日俱增,呈现指数级增长。因此,发展严谨、高效的多层组学整合分析方法日益受到生物信息学和大数据领域的关注。高格研究组开发的GLUE方法为我们提供了一种分析高通量、多模态大数据的新工具,可以准确、鲁棒、高效、大规模地应用于多层组学大数据。GLUE采用图耦合深度学习框架整合多组学数据,从单细胞数据进行规则推理。GLUE的图耦合框架可以有效地将先验知识嵌入到模型中,提高统计效率和推理精度。除了方法学上的优势,GLUE在应用上也是可圈可点的,尤其体现在以下三个方面:一、GLUE的高效性:GLUE是同类方法中唯一可以同时分析数百万个单细胞的方法。面对数据的指数级增长,算法的效率很大程度上决定了方法的实用性。其次,GLUE可以同时嵌入和集成三种模式,而现有的方法基本局限于集成两种模式。再次,开发团队对众多真实数据进行了系统严谨的方法评估,其结果为科研工作者的应用提供了有价值的指导。

专家评论

、赵

近年来,随着单细胞测序技术的发展和应用,产生了大量的单细胞多组学测序数据[10,11],为我们研究细胞内生物过程的动态变化提供了宝贵的基础数据。然而,不同研究产生的数据集往往是异构的,不同组学数据的特征差异较大,很难直接进行整合和分析。目前,仍然缺乏有效的手段来整合和分析单细胞多组学数据。此外,由于单细胞数据本身的巨大规模,也对大规模集成分析工具的计算能力提出了重要挑战。

最近,基于图耦合策略、变分图自编码、拮抗学习等模型,北京大学高歌研究组提出了一种全新的单细胞多组学数据集成和分析工具GLUE。通过使用多组学水平的已知调控关系作为先验网络,同时表达多组学测序数据和基因调控图谱的特征,实现了基因调控关系和多组学数据在同一隐空室的精确整合。此外,他们使用SNARE-seq、SHARE-seq和10X Multiome等成对单细胞多组学数据集对GLUE和其他常用的多组学集成工具进行了系统评估,发现GLUE在准确性和鲁棒性方面具有很大优势,可以有效去除数据之间的批量效应,从而实现多组学数据的高质量集成。特别是目前大多数方法只能整合分析两类组学数据,而GLUE可以整合三类以上组学数据,还可以根据贝叶斯推理预测基因调控信息。基于pcHi-C、eQTL等调控特征,以及scRNA-seq和scATAC-seq数据,作者预测了转录因子与基因的调控关系,并用TRRUST数据库进行了验证,表明GLUE可以实现基因调控网络的精确重构。最后,作者还使用了数百万的scRNA-seq和scATAC-seq数据,充分展示了GLUE方法对大规模单细胞数据集的集成计算能力。

以上结果表明,GLUE方法不仅通过整合基因调控网络图实现了超百万单细胞多组学数据的高效整合,而且能够基于单细胞数据准确预测基因调控关系。因此,随着基因调控研究的深入和后续大量测序数据的产生,GLUE模型的准确性和可解释性将会进一步提高。作为一个通用的分析框架,该方法将在单细胞多组学数据的整合和分析中具有重要的应用价值。

专家评论

袁国华、杨莉

单细胞测序技术在细胞多样性分析中发挥着重要作用。与经典的多细胞水平测序不同,单细胞测序可以在单个细胞水平上绘制基因结构或基因表达状态,进而以多种模式揭示细胞间的异质性。近年来,针对不同组学的单细胞测序研究风起云涌,包括单细胞转录组、染色质开放组和DNA甲基化组等。,为不同维度的相关单细胞研究提供了海量大数据基础。研究人员通过构建相应的计算分析流程方法,揭示了单个细胞在多个组学维度上的异质性,发现了新的细胞类型,并以此为基础建立了更为准确的细胞分型和分类。然而,由于不同层次组学单细胞研究的研究对象存在维度差异,这种天然的差距给不同组学单细胞数据的比较和整合带来了挑战。现有的一些整合计算分析方法会造成信息损失,并受到数据规模的限制,难以有效整合和综合利用不同组学水平的单细胞测序数据。因此,迫切需要开发新的计算方法,高效整合多维组学单细胞数据进行比较分析和系统研究,这是生物信息学领域的前沿热点之一,也是难点挑战之一。

为了突破这一挑战,来自北京大学/昌平实验室的高歌团队开发了基于图耦合策略的深度学习模型GLUE,用于集成和分析多模态单细胞数据。GLUE模型利用先验知识构建引导图来刻画多组学特征之间的调控关系,并结合变分自编码器对不同组学的单细胞数据进行无监督学习实现非线性降维,然后利用这种低维表示构建跨组学特征关联,从而实现多组学不成对数据的高效整合和调控关系的精确推断。基于已发表的成对和不成对的scRNA-seq和scATAC-seq数据集,高格团队将GLUE与其他多组学单细胞数据整合方法进行了系统比较,发现GLUE可以更有效地完成数据整合和调控推断,并且具有很强的鲁棒性。研究人员还通过使用GLUE成功整合了小鼠大脑上皮的scRNA-seq、snmC-seq和scATAC-seq的单细胞数据。与目前唯一类似的数据整合方法iNMF相比,GLUE的数据整合结果具有更高的细胞类型分辨率和表观遗传相关性。同时,研究人员还利用GLUE整合了10X外周血单个核细胞的scRNA-seq和scATAC-seq数据,进一步证明了GLUE结合pcHi-C物理相互作用和eQTL突变表型关联,可以准确推断各种调控关联。最后,研究人员使用GLUE整合了人类胎儿单细胞转录组和染色质开放组的图谱数据,首次实现了超百万单细胞的整个图谱级多维组学数据的整合,体现了GLUE非凡的扩展性。

深度学习已经广泛应用于生物医学大数据的分析和研究,在图像处理、蛋白质结构预测、药物合成等不同方向取得了令人瞩目的成就。经典的卷积神经网络和循环神经网络在提取Euclidean 空数据的特征方面有很好的效果,但是很难有效处理非Euclidean 空数据,因此需要图形神经网络对其进行分析。组学中单个细胞数据之间复杂的调控关系更容易用非欧几里德空数据来表示,而不是欧几里德空数据,这意味着传统的深度学习方法如卷积神经网络和循环神经网络无法胜任相关多模态数据的集成分析。高格团队创造的胶水工艺创新性地采用了图形神经网络的方法。基于图耦合策略,将多组学特征间的调控关系转化为对象间具有复杂联系和相互依赖的引导图。此外,它使用变分自编码器关联每个组学的低维表示,并有效地整合多个组学的不成对单细胞数据。这是一个非常新颖和有益的尝试。GLUE在方法论上的创新之处在于:1)使用图耦合来表达多维组学特征的超越调控关系作为引导图;2)使用变分图自编码器学习组学特征和跨组学关联;3)多模块思想的引入,可以实现更多模态单细胞组学数据的扩展和集成。这些保证了GLUE在跨组学单细胞组学数据整合分析中的准确性、高效性和扩展性。

综上所述,高歌团队开发的GLUE方法可以实现多组学单细胞高效、准确的数据整合和调控推理。GLUE具有更高的准确性、健壮性和计算可扩展性。考虑到多组学单细胞测序数据的爆炸式增长,GLUE将为多维单细胞数据整合分析及相关创新科学发现提供新的生物信息学理论基础和方法体系,也为其他多模态数据整合分析提供新的思路和探索。

专家评论

随着单细胞组学技术的快速发展,单细胞组学的类型越来越丰富,单细胞组学的数据整合成为生命规律综合解码的重要环节。

日前,高格研究组综合应用图学习和生成-对抗学习模型,提出了单细胞多组学数据整合与调控推理胶水的新方法,可有效“粘合”数学空中的各种组学数据,实现百万未配对单细胞组学数据的无监督整合与同步调控推理。本文中的数百万个应用实例,如细胞图谱整合、三联体整合、同步调控推理等,向我们展示了机器学习在单细胞生物信息学中的巨大潜力。特别是本文提出的图耦合嵌入策略,将跨组学集成和调控关联推理两个看似独立的任务整合到同一个数学框架中,首次利用调控关系建模解决无监督的多组学集成问题,显著提高了效率,提高了模型和结果的可解释性。

该工作作为生物信息学的理论和方法文章发表在《自然生物技术》上,是我国生物信息学领域的新突破。这项工作在合理的模型设计、新颖的方法实现和有代表性的应用实例方面是显著的。是单细胞生物学和生物信息学领域的标志性成果,是近年来我国生物信息学快速发展的杰出代表。同时,这项工作也将单细胞多组学的研究推向了一个新的高度。在此基础上,人们可以进一步研究未来如何更好地探索各种组学数据的共性和差异信息,解码生命现象中更深层次的规律。

原始链接:

https://doi.org/10.1038/s41587-022-01284-4

参考

1.Stuart,t .和Satija,r .一体化单细胞分析。纳特。遗传修订版20,257–272。

2.成年小鼠大脑细胞的分子特异性和特化。174号电池,1015–1030。

3.10x基因组学。来自成年小鼠大脑的新鲜皮质,单细胞ATAC演示数据由Cell Ranger 1.1.0提供。https://support . 10x genomics . com/单细胞-atac/datasets/1 . 1 . 0/atac _ v1 _成人_大脑_新鲜_5k。

4.单细胞亚甲基识别哺乳动物皮层神经元亚型和调节元件。科学357,600–604。

5.谱系特异性基因组结构将增强子和非编码疾病变异体与靶基因启动子连接起来。细胞167,1369–1384 . e 1319。

6.基因对人类组织中基因表达的影响。自然550,204–213。

7.10x基因组学。来自健康供体的PBMC,单细胞多体ATAC基因表达演示数据由Cell Ranger ARC 1.0.0提供。https://support . 10x genomics . com/single-cell-multi ome-atac-gex/datasets/1 . 0 . 0/PBMC _ granulocyte _ sorted _ 10k。

8.胎儿基因表达的人类细胞图谱。理科370,eaba7721。

9.胎儿染色质可及性的人类细胞图谱。理科370,eaba7612。

10.同一个细胞中转录组和染色质可及性的高通量测序。Nat Biotechnol 37,1452-1457,doi:10.1038/s41587-019-0290-0

11.通过共享的单细胞RNA和染色质轮廓鉴定染色质潜力。Cell183,1103-1116 e1120,doi:10.1016/j.cell.2020.09.056。

 
友情链接
鄂ICP备19019357号-22