Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

本文介绍由加拿大麦吉尔大学与蒙特利尔高等商学院、北京大学、复旦大学的研究人员联合发表在Nature Communications的研究成果:本文作者提出了单细胞嵌入式主题模型scETM(single-cell Embedded Topic Model)用于解决大规模scRNA-seq数据集的整合分析。scETM利用可迁移的基于神经网络的编码器,和一个通过矩阵三角分解而具有可解释的线性解码器。scETM同时学习一个编码器网络从而推测细胞类型混合物和一组高度可解释的基因embeddings,主题embeddings和来自多个scRNA-seq数据的批次效应线性截距(linear intercepts)。scETM可扩展到超过106个细胞,并且在跨组织和跨物种零次迁移学习上有着卓越的表现。通过基因集富集分析,作者发现scETM学习的主题富集到具有生物学意义且疾病相关的通路。scETM能将已知基因结合到基因embeddings中,从而通过主题embeddings学习通路和主题的相关性。


Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

1


简介


高通量测序技术的进步为在生物学和病理条件下测量单个细胞的转录组提供了前所未有的机会,并激发多个图谱项目建立。单细胞RNA测序(scRNA-seq)数据的关键应用为无监督聚类识别细胞类型。灵活、可扩展和可解释的计算方法对于将转录谱翻译为生物学见解至关重要。尽管在为scRNA-seq数据开发的聚类方法上取得了可观的进展,但仍然存在一些挑战。首先,与bulk RNA-seq相比,scRNA-seq数据通常表现出更高的噪声水平和drop-out率。实验设计而导致的基因表达变化,通常指的是批次效应,会对聚类产生很大影响。其次,仅仅是对细胞群的分类不足以给出生物学解释。注释细胞clusters需要大量的人工进行文献搜索,注释质量可能取决于用户的领域知识。因此,需要一个可解释且灵活的模型。第三,模型可迁移性是一个重要的考虑因素。作者认为如果学习到的知识作为模型参数用于未来的数据建模,则这个模型是可迁移的。最近的几种方法已尝试解决这些挑战,例如Seurat,Harmony,Scanorama,UNCURL,LIGER。深度学习方法,尤其是自编码器,在scRNA-seq数据建模中表现出良好的性能。


在本文中,作者提出了scETM(single-cell Embedded Topic Model),是一个生成主题模型,用于整合分析大规模单细胞转录组数据,主要贡献是利用可迁移的基于神经网络的编码器,和有一个通过矩阵三角分解可解释的解码器。scETM从scRNA-seq数据中同时学习编码器网络参数和一组高度可解释的基因embeddings、主题embeddings和批次效应线性截距(linear intercepts)。编码器网络的灵活性和表达能力使scETM能够对庞大的scRNA-seq数据集进行建模,而无需进行特征选择或降维。scETM可发现可解释的细胞签名(cellular signatures)和基因标志物(gene markers)的同时跨条件、研究对象或实验研究整合scRNA-seq数据。scETM在为来自不同数据集中的细胞聚类到已知的细胞类型上具有理想的运行时间和内存要求。本文还展示了scETM在不同测序技术之间、不同组织之间和不同物种之间进行有效知识迁移的能力。scETM还可以用来发现具有生物学意义的基因表达signatures。最后,作者将已知的pathway-gene关系以基因embeddings的形式结合到scETM中,并利用学习到的pathway-topic embedding来展示包含通路信息的 scETM(p-scETM)学习具有生物学意义信息的能力。


2


结果


scETM模型概述


该团队开发了scETM来模拟跨实验或研究的scRNA-seq数据(图1a)。scETM改编自ETM(Embedded Topic Model,嵌入主题模型),继承了主题模型的优点,可以有效处理大和重尾分布的词频。在scRNA-seq数据分析中,每个单细胞转录组作为一个标准化的基因count向量提供给一个两层全连接神经网络(即编码器),推测该细胞的主题混合比例。在参考scRNA-seq数据上训练的编码器可用于推测从不同组织或物种收集的未知scRNA-seq数据的主题混合(图1b)。


对于可解释性,作者使用线性解码器,将基因和主题embeddings作为可学习参数。具体来说,将cells-by-genes count矩阵分解为cells-by-topics矩阵 θ(由编码器推测)、topics-by-embedding α和embedding-by-genes ρ矩阵。这种三角分解设计以高度可解释的方式探索细胞、基因和主题之间的关系。为了解决条件或实验对象之间的偏差,引入了一个可选的批次校正参数λ,它作为类别softmax函数中的线性截距项,以减轻编码器对批次效应建模的负担,使其专注于推测具有生物学意义的细胞主题混合 θd。与scVI-LD(Svensson等人提出的变分自编码器)相比,学习主题和基因的common embeddings的线性解码器组件提供了更灵活性和可解释性以及整体更好的性能(图1c)。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图1 scETM模型概述


数据整合


作者对scETM以及七种最先进的单细胞聚类或整合分析方法进行基准测试,即scVI、scVI-LD、Seurat v3、scVAE-GM、Scanorama、Harmony和LIGER,在六个已发布的数据集上,即小鼠胰岛(MP)、人类胰岛(HP)、Tabula Muris(TM)、阿尔茨海默数据集(AD)、重度抑郁症数据集(MDD)和小鼠视网膜(MR)。在所有数据集中,scETM提供了有竞争力的结果,尤其是在可迁移和可解释的模型中。为了进一步验证聚类性能(Adjusted Rand Index)和评估批次混合性能(k-nearest-neighbor Batch-Effect Test),作者使用UMAP可视化细胞embeddings(图2)。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图2 小鼠视网膜数据集上的整合和批次矫正


批次过度校正分析


某些方法可能过度校正批次效应,并且无法捕捉生物变异的某些方面。一些方法(如LIGER)kBET高但ARI低,这表明批次效应可能过度校正。为了测量每种方法的批次过度校正程度,使用两个数据集进行两个实验,即人类胰腺(HP)数据集和小鼠视网膜(MR)数据集。使用3个指标在数据集上评估所有方法:ARI、kBET 和平均轮廓宽度(ASW)。对于HP数据,scETM在识别细胞类型和整合不同批次之间取得了良好的平衡。MR数据集来自于小鼠视网膜两个独立研究,因此在这里把这两个研究视为两个批次,scETM在该数据集上实现了最高的ARI、合理的ASW和适度的kBET,表明它能够从未过度校正批次效应的数据中捕获真实的生物学特性。


可扩展性


scETM的一个关键优势是其高可扩展性和效率,并通过与其他先进方法在运行时间、内存使用和聚类性能上相比来证明。这里的数据集是整合MDD和AD细胞的数据集。scETM在所有基于深度学习的模型中拥有最短的运行时间(图3a)。尽管Harmony和Scanorama比scETM更快,但scETM可以轻松把这里使用的前3000最易变基因扩展到所有基因,而这是更想要的因为生成的模型可以推广到其他数据集。scETM原则上采用线性运行时间和恒定内存与每个训练epoch样本大小有关,而Seurat的记忆需求随着细胞数量的增加而迅速增加(图3b)。在聚类准确性方面,scETM的性能始终具有竞争力,而Harmony和Scanorama随着数据集大小的变化而表现不稳定(图3c)。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图3 七种scRNA-seq聚类算法的效率和可扩展性比较


跨单细胞数据集的迁移学习


scETM的一个突出特点是它的参数,因此scRNA-seq数据建模的知识可以跨数据集迁移。scETM具有跨组织迁移知识的能力,具体来说,作为scETM的一部分,在参考scRNA-seq数据集上训练的编码器可用于推断目标scRNA-seq数据集的细胞主题混合(图1b),无论两个数据集是否共享相同的细胞类型。


本文通过6个任务进行了一套全面的跨组织和跨物种迁移学习分析:(1)TM (FACS)和MP数据集之间的迁移(包括MP→TM (FACS)); (2)人类胰腺(HP)数据集和小鼠胰腺(MP)数据集之间的迁移;(3)人类初级运动皮层(M1C) (HumM1C)数据集和小鼠初级运动区域(MusMOp)数据集之间的迁移。在这些迁移学习任务(A→B)中,仅对源数据A训练期间校正批次效应,而在迁移到目标数据B的过程中没有校正。作为比较,作者评估和可视化scETM、scVI-LD和scVI在6个迁移学习任务中的聚类结果(图4)。总体而言,scETM在所有任务中取得了最高的ARI和竞争力的kBET分数。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图4 跨组织和跨物种零次迁移学习


scETM主题的通路富集分析


接下来研究scETM推断的主题是否与人类已知的基因通路具有生物学相关性。方法是在每个主题下任意选择多个top基因用于检验通路富集。当在个体基因水平上存在渐近p值时,这种方法很有效。在本文的例子中,每个基因都以主题得分为特征,因此很难系统地选择每个主题的top基因数量。为此,作者使用基因集富集分析(GSEA)。


对于HP数据集,每个主题都检测到许多显着富集的通路,Benjamini-Hochberg FDR < 0.01(图5a)。其中许多与胰腺功能有关,包括胰岛素加工(图5b)、胰岛素受体再循环、胰岛素葡萄糖通路、胰腺癌等。由于scETM联合学习基因embeddings和主题embeddings,则可以通过UMAP在同一embeddings空间中可视化基因和主题(图5c)。确实在胰岛素加工通路中观察到基因的强共定位和对应的富集主题(即Topic 54)。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图5 人类胰腺数据集的基因集富集分析


疾病状况和细胞类型中的差异scETM主题


作者试图发现疾病特异性或细胞类型特异性scETM主题。从AD数据集开始,作者发现scETM学习到的主题对细胞类型标记基因具有高度选择性(图6a)并且对细胞类型具有高度识别力(图6b)。为了检测疾病特征,作者将细胞分为来自24个AD患者的和来自24个对照组的。然后,作者进行了置换检验以评估两个细胞组是否在主题表达方面表现出显着差异。Topic 12和58在AD细胞和对照细胞中显著差异表达(图6c,d)。作者还从HP、AD和MDD数据集中确定了几个细胞类型特异性scETM主题(图6b)。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图6 阿尔茨海默snRNA-seq数据集的scETM主题embeddings


通路-informed的scETM主题


为了进一步提高主题的可解释性,作者结合了已知的通路信息来指导主题embeddings的学习(图7a)。作者将此scETM变体表示为通路-informed的scETM或p-scETM。作者在HP、AD和MDD数据集上检测p-scETM。在不影响聚类性能的情况下,p-scETM学习了具有功能意义的主题embeddings。在HP主题embeddings中,作者发现胰岛素信号、营养消化和代谢是几个主题中的主要通路。在MDD主题embeddings中,top通路与Topic 40相关,Beta-2肾上腺素能受体信号,也富集在MDD全基因组关联研究中。在AD主题embeddings中,作者发现了Topic 9与阿尔茨海默-淀粉样蛋白分泌酶通路之间的关联。


为了进一步证明p-scETM的实用性,作者还使用了7481个基因本体论生物过程(GO-BP) 术语作为固定基因embeddings,它从每个数据集中学习topic-by-GOs主题embeddings。在每个主题下,作者选择了得分最高的前5个GO-BP术语来检查它们与目标组织或疾病的相关性(图7b)。对于 HP 数据集,B型胰腺细胞的负调节(GO:2000675)和胰腺汁分泌调节(GO:0090186)分别是Topics 27和68的top GO-BP术语。对于AD数据集,淀粉样蛋白前体蛋白生物合成过程(GO:0042983)在Topic 40下的前5个GO-BP术语之中。对于MDD数据集,在使用所有基因和仅用编码基因学习的主题中发现了相似的top GO-BP术语。有趣的是,MDD中的Topic 98和Topic 22,51参与的腺苷酸环化酶调节G蛋白偶联受体信号(GO:0007188),是最近开发的几种抗抑郁药物的靶点。

Nat. Commun. | 从单细胞转录组数据中学习可解释的细胞和基因签名嵌入

图7 p-scETM学习的pathway-topics embeddings


3


总结与讨论


scETM作为一个统一且高度可扩展的框架,用于跨多个数据集的大规模单细胞转录组的综合分析。与现有方法相比,scETM在数据整合、迁移学习、可扩展性和可解释性方面具有优异的表现。


本文的工作未来的研究方向:


I. 进一步提高批次校正。因为当前的模型只考虑单个类别批次变量,可以扩展它以校正多个类别批次变量。


II. 进一步提高数据整合。将scETM扩展为多组学整合方法,该方法可以整合scRNA-seq和其他组学,例如在scRNA-seq相同细胞中测量的蛋白质表达或在不同细胞但在相同的生物系统中测量scATAC-seq。


III. 进一步提高可解释性。原始ETM在更大的参考语料库(例如Wikipedia)上使用来自word2vec的预训练词embedding,以提高对目标文档建模的主题质量。


上一篇:CIKM 2021 | 基于IPCA的多属性分子优化


下一篇:Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略