今天给大家介绍拉什大学的Shinya Tasaki 等人在Nature Machine Intelligence上发表的文章“Deep learning decodes the principles of differential gene expression”。作者在文章中提出了一个系统生物学模型DEcode来预测差异表达,并挖掘影响预测基因表达的因素的生物学基础,以了解其如何产生。作者在模型中使用了深度卷积神经网络,根据RNA和启动子上的全基因组结合位点预测差异表达。此外,作者通过预测组织间的差异表达、差异转录的效用和衰老的驱动因素等实验,展示了DEcode在产生生物学见解方面的广泛潜在应用。
1
研究背景
尽管所有人类细胞都共享DNA序列,但是基因调控在细胞类型和发育阶段之间以及在对环境和刺激的响应方面有所不同。因此,当基因表达受到不适当的调节时,细胞稳态就会受到干扰,影响细胞功能并导致疾病。细胞状态之间的区别被观察为基因转录本的差异表达(DE),尽管DE十分重要而且普遍存在,但将这些观察转变为对本质上解码DE的潜在生成过程的一致理解仍然困难,这对于基础生物学和疾病生物学的发展至关重要。作者通过利用新颖的计算和系统生物学方法来开发基于全基因组调控相互作用数据的DE预测模型来解决这问题。
为了根据分子调控相互作用对DE进行解码,作者首先使用 DEcode模型DE对其进行高精度预测。该模型结合了多种类型的基因调控相互作用,能够优先考虑在组织特异性的基础上影响DE的主要系统和分子,进一步建立这种基因调控的可能的分子机制,并验证预测的最强调控因子的影响。同时,作者预测不同个体之间DE的起源,这是实验和临床研究的主要组成部分。通过在每个实验中确定DE的来源,可以将DEcode应用于当前和将来的大多数基因表达数据,从而加速基础生物学和疾病生物学的发展。
2
实验
2.1预测人体组织间的差异表达
该实验通过将基因表达作为分子相互作用的结果对其进行预测,以理解差异表达信号的主要调控原理。在DEcode系统中使用深度卷积神经网络,根据启动子和mRNA特征预测基因表达的组织间差异和个体差异,模型如图1所示。
图1 构建和评估解码转录组预测模型
作者将DEcode框架应用于27,428个基因和79,647个转录本的具有组织特异性的人类转录组中,利用多任务学习架构,预测53个组织的相对于所有组织的中值表达的对数差异倍数以及所有组织的中值表达值。实验结果如图2所示,作者使用斯皮尔曼系数计算预测值和实际值的一致性,从图中可以看出,预测的中值表达水平在基因水平和转录本水平上均与实际观察结果高度一致。
图2 对整个组织中基因表达水平中位数的预测表现
2.2不同组织间的差异表达调控
除了DEcode的预测性能外,作者还利用该模型来帮助定义调节差异表达的生物过程。为了了解RNA特征在多大程度上影响基因表达水平,作者重新训练了DEcode模型,随机化了RNA特征和启动子特征。实验表明,仅通过RNA特征预测基因水平的对数差异倍数时,其准确性不及使用所有特征的模型,与只使用启动子特征的模型表现相近。基于RNA的模型在预测转录表达和差异转录使用方面比基于启动子的模型表现更好,实验结果如图3所示。
图3 使用不同特征集训练的模型的预测性能
为了进一步量化DEcode模型中加权调节的重要性,作者针对每个预测差异倍数任务通过计算DeepLIFT得分衡量了结合位点对预测的累计贡献,实验结果表明DEcode模型是可解释的,反映了控制RNA丰度的生物学机制。此外,作者假设,如果DEcode模型中的关键预测因子确实是有效的转录组调节因子,则此类调节因子中的缺陷将对细胞表型产生重大影响,从而导致疾病。通过实验验证,转录组的关键预测因子确实在维持重要的细胞和身体功能中起着至关重要的作用。因此,DEcode模型可用于确定致病基因的优先级,并且这种能力指向了预测的关键调控因子的更广泛的有效性。
2.3预测个体间的差异表达
为了解输入相同特征的情况下是否可以预测同一组织内个体之间的相对表达差异,作者扩展了DEcode框架,对14个代表性组织中的个体的差异表达进行建模,个体差异模型成功预测了个体之间的差异倍数,平均斯皮尔曼相关系数约为0.28,实验结果如图4所示。
图4 特定于个体的模型的预测性能
为了检查模型是否捕获了跨组织共享的特定于人的表达,作者还比较了同一个体内不同组织之间以及不同个体之间的基因表达。与实际表达数据一样,预测的表达在相同个体的组织之间显示出更好的一致性,这表明该模型已经捕获了特定于人的调节机制。
2.4相关性状表达变化的生成过程
为了解由DEcode模型预测的特定于个体的表达谱是否也保留了与性状相关的差异表达变化,作者使用预测的基因表达数据对供体的年龄和性别进行了差异表达分析。实验结果表明,对于两种性状,预测数据的测试统计数据均与所有组织中的实际数据具有显着正相关。
2.5基因共表达关系的调控基础
作者检查了DEcode模型是否可以检测到已知的基因共表达关系,在预测的基因表达谱中的基因共表达关系在每个组织的实际基因表达数据中分离了具有正相关和负相关的基因对。此外,预测的基因表达谱还检测到组织间共表达关系。这些结果的准确性促使作者通过DEcode预测研究驱动共表达的关键因素。在大多数组织中,RNA特征可以比启动子特征更好地解释共表达关系,这再次表明RNA特征对人特异性转录组的重要贡献。
3
总结
作者引入了DEcode框架,该框架将大量的基因组数据集成到转录组调控的统一计算模型中,以预测特定于组织和个体的转录组中的多种转录作用。这些实验结果的系统生物学分析提供了有关转录组调控机制的生物学见解。
作者将DEcode框架设计为多任务学习,可以通过共享特征提取层同时预测多个样本的转录组,不仅减少了学习时间,还提高了特定于组织的表达和特定于个体的表达的预测准确性。转录组分析通常会鉴定差异表达基因,然后评估功能基因的富集。特定于个人的DEcode模型与这种传统方法相比具有几个比较优势:(1)DEcode可以同时考虑多个调节器的影响,而不是一次考虑一个。(2)DEcode可以估算特定于个体的调节活动,这些活动可用于识别与感兴趣的表型相关的调节因子。(3)DEcode可以模拟每个基因的KO扰动的结果。
DEcode可以从转录组数据中提取更多可操作的信息,这将有益于各种转录组研究。针对更广泛的应用,DEcode框架可以灵活地合并其他类型的基因组信息,例如原始序列,DNA甲基化,组蛋白标记和RNA修饰,也可以扩展到其他生物。因此,DEcode框架在积累基因组大数据与单个转录组研究之间建立了直接的桥梁,使研究人员能够预测控制与任何状况或疾病相关的差异表达的分子。