今天带来的是商汤科技(SenseTime)研究小组发表在arxiv上的Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction。现有蛋白质-蛋白质相互作用(protein-protein interaction, PPI)预测方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。本文从两方面新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法来解决预测未知蛋白的相互作用。
蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(protein complex)的过程。多类型蛋白质-蛋白质相互作用(PPI)的研究是从系统的角度理解生物过程和揭示疾病机制的基础。现有方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。以最先进的模型 PIPR为例,在与训练集同源的 SHS148k 测试集上进行的测试与在更大的 STRING 测试集上进行比较,衡量精度和召回率的micro F1 分数从 92.42 下降到 53.85。进一步研究,本文将 STRING 测试集划分为 BS、ES 和 NS 子集,其中 BS 表示在训练期间看到了相互作用中的两个蛋白质对,ES 表示看到了这对蛋白质中的一个(但不是两个),NS 表示没有看到蛋白质。如图1所示,ES 和 NS 子集的性能不佳(在本文中统称为新型蛋白质Inter-novel-protein间相互作用)是性能下降的主要原因。下面来主要介绍本文的两方面解决问题的方法--设计考虑新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法。
图 1 测试集中不同蛋白质子集的F1分数
评估(evaluation)
设计了一个新的评估框架,该框架充分考虑了新型蛋白质之间的相互作用,并在数据集之间提供了一致的评估。由于新蛋白之间的相互作用是主要的瓶颈,要求评估框架的测试集Xtest满足条件|XBS| << |XES|+|XNS|,为了达到这一效果,论文提出通过在PPI网络中使用 BFS 或 DFS 构建测试集。通过在PPI网络中使用广度优先搜索(BFS)算法得到是彼此紧密互动,在PPI网络中以集群的形式存在的蛋白质。通过在PPI网络中使用深度优先搜索(DFS)算法得到的是稀疏分布在 PPI 网络中,彼此之间几乎没有交互的蛋白质。其目的是为了保持训练集和测试集的PPI网络连通性。
方法( methodology)
提出了一种基于图形神经网络的方法(GNN-PPI),通过图表自然建模和挖掘相关性,结构图如图2所示。其中蛋白质作为节点,相互作用作为边缘,用于更好地预测新蛋白质之间的相互作用。首先组装成对的相互作用数据来构建图,其中蛋白质作为节点,相互作用作为边。首先选择根节点,然后执行提出的 BFS 或 DFS 策略来构建测试集。该模型的首先通过embedding获得预定义的特征,然后通过卷积和池化提取蛋白质独立编码 (PIE) 特征,最后通过图卷积聚合并到蛋白质图编码 (PGE) 功能。在训练集标签监督下对相互作用中成对蛋白质的特征分类。本文设计了蛋白质独立编码 (PIE) 和蛋白质图编码 (PGE) 模块来编码蛋白质特征。对于未知的PPI,本文结合前面过程编码的蛋白质特征,计算它们在不同PPI类型中的分数,并输出其多标签预测。相关性的引入和提出的 GNN-PPI 模型在很大程度上缩小了 BS、ES 和 NS 子集之间的性能差距。
图 2 本文GNN-PPI模型结构图
结果(result)
无论是在同源数据集还是大型数据集的测试中,GNN-PPI 都优于最先进的 PPI 预测方法,表1为本文GNN-PPI模型和PIPR模型在同源数据集和STRING数据集上的结果对比,其中STRING数据集上的结果主要衡量了对新型蛋白质的预测效果。在同源测试集的预测中精确度提升约10%;在STRING数据集中精确度提升了约30%。
表 1 本文GNN-PPI模型和PIPR模型对比
总结(summary)
本文主要研究了蛋白质间相互作用(PPI)预测问题,对于目前方法对新型蛋白质(没有在训练集中出现过的蛋白质)的关系预测不准确问题进行的重点研究,设计了一个充分考虑了新型蛋白质之间的相互作用的评估框架,并将蛋白质之间的相关性纳入 PPI 预测问题,提出了一种基于图神经网络的相关性建模方法,所提出的 GNN-PPI 模型在不同尺度的真实数据集中实现了最先进的性能。