Protein-protein interaction site prediction through combining local and global features 文章梳理

作者:中南大学李敏团队

发表期刊:Bioinformatics

时间:2019.9.4

0 写在前面的疑惑

   1)如果一个氨基酸的绝对溶剂可及性<1A2,则被定义为相互作用位点,否则不是。A2

具体怎么解释,查看资料只是说的长度单位。

   2)不明白文中提出的RSA分数和极性以及蛋白质序列长度等信息的作用。

   3)batch size 设置为64,一般这个根据什么设置?

   4)蛋白质序列的长度设置为500,文章最后提到本模型擅长预测长长度蛋白质,根据文章Table 1,文章400多序列中,长度在500以上的只有14个,这是500算长算短?

1 动机

蛋白质-蛋白质相互作用(PPIs)在许多生物过程中起着重要作用。用于鉴定PPI位点的常规生物学实验既昂贵又耗时。因此,已经提出了许多计算方法来预测PPI位点。现有的计算方法通常使用局部上下文特征来预测PPI位点。实际上,蛋白质序列的全局特征对于PPI位点预测至关重要。

2 贡献

1)结合局部上下文和全局序列特征,提出了一种新的端到端深度学习框架DeepPPISP。

2)对于局部上下文特征,我们使用滑动窗口来捕捉目标氨基酸的邻居的特征,就像以前的研究一样;对于全局序列特征,采用文本卷积神经网络从整个蛋白质序列中提取特征。然后结合局部上下文和全局序列特征来预测PPI位点。

3 模型与算法

3.1 数据

1)实验的数据取自:

Dset_186是从PDB数据库中构建的,由186个蛋白质序列组成

Dset_72由72个蛋白质序列

PDBset_164由164个蛋白质序列组成

注:以上数据库分辨率< 3.0A2,序列同源性< 25%。虽然三个数据集中的这些蛋白质序列没有重复,但三个数据集来自不同的研究组。为了确保训练集和测试集来自相同的分布,作者将三个数据集集成为一个融合数据集。

(补:同源性的知识 https://jingyan.baidu.com/article/359911f5bfe45257fe030613.html

2)训练集测试集占比

融合后的数据集分为训练集(约占随机选择的蛋白质序列的83.3%)和测试集(剩余的蛋白质序列),以达到充分利用这些蛋白质序列来训练深度学习模型的目的。

最终训练集中有350个蛋白质序列(独立验证集中有50个蛋白质),而测试集中有70个蛋白质序列。

此处需要说明,1)部分的蛋白质序列加起来是422,但是由于其中蛋白质二级结构的定义(DSSP)文件,所以最终得到的标注蛋白质序列只有420。

3.2 输入特征

1)特定位置评分矩阵(PSSM)中的进化信息已被证明在PPI位点预测中是有效的。每个氨基酸都被编码成一个含有20个元素的载体,代表20个氨基酸出现在这个位置的概率。

2)前八个维度表示每个氨基酸的二级结构状态,最后一个维度表示没有关于二级结构状态的信息—>9D

3)原蛋白序列能够准确地表示各氨基酸及其位置。大多数蛋白质由20种不同的氨基酸组成。因此,我们使用一个20D单热载体来编码蛋白质中的氨基酸类型。

综上得到了49D的特征向量。

3.3 评价标准

本研究使用了六个评估指标:准确性(ACC)、精确性、召回率、F-measure、特征曲线下的面积(AUC)、精确性-召回率曲线下的面积(auPR)和Matthews相关系数(MCC)  (7个?不太明白。文章正文没有比到AUC,但是在补充材料里有涉及ROC)

3.4 文章的其他参数

1)滑动窗口的长度被设置为7

2)蛋白质序列的长度设置为500

3)batch size 64

4)learning rate = 0.001

5)dropout rate = 0.2

6)FC1 = 1024;FC2 = 256

3.5 文章模型

Protein-protein interaction site prediction through combining local and global features 文章梳理

4 实验结果

1)与其他算法的比较

Protein-protein interaction site prediction through combining local and global features 文章梳理

尽管DeepPPISP的准确性和召回率分别低于ISIS和SPRINGS,但其他评估指标高于其他竞争方法。DeepPPISP获得的精度、F-measure和MCC要高于其他算法。

注:PPI位点预测是一个不平衡的学习问题,因此我们更加关注F-measure和MCC

2)全局序列特征的影响

Protein-protein interaction site prediction through combining local and global features 文章梳理

通过结合局部文本特征和全局序列特征,可以获得比仅使用局部文本特征更好的性能(F-measure高约4%,MCC高9%),这体现了全局序列特征的优势。

此外还证明了全局序列特征向量长度与局部文本特征向量长度比例为2:1时性能最好。

3)滑动窗口长度的影响

Protein-protein interaction site prediction through combining local and global features 文章梳理

采用不同长度的滑动窗(7、9、11、13、15)来观察DeepPPISP的性能。从Supplementary Table S7的结果可以看出,当滑动窗的长度为7(最佳F-measure和MCC)时,性能最好。

4)不同蛋白质长度的影响

研究了蛋白质长度是否对分类结果有影响。在我们的数据集中,蛋白质长度从39到869不等,62.1%的蛋白质长度是200个氨基酸。从补充图S6中可以看出,短长度蛋白的预测结果始终高于长长度蛋白的预测结果。说明本模型擅长预测短长度蛋白而不擅长预测长长度蛋白,这是DeepPPISP的主要局限性。

Protein-protein interaction site prediction through combining local and global features 文章梳理

5 总结

本研究中,提出了一个深度学习框架DeepPPISP,用于预测残留水平的PPI位点。

DeepPPISP与其他现有方法的区别在于,它结合了从蛋白质序列中提取的局部和全局特征,利用深度神经网络来预测PPI位点。深度学习技术已经被证明可以捕获输入数据的有效特征。DeepPPISP使用TextCNN来捕获全局序列特征,这允许轻松建模一个目标氨基酸和整个蛋白质序列之间的关系。

结果表明,DeepPPISP改进了PPI位点预测,优于现有的竞争方法。此外,我们的结果表明,蛋白质序列的全局特征有助于改进对PPI位点的预测。

虽然DeepPPISP被证明比其他竞争方法有优势,但它也有一些局限性。第一个是速度慢。生成序列概况(PSSM和DSSP文件)和运行TextCNN获取模型中蛋白质序列的全局序列特征需要花费大量的时间。第二,DeepPPISP并不擅长预测长长度蛋白序列。

上一篇:物理像素、CSS像素、dip、dpr、ppi、dpi


下一篇:金融计量学第一次实验:eviews做多元线性回归分析