SAINT学习笔记

SAINT的介绍

SAINT(Significance Analysis of INTeractome)是一种概率方法,用于在亲和纯化-质谱(AP-MS)实验中对阴性对照的诱饵-猎物相互作用进行评分。
SAINTexpress,具有更简单的统计模型和更快的评分算法,显著提高了计算速度和评分的敏感性。

SAINTexpress的使用

下载与安装

wget https://sourceforge.net/projects/saint-apms/files/SAINTexpress_v3.6.3__2018-03-09.tar.gz
tar xf SAINTexpress_v3.6.3__2018-03-09.tar.gz
cd SAINTexpress_v3.6.3__2018-03-09 && make

输入文件的准备

主要有三个输入文件

  • Bait file
    第一列是 IP name IP蛋白的名称,可以理解为具体的
    第二列是 bait name 靶向蛋白的名称 我的理解为第一列是具体
    第三列是 标识分组的 T标识test C 标识control
    SAINT学习笔记

  • Prey file
    第一列是 prey name 蛋白的名称 可以为GI号或者Uniprot号
    第二列是 prey protein length 蛋白的长度
    第三列是 prey gene name 基因的名称 可以与蛋白名称一样
    SAINT学习笔记

  • Interaction file
    第一列是 IP name
    第二列是 bait name
    第三列是 prey name
    第四列是 spectral counts
    SAINT学习笔记

软件的运行与参数

SAINTexpress-spc [OPTIONS] <interaction data> <prey data> <bait data> 

-L 用来设置虚拟的对照值。例如,如果我们想获得对照的最大的4个光谱值

SAINTexpress-spc –L4 inter.dat prey.dat bait.dat

-R 设置计算时每一个baits使用重复的数量。当一些baits的重复多余其他的baits时,这个参数很有用,默认为100

合并已知交互关系的数据

可以输入一个GO格式的文件计算一个TopoAvgP的得分,需要提供包含两列的交互数据库文件,如下图的GO.txt文件。
第一列是GO id 应该可以为其他的id
第二列是属于这个GO term的基因id 用空格分隔开,id名称与prey file的第一列一样
SAINT学习笔记

SAINTexpress-spc –L4 inter.dat prey.dat bait.dat GO.txt 

输出文件格式

输出的文件有16列,每一列的具体解释如下
Bait: bait identifier bait 文件里面的第二列
Prey: prey identifier 蛋白的名称
PreyGene: additional prey identifier 蛋白对应的基因名
Spec: spectral counts for the bait-prey pair 每一个样的光谱定量值
SpecSum: sum of the spectral counts 定量的和
AvgSpec: average spectral counts over replicates 平均定量值
NumReplicate: number of replicate purifications for the given bait 重复数
ctrlCounts: spectral counts in the negative controls 阴性对照的定量值
AvgP: main probability score 主要的打分值
MaxP: maximal probability score of the interaction over replicates 基于重复互作的最大概率得分
TopoAvgP: topology-aware probability score incorporating known interaction data 包含已知交互数据的拓扑感知概率得分
TopoMaxP: topology-aware maximal probability score over replicates 基于拓扑感知的重复最大概率得分
SaintScore: larger of AvgP and TopoAvgP AvgP和TopoAvgP中的较大值
FoldChange: average spectral count in test interaction divided by the average in controls 处理的平均光谱值处理对照的平均光谱值
Boosted_by: indicates which known interactors of the same bait contributed to TopoAvgP 基于同一诱饵的已知互作关系得到的一个TopoAvgP共享值,具体不太清楚,需要使用GO.txt文件才会得到这个值
FDR: Bayesian false discovery rate 矫正值
logOddsScore: 得分值,应该是指示互作的概率?一般取log

上一篇:实验七


下一篇:zookeeper 启动脚本