ERCC spike-in RNA的调研

ERCC的调研

在RNA-seq数据分析中,为了比较不同样本、不同基因之间的表达差异,通常会对数据进行标准化转化,得到RPKM/FPKM/TPM等指标。但是这些指标都是相对定量,相对定量有两个前提:1是绝大多数的gene表达量不变;2是高表达量的gene表达量不发生改变。

可是在一些比较特殊的样本体系下,这两个基本假设有可能不能同时符合。比如针对很多癌症样本,经常会出现一些很重要的高表达gene发生普遍的上调或者下调,从而导致整个样本不符合RNA-Seq正常定量的基本假设。那么这个时候,如果继续使用常规的寻找差异表达的方法来对基因进行定量以及分析,就可能会出现偏差,这时候就需要通过参照物进行矫正。

矫正的思路是在变化的样本中寻找不变的量。在RNA-Seq中一般有两种方法矫正:第一种方法是通过持家基因(Housekeeping gene),因为默认为管家基因的表达量在样本中是基本不变的。但其实这种办法有一个非常强的先验假设:housekeeping gene的表达量不怎么发生变化。其实housekeeping gene list有几千个,这几千个基因有一定程度上的变化是有可能的。第二种是在RNA-Seq建库的过程中就掺入一些预先知道浓度和具体分子量的spike-in作为内参,然后使用内参进行矫正。这种方法能够对基因表达起到绝对定量的作用。这就是本文需要调研的ERCC的方法。

 

调研大纲:

  1. ERCC的介绍,ERCC的历史
  2. ERCC的spike-in RNA有什么作用?
  3. ERCC的RNA spike-in 有哪些序列,一般是怎使用的?
  4. ERCC的RNA spike-in的结果一般是怎么分析的?我们是否有建立相应分析方法?
  5. ERCC spike-in 序列总共多长,需要增加多少数据量?
  6. 在RNA-seq中是必须有的吗?
  7. ERCC在的探针自设计,再加外在购买标准品的方式是否可行?可能存在哪些困难?是否有人如此做过?
  1. ERCC是什么,ERCC的历史?
  2. ERCC的RNA spike-in有什么作用?

 ERCC的全称是 External RNA Controls Consortium,翻译过来就是外源RNA参照协会,这是个专门为了定制一套spike-in RNA而成立的组织。该组织成立于2003年,主要的工作就是设计了一套非常好用的spike-in RNA,方便当时的microarray,qRT-PCR以及后来的RNA-Seq进行内参定量。

  早期的用DNA芯片是一个突破性的技术,它可以通过测量多基因的表达水平来揭示生物活动。然而它存在严重的不足就是,它的结果在不同仪器、不同时间的实验之间无法比较,也不可重复。也正是因为这点,美国标准技术研究所NIST才决定领导开发一个RNA spike-in工具,来解决这个问题。

  1. ERCC的RNA spike-in 有哪些序列,一般是怎使用的?

  设计的RNA spike-in序列长度范围是250-2000nt,GC含量在5-51%,这个长度模拟了真核生物转录本的长度状态,ERCCC 2.0版本的RNA spike-in 有96条DNA分子,每条序列都有特异对应的序列。这些序列都是和human genome同源性低,不影响后续的比对分析。这些序列可以通过混合成“鸡尾酒”的方式,spike in 生物RNA样本中。ERCC controls 可以在获得的生物RNA样本中进行混入,一起进行Target preparation-->Data acquisition--> Proprocessing--> Interpretation的过程。在RNA-seq中,Data acquisition就是sequencing的过程。

 

Thermo官网也有RNA spike-in的购买,该官网的RNA spike-in包含92条转录本序列,其序列可通过官网下载得到。这些序列分成A、B、C、D四组,每组23个序列,每组的23个序列的分子浓度都是分布在大约106-fold 的浓度范围,使用时可以进行稀释,但是23个序列分子的浓度范围不变。另外这些转录本有两种mixture,分别是spike-in Mix1和Spike-in Mix2。这两种组的转录本序列是一样的,但是A/B/C/D的浓度不同,具体如下Table1

 

所以它的产品包括ERCC RNA Spike-In Mix (Part no 4456740)和ERCC ExFold RNA Spike-In Mixes (Part no 4456739)两种。其中ERCC RNA Spike-In Mix (Part no 4456740)只包含Spike-In Mix 1,而ERCC ExFold RNA Spike-In Mixes (Part no 4456739)包括Spike-in mix1和Spike-in mix2。他们的功能也不完全相同,具体如下Table2

 

这些RNA spike-in在工作流程中示例如下workflow

 

最终通过测序比对得到的序列,经过归一化,可以得到检测限和检测范围的分析结果:

 

如果是ExFold RNA Spike-In Mixes (Part no 4456739),则还可以得到fold-change response的结果:

 

这个标准品可以建议在纯化Total RNA ,PolyA 选择、rRNA-去除 之前就放入,以起到更好的监控作用:

 

 

 

 

  1. ERCC的RNA spike-in的结果一般是怎么分析的?我们是否有建立相应分析方法?

分析需要先从官网下载ERCC_Control s_Annotation.tx文件,该文件包含每个序列ID,组别,mix中的浓度。

 

得到测序序列,先进行比对,然后normalized和过滤得到表达数据(RPKM.FPKM),汇出4问中的结果图。

在不同样本之间,最后通过ERCC RNA spike-in reads作为factor,进行样本之间的矫正:

 

 

 

  1. ERCC spike-in 序列总共多长,需要增加多少数据量?
  2. 在RNA-seq中是必须有的吗?

总的ERCC spike-in序列总长是84.5k,对fusion panel增加很大的负荷和成本

从以上分析看,ERCC主要是对表达量的是必须的,但是我们的目的是检测gene fusion,而且会增加很多成本,如果为了考虑表达量的绝对定量需求,可以只悬着某几个序列来做,不可能全选择。

另外为了更好地对gene-fusion的检测起到control作用, Tim R. Mercer等发明了sequins的方法,用来内参gene-fusion的检测。

 

他是构建了个虚拟的染色体chrIS_R,通过合成的方法得到一个染色体的片段。并特异设计了24个融合位点。

 

这个方法在2019nature communication中也得到应用,下图是设计的fusion panel中包括含Fusion sequins的序列。

 

文章后面验证融合基因的检测时,除了稀释做了稀释比之外,还做了绝对定量:

 

 

Sequins参考品也有从网上订购的途径,下面是官网对sequins的介绍

 

 

  1. ERCC在的探针自设计,再加外在购买标准品的方式是否可行?可能存在哪些困难?是否有人如此做过?
上一篇:实验技术整理


下一篇:PaddlePaddle从病毒手里抢时间:百度研究院研发RNA测序算法检测速度提升120倍