什么是RNA-Seq (RNA Sequencing)

什么是RNA-Seq (RNA Sequencing)

随着ome为词尾的各种组学的出现,转录组学已经成为了人们了解生物信息的一个重要组成部分。人们使用了许多办法来掌握转录组的情况,主要分为两类,一类是基于杂交,一类是基于下一代测序技术(Next Generation Sequencing, NGS)。

基于杂交的办法,主要是依靠印刷有荧光标记探针的基因芯片来实现。比如说基因组芯片,它高密度的集成了分辨率高达几bp~100bp的探针,通过与样品杂交荧光显色的办法来勾画转录组的情况。虽然基因芯片高度集成,并且易于应用,成本低,但是,这一手段高度地依赖已知信息,这不利于发现新知,同时,它还存在着高背噪,非特异杂交所带来的无法分辨弱信号和过饱和信号的问题。当然,在不同样品的比较当中,甚至在同一芯片内部,都存在杂交不均匀带来的各种问题,需要诸如标准化等统计学手段来分析结果。

随着下一代测序技术的成熟,它很快就被应用到转录组学的研究上来,并被寄以厚望。相比于杂交来说,测序技术直接针对的是cDNA进行测序,所以基分辩率在理论上可以达到单碱基的水平。然而这在高通量的要求之下变得比较困难。人们使用deep-sequencing技术来解决这一问题。深度测序,顾名思意,其是基于已有的基因组水平上的测序,也就是说它需要完整的参考序列。从这个意义上来说,它也是依赖已知信息的,但是它不象基因芯片那来,还需要依赖开放阅读框ORF,或者外显子exon等信息。当然,你没有模板序列也一样能完成测序这一步,只不过比较麻烦的事情就变成了如何来拼接这些序列了。第二,对于Alternative splicing events以及SNP的研究也较基因芯片来说方便的多。第三,背噪小,不存在饱和问题。因为是基因于测序的,所以它可以很准确地比对到固定的基因组序列上去。当然,也不担心饱合问题,因为它是数个数的。这一点也直接导致了它的精确度比基因芯片要高,并且可重复性好。第四,它不需要克隆步骤,所以它对样品量的要求更低。

但是深度测序也是有其不足的。首先是样品准备方面的。除了人为的操作差异外,还有其过程中必然带来的误差。Deep-sequencing只适用于小片段,对于small RNAs(microRNAs(miRNAs), Piwi-interacting RNAs(piRNAs),..)来说,挺方便,但对于转录的RNA来说,就需要一个打碎成小片段的过程了。一般来说,分两种手段,生化的(水解RNA或者酶切cDNA),物理的(雾化RNA或者超声波cDNA)。每种手段都有它的难度和倾向性。拿生化方法来说,对于RNA水解来说,3’及5’端都不容易保留,反而中间的部分容易保留下来。而DNaseI酶切cDNA就会出现3’端信号较强的现象。还有,如果构建cDNA库的话,又会引入逆转录或者PCR,不构建的话,RNA又极易降解。这些都会影响到实验的可重复性。还有一个问题就是,因为片段很小,如果基因组上出现overlapping的话,就不好注释,如果正好是方向相反的话重叠,就更会影响到注释结果了。解决办法是构建一个单链库。但是单链库的构建步骤多,甚至有较难的RNA-RNA连接步骤,没有实现商业化。而且,单链库对于反义转录无能为力。

 

其次,是生物信息学方面的。凡是高通量的东西,都存在一个数据挖掘的问题。质量控制是第一步,如何从海量数据中去除低质量的测序结果就是问题。第二步拼接。拿到高质量的测序数据之后,需要把少则30,多则上百的片段比对拼接到模板基因组上去。现有的程序包括ELAND, SOAP, MAQ以及RMAP等。我们知道,对于RNA来说,它会有一个ployA的尾巴,它还会有拼切剪接,它会有junction,这同DNA比对拼接就有很大的不同。其次,因为片段很小,而基因组很大,总是会有许多片段会比对到多个位点上去。当然这些都有解决办法,只不过只要是算法,就总有完善的空间。最有效的手段还是提高测序长度。

其三就是测序深度与花费的矛盾。有钱当然好办,基因组再大,加大测序深度就好了。但是深度测序是很花钱的,加大测序深度并不是所有实验室都可以承受,而且值不值得也是个问题。

RNA-Seq有着巨大的应用前景。比如说它可以明确基因或者外显子的边界。一次RNA-Seq就可以明确大量的基因和外显子边界。比如它可以扩展对转录复杂性的认识。对于人类而言,RNA剪接事件已经被确认的就有31618,还有更多有待我们去解,尤其是各类疾病成因的研究。比如它对低频度转录事件的发现。这无疑是对生物噪音研究的一大利器。

因为RNA-Seq是可以定量的,所以在系统生物学方面,也会成为极为重要的手段。

FURTHER INFORMATION
Gerstein laboratory homepage:
http://bioinfo.mbb.yale.edu
snyder laboratory homepage:
http://www.yale.edu/snyder
454 Life science: http://www.454.com
Applied Biosystems: www.appliedbiosystems.com
Helicos Biosciences: http://www.helicosbio.com
illumina: http://www.illumina.com
illumina forum:
http://www.illumina.com/pagesnrn.ilmn?iD=245
seQanswers:
http://seqanswers.com/forums/showthread.php?t=43
上一篇:DNS基础


下一篇:php实现排列组合