要理解整个流程,个人觉得可以按数据的四个流程来拆分:高通量测序,准备工作,上游分析,下游分析
【什么是高通量转录组测序】
所谓高通量测序技术是什么?
顾名思义,就是通量很高(对比sanger测序)的测序,一次性可以获得海量的数据,所以叫高通量测序。
转录组是什么?
转录组,一般指的就是某一时空条件下细胞所产生的所有转录产物,说人话就是,你的样品经过了某种处理,然后拿去提了总RNA,这个总RNA就是一个转录组。
理解高通量转录组测序的关键在哪?
首先是建库,我们建的文库用的是什么,rna吗?不是,那用的是什么?
cDNA,即rna拿去逆转录的产物,为什么要用DNA而不是RNA?
除了单链RNA不稳定外,还有一小部分原因是DNA的建库流程已经确定了,只要把RNA变成DNA后面流程完全一样,可以偷个懒,不过为了节约时间可以在一二链合成的时候直接加好接头,后面就连接头都不用加了,缩短建库的时间,一天可以轻松完成建库
其次就是什么是桥式pcr?
上面就是桥式pcr的流程,简而言之就是序列接头(adapter)一端被固定,然后另一端跟反应槽里的互补序列配对,呈现桥状,然后再进行pcr,故而称桥式pcr。
经过n轮桥式pcr之后,一个序列可以扩增到一个叹为观止的水平,故而通量就非常高了~
最后是测序信号是怎么得到的?
荧光基团,在所有的碱基上我都接了荧光基团
想更直观理解的这里放个illumina的官方介绍
【准备工作】
首先,我们拿到的原始序列文件就是fastq,那么怎么去理解fastq文件呢?
ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
上面这里是一个fastq文件的格式,每一行代表什么呢?
第一行就是测序的坐标信息,即告诉你这条reads的名字是什么
第二列就是我们测到的序列
第三列就一个加号,没卵用
第四列,质量信息,对应着上面各个碱基,测得有多臭,具体多臭下面说怎么直观的看
需要了解的就这么多,如果要仔细了解,看下面这个帖子
孟浩巍:20160406 FASTA 与 FASTQ格式详解227 赞同 · 39 评论文章正在上传…重新上传取消
怎么对测序质量这些东西进行直观化?
有个东西叫做fastqc的软件,可以对fq文件进行质检,具体怎么看呢?看这个贴子
孟浩巍:20160410 测序分析——使用 FastQC 做质控327 赞同 · 78 评论文章正在上传…重新上传取消
在明白了自己的测序数据有多臭之后,我们就要将数据中低质量的部分全部剔除掉,剔除的软件有很多,类似Trimmomatic,fastp,cutadapter
一般给定的标准就是清除存在的所有接头序列,过滤掉q小于20的碱基,去除N碱基大于5%的序列,去除A与T或者C与G含量相差10%的序列,去除切除碱基后过短的序列,这个标准一般通用,具体可以根据自己数据去筛选。
想详细了解的看这个贴子
孟浩巍:20160420-序列比对前的准备工作92 赞同 · 42 评论文章正在上传…重新上传取消
准备工作完成之后,我们就得到了一份高质量的原始数据(clean data),从而正式进入分析工作
【上游分析】
无论是以前的bowtie2+samtools+cufflinks+deseq2,还是现在转录组的当红炸子鸡流程hisat2+stringtie+ballgown,其本质的工作流程其实是一样的,只不过使用的算法不同而已。
第一步叫做回帖,这一步是干嘛的呢?
首先,我们的fastq文件存储的数据是一个零散的状态,那要怎么样把它恢复到打断前的状态?
这里我们就需要一个模板,按照模板,我们把序列排序,大概就长这个样子
这里的ref就是模板,即参考基因组,而我们的fastq文件本质就是一条一条的小序列,在模板的指引下,我们得到了他们原本在基因组上应该在位置,这一步就是回帖的含义。
也即是bowtie2跟hisat2所干的事。
而关于回帖的细节,可以看这两篇
孟浩巍:踏踏实实做技术:BWA,Bowtie,Bowtie2的比对算法推导109 赞同 · 13 评论文章正在上传…重新上传取消
生信小撰:【生信常识】二代测序的比对算法浅析72 赞同 · 16 评论文章正在上传…重新上传取消
回帖完之后,我们的回帖信息会被输入到一个文本文件:SAM文件(二进制位bam文件)
sam文件有个头文件,即你看到这张图前面那样,存储着染色体的信息,还有你之前比对的指令,但这些不是我们需要了解的重点,我们需要来看看下面存储着什么?
第一列是什么?就刚刚fastq文件的第一列,就是这条reads的名字
第二列是什么?flag?太复杂了,不记了
第三列?染色体
第四列?染色体的起始位置
第五列?回帖的可信度,即回帖质量
第六列?第七列?看不懂,不管了
后面还有回帖上的序列
总的来看,所谓的sam/bam文件就是记录回帖的序列是什么,回帖上多少,回帖的质量行不行,回帖到什么位置。
而后就是用cufflinks或者stringtie结合注释文件gff/gtf,将转录本构建出来。
那么gff/gtf是什么?简而言之,gff就是记录了这个物种在哪个位置有功能,是gene还是调控因子。
孟浩巍:生物信息学100个基础问题 —— 第24题 GFF,GTF到底是什么?64 赞同 · 3 评论文章正在上传…重新上传取消
而cufflinks要做的事情就是将bam文件的比对信息跟gff的信息结合起来,拼出一条转录本
bowtie2做的事情是
而cufflinks做的事情则是这个
【下游分析】
当使用cufflinks构建得到raw count之后,我们就想比较不同处理间的差异在哪,那么这个时候我们可以直接比较吗?
当看到我这么问的时候,肯定就是说不可以。
那么,为什么不可以?
拿孟孟之前举的例子
问题1: 比如我有gene3,有1000条测序reads,gene4有2000条测序reads,那么我能否说gene4就一定比gene3的表达量高?
问题2: 比如我有gene1,有1000条测序reads,我的另一个处理条件下gene2有2000条测序reads,我能否就说geneA在处理条件下表达量降低了?
图1 ( Manuel Garber et al., Nature Methods, 2011 )
很明显,第一个问题,如果两个基因的长度不一致,那是无法直接比较的;而第二个问题,我们就需要考虑如何矫正了,而这个矫正值就是所谓的RPKM/FPKM/TPM,关于这些是什么
请看这个贴子
孟浩巍:生物信息学100个基础问题 —— 第35题 RNA-Seq 数据的定量之RPKM和FPKM93 赞同 · 13 评论文章正在上传…重新上传取消
孟浩巍:生物信息学100个基础问题 —— 第36题 RNA-Seq 数据的定量基本假设以及TPM35 赞同 · 17 评论文章正在上传…重新上传取消
当我们将所有的东西放同一个标准下,就可以进行比较了,而比较的时候,即肯定存在两个组才能进行比较,也就是我们的control跟treatment
以control为标准,比较treatment,我们就知道了差异究竟在哪些基因,即所谓的差异表达
现实计算肯定要复杂的多,但作为粗略理解,这样会比较容易理解
而当我们得到一堆差异基因之后,就通常要做所谓的富集分析,常见的有GO,KEGG。
以常见基于ORA算法的富集举例
本质其实就是一个超几何分布,常见的就是Fisher extract test
算出一个p值即可,然后自选标准,大于多少认为是显著的,认为某某通路上存在差异表达。
想更具体了解,可以看看这个视频
【GCModeller教程】基因组功能富集计算原理_哔哩哔哩 (゜-゜)つロ 干杯~-bilibiliwww.bilibili.com/video/BV1R4411d7xe正在上传…重新上传取消
本期内容就到这里,还望各路大神轻喷,同时欢迎各位大神指点一下哪里可以写得很通俗而不失谨慎,方便新入门的小伙伴更好的理解整个分析流程~