目录
一. RPKM,FPKM,TPM的区别
二. 二代测序中的barcode
三. De Novo sequencing & resequencing
四. depth & coverage
五. 高通量测序技术
六. Sanger测序
七. 三代测序技术
八. 外显子测序
九. small RNA测序
十. SNP、SNV、InDel、CNV、SV
十一. Duplication
十二. Read
十三. Contig/Scaffold
十四. gene fusion,基因融合
十五. Paired-end reads和single reads
一.RPKM,FPKM,TPM的区别
先说一个背景:
在运用NGS检测基因表达量时,如果直接用每个基因对应的reads数来统计表达量,常常会导致偏差。偏差主要来源于2个方面:
1) 测序深度;
2) 基因长度。
测序深度越深,基因长度越长,对于随机取样的NGS测序来说,越容易测到该基因的reads,即相应的reads数越多。
因此,基于一定标准,将基因表达量均一化之后再做描述,就能避免上述偏差,获得有意义的结果。
在此,介绍几个均一化之后的表达量的概念:
RPKM: Reads Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
TPM:Transcripts Per Kilobase per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
举一个简单例子:
表1. 各基因reads数。
基因名(长度) | 样本A | 样本B | 样本C |
---|---|---|---|
alpha(2kb) | 10 | 12 | 30 |
beta(4kb) | 20 | 25 | 60 |
gama(1kb) | 5 | 8 | 15 |
theta(10kb) | 0 | 0 | 1 |
大家可以清楚地看到,样本C的4个基因read counts数目明显多於其他两个样本,説明其测序深度较高,基因beta的长度的基因alpha的两倍,也使得其read counts在三个样本中都高於alpha。接下来我们要做就是对这个矩阵进行標准化,分別计算RPKM, FPKM和TPM,为了使数值可读性更好,下面的计算中我们用10代表million。
我们先来説説RPKM怎么算。第一步先將测序深度標准化,计算方法很简单,先分別计算出每个样本的总reads数(这里以10为单位),然后將表中数据分別除以总reads数即可,这样就得到了reads per million. 如下表2:
表2. 各基因reads per million。
文章剩余内容查看<<<<<