Iso-seq 必备基础

2023-07-29 17:40:40

Iso-seq , 全称叫做 Isoform-sequencing, 是 Pacbio 公司对自己开发的转录本测序技术的规范化命名；是利用三代测序长读长的特点，不打断转录本，直接测序，从而得到全长转录本的一种测序技术。

对于iso-seq 的分析而言，必须掌握以下几个基本概念：

1）ROI

了解过三代测序数据分析的人，对于CCS 环形一致性序列的概念肯定不会陌生，在iso-seq中，提出了比CCS 更加灵活的一个概念：ROI

ROI , 全称 reads of insert，可以理解为插入片段，首先看下三代测序文库构建阶段的reads示意图：

对于上述的文库片段，测序产生的reads 示意图如下：

由于是一个环状分子，随着测序反应的进行，会循环测序；如果把插入片段的正负链都测了一次，就做1个full pass;

对于CCS 而言，要求至少有2个full pass , 才能去生成CCS reads; 三代测序的特点就是读长很长，可以达到十几kb, 对于短的插入片段而言，CCS这样定义当然没有问题，但是对于全长转录本

而言，转录本长度很长，比如转录本长度1kb, 读长3kb, 此时在一个零模波导孔（ZMW）中测序的reads 就不可能达到2个full pass , 也就产生不了CCS reads, 为了解决这个问题，提高reads的利用率，提出了ROI 的概念，ROI 指的就是插入片段，上图测序reads 产生的ROI 如下：

ROI 不要求满足2个full pass，相对CCS 而言，更加适合全长转录本的分析；

2）artifacts

可以理解为，共有两种来源：

# Artificial Concatemer

这种序列是由于文库制备阶段，adapter 序列错误的将两条转录本的序列链接构成了一个环状分子，这个和adapter 浓度有关，通常这种reads 产生的比例很少，小于0.5%，在后续的分析中，这部分reads 需要去除

# PCR Chimera

在PCR 反应中，由于不完全延伸的产物作为了下次扩增反应的引物，导致出现嵌合体序列，直观上看，就是PCR产物来源于两条或者多条reads；

PCR 产生的嵌合体序列，在PCR 反应体系中，这种序列是不可避免的，大约有3%的比例，在后续的分析过程中，可以借助软件去除这部分reads；

3) FL Reads

FL , Full-length reads, 全长转录本

从raw data 到 ROI , 在从ROI 去除 artifacts reads 之后，我们就得到了用于后续分析的clean reads;

clean reads 就已经是转录本的序列了，我们首先看一下clean reads 当中，哪些是全长转录本；哪些不是全长转录本，这个操作就是分类，classify

全长转录本的示意图如下：

对于全长转录本而言，其ROI reads 中包含5‘ primer 和 3‘ primer; 而且会出现polyA 为结构；（polyA 针对mRNA和部分lncRNA）

对于不同大小的文库，其全长转录本的比例也不同：

可以看到，文库片段越长，全长转录本的比例越低；

4） consensus transcript isoforms

一致性转录本序列，一个ZMW 产生一个转录本的reads, 肯定会有冗余的reads 出现，这是通过聚类（cluster）的方式，就全长转录本序列进行聚类，可以得到一致性的转录本序列；