-
常用的序列比对软件bwa:
-
bwa mem
命令比对:
- 测试分值相关参数:$ BWA mem -M -k10 -T10 ref.fa tst1.fq > tst1.sam
其中:-M
: mark shorter split hits as secondary (标记secodary比对结果);-k
: minimum seed length [19] (比对的序列最短长度,默认是19bp);这里设定10。这里的seed不是太明白,是否是指read序列,还是有别的含义?测试是序列低于该阈值,则不显示比对结果。
-T
: 比对的最小分值阈值,默认值30。即比对得分值<30不输出比对结果(结果显示未比对上),比对得分值>=30输出比对结果。这里设定10。ref.fa
: fasta格式的参考序列文件;tst1.fq
: 输入的fq文件;tst1.sam
:输出sam格式比对结果文件。$ cat ref.fa >seq1 CACGATGTCTCTCCTCTTAATGTGCTGCACATCTGTAGGATGGGGACAAA
该测试使用的默认分值,默认分值说明如下。
-
比对分值参数:
参数 默认 比对情况 分值 说明 -A [1] Match 1 1bp比对得1分 -B [4] Mismatch -4 1bp错配扣4分 -O [6,6] gap(ins,del) -6,-6 1bp的ins扣6分,del扣6分 -E [1] gap extension 1 发生extension罚分系数 -L [5,5] soft clipping -5,-5 在5’端,3’端的softclip扣5分 -U [17] unpaired read -17 不成对的read扣17分 -
-E
: g+[1]*s (g:gap罚分值, s:gap的长度(从第1bp的gap开始算), [1]:该参数设定) -
-L
: 按错配/indel,还是按softclip。 是选择分值高的作为最优比对。该分值设定越大,即对softclip的惩罚越大,那么选择最优比对时,更倾向于错配/indel(尽可能的比对上,而不是直接给出softclip),同样带来的弊端就是有很多错配。但是softclip的分值则不在AS中显示
举例说明:以上面测试的read id 为
2del2ins
的序列为例- CIGAR值得为:13M2D8M2I12M10S;(M:match;D:del;I:ins;S:softclip) - AS tag给出比对分值:"AS:i:17"(17分) - 分值计算: - match得分:13+8+12=33 - indel罚分:(6+1*2)+(6+1*2) = 16 (ins和del各有两个) - 最终得分:33-16=17
注意:这里的分值并没有计算softclip,因为softclip的分值是在比对过程中,用于计算:
是将一端的序列视为softclip还是视为可比对(有match、mistmach、indel);
如果按比对的分值>视为softclip分值,则选择比对上结果,反之,视为softclip。 -
相关文章
- 02-13bwa mem 比对分值参数测试