bwa mem 比对分值参数测试

  • 常用的序列比对软件bwa
    bwa mem 比对分值参数测试

  • bwa mem命令比对:
    bwa mem 比对分值参数测试
    - 测试分值相关参数:

    $ BWA mem -M -k10 -T10 ref.fa tst1.fq > tst1.sam
    

    bwa mem 比对分值参数测试
    其中:
    -M: mark shorter split hits as secondary (标记secodary比对结果);
    -k: minimum seed length [19] (比对的序列最短长度,默认是19bp);这里设定10。

    这里的seed不是太明白,是否是指read序列,还是有别的含义?测试是序列低于该阈值,则不显示比对结果。

    -T: 比对的最小分值阈值,默认值30。即比对得分值<30不输出比对结果(结果显示未比对上),比对得分值>=30输出比对结果。这里设定10。
    ref.fa: fasta格式的参考序列文件;
    tst1.fq: 输入的fq文件;
    tst1.sam:输出sam格式比对结果文件。

    $ cat ref.fa
    >seq1
    CACGATGTCTCTCCTCTTAATGTGCTGCACATCTGTAGGATGGGGACAAA
    

    该测试使用的默认分值,默认分值说明如下。

  • 比对分值参数:
    bwa mem 比对分值参数测试

    参数 默认 比对情况 分值 说明
    -A [1] Match 1 1bp比对得1分
    -B [4] Mismatch -4 1bp错配扣4分
    -O [6,6] gap(ins,del) -6,-6 1bp的ins扣6分,del扣6分
    -E [1] gap extension 1 发生extension罚分系数
    -L [5,5] soft clipping -5,-5 在5’端,3’端的softclip扣5分
    -U [17] unpaired read -17 不成对的read扣17分
    • -E: g+[1]*s (g:gap罚分值, s:gap的长度(从第1bp的gap开始算), [1]:该参数设定)
    • -L: 按错配/indel,还是按softclip。 是选择分值高的作为最优比对。该分值设定越大,即对softclip的惩罚越大,那么选择最优比对时,更倾向于错配/indel(尽可能的比对上,而不是直接给出softclip),同样带来的弊端就是有很多错配。但是softclip的分值则不在AS中显示

    举例说明:以上面测试的read id 为 2del2ins的序列为例

    - CIGAR值得为:13M2D8M2I12M10S;(M:match;D:del;I:ins;S:softclip)
    - AS tag给出比对分值:"AS:i:17"(17分)
    - 分值计算:
    	- match得分:13+8+12=33
    	- indel罚分:(6+1*2)+(6+1*2) = 16 (ins和del各有两个)
    	- 最终得分:33-16=17
    

    注意:这里的分值并没有计算softclip,因为softclip的分值是在比对过程中,用于计算:
    是将一端的序列视为softclip还是视为可比对(有match、mistmach、indel);
    如果按比对的分值>视为softclip分值,则选择比对上结果,反之,视为softclip。

上一篇:使用 openssl 计算 base64(防止内存泄露)


下一篇:NetDevOps常用数据库python实战-influxDB_grafana