如何在 bash 里面写 python

如何在 bash 里面写 python

在生物信息学领域, linux 是最常用的生产环境. 本文讨论如何在 bash 中使用 python, 以充分利用 python的可扩展性和语法糖, 避免同时需要编辑 python 和 bash 两个脚本

bash 向 python 输入变量

bash 可以直接通过调用变量, 将变量的内容放入字符串, 如

$ foo=fooo; echo $foo
fooo

单行 python

对于简单的功能, 可以直接通过 python -c 完成
注意: 需要用双引号将内容括住, 如果单引号在外, 则无法进行替换

$ foo=fooo; python -c 'print("$foo")'  # 无法输出内容
$foo
$ fii=`python -c "print('$foo'.replace('o', 'i'))"`; echo $fii
fiii

或者可以用转义符 \

$ foo=fooo; python -c "print(\"$foo\"[:-1])"  # 无法输出内容
foo

一个比较复杂的例子

需求: 需要并行运行某一单线程程序, 已有一个通用的并行 python 脚本, 接受 cmd 命令, 和各参数组合, 关键代码如下:

def order_args(args: list) -> dict:
    list_args = {}
    for i, args_i in enumerate(args):
        i += 1
        args_i: list = args_i.strip().split()
        list_args[f'_{i}'] = args_i

    list_args['_0'] = list(range(len(args_i)))
    for j in list_args['_0']:
        yield {k: v[j] for k, v in list_args.items()}

def main(args):
    with ThreadPool(args.pool) as pool:
        # TODO: a function to handle command, stderr and stdout
        for args_i, returncode in pool.imap(lambda args_i: run(cmd, args_i),
                                            order_args(args.args)):
            pass

def run(command: str, params: dict):
    #params = {f"_{i}": v for i, v in enumerate(params)}
    _i = params.pop('_0')
    one_command = command.format(**params)
    ret = subprocess.run(one_command, shell=True)  # set stdout=-1 to use 'ret.stdout' (bytes)
    return params, ret.returncode

对应的每个命令中, 需要进行一次判断 (识别是细菌 Bacteria 或古菌 Archaea), 代码如下:

cmd="genome_dir=`pwd`/{_2}; mkdir "'$genome_dir'"; cd "'$genome_dir'"

     cp {_1} genome.fna

     domain="'`'"python -c "'"'"print(dict('a'='A','b'='B'
                                           ).get('{_3}'.lower()[0],
                                                 'G'))"'"'" "'`'"
     tRNAscan-SE -"'$domain'" "'$genome_dir'" \
                 -o tRNA.out \
                 -f tRNA.ss \
                 -m tRNA.stats \
                 --thread 1
     "

python Scripts/00_multish.py \
        -p $THREAD -c "$cmd" -a "$faDIRs" "${BinIds}" "${Domains}"

其中, genome_dir=`pwd`/{_2}直接被转换为对应路径, 而 "'$genome_dir'" 将在 python 脚本中转换
其中识别 domain 的方法, 相较 bash 语法更为明白.

多行 python

多行 python 语句可以通过 << 符号输入, 如

foo=fooo
python << EOF
print("$foo")
EOF

输出 fooo, 此时不需要考虑单引号和双引号的区别

一个既能当 python 调试也能当 bash 运行的脚本

bash 状态

#!/bin/bash
#SBATCH 与作业提交系统相关的语句
""" " 2>/dev/null || printf ""
:<<!EOF!
 * @Description: 文件相关信息
!EOF!
set -e && echo "$0 $*" >&2

conda activate python39

## flexible zone start ########################################################
genome_dir="Archaea"

python <<!EOF!
# """
if __name__ == '__main__':
    threads = "${SLURM_NTASKS}"
    genome_dir="${genome_dir}"

## flexible zone end ##########################################################


import logging
import os

# python 语句
"""`echo '"''"''"'`
!EOF!

# bash 语句

# """

python 状态

#!/bin/bash
#SBATCH 与作业提交系统相关的语句
""" " 2>/dev/null || printf ""
:<<!EOF!
 * @Description: 文件相关信息
!EOF!
set -e && echo "$0 $*" >&2

conda activate python39

## flexible zone start ########################################################
genome_dir="Archaea"

python <<!EOF!
# """
if __name__ == '__main__':
    threads = "${SLURM_NTASKS}"
    genome_dir="${genome_dir}"

## flexible zone end ##########################################################


import logging
import os

# python 语句
"""`echo '"''"''"'`
!EOF!

# bash 语句

# """

但是, 如何将多行 python 获得的输出放入 bash 变量, 仍然不知道.
或许可以定义一个函数, 把 python 部分放进去?

上一篇:前端开发技术之TS的定义与使用


下一篇:CF1148F Foo Fighters(构造,贪心)