如何在 bash 里面写 python
在生物信息学领域, linux 是最常用的生产环境. 本文讨论如何在 bash 中使用 python, 以充分利用 python的可扩展性和语法糖, 避免同时需要编辑 python 和 bash 两个脚本
bash 向 python 输入变量
bash 可以直接通过调用变量, 将变量的内容放入字符串, 如
$ foo=fooo; echo $foo
fooo
单行 python
对于简单的功能, 可以直接通过 python -c
完成
注意: 需要用双引号将内容括住, 如果单引号在外, 则无法进行替换
$ foo=fooo; python -c 'print("$foo")' # 无法输出内容
$foo
$ fii=`python -c "print('$foo'.replace('o', 'i'))"`; echo $fii
fiii
或者可以用转义符 \
$ foo=fooo; python -c "print(\"$foo\"[:-1])" # 无法输出内容
foo
一个比较复杂的例子
需求: 需要并行运行某一单线程程序, 已有一个通用的并行 python 脚本, 接受 cmd 命令, 和各参数组合, 关键代码如下:
def order_args(args: list) -> dict:
list_args = {}
for i, args_i in enumerate(args):
i += 1
args_i: list = args_i.strip().split()
list_args[f'_{i}'] = args_i
list_args['_0'] = list(range(len(args_i)))
for j in list_args['_0']:
yield {k: v[j] for k, v in list_args.items()}
def main(args):
with ThreadPool(args.pool) as pool:
# TODO: a function to handle command, stderr and stdout
for args_i, returncode in pool.imap(lambda args_i: run(cmd, args_i),
order_args(args.args)):
pass
def run(command: str, params: dict):
#params = {f"_{i}": v for i, v in enumerate(params)}
_i = params.pop('_0')
one_command = command.format(**params)
ret = subprocess.run(one_command, shell=True) # set stdout=-1 to use 'ret.stdout' (bytes)
return params, ret.returncode
对应的每个命令中, 需要进行一次判断 (识别是细菌 Bacteria 或古菌 Archaea), 代码如下:
cmd="genome_dir=`pwd`/{_2}; mkdir "'$genome_dir'"; cd "'$genome_dir'"
cp {_1} genome.fna
domain="'`'"python -c "'"'"print(dict('a'='A','b'='B'
).get('{_3}'.lower()[0],
'G'))"'"'" "'`'"
tRNAscan-SE -"'$domain'" "'$genome_dir'" \
-o tRNA.out \
-f tRNA.ss \
-m tRNA.stats \
--thread 1
"
python Scripts/00_multish.py \
-p $THREAD -c "$cmd" -a "$faDIRs" "${BinIds}" "${Domains}"
其中, genome_dir=`pwd`/{_2}
直接被转换为对应路径, 而 "'$genome_dir'"
将在 python 脚本中转换
其中识别 domain
的方法, 相较 bash 语法更为明白.
多行 python
多行 python 语句可以通过 <<
符号输入, 如
foo=fooo
python << EOF
print("$foo")
EOF
输出 fooo
, 此时不需要考虑单引号和双引号的区别
一个既能当 python 调试也能当 bash 运行的脚本
bash 状态
#!/bin/bash
#SBATCH 与作业提交系统相关的语句
""" " 2>/dev/null || printf ""
:<<!EOF!
* @Description: 文件相关信息
!EOF!
set -e && echo "$0 $*" >&2
conda activate python39
## flexible zone start ########################################################
genome_dir="Archaea"
python <<!EOF!
# """
if __name__ == '__main__':
threads = "${SLURM_NTASKS}"
genome_dir="${genome_dir}"
## flexible zone end ##########################################################
import logging
import os
# python 语句
"""`echo '"''"''"'`
!EOF!
# bash 语句
# """
python 状态
#!/bin/bash
#SBATCH 与作业提交系统相关的语句
""" " 2>/dev/null || printf ""
:<<!EOF!
* @Description: 文件相关信息
!EOF!
set -e && echo "$0 $*" >&2
conda activate python39
## flexible zone start ########################################################
genome_dir="Archaea"
python <<!EOF!
# """
if __name__ == '__main__':
threads = "${SLURM_NTASKS}"
genome_dir="${genome_dir}"
## flexible zone end ##########################################################
import logging
import os
# python 语句
"""`echo '"''"''"'`
!EOF!
# bash 语句
# """
但是, 如何将多行 python 获得的输出放入 bash 变量, 仍然不知道.
或许可以定义一个函数, 把 python 部分放进去?