1、读取txt文件时(refnms代码里面的voc单词txt),是一行一个单词,所以用以下方法读取的时候,读到的单词中会包含"\n"即换行符:
token_path = '/home/wj/code/ref_nms/cache/std_vocab_{}.txt'.format(dataset_splitby)
noun_tokens = open(token_path)
# 用下面两种方式逐行读取token
for token in noun_tokens:
# 或者:
for token in noun_tokens.readlines():
加入下面代码加入,去除换行符:
for token in noun_tokens:
#for token in noun_tokens.readlines():
token=token.strip('\n') # 去除换行符