问题描述:
在使用Python的内建函数print作英文输出时,应用格式化输出可以对齐得很好:
s1 = 'I am a long sentence.' s2 = 'I\'m short.' print '%-30s%-20s' %(s1,s2) #'%-30s' 含义是 左对齐,且占用30个字符位 print '%-30s%-20s' %(s2,s1)
输出:
注:
这里应用了最原始的cmd控制台,一些IDE自带的控制台(如Sublime text)可能会有不同的输出效果。
但当字符串包含中文时,却发现它对齐得不是很好:
# -*- coding:utf-8 -*- #author: Song Bo, Eagle, ZJU #email: sbo@zju.edu.cn s1 = '我是一个长句子,是的很长的句子。' s2 ='我是短句子' print '%-30s%-20s' %(s1,s2) print '%-30s%-20s' %(s2,s1)
首先是出现乱码:
cmd控制台并未正确解码utf-8编码,把s1和s2解码成unicode即可:
s1 = u'我是一个长句子,是的很长的句子。' s2 =u'我是短句子' print '%-30s%-20s' %(s1,s2) print '%-30s%-20s' %(s2,s1)
输出:
无法对齐。
原因是这样:在print中,函数为了实现字符串对齐,会在未达到指定长度的字符串末尾添上空格补齐。
但是,问题在这里,它会填入ASCII码为20的space,也就是半角空格。它的长度等于每个字母或数字的宽度,但远比汉字的宽度小,所以导致补足后的字符串长度仍然不同。
解决方案:
重写一个格式对齐函数,函数中判断字符串是否是中文字符串,有的话则添加全角空格补齐,否则添加半角空格补齐。
# -*- coding:utf-8 -*- #author: Song Bo, Eagle, ZJU #email: sbo@zju.edu.cn def myAlign(string, length=0): if length == 0: return string slen = len(string) re = string if isinstance(string, str): placeholder = ' ' else: placeholder = u' ' while slen < length: re += placeholder slen += 1 return re s1 = u'我是一个长句子,是的很长的句子。' s2 =u'我是短句子' print myAlign(s1, 20) + myAlign(s2, 10) print myAlign(s2, 20) + myAlign(s1, 10)
输出:
中英混排: