今天在处理html文件时,发现网页内部的中文字符全部变成了&#开头的字符串,类似于:
尊敬的:
上述的字符串在网页中会显示为"尊敬的:",这其实是html的的转义序列(escape sequence)。
如果想要看到其对应的中文,最简单的方法是在浏览器中执行它,这样就能显示中文。
当然如果想要在程序中转化的话,需要查询官方文档,看是否有直接转化的接口,例如在Python中,使用标准库HTMLParser,就能正确转化。
from HTMLParser import HTMLParser
print HTMLParser().unescape(‘ 尊敬的:‘)