在html中显示的&#开头字符串究竟是啥?

今天在处理html文件时,发现网页内部的中文字符全部变成了&#开头的字符串,类似于:

  尊敬的:

上述的字符串在网页中会显示为"尊敬的:",这其实是html的的转义序列(escape sequence)。

如果想要看到其对应的中文,最简单的方法是在浏览器中执行它,这样就能显示中文。

当然如果想要在程序中转化的话,需要查询官方文档,看是否有直接转化的接口,例如在Python中,使用标准库HTMLParser,就能正确转化。

  from HTMLParser import HTMLParser
  print HTMLParser().unescape(‘ 尊敬的:‘)

在html中显示的&#开头字符串究竟是啥?

上一篇:双子座(Gemini)协议:Web 协议最简单的一种替换


下一篇:Luogu P4053 [JSOI2007]建筑抢修