python3.5之输出HTML实体字符

出  关①   徐兰

凭山俯海古边州, 旆②影风翻见戍楼。

马后桃花马前雪,出关争得不回头?

[注]关,指居庸关。②旆(pèi),旌旗。

刚刚学习用python写爬虫,实战一下。

抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。

这些字符去掉还不行,必须要显示出来。

一路,百度、google最后终于找到了方法。

特写此博文,记录下来。

使用python中html.unescape()方法就可以输出html中的实体字符

 #!/usr/bin/env python
# encoding: utf-8
"""
出 关① 徐兰
凭山俯海古边州, 旆②影风翻见戍楼。
马后桃花马前雪,出关争得不回头?
[注]①关,指居庸关。②旆(pèi),旌旗。
"""
import html
string = '[注]&#9312关,指居庸关。&#9313旆(pèi),旌旗。'
print(html.unescape(string)) #[注]①关,指居庸关。②旆(pèi),旌旗。
上一篇:使用神经网络来识别手写数字【译】(三)- 用Python代码实现


下一篇:史上最简约的vi教程,复制和粘贴