出 关① 徐兰
凭山俯海古边州, 旆②影风翻见戍楼。
马后桃花马前雪,出关争得不回头?
[注]关,指居庸关。②旆(pèi),旌旗。
刚刚学习用python写爬虫,实战一下。
抓取出一个网页的内容之后,里面带有很多①这样的特殊字符。
这些字符去掉还不行,必须要显示出来。
一路,百度、google最后终于找到了方法。
特写此博文,记录下来。
使用python中html.unescape()方法就可以输出html中的实体字符
#!/usr/bin/env python
# encoding: utf-8
"""
出 关① 徐兰
凭山俯海古边州, 旆②影风翻见戍楼。
马后桃花马前雪,出关争得不回头?
[注]①关,指居庸关。②旆(pèi),旌旗。
"""
import html
string = '[注]①关,指居庸关。②旆(pèi),旌旗。'
print(html.unescape(string)) #[注]①关,指居庸关。②旆(pèi),旌旗。