删除python中的所有html?

有没有办法使用lxml.html删除/转义html标签而不是有一些xss问题的beautifulsoup?我尝试使用清洁,但我想删除所有的HTML.

解决方法:

尝试使用元素上的.text_content()方法,最好在使用lxml.html.clean删除不需要的内容(脚本标记等等)之后.例如:

from lxml import html
from lxml.html.clean import clean_html

tree = html.parse('http://www.example.com')
tree = clean_html(tree)

text = tree.getroot().text_content()
上一篇:在Android上连续检测NFC标签


下一篇:Android nfcA.connect(),nfcA.transceive(),nfcA.setTimeout()和nfcA.getMaxTransceiveLength()