有没有办法使用lxml.html删除/转义html标签而不是有一些xss问题的beautifulsoup?我尝试使用清洁,但我想删除所有的HTML.
解决方法:
尝试使用元素上的.text_content()方法,最好在使用lxml.html.clean删除不需要的内容(脚本标记等等)之后.例如:
from lxml import html
from lxml.html.clean import clean_html
tree = html.parse('http://www.example.com')
tree = clean_html(tree)
text = tree.getroot().text_content()