python-BeautifulSoup：从findAll ResultSet中剥离HTML标记

2021-07-07 13:19:40

我正在尝试从soup.html.body.findAll(‘td’,{‘class’：’yfnc_h’})的ResultSet中剥离所有HTML标记

当前,ResultSet有时包含嵌套的< a href>,< td>和其他标签.我发现对ResultSet(不是汤对象)起作用的唯一半解决方案是RSelement.string

但是.string无法处理带有多个嵌套标签的输入,例如

输入：< td class =“ yfnc_h” align =“ right”> 53.50< / td>

输出：53.50

输入：< td class =“ yfnc_h” align =“ right”> 51.97< / td>

输出：无

输入：< td class =“ yfnc_h” align =“ right”> 0.00< / td>

输出：无

如何从ResultSet输出中剥离所有标签？

解决方法:

请改用.text属性：

print RSelement.text

码农公寓