我正在尝试从soup.html.body.findAll(‘td’,{‘class’:’yfnc_h’})的ResultSet中剥离所有HTML标记
当前,ResultSet有时包含嵌套的< a href>,< td>和其他标签.我发现对ResultSet(不是汤对象)起作用的唯一半解决方案是RSelement.string
但是.string无法处理带有多个嵌套标签的输入,例如
输入:< td class =“ yfnc_h” align =“ right”> 53.50< / td>
输出:53.50
输入:< td class =“ yfnc_h” align =“ right”>< b> 51.97< / b>< / td>
输出:无
输入:< td class =“ yfnc_h” align =“ right”>< span id =“ yfs_c10_djx131116c00100000”> < b style =“ color:#000000;”> 0.00< / b>< / span>< / td>
输出:无
如何从ResultSet输出中剥离所有标签?
解决方法:
请改用.text属性:
print RSelement.text