python-很多空白beautifulsoup

我正在使用beautifulsoup进行网页抓取.该网页具有以下来源:

<td>\n<a href="http://aaa.com">Charles</a>\r\n                         (hello)\r\n                            </td>,
<td>\n<a href="http://bbb.com">Diane</a>\r\n                           (hi)\r\n                            </td>,
<td>\n<a href="http://ccc.com">Kevin</a>\r\n                           (how are you doing)\r\n                            </td>

我使用以下代码打印两个值.他们工作得很好.

for item in soup.find_all("td"):
    print item.find('a').text
    print item.find('a').next_sibling

问题是当我将输出保存在csv文件中时,第二列没有值.出现是因为有很多空白.有什么建议吗?提前致谢.

解决方法:

找到所有的next text siblings,加入它们并剥离:

"".join(item.find('a').find_next_siblings(text=True)).strip()
上一篇:python-使用Xpath / BeautifulSoup在h3 / h2标签之间的HTML


下一篇:Python在中查找特定行