因此,我需要从一些HTML中提取一些难以理解的代码,而到目前为止我一直在做的事情没有用. HTML看起来像这样
<div class="style7" style="text-align: justify; overflow: auto;">
<br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>
我正在使用Python和BeautifulSoup.我可以从整个文档中很好地获取div,但似乎无法从标签之间获得全部的支持.
我将如何去做?谢谢
编辑:
在查看完BeautifulSoup加载的内容之后,似乎实际上删除了大部分代码.请求内容已全部包含,但汤没有.
除了BeautifulSoup,还有更好的方法来解析它吗?也许是原始HTML的正则表达式?
解决方法:
你的意思是这样吗?
from bs4 import BeautifulSoup
html = '''
<div class="style7" style="text-align: justify; overflow: auto;">
<br />++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.<br /><br /><br />
</div>
'''
soup = BeautifulSoup(html)
div_tag = soup.find('div', attrs={'class':'style7'})
div_tag.text.strip()
u'++++++++++[>++++++++++++>+++++++++++>++++++++++++>+++++++++++>++++++++++>++++++++++++>++++++++++>++++++++++>+++++++++++>+++++++++++>++++++++++>++++++++++++<<<<<<<<<<<<-]>-----.>++++.>---.>-.>+++.>+.>+++.>++.>+.>---.>-.>-----.'