如何编写python脚本来搜索网站html以获得匹配的链接

我不太熟悉python,必须编写一个脚本来执行一系列功能.
基本上我仍然需要的模块是如何检查网站代码以匹配事先提供的链接.

解决方法:

匹配链接是什么?他们的HREF属性?链接显示文字?
也许是这样的:

from BeautifulSoup import BeautifulSoup, SoupStrainer
import re
import urllib2

doc = urllib2.urlopen("http://somesite.com").read()
links = SoupStrainer('a', href=re.compile(r'^test'))
soup = [str(elm) for elm in BeautifulSoup(doc, parseOnlyThese=links)]
for elm in soup:
    print elm

这将获取somesite.com的HTML内容,然后使用BeautifulSoup解析它,只查找HREF属性以“test”开头的链接.然后,它会构建这些链接的列表并将其打印出来.

您可以使用documentation对此进行修改以执行任何操作.

上一篇:从PDF python中提取/识别表格


下一篇:php – 如何使用cURL刮取iframe内容