Python-爬虫初学

   #爬取网站中的图片
1 import re #正则表达式库
import urllib #url链接库 def getHtml(url):
page = urllib.urlopen(url) #打开链接
html = page.read() #像读文本一样读取网页内容
return html def getImg(html):
reg = r'<img src="(.+?\.png)" alt' #匹配表达式
imgre = re.compile(reg) #编译成正则表达式对象
imglist =re.findall(imgre, html) #查找全部满足匹配的
x = 0
for imgurl in imglist:
print "imgurl:", imgurl
urllib.urlretrieve("http://www.uestc.edu.cn/" + imgurl, '%d.png' % x) #依次遍历下载,源链接用的是相对地址,所以添加前缀
x += 1 html = getHtml("http://www.uestc.edu.cn/")
print getImg(html)
#print html

参考学习链接:

http://www.cnblogs.com/fnng/p/3576154.html

上一篇:jap页面获取struts2中action中变量的值


下一篇:poj 3295 Tautology (构造)