python一个简单的爬虫测试

之前稍微学了一点python,后来一直都没用,今天稍微做一个小爬虫试一试。。

参考了:

http://www.cnblogs.com/fnng/p/3576154.html

太久没用了,都忘记pycharm编译的时候要选文件。。我还纳闷怎么一直报错。。怎么练hello world都是不能run。。无语。。

贴一下今天实验的代码好了。

 #coding=utf-8
import urllib
import re def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
reg=r'src="(.+?\.jpg)" ></div><br>'
imgre=re.compile(reg)
imgList=re.findall(imgre,html)
x=0
for imgurl in imgList:
urllib.urlretrieve(imgurl,'%s.jpg'%x)
x+=1 html = getHtml("https://tieba.baidu.com/p/5099605942?see_lz=1") print getImg(html)

随便抓了炉石传说贴吧里一个直播开包的帖子的图片。。

getHtml()函数抓取并复制一个网页的源码

getImg()函数通过正则表达式抓取源码中图片的代码,然后保存数组中,然后输出。

正则表达式还学要好好学一下。。

今天只是做一个小小的test,回忆一下。。

上一篇:关于import引入的方式


下一篇:使用python对mysql主从进行监控,并调用钉钉发送报警信息