我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台。
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二、爬虫的初步尝试
1.尝试抓取指定网页
#encoding:utf-8
import urllib2 url = "http://www.cnblogs.com/"
data = urllib2.urlopen(url).read()
print data
我使用urllib2这个库,有关这个库的详细解释请看Python 标准库 urllib2 的使用细节,上图是博客园首页的源码,已经被扒下来了~~
2.分析上述代码的具体作用
爬取网页源码的核心两行就是第4行和第5行。
url = "http://www.cnblogs.com/"
这行代码主要是指定了我们需要爬取的网页地址。
data = urllib2.urlopen(url).read()
这行代码是调用urllib2库里面的urlopen方法,传入一下url,就是上面我们指定的网页地址。并通过read()方法将网页的源码读入到data中。urlopen一般接受三个参数,如下所示:
urlopen(url, data, timeout)
第一个参数url,就是我们自己指定的网页地址,第二个参数data是访问url时要传送的数据,第三个参数timeout是设置超时时间。
第二个和第三个参数可以不用设置,data默认设置为None,timeout的默认设置为socket._GLOBAL_DEFAULT_TIMEOUT