- ①先由urllib的request打开Url得到网页html文档
- ②浏览器打开网页源代码分析元素节点
- ③通过Beautiful Soup或则正则表达式提取想要的数据
- ④存储数据到本地磁盘或数据库(抓取,分析,存储)
网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。
- urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
- requests库是第三方库,需要我们自己安装。
使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests
requests安装
在cmd中,使用如下指令安装requests:
pip install requests
requests库的基础方法
requests.get()方法,它用于向服务器发起GET请求,requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。
# -*- coding:UTF-8 -*-
import requests
if __name__ == '__main__':
target = 'http://gitbook.cn/'
req = requests.get(url=target)
print(req.text)
requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。