python网络爬虫

爬虫流程
  • ①先由urllib的request打开Url得到网页html文档
  • ②浏览器打开网页源代码分析元素节点
  • ③通过Beautiful Soup或则正则表达式提取想要的数据
  • ④存储数据到本地磁盘或数据库(抓取,分析,存储)

网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。

  • urllib库是python内置的,无需我们额外安装,只要安装了Python就可以使用这个库。
  • requests库是第三方库,需要我们自己安装。

使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests

requests安装

在cmd中,使用如下指令安装requests:

pip install requests

requests库的基础方法

python网络爬虫

requests.get()方法,它用于向服务器发起GET请求,requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)

requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。

上一篇:python之urllib的基本使用


下一篇:Python02_爬虫请求模块