爬虫原理

爬虫简介

爬虫:网络蜘蛛

爬虫本质:
  -> 模拟浏览器 发送请求(requests,selenium)
  -> 下载 网页代码
  -> 提取 有用的数据(bs4,xpath,re)
  -> 存放 于数据库或文件中(文件,excel,mysql,redis,mongodb)

流程

发送请求:请求地址(浏览器调试,抓包工具),请求头(难),请求体(难),请求方法

拿到响应:拿到响应体(json格式,xml格式,html格式(bs4,xpath),加密的未知格式(需要解密))

解析数据

入库:Mongodb(json格式数据)

性能

提高性能(多线程,多进程,协程)

cpython解释器(GIL:同一时刻只能由一个线程在执行)
	-io密集型:用线程
    -计算密集型:用进程
    
scrapy框架处理了性能
上一篇:上海悠悠python接口测试第二期 课程目录


下一篇:requests的常用的方法和bs4的常用的方法: