爬虫简介
爬虫:网络蜘蛛
爬虫本质:
-> 模拟浏览器 发送请求(requests,selenium)
-> 下载 网页代码
-> 提取 有用的数据(bs4,xpath,re)
-> 存放 于数据库或文件中(文件,excel,mysql,redis,mongodb)
流程
发送请求:请求地址(浏览器调试,抓包工具),请求头(难),请求体(难),请求方法
拿到响应:拿到响应体(json格式,xml格式,html格式(bs4,xpath),加密的未知格式(需要解密))
解析数据
入库:Mongodb(json格式数据)
性能
提高性能(多线程,多进程,协程)
cpython解释器(GIL:同一时刻只能由一个线程在执行)
-io密集型:用线程
-计算密集型:用进程
scrapy框架处理了性能