爬虫原理

2024-03-19 11:07:10

爬虫简介

爬虫：网络蜘蛛

爬虫本质：
  -> 模拟浏览器 发送请求（requests，selenium）
  -> 下载 网页代码
  -> 提取 有用的数据（bs4，xpath，re）
  -> 存放 于数据库或文件中（文件，excel，mysql，redis，mongodb）

流程

发送请求：请求地址（浏览器调试，抓包工具），请求头（难），请求体（难），请求方法

拿到响应：拿到响应体（json格式，xml格式，html格式（bs4,xpath），加密的未知格式(需要解密)）

解析数据

入库：Mongodb（json格式数据）

性能

提高性能（多线程，多进程，协程）

cpython解释器（GIL：同一时刻只能由一个线程在执行）
	-io密集型：用线程
    -计算密集型：用进程
    
scrapy框架处理了性能