目录
一、配置对象
(续上昨天的笔记)
from selenium import webdriver
url = 'http://www.baidu.com/'
#创建配置对象
opt = webdriver.ChromeOptions()
#添加配置参数
# opt.add_argument('--headless')
# opt.add_argument('--disable-gpu')
#设置浏览器为无头模式
opt.add_argument('--proxy-server=http://上网找可以使用的代理')
#更换user-agent
opt.add_argument('--user-agent=Mozilla/5.0 python37')
#创建浏览器对象的时候添加配置对象
driver = webdriver.Chrome(options=opt)
driver.get(url)
二、反爬
基于身份识别的反爬
1.headers
User-Agent
referer
cookies
2.请求参数
从html文件中提取
发送请求获取数据
通过js生成
通过验证码
基于数据加密进行反爬
1.请求频率或者总能够请求数量
(1)通过请求ip/账号单位时间内总请求数量进行反爬(解决方法:可以使用多个ip或者账号)
(2)通过请求ip/账号每天请求次数设置阈值…
(3)通过同一个ip/账号请求之间的时间间隔…
2.在爬取步骤上做分析
js实现跳转
trap(蜜罐/陷阱)获取爬虫iip
假数据
任务队列
网络IO
基于数据加密进行反爬
1.对响应中含有的数据进行特殊化处理
自定义字体(在源码中查看)
css
js生成
图片
编码格式
三、验证码
图像识别引擎
步骤:
1.tesseract的安装
安装教程
安装时可能会出现sendrequest error:这个时候一直狂按ok或者关闭,直到安装完成就好