爬虫学习笔记 Day 6 + 记录遇到的小问题

目录

一、配置对象

(续上昨天的笔记)

from selenium import webdriver

url = 'http://www.baidu.com/'

#创建配置对象
opt = webdriver.ChromeOptions()

#添加配置参数
# opt.add_argument('--headless')
# opt.add_argument('--disable-gpu')
#设置浏览器为无头模式
opt.add_argument('--proxy-server=http://上网找可以使用的代理')
#更换user-agent
opt.add_argument('--user-agent=Mozilla/5.0 python37')

#创建浏览器对象的时候添加配置对象
driver = webdriver.Chrome(options=opt)

driver.get(url)

二、反爬

基于身份识别的反爬

1.headers
User-Agent
referer
cookies

2.请求参数
从html文件中提取
发送请求获取数据
通过js生成
通过验证码

基于数据加密进行反爬

1.请求频率或者总能够请求数量
(1)通过请求ip/账号单位时间内总请求数量进行反爬(解决方法:可以使用多个ip或者账号)
(2)通过请求ip/账号每天请求次数设置阈值
(3)通过同一个ip/账号请求之间的时间间隔

2.在爬取步骤上做分析
js实现跳转
trap(蜜罐/陷阱)获取爬虫iip
假数据
任务队列
网络IO

基于数据加密进行反爬

1.对响应中含有的数据进行特殊化处理
自定义字体(在源码中查看)
css
js生成
图片
编码格式

三、验证码

图像识别引擎

步骤:
1.tesseract的安装
安装教程

安装时可能会出现sendrequest error:这个时候一直狂按ok或者关闭,直到安装完成就好

上一篇:C++与C#中枚举的区别


下一篇:Day_02学习记录