【原创】爬虫反爬基础常见类型总结

 

1.浏览器伪装

格式:

'User-Agent':'自己抓包' 

2.访问地址伪装

格式:

'reffer':'自己抓包'

3.ip地址伪装

格式:

免费版: proxies={'https':'ip:port'}
收费版: proxies={'https':'http:user:password@ip:port'}

4.伪装访问速率

格式:

import time,random
headers={xxx}
for i in range(10):
    response = xxx #模拟请求url
    time.sleep(random.uniform(1.1,5.4)) #重点时间随机

5.伪装用户真实信息

格式:

cookies='自己抓包'

cookies升级:js、js混淆,已经超出普通人能力

6.字体反爬

常见某点评网,只能靠js,同cookies一样困难

7.Selenium防检测

这个需要加类似插件参数

8.网页禁止调试

F12不起作用,或者调试警告弹窗,这种直接不让你看数据

9.Ajax异步加载

selenium可以做,但是效率不高。调试原网页没数据,这种考虑js生成,或者有专门接口

10.其他反爬

动态验证码,封ip,封账号等

 

上一篇:Python爬虫学习笔记(七)——requests(下)


下一篇:Sanic官翻-Cookies