一、重定向
1.重定向(redirect)就是通过各种方法将各种网络请求重新定个方向转到其它位置,从地址A跳转到地址B了。
2.重定向状态码:
--301 redirect: 301 代表永久性转移(Permanently Moved)
--302 redirect: 302 代表暂时性转移(Temporarily Moved )
3.eg:先登录csdn打开我的博客首页,进入写博客编辑界面,记住这个地址:https://mp.csdn.net/postedit ,退出csdn登录,把刚才写博客地址输入浏览器回车,抓包会看到这个请求状态码是307,浏览器地址栏瞬间刷新跳到登录首页去了
二、禁止重定向(allow_redirects)
1.用get方法请求:https://mp.csdn.net/postedit
2.打印状态码是200,这是因为requets库自动处理了重定向请求了
3.自动处理重定向地址后,我们就获取不到重定向后的url了,就无法走下一步,这里我们可以设置一个参数禁止重定向:allow_redirects=False
(allow_redirects=True是启动重定向),然后就可以看到status_code是302了(这里实操是307)
302/307的区别详见:https://www.cnblogs.com/wuguanglin/p/redirect.html
三、获取重定向后的地址
1.在第一个请求后,服务器会下发一个新的请求链接,在response的Headers里,如下抓包:Location
2.用脚本去获取Location地址
四、代码参考
# coding:utf-8 import requests import urllib3 urllib3.disable_warnings() # 请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36" } s = requests.session() # 打开写博客 r = s.get('https://mp.csdn.net/postedit', headers=headers, allow_redirects=False, verify=False) # 打印状态码,自动处理重定向请求 print(r.status_code) new_url = r.headers["Location"] print(new_url)