爬虫---02.cookies

  • cookie是存储在客户端的键值对
    • web中cookie的典型应用免密登陆
    • cookie和爬虫之间的联系是在一定时候,对一张页面发起请求,如果不携带cookie的话,无法请求到正确的页面数据 反爬机制
      可以将浏览器发请求携带的请求头全部粘贴在headers字典中,将headers作用到requests的请求操作中即可
    • cookie的处理方式有两种
      • 手动处理 将抓包工具中的cookie粘贴到headers中 弊端是 过了有效时长 则该方式失效
      • 自动处理 基于Session对象实现自动处理 requests.Session()返回一个session对象
    • session对象的作用:
      • 该对象可以像requests一样调用get和post发起指定的请求
        只不过如果在使用session发起请求的过程中 如产生cookie 则自动存储到session对象中 意味着下次使用session发请求 该请求是携带cookie的

            # 实例  访问雪球资讯
上一篇:Python简单代码爬取网图:正则表达式re+requests库爬取静态网站图片,(需要正则表达式findall匹配图片地址)


下一篇:解决requests.exceptions.MissingSchema: Invalid URL ‘xxx‘: No schema supplied. Perhaps you meant“xxx”