06 使用代理爬取搜狗微信文章

参考:静觅丨崔庆才的个人博客

 

项目地址:copywang/spiders_collection

 

实现功能

  1. 根据登陆后的cookie制作header,请求搜索微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的字段信息
  5. 爬取文章详情页并存储到MongoDB

步骤

  1. 制作cookie,拼接URL
  2. 获取每一页的html代码
  3. 从每一页的html代码解析得到具体文章的url
  4. 获取具体文章的url,解析得到需要的信息

收获

  1. 使用pyquery
  2. 使用代理IP
  3. 异常处理

06 使用代理爬取搜狗微信文章

上一篇:【微信开发】JS和PHP分别判断当前浏览器是否微信浏览器


下一篇:解决微信OAuth2.0网页授权回调域名只能设置一个的问题