爬虫（十一）—— 请求库（三）pypeteer请求库

2024-03-17 20:16:40

曾经使用模拟浏览器操作（selenium + webdriver）来写爬虫，但是稍微有点反爬的网站都会对selenium和webdriver进行识别，网站只需要在前端js添加一下判断脚本，很容易就可以判断出是真人访问还是webdriver。虽然也可以通过中间代理的方式进行js注入屏蔽webdriver检测，但是webdriver对浏览器的模拟操作（输入、点击等等）都会留下webdriver的标记，同样会被识别出来，要绕过这种检测，只有重新编译webdriver，麻烦自不必说，难度不是一般大。

作为selenium+webdriver的优秀替代，pyppeteer就是一个很好的选择。

pyppeteer实际上是 Puppeteer 的 Python 版本的实现，但他不是 Google 开发的，是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本

参考博客：https://www.cnblogs.com/presleyren/p/11275484.html
https://www.cnblogs.com/chenhuabin/p/10989895.html

码农公寓

相关文章