我想从网站(不是我自己的)抓取一些特定的值(例如,newstext).
file_get_contents()无效,可被php.ini阻止.
所以我试着用curl做,问题是:
我得到的只是来自cloudflare的重定向文本.
我的爬虫应该做的事情如下:
转到页面 – >等待5secs cloudflare重定向 – >卷曲页面.
有关如何在云端等待时间后抓取页面的任何想法? (在PHP中)
编辑:所以我尝试了很多东西,问题仍然是一样的..更具体:它只抓取cloudflare重定向页面. (所以我得到一个重定向到主机的页面,cloudflare在前面.当我在localhost上卷曲它需要localhost,所以重定向是不行的.)
5secs“卷曲”后是否无法开始保存returend数据?
解决方法:
“转到页面 – >等待5secs cloudflare重定向 – >卷曲页面.”
5秒插页式页面实际上要求在访问者通过检查之前启用JavaScript和Cookie,如果您使用爬虫或机器人访问该网站,这可能无法使用.