最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。
原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒。
原来Jsoup是可以设置超时的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
2022-04-08 04:09:20
最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。
原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒。
原来Jsoup是可以设置超时的,修改成如下就可以了:
Jsoup.connect(url).timeout(30000).get(); // 30S
下一篇:javascript 闭包