jsoup这个工具用于抓取并解析网页,用起来也比较简单,语法上与Jquery类似,基本写法如下:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8",
"http://www.oschina.net/");
Elements links = doc.select("a[href]"); //
链接
Elements pngs = doc.select("img[src$=.png]");
// 所有 png 的图片
Element masthead =
doc.select("div.masthead").first();// div with class="masthead"
Elements resultLinks = doc.select("h3.r >
a"); // direct a after h3