（一）问候 Jsoup

2022-11-19 10:17:19

第一节： Jsoup 简介

Jsoup简介

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

我们在爬虫采集网页领域主要作用是用HttpClient获取到网页后具体的网页提取需要的信息的时候，就用到Jsoup，Jsoup可以使用强大的类似Jquery,css选择器，来获取需要的数据；

Jsoup官方地址：https://jsoup.org/

Jsoup最新下载：https://jsoup.org/download

Jsoup文档：https://jsoup.org/cookbook/introduction/parsing-a-document

最新版Maven地址：

 <dependency>

     <groupId>org.jsoup</groupId>

     <artifactId>jsoup</artifactId>

     <version>1.10.2</version>

 </dependency>

第二节： Jsoup HelloWorld 实现

Jsoup HelloWorld实现

我们用Jsoup来提取下http://www.cnblogs.com/ 博客园的网页title 标题和口号；

这里我们要用到前面讲的HttpClient来获取网页内容：

pom.xml:

 <!-- 添加HttpCient支持 -->

 <dependency>

     <groupId>org.apache.httpcomponents</groupId>

     <artifactId>httpclient</artifactId>

     <version>4.5.2</version>

 </dependency>

 <!-- 添加Jsoup支持 -->

 <dependency>

     <groupId>org.jsoup</groupId>

     <artifactId>jsoup</artifactId>

     <version>1.10.2</version>

 </dependency>

实例代码：

 package com.javaxk.jsoup;

 import org.apache.http.HttpEntity;

 import org.apache.http.client.methods.CloseableHttpResponse;

 import org.apache.http.client.methods.HttpGet;

 import org.apache.http.impl.client.CloseableHttpClient;

 import org.apache.http.impl.client.HttpClients;

 import org.apache.http.util.EntityUtils;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 public class Demo01 {

     public static void main(String[] args) throws Exception{

         CloseableHttpClient httpclient = HttpClients.createDefault(); // 创建httpclient实例

         HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 创建httpget实例

         CloseableHttpResponse response = httpclient.execute(httpget); // 执行get请求

         HttpEntity entity=response.getEntity(); // 获取返回实体

         String webContent=EntityUtils.toString(entity, "utf-8");

         // System.out.println("网页内容："+webContent); // 指定编码打印网页内容

         response.close(); // 关闭流和释放系统资源

         Document doc=Jsoup.parse(webContent);    // 解析网页 得到文档对象

         Elements elements=doc.getElementsByTag("title");// 获取tag是title的所有DOM元素

         Element element=elements.get(0);// 获取第1个元素

         String title=element.text(); // 返回元素的文本

         System.out.println("网页标题是："+title);

         Element element2=doc.getElementById("site_nav_top");// 获取id=site_nav_top的DOM元素

         String navTop=element2.text();// 返回元素的文本

         System.out.println("口号："+navTop);

     }

 }

运行输出：

网页标题是：博客园 - 开发者的网上家园

口号：代码改变世界

码农公寓

第一节： Jsoup 简介

第二节： Jsoup HelloWorld 实现

相关文章