URLConnection类介绍

URLConnection是一个功能强大的抽象类,它表示指向URL指定资源的活动连接。

  • 与URL类相比,它与服务器的交互提供了更多的控制机制。尤其服务器是HTTP服务器,可以使用URLConnection对HTTP首部的访问,可以配置发送给服务器的请求参数。当然也可以通过它读取服务器的数据以及向服务器写入数据
  • URLConnection是Java的协议处理器机制的一部分。协议处理器机制是将处理协议的细节与特定数据类型分开。如果要实现一个特定的协议,则实现URLConnection的子类即可。程序运行时可以将该子类作为一个具体的协议处理器来使用。

使用URLConnection类的步骤

  1. 构造一个URL对象
  2. 调用该URL的openConnection()获取一个URLConnection
  3. 配置这个URLConnection
  4. 读取首部字段
  5. 获得输入流并读取数据
  6. 获得输出流并写入数据
  7. 关闭连接

打开URLConnection

通过URL类来打开一个URLConnection

URLConnection类介绍

当我们拿到一个URLConnection对象后,并不代表客户端已经和服务器建立了连接。只有主动调用其connect()方法才去和服务器建立连接。不过当我们调用getInputStream(),getContent(),getHeaderField()和其他要求打开连接的方法时,如果连接尚未打开,它们就会调用connect()。所以,在实际开发中我们主动调用connect()方法的机会很少。

读取服务器的数据

这里从HTTP服务器读取数据。

URLConnection类介绍

获取首部


HTTP响应的首部中包含了许多有用的信息,比如消息体的类型,长度,采用的压缩格式的。只有通过解析首部中的元数据,我们才能正确的解读消息体中的信息。

获取Content-Type属性

Content-Type指定了消息体的类型(text,image,video),如果是文本类型还会指定编码方式。

public String getContentType()

URLConnection类介绍

程序中查找charset的值来获取编码方式,并使用指定的编码方式从流中读取数据。

下面是服务器端代码,通过header方法来指定文本编码方式。并通过iconv函数将“这个一个中文测试”以gb2312编码的方式输出。

URLConnection类介绍

获Content-Length长度

我们可以使用URL的openStream()方法从HTTP服务器下载文本文件。但是在实际中会产生问题,即HTTP服务器并不总是会在数据发送完后就立即关闭连接。因此,客户端不知道何时停止读取。最好的做法就是读取HTTP头中的Content-Lenght来确定文件的长度,然后根据这个长度来读取相应的字节数。

public int getContentLength()

下面的代码中我们从http://www.xdysite.cn/download.php下载一个20M大小的文件。通过解析HTTP头可以获取文件具体的大小以及文件名。然后在本地创建一个同名文件,并将获取的数据写的该文件中。因为下载的是图片,我们直接使用字符流即可。

URLConnection类介绍

服务器端代码

URLConnection类介绍

其他方法

public String getContentEncoding()   获取消息体的压缩方式,一般情况下会对消息体压缩后再传输

public long getDate()                          获取文档发送时间,该时间为自1970年1月1号0点到目前为止过去的毫秒数

public long getLastModified()             获取文档的最后修改日期

public String getHeaderField(String name)  获取任意首部字段

缓存


下面的几个首部会影响客户端的缓存(针对HTTP1.1)

Cache-control

---max-age=[seconds]     从现在起数据在缓存中待的时间

---s-maxage=[seconds]   从现在起数据在共享缓存(http代理)中待的时间,会将max-age设置覆盖

---public                         该响应可以被缓存,主要是针对HTTP代理

---private                        该响应只能被浏览器缓存,不能被代理缓存

---no-cache                     该响应可以被缓存,但是客户端再次从缓存中加载该页面时,需要用ETag或Last-modified首部去验证这个页面在服务器是否发生改变

---no-store                     不能被缓存

Lost-modified                   指示资源最后一次修改的日期。客户端可以使用HEAD请求来检查这个日期。只有当本地缓存的副本早于Last-modified日期时,它才会真正执行GET来获取资源

Etag                                 对资源的唯一标识,当资源发生改变时该表示也应做出改变。客户端可以使用HEAD请求来检查这个标识,只有当本地缓存的副本的ETag与请求到的不同时,才会真正的执行GET获取资源

JAVA本身是并没有实现缓存,只是对外提供了接口。至于缓存具体的实现方式需要用户自己去实现。与缓存有关的类是ResponseCache

通过该类可以安装系统级缓存。系统级缓存是一个共享缓存,且是唯一的一个。即所有请求过的URL都放在这个缓存管理器中被统一管理。当通过该类安装了缓存后,只要系统尝试加载一个新的URL时,它首先会在这个缓存中查找。如果缓存中返回了所要的内容,URLConnection就不需要与远程服务器连接了。如果没有找到,则会连接服务器下载数据。完成之后,它会把这个响应放到缓存中,使得下一次加载这个URL时,可以很快从缓存中得到这个内容。

public abstract class ResponseCache

ResponseCache是一个抽象类,它有两个抽象方法需要用户去实现。

public abstract CacheResponse get(URI uri, String rqstMethod, Map<String,List<String>> rqstHeaders)

public abstract CacheRequest put(URI uri, URLConnection conn)

get方法是从缓存取数据,它返回一个CacheResponde对象。该对象中包含了一个InputStream流,这样系统可以从该流中读取数据,然后返回给用户。put方法是往缓存中放入数据,它返回的是一个CacheRequest。该对象中包含了一个OutputStream,系统可以将从服务器获得的数据通过该流写到一个具体的地方(可以是文件可以是内存,这个需要通过我们自己实现的CacheRequest类来制定)

为了实现这两个方法需要实现CacheRequest类和CacheResponse类。下面是一个具体的例子来实现HTTP缓存。我们将会在内存中开辟一块地方作为缓存使用。

实现自己的CacheRequest类

URLConnection类介绍

该类用于缓存数据,将来的从服务器获取的数据都会放到该类中

实现自己的CacheResponsel类

该类主要是记录响应头和缓冲区的引用URLConnection类介绍

实现MemoryCache类

class MemoryCache extends ResponseCache {
//创建容器来管理缓冲区
private final Map<URI, SimpleCacheResponse> responses
= new ConcurrentHashMap<>();
//缓冲区最大缓存URL的数量
private final int maxEntries;
</span><span style="color: #0000ff">public</span><span style="color: #000000"> MemoryCache(){
</span><span style="color: #0000ff">this</span>(100<span style="color: #000000">);
} </span><span style="color: #0000ff">public</span> MemoryCache(<span style="color: #0000ff">int</span><span style="color: #000000"> i) {
maxEntries </span>=<span style="color: #000000"> i;
} </span><span style="color: #008000">//</span><span style="color: #008000">从缓冲区读数据</span>

@Override

public CacheResponse get(URI uri, String rqstMethod,

Map<String, List<String>> rqstHeaders) throws IOException {

//如果是GET方法则去检查缓存

if ("GET".equals(rqstMethod)) {

//根据URI来获取response对象

SimpleCacheResponse response = responses.get(uri);

//有缓存对象但是已经过期,则将其从缓冲区删除并返回NULL

if (response != null && response.isExpired()) {

responses.remove(response);

response = null;

}

return response;

} else

return null;

}

</span><span style="color: #008000">//</span><span style="color: #008000">往缓冲区放数据</span>

@Override

public CacheRequest put(URI uri, URLConnection conn) throws IOException {

//检查缓存区是否达到上限

if(responses.size() >= maxEntries)

return null;

//检查是否可以缓存

CacheControl control = new CacheControl(conn.getHeaderField("Cache-Control"));

if(control.isNoCache())

return null;

else if (conn.getDoOutput()) //POST方法不缓存

return null;

//创建request对象来作为缓存

SimpleCacheRequest request = new SimpleCacheRequest();

//创建response对象并将其与request对象绑定

SimpleCacheResponse response = new SimpleCacheResponse(request, conn, control);

//将URI与response绑定

responses.put(uri, response);

//返回request对象,因为要将服务器数据写到缓存中

return request;

}

}

测试类

URLConnection类介绍

在测试类中,我们设置了缓存策略,然后向服务器发起了两次请求。下面是服务器的日志记录

URLConnection类介绍

在日志记录中我们看出只有一条请求,这是因为第一次缓存中没有数据,所以需要去服务器拿数据。而第二次请求发现同样的资源已经被缓存过了,所以只需要从缓存中直接获取即可。

URLConnection类中的setDefaultUseCaches方法可以设置对于当前的URL是否使用缓存。

上一篇:Python学习笔记总结(一)对象和流程语句总结


下一篇:github多用户git push错误remote: Permission to user1/z.git denied to user2