Httpclient核心架构设计

大概两周前,团队需要对httpclient进行调优,领到任务后,大致研究了源码很快就确定了调优方向。但是对于一个重度强迫症患者,对一件事情的理解就只有两种程度,完全懂或者完全不懂,于是悲催的开始httpclient整体架构的探索之路,每天晚上回家抽点边角料的时间写,之前的理解建立在一个宏观基础上,对整体有个把握,写的过程中细节不断丰富细节,理解开始变得立体起来。

背景知识

Http简介

通常,我们使用IE或者safari来访问互联网上的内容,只需要输入资源地址,浏览器便会呈现给你想要的内容。这一切的背后,都是迄今为止在计算机领域最成功的协议–http协议。

Http协议分为请求和响应,客户端建立连接,接着发送请求,服务端接受并处理请求,再发送应答,再由客户端接受并处理应答。浏览器是最最常见的一种客户端,它将用户的交互行为作为http请求发送,并接受服务端的应答,再将应答内容展示,一般应答都是html类型的超文本。

浏览器显然不是唯一的客户端,理论上任何遵循了http规范都可作为客户端。在程序里也可以通过Java api实现简单的客户端–使用HttpURLConnection发送http请求,并解析应答。假设应答是个html或者json,则只需要基于双方约定的格式进行解析就能得到聚焦的结果。

Http, tcp/ip和socket区别

Tcp/ip是传输层协议,而http则是建立在它之上的上层应用协议。Http主要解决的是数据规范层面的事情,而tcp/ip主要解决的则是数据传输层面的事情。如果没有规范的应用协议,数据能从网络里的A节点传到B节点,但却无法有效识别,建立在tcp/ip上的应用协议很多,像rpc,ftp等,反过来不管应用协议有多强大最终都需要依靠传输层协议进行数据传输。 
Socket则是tcp/ip的一个编程实现,在程序里http请求(连接)最终一定需要绑定到一个具体的socket连接进行上行和下行传输。

整体架构

对于简单应用,HttpURLConnection完全可以满足。但是对于1)系统复杂度高,2)性能要求高,3)可靠性要求也高的应用,则需要一个更强大的组件。

Httpclient核心架构设计
Httpclient将对接的服务器或者集群(相同域名)称为route,并为每个route建立若干连接池化在连接池里。Client通过tcp/ip协议发送请求以及接受应答,在发送请求前和接收应答后都会经由interceptor进行链式处理,在httpclient里这些interceptor被称为HttpProcessor,负责处理诸如设置报文头,报文体,编码格式等以及解析报文头,报文体,解码格式等http规范报文格式范畴内的事情。

HttpClient静态结构

Httpclient核心架构设计 
- HttpClient通过建造者构建出来,用户可以通过建造者暴露出来的参数属性方法来组织最终生成的产品属性。HttpClients是个工厂类,用于生产HttpClient,同时也提供custom方法返回builder,由使用者组织client属性。 
- HttpClient主要由5个组件组成,分别是: 
1. Closeable: 代表需要关闭的组件,client服务关闭时会回调注册的所有Closeable组件依次关闭。用户可以通过HttpClientBuilder#addCloseable添加自定义关闭组件。HttpClient内部利用Closeable关闭IdleConnectionEvictor以及HttpClientConnectionManager 
2. IdleConnectionEvictor: 用来关闭闲置连接,它会启动一个守护线程进行清理工作。用户可以通过builder#evictIdleConnections开启该组件,并通过builder#setmaxIdleTime设置最大空闲时间。 
3. HttpClientConnectionManager管理着连接的整个生命周期。连接在连接池中创建、复用以及移除。 
Httpclient核心架构设计 
connection被创建出来后处于闲置状态,由连接池管理,被lease后会校验是否是open状态,不是的话会进行connect,connect的过程就是将http请求(连接)绑定到socket的过程。同时连接也会因为心跳或者过期等原因被close变成stale状态,直至被下一次get到时或者连接满时被清理出去。

同时连接池还能对连接进行限流–全局和单route连接数。Connection manager封装了对连接池的具体操作,比如向连接池租用和归还连接;还提供了基于不同schema(主要是http和https)创建不同的socket连接(ssl和plain)并且将http请求(连接)绑定到socket的能力,等等。 
4. HttpRoutePlanner用来创建HttpRoute。后者代表客户端request的对端服务器,主要包含rout的host以及proxy信息。 
5. ClientExecChain代表一次完整的调用执行过程,它是一个包装类,类似于java io类,每个包装类完成一个特定的功能,多层嵌套完成一个系统性的功能,比如处理协议范畴的例如cookie、报文解析等,又比如处理自动重试的,等等。

连接池

Httpclient核心架构设计

  • CPool里的连接分为三种–available, leased和pending,分别对应空闲,占用和堵塞三种状态,连接池为这三种状态建立三个列表(List/Set)。对连接数的管理则有两个维度,分别是全局最大数和单route最大数。全局连接和单route连接都对应三种状态列表,CPool内部维护了route和RouteSpecificPool的映射,通过后者对单route连接进行管理,并且严格保证一个route只会对应一个route pool。操作(租用,释放,阻塞或者移除等等)连接时CPool首先会依据route信息取出route pool,对其上维护的连接进行操作,之后再对CPool上的相应连接操作。RouteSpecificPool是个friend的abstract类,也就是说它是CPool隐藏起来的实现细节,对外只暴露CPool的行为甚至用户都可以不理会CPool只关心connection mananger。

  • 连接池对外透出的是PoolEntryFuture,后者的get方法能够获取一个闲置连接,或者进入堵塞等待。  
    Httpclient核心架构设计
    连接池的连接连同route信息一起被包含在PoolEntry里返回给消费者,除此之外,PoolEntry还包含了连接的失效时间等等,超过失效时间会在下一次被get到时close。

  • CPool还有流控功能,get请求在没有空闲连接但连接数没达到阈值时通过连接池创建连接并池化放入available或者leased。leased连接数达到阈值时对请求进行堵塞–PoolEntryFuture#await,并且将PoolEntryFuture放入pending。其他请求释放连接时会唤醒堵塞请求,被唤醒的请求获取到连接后会被从pending列表中移除。 
    Httpclient核心架构设计
    超过任何一个最大数阈值后CPool首先都会进行收缩,超过单route最大数,则收缩单route连接,超过全局最大数,则收缩全局连接。收缩的过程只会关闭空闲连接,直至连接数等于阈值-1。

执行链

Httpclient核心架构设计

  • MainClientExec是真正执行客户端请求的,它位于包装类的最里层,它通过连接管理器向CPool requestConnection,绑定http请求到socket,通过request executor发送请求,并且还能基于keep-alive策略处理连接的复用等等。

  • ProtocolExec通过一系列的HttpProcessor处理链对Http消息按格式编码以及解码。每一个processor处理一个范畴的事情,比如处理header,content以及cookie等等。

  • RetryExec,对io某些特殊情形的io异常进行重连,保证可用性。

  • RedirectExec,处理301,302,303和307的情况,即move和redirect。

  • BackoffStrategyExec对出现连接或者响应超时异常的route进行降级,缩小该route上连接数,能使得服务质量更好的route能得到更多的连接。降级的速度可以通过因子设置,默认是每次降级减少一半的连接数,即降级因子是0.5。

最后注意一点,以上的这些exec只有MainClientExec和ProtocolExec是默认开启的,其他的都需要通过HttpClientBuilder设置参数开启,具体可以参考文档或者源码。

调优方向

了解了架构原理后,就可以着手在3个方向进行调优: 
1. 连接数,通过设立全局最大连接数和单route连接数,增加吞吐能力。用户可通过HttpClientBuilder#maxConnTotal和#maxConnPerRoute分别设置。 
2. 获取连接的超时时间,调小超时时间能够有效提高响应速度并且降低积压请求量,但相应的也会增加请求失败的几率。用户可以通过RequestConfig的connectionRequestTimeout进行设置。 
3. 建立连接和route响应的超时时间,调小能够有效的降低bad request对连接的占用,留给质量更好的请求,有效提高系统提高吞吐能力及响应速度。否则有可能在峰值期被慢请求占满连接池,导致系统瘫痪。两者分别可通过RequestConfig#connectionTimeout和socketTimeout进行设置。 
4. 开启BackoffStrategyExec,对状况差的route进行降级处理,将连接让给其他route。

上一篇:思辨领域模型--DDD≠数据库关系模型


下一篇:Great Dubbo(下)