Vert.x是一个基于事件驱动和异步非阻塞I/O、运行于JVM上的框架,如图7-14所示。在Vert.x里,Verticle是最基础的开发和部署单元,不同的Vert.x可以通过Event Bus传递数据,进而方便地实现高并发性能的网络程序。关于Vert.x原理的分析可以参考阿里架构师宿何的blog:
https://www.sczyh30.com/tags/Vert-x/。
Vert.x同时很好地支持了WebSocket协议,所以可以方便地实现支持REST API和WebSocket、完全异步的网关系统,如图7-15所示。
一个高性能的API网关系统,缓存是必不可少的部分。无论分发冷热数据,降低对业务系统的压力,还是作为中间数据源,为服务聚合提供高效可复用的业务数据,缓存都发挥了巨大作用。
3. API网关的日常监控
我们使用多种工具对API进行监控和管理,包括全链路访问跟踪、连接数统计分析、全世界重要国家和城市的波测访问统计。网关技术团队每时每刻都关注着数据的变化趋势。各个业务系统研发团队每天安排专人关注自己系统的API性能(吞吐量和延迟),推进性能问题解决和持续优化。这就初步解决了问题3。
4. 推荐外部客户使用WebSocket和API SDK
由于外部客户需要自己通过API网关调用API服务来集成业务服务能力到自己的系统。各个客户的技术能力和系统处理能力有较大差异,使用行为也不同。对于不断发展变动的交易业务数据,客户调用API频率太低会影响数据实时性,调用频率太高则可能会浪费双方的系统资源。同时利用WebSocket的消息推送特点,我们可以在网关系统控制客户接收消息的频率、单个用户的连接数量等,随时根据业务系统的情况动态进行策略调整。综合考虑,WebSocket是一个比REST API更加实时可靠、更加易于管理的方式。另外对于习惯使用REST API的客户,我们也通过将各种常见使用场景封装成多种不同语言的API SDK(包括Java/C++/C#/Python),进而统一用户的API调用方式和行为。在研发、产品、运营各方的配合下,逐步协助客户使用WebSocket协议和API SDK,基本解决了问题4。
5. API网关的性能优化
API网关系统作为API服务的统一接入点,为了给用户提供最优质的用户体验,必须长期做性能优化工作。不仅API网关自己做优化,同时可以根据监控情况,时刻发现各业务系统的API服务能力,以此为出发点,推动各个业务系统不断优化API性能。
举一个具体的例子,某个网关系统连接经常强烈抖动(如图7-16所示),严重影响系统的稳定性、浪费系统资源,经过排除发现:
(1)有爬虫IP不断爬取我们的交易数据,而且这些IP所在网段都没有在平台产生任何实际交易,最高单爬虫IP的每日新建连接近100万次,平均每秒十几次。
(2)有部分API客户的程序存在bug,而且处理速度有限,不断地重复“断开并重新连接”,再尝试重新对API数据进行处理,严重影响了客户的用户体验。
针对如上分析,我们采取了如下处理方式:
(1)对于每天认定的爬虫IP,加入黑名单,直接在流量网关限制其访问我们的API网关。
(2)对于存在bug的API客户,协助对方进行问题定位和bug修复,增强客户使用信心。
(3)对于处理速度和技术能力有限的客户,基于定制的WebSocket服务,使用滑动时间窗口算法,在业务数据变化非常大时,对分发的消息进行批量优化。
(4)对于未登录和识别身份的API调用,流量网关实现全局的流控策略,增加缓存时间和限制调用次数,保障系统稳定。
(5)业务网关根据API服务的重要等级和客户的分类,进一步细化和实时控制网关策略,最大限度地保障核心业务和客户的使用。