从云网络时延看应用部署架构

2021-09-10 04:36:49

在引出云网络时延这看起来比较专业的话题前，先看几个比较有意思的问题。
人的最快反应速度是多少毫秒？
机器人最快反应速度是多少毫秒?
这样能在介绍云网络时延时让大家有一个时间量级上的感知。

什么是时延

人体能感知的时延量级

抢红包时，为什么总是别人能抢到？
抢爆品好货时，为什么别人扣的1总在你前面？
游戏对战时，为什么总感觉比对手慢了半拍？
这些是人能明显感知到的时延，这些时延量级在毫秒级（1秒=1000毫秒）。

应激反应

确切的说人类接受到外部刺激而做出反应，这个时延一般公认的极限是100ms。

大家可以在humanbenchmark这个网站测试一下自己的反应时间是多少ms，快的能到200ms左右，慢一点的就到三四百毫秒了。

机械反应

人体连续机械反应的极限，一般公认的极限是50ms。
游戏玩家“高桥名人”一秒点击按键16次，是当前无法超越的奇迹，折合每次反应的平均时间是62.5毫秒。中国玩家熟悉的冒险岛游戏的主角就是高桥名人。

机器能感知的时延量级

自动驾驶

特斯拉的完全自动驾驶芯片，每秒可完成144万亿次的计算，能同时处理每秒2,300帧的图像，结合本地的车载的神经网络系统，发现异常并处理的时延可以做在0.5ms左右，是人类识别外界异常并做出反应的速度的200倍。

工业制造

对于纯机械的反应，机器的速度就更快了，ABB的机器人在50秒以内可以装配出一量有5千多个零部件的汽车，是100年前福特流水线手工装配速度的1000倍。

整体上看，在机器的世界里时延和速度的单位是零点几毫秒，在人的世界里时延和速度的单位是零点几秒

不同应用对时延的要求

面向用户的应用时延

下面这个表是电信系统中对不用应用业务的分类以及不同应用对时延和丢包的需求。

总结下来：
1.实时竞技类游戏的时延要求是50ms
2.实时交互类游戏的时延要求是100ms
3.实时交互语音类的时延要求是100ms
4.实时交互视频类的时延要求是150ms
5.非实时大部分互联网应用时延要求是300ms

上面的标准是优秀的标准，如果时延增加50ms，则是及格线。

面向机器的应用的时延

5G场景下有对超低时延应用场景的划分。5G的超低时延场景，主要是面向车联网，物联网和工业互联网。
1.工业自动化控制的时延要求是小于10ms
2.远程/遥控驾驶的时延要求是小于10ms
3.远程超声波检测的时延要求是小于10ms

整体上看，如果满足面向机器的超低时延应用，需要将双向时延控制在10ms以内。
对于仅涉及到数据中心内部或数据中心间的机器之间的通信，比证券和期货行业的高频交易，这种网络延迟甚至要求小于1ms。

端到端的时延构成

上面提到的不同应用的时延要求都是端到端的双向时延，根据应用的不同这个端到端可能时用户端和服务器端，也可能是用户端和用户端之间。
端到端的时延包括应用处理时延和网络传输时延。

网络层传输时延

网络层传输时延指的是数据包的传输时延，比如数据包从手机发出到服务器接收，再从服务器发送到被终端接收。
网络传输时延包括网络接入时延，固网传输时延，数据中心内部网络时延。

对于用户从家庭宽带的固定网络来访问云端的应用来说，整个端到端的时延构成如下。

用户终端接入到家庭路由器，如果通过WiFi方式，在WiFi接入用户较少，轻负载的情况下时延一般在5-15ms左右，通过网线方式一般小于1ms。
家庭路由器的WAN口连接到运营商的本地固网，从本地固网到运营商骨干网再到阿里云数据中心，视距离的长短，网络时延在1到100ms不等。
到阿里云数据中心后，数据中心内部的时延一般小于2ms。

如果用户的终端通过4G或5G接入网络，整个端到端的时延构成会稍微复杂一些。

4G的终端到基站的空口时延一般在10到20ms左右。
5G的终端到基站的空口时延降低到了1ms。
基站到核心网的时延和物理距离强相关，时延在1到15ms不等。
核心网的互联网出口会连接到本地固网。
从本地固网到运营商骨干网再到阿里云数据中心，视距离的长短，网络时延在1到100ms不等。
到阿里云数据中心后，数据中心内部的时延一般小于2ms。

应用层处理时延

应用层时延包含用户前端的终端上的应用处理时延和后端的服务器上的应用处理时延。
应用层处理时延根据不同的应用差异比较大，有的在10ms以内，有的则大于100 ms。
比如说抢红包，买商品之类的简单交互类应用，主要是一些数据包的交互，这种的应用层处理时延先对较少，很多在10ms以内。

对于工业互联网类的应用，主要也时控制类的报文的交互，应用层处理时延会更小，很多在5ms以内。

对于游戏类的应用，主要是终端向游戏服务器发送各种指令，另外一个方向是终端收到服务的数据后展示给用户。这种类型的应用的应用层处理时间比较适中，一般在30ms以内。
终端发送指令时延很短，很多时候可以小于1ms，在服务器侧的游戏处理逻辑情况下也很快，一般在5ms内都能处理完，用户终端收到游戏服务器的数据后通过渲染将画面呈现给用户，这个应用层的渲染过程会稍微耗时一些，根据用户终端的处理性能，游戏的炫酷程度，处理时延在5到30ms之间不等。整体上游戏场景下的应用层处理时延在10到30ms。

而涉及到音视频领域的应用层处理时延一般会比较高，主要是涉及到外设的音视频采集，音视频编解码，降噪和渲染等信号处理。业界比较成熟的音视频平台的应用层端到端时延一般可以控制在100ms以内。

从时延角度看应用部署架构

工业互联网类的应用部署架构

工业互联网类的应用的实时性要求一般都比较高，很多要求端到端时延在10ms左右。

减去应用层的5ms左右的处理时延，留给网络层的处理时延也就5ms了。
前面提到了网络层的时延包括网络接入时延，固网传输时延，数据中心内部网络时延。
4G网络的网络接入时延一般在20ms左右，这种显然满足不了工业互联网的需求。固网网线接入时延一般小于1ms，所以很多工业互联网场景的设备时通过固网网线连接的。在5G时代，网络接入时延可以在1ms以内，可以把之前固定的设备无线化。
对于数据中心内部处理时延，一般小型数据中心内部时延都小于1ms，超大型数据中心内部会大于1ms，但一般也会小于2ms。
如果按网络接入时延1ms，数据中心内部时延1ms，留给固网传输时延就3ms了。固网的1ms双向传输时延，代表光纤距离是100km。

这就要求在工业互联网场景下云数据中心要尽可能的靠近工业园区，基本上不能跨城。
在这种场景下用户可以选择的应用部署架构包括阿里云云盒本地部署，阿里云混合云本地部署。

实时音视频类应用部署架构

实时音视频类应用的特点是应用层处理时延较多，业界先进的音视频平台可以做到100ms以内。
实时音视频类的端到端的时延如前文所述端到端时延最好能控制在150ms以内，如果是在200ms以内也可以接受。
此时留给网络层的时延最多也就100ms。
而实时音视频应用的特点是两个用户终端通信，在这种场景下实际上是两个用户的流量是通过音视频服务器连接起来的，所以实际路径是用户1<—>音视频服务器<->用户2。

所以在音视频场景下，服务器到用户的网络传输时延应该控制在50ms以内。
音视频场景下大部分用户都使用移动端，对于4G网络网络接入时延一般在20ms左右。此时留给固网传输时延的时间在30ms以内。
下面是阿里云不同地域服务器到覆国内不同省份的固网时延图。

在音视频场景下，在4G时代，要想给用户提供很好的用户体验，要考虑音视频服务器多地域部署。比如用阿里云北京Region覆盖京津冀经济区，用阿里云上海Region覆盖长三角地区，用阿里云深圳Region覆盖珠三角经济区，用阿里云成都Region覆盖西三角经济区。

在5G场景下，可以将网络接入时延从20ms降低到1ms。此时留给固网的传输时延可以从30ms变为50ms。这将很大程度上简化应用的部署架构，从理论上可以实现音视频服务器从多地域部署变为单地域部署。

实时竞技游戏类应用部署架构

实时竞技类游戏的端到端时延最好能控制在50ms以内，如果是在100ms以内也可以接受。
如果按端到端时延100ms来考虑，给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了50ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在50ms以内。

考虑到当前4G场景下，网络接入时延约20ms，此时留给固网传输时延的时间在30ms以内。在这种场景下和上面的实时音视频的应用部署架构要求基本一致了。
所以在4G场景下，对于实时竞技类游戏，需要多地域部署。可以考虑用阿里云北京Region覆盖京津冀经济区，用阿里云上海Region覆盖长三角地区，用阿里云深圳Region覆盖珠三角经济区，用阿里云成都Region覆盖西三角经济区。
在5G大规模部署的场景下，可以考虑单个地域部署。

实时交互类应用部署架构

实时竞技类游戏的端到端时延最好能控制在100ms以内，如果是在150ms以内也可以接受。
如果按端到端时延150ms来考虑，给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了100ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在100ms以内。
100ms的网络层传输时延是一个很宽松的要求，基本上用阿里云一个地域的服务器即可达到很好的覆盖效果。

所以对于实时交互类游戏应用，选择阿里云的一个地域部署应用即可。

电商类应用部署架构

电商类的应用的实时交互相对来讲不是太多，对端到端的时延能控制在300ms以内就能满足要求了。而电商应用后端和前端处理逻辑也相对来讲时延消耗也不是太多，给应用层处理时延分配100ms的话，网络层的时延还有200ms。
200ms的网络层传输时延是一个更宽松的指标。

所以对于电商类的应用，单纯从时延的角度考虑，选择阿里云的一个地域部署应用即可。不过电商类的应用一般情况下对可靠性要求都比较高，综合考虑容灾和高可靠，还是建议多地域高靠部署。

如何度量时延

时延是一个影响用户体验的关键指标，在一定程度上也能比较好的反应网络质量，如何有效的度量时延也变得很关键。
下面简单介绍几种比较有效的度量时延的工具和产品。

Ping

如果想进行点到点的时延测量，那么最简单最使用的就是ICMP Ping了。

通过ICMP Ping可以获取点到点的双向时延数据。

如果要想进行点到多点的时延测量，这种业界一般叫网络拨测。
对于网络拨测阿里云也有比较成熟的产品化工具。

实时拨测

当前阿里云比较好用的网络实时拨测工具的链接如下：
https://zijian.aliyun.com/detect/ping
当前这个拨测工具是免费的。

通过阿里云的实时拨测工具，只需要输入IP或域名，就可以直接发起全国的探针对目标域名或IP的实时探测，2分钟就会出现全量的结果并以图形化方式呈现。

持续拨测

如果希望对应用持续进行网络质量的监控，如果出现故障后能否发送告警到具体的负责人，这种场景下阿里云对应的产品是，云监控的站点监控。
https://cloudmonitor.console.aliyun.com/index.htm#/newSite/list/

站点监控支持自定义探针和告警规则。
当前站点监控的探针基本上已经覆盖了中国内地的90%以上的省份和运营商。
告警规则的定义也比较灵活，而且可以将告警以邮件，电话，短信，钉钉机器人的方式发送。

总结

不同的应用对于端到端的时延要求不同，对应的应用的部署架构也不一样。
端到端的时延包含应用层处理时延和网络层传输时延。
应用层处理时延一般情况下不太好优化，网络层传输时延可以通过部署架构优化的方式降低。
网络层传输时延包括网络接入时延，固网传输时延和云数据中心内网络时延。
通过将应用部署到靠近用户的位置，可以有效的降低固网传输时延。
5G主要优化的是网络接入时延，在5G普及后对实时音视频，实时竞技游戏类应用部署架构的简化会比较有帮助。
度量固网传输时延可以使用比较成熟的实时拨测和持续拨测工具。

码农公寓