尊敬的客户,
您好,阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。目前发现您阿里云账号下的 Bucket 出现可用性(5xx)降低的潜在风险,建议您按照如下思路检查:
- 1、如果发现客户端侧出现 504/502/503 的场景,可以尝试 ping 延迟是否稳定、MTR 链路是否存在间接性丢包、telnet 服务端 80/443 端口是否正常通信。如果发现网络异常,需要先排除掉客户端的网络链路异常后再向下分析。
- 2、如果发现客户端侧出现 500 的场景并且复现频率较高,可以先通过 try catch 机制捕获到异常后合理进行重试,记录下异常的 requestID 尽快反馈到阿里云售后进行分析。
- 3、如果是 ECS 通过公网访问 OSS 出现了 5xx ,检查您的 ECS 是否有公网带宽超过限制、网卡持续跑满的情况。带宽超限后应及时扩容 ECS 带宽,避免带来业务影响。
- 4、检查 ECS 主机的网络连接数、文件描述符的数量是否出现瓶颈,可能导致 SocketTimeOut 的问题出现。根据主机的负载情况、实例规格,合理的设置并发数量,优化业务代码。
- 5、检查客户业务代码中初始化配置的, MaxConnections、SocketTimeout、ConnectionTimeout 参数是否合理,弱网情况下应该适当放大。
- 6、检查客户是否配置过 OSS 镜像回源功能,保证镜像回源的站点可以正常通信,尽量不要对 OSS 回源 IP 设置防火墙策略, OSS 镜像回源采用的是公网 IP 回源,定期会进行 IP 或者 IP 段的更换,如果客户的原站设置了防火墙,可能出现 5xx 的回源超时