OSS 可用性诊断排查

尊敬的客户,

您好,阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。目前发现您阿里云账号下的 Bucket 出现可用性(5xx)降低的潜在风险,建议您按照如下思路检查:

  • 1、如果发现客户端侧出现 504/502/503 的场景,可以尝试 ping 延迟是否稳定、MTR 链路是否存在间接性丢包、telnet 服务端 80/443 端口是否正常通信。如果发现网络异常,需要先排除掉客户端的网络链路异常后再向下分析。
  • 2、如果发现客户端侧出现 500 的场景并且复现频率较高,可以先通过 try catch 机制捕获到异常后合理进行重试,记录下异常的 requestID 尽快反馈到阿里云售后进行分析。
  • 3、如果是 ECS 通过公网访问 OSS 出现了 5xx ,检查您的 ECS 是否有公网带宽超过限制、网卡持续跑满的情况。带宽超限后应及时扩容 ECS 带宽,避免带来业务影响。
  • 4、检查 ECS 主机的网络连接数、文件描述符的数量是否出现瓶颈,可能导致 SocketTimeOut 的问题出现。根据主机的负载情况、实例规格,合理的设置并发数量,优化业务代码。
  • 5、检查客户业务代码中初始化配置的, MaxConnections、SocketTimeout、ConnectionTimeout 参数是否合理,弱网情况下应该适当放大。
  • 6、检查客户是否配置过 OSS 镜像回源功能,保证镜像回源的站点可以正常通信,尽量不要对 OSS 回源 IP 设置防火墙策略, OSS 镜像回源采用的是公网 IP 回源,定期会进行 IP 或者 IP 段的更换,如果客户的原站设置了防火墙,可能出现 5xx 的回源超时
上一篇:云服务器 mac 地址是什么


下一篇:MariaDB · 版本特性 · MariaDB 的 GTID 介绍