作者:豫仁
RDS常见问题总结主要分为两个方面的原因:用户侧配置问题、外部原因。
问题概述
1、 用户侧问题
1.1 用户自身配置问题可能有多方面配置原因导致,在此列举下常见的一些配置问题
1.1.1 白名单设置问题
RDS是有白名单访问保护的,不论用户内网访问还是外网访问都需要先添加要访问的IP到目标实例的白名单中,当前一个RDS实例最多可设置50个白名单分组和1000个IP,具体信息请参考[RDS设置白名单]https://help.aliyun.com/document_detail/43186.html?spm=5176.11065259.1996646101.searchclickresult.fa963e27pEtxtT)。
在高安全访问模式下的报错提示为:
在标准访问模式下的报错提示为:
1.1.2 用户自建DNS异常
RDS的访问不是直接以IP的形式进行访问,都是提供一个访问连接地址加端口号的形式进行访问,因此中间涉及到访问连接地址到IP的域名解析过程,通常情况下用户都会使用RDS自身提供的DNS解析服务,但是也存在个别用户出于各自运维管理的需要而自建DNS服务进行域名解析的情况。RDS提供域名给用户访问就是为了方便用户使用,在遇到如HA切换、实例迁移等情况,用户的访问方式可以保持不变,其机制就是后台在实例切换的过程中虽然IP发生变化,但是通过域名解析映射,保证了用户的访问方式不发生变化。因此通常情况下建议用户访问RDS实例使用RDS提供的连接地址进行访问,自建DNS服务是无法确定切换后实例的IP。
1.1.3 用户自身Mysql命令环境变量配置有误或/etc/my.cnf下指定连接信息不正确
用户在mysql客户端访问RDS实例的时候,一般常见需要如下几个参数:-u 用户名 –p 密码(可非显示输入) -h 实例地址 –P 端口(默认3306)等,mysql客户端在进行登录的时候对于没有明确设置的参数通过读取配置文件(通常情况下为) /etc/my.cnf进行设置,举一个常见的例子,用户在my.cnf配置文件里设置了默认端口为3307,可用户要连接的实例的端口为3306,用户在mysql登录的时候没有设置-P参数,因此出现连接错误:
指定正确端口即可访问:
1.1.4 Iptables防火墙配置
RDS白名单是属于RDS侧的访问控制,防火墙是属于用户侧的访问控制,如果用户是使用ECS进行访问,还需要首先在ECS上设置相应的安全组,本文暂以用户用Linux访问RDS进行说明,如用户开启了Iptables,可通过iptables –L进行访问策略查看,Iptables可通过IP、协议、端口三个维度进行访问限制,因此用户需要在Iptables中设置相应的策略,用户也可选择关闭Iptables,可通过service iptables stop进行关闭。
1.1.5 用户本地DNS缓存或者绑定Host
用户DNS缓存问题或者hosts文件中配置中问题,和上述第二个原因很类似,都属于域名解析类问题,Linux下清除域名缓存可通过service nscd restart的方式,/etc/hosts文件主要是用户在文件中将连接地址和IP进行绑定,因此在实例进行切换时导致访问失败,通常不建议用户这么做,建议还是以RDS提供的连接地址的形式进行访问。
1.2 用户应用代码配置问题
1.2.1 代码中连接信息配置不对
遇到比较多的情况是用户的代码中连接地址配置错误、账户信息配置错误,或者上述提到比较多的,在代码中是以IP进行访问等,这种情况下,一般建议用户先通过mysql客户端的形式进行RDS登录,如能正常登录,建议用户检查下自己代码中关于连接部分的设置。
1.2.2 代码中连接参数设置不合理
用户代码中不合理的连接设置,导致大部分连接没有及时关闭,进而消耗RDS资源,最终引发连接数打满的情况。建议用户调整应用代码中关于连接部分的设置。
1.3 用户ECS侧问题
通常阿里云的用户都会通过ECS进行RDS访问,可能会因为争抢、OOM等原因导致RDS访问失败,也会存在源端因CPU打满、网卡打满(这里不局限于ECS)等情况产生的网络丢包现象而引起的连接闪断现象。
1.4 用户业务引起的RDS连接报错
1.4.1 慢查询引起CPU使用率增高导致连接堆积
用户代码中存在性能较差的SQL导致RDS出现慢大量SQL,CPU打满,引发连接堆积RDS无法响应的现象,通常建议用户通过CloudDBA中的诊断慢SQL功能对慢SQL进行诊断并调整优化。
1.4.2 当前实例规格不满足业务增长
用户的业务正常增长,但是当前实例规格无法满足业务的合理增长,RDS是可以在线升级配置的, 因此建议用户升级配置,升配过程中可能会有一次30s左右的闪断,建议用户做好连接重连机制,保证用户业务的正常运行,具体信息请参考:RDS使用须知。
1.5 用户RDS使用问题
1.5.1 RDS相关连接参数设置不合理
用户存在相关参数设置不合理的情况,例如用户有session在执行长时间的read或者write操作时,net_read_timeout和net_write_timeout设置过低导致连接中断。建议用户结合业务和SQL实际运行情况调整RDS参数值。
1.5.2 实例被锁定
用户RDS实例因为磁盘空间超出购买规格限制而被锁定,在实例锁定期间,应用无法对RDS数据库进行读写操作。建议用户提前设置好RDS磁盘空间监控,在达到空间监控阀值进行预警,具体处理办法请参考: MySQL实例空间使用率过高的原因和解决方法
2、 外部原因
2.1 阿里云与其他云厂商服务器之间的互访
用户的RDS实例在阿里云上,但是应用端在其他云厂商如AWS或IDC机房里,目前出现过阿里云RDS在与AWS网络互访出现问题导致RDS访问报错的情况,或者用户应用端在IDC机房,走公网访问RDS,由于公网网络质量原因导致的RDS访问丢包现象。
2.2 用户在阿里云内的跨区访问中发生的网络不稳定
用户ECS实例与RDS实例均在阿里云上,但是RDS实例与ECS不在同一个Region中,非同一个Region相互间访问需要走公网,因此也存在因公网网络质量原因导致的RDS访问丢包现象。建议用户在架构上合理搭配,尽量ECS和RDS在同一可用区,避免跨可用区甚至跨地域的情况发生。
以上是常见的RDS连接出错可能产生的原因,并不是产生报错的全部原因。但是大部分的连接问题都可以在上面的可能原因中找到对应情况。在诊断RDS连接报错时,通常可通过如下几个步骤进行排查:
1、ping URL 验证DNS服务是否正常
2、telnet URL port 再次验证DNS服务,同时看端口能否通,(在高安全访问模式下,telnet能通不代表RDS一定能正常服务)
3、telnet vip port 验证4层服务是否OK
4、mysql –u –h –p –P 查下7层是否能联通,(需要用户使用官方的mysql客户端)
5、如果上面都没有问题,建议用户在源端进行抓包,分析下网络包看下是否建连成功