1. Pod挂载、卸载失败,日志中报Orphaned pod;
该问题为kubelet删除pod的bug,相关解决方法:链接
2. 卸载失败:
2.1. 云盘umount失败,有残留挂载点
【发生场景】:
创建集群时,worker节点挂载了数据盘作为docker、kubelet的存储盘;
在节点上:/var/lib/docker, /var/lib/kubelet挂载到/dev/vdb1上;
【现象】:
云盘无法从节点自动卸载,登陆节点发现,类似如下挂载点没有umount成功:
/dev/vdc on /var/lib/kubelet/plugins/kubernetes.io/flexvolume/alicloud/disk/mounts/d-2zefwuq9sv0gkxqrll5t type ext4 (rw,relatime,data=ordered)
/dev/vdc on /var/lib/container/kubelet/plugins/kubernetes.io/flexvolume/alicloud/disk/mounts/d-2zefwuq9sv0gkxqrll5t type ext4 (rw,relatime,data=ordered)
【解决办法】:
升级flexvolume到最新版本;
如果还有云盘仍然没有卸载,需要手动到节点上umount,然后到控制台卸载;
3. 挂载失败
3.1. 挂载出现timeout错误
如果节点为手动添加,可能是由于sts权限的问题导致,需要手动配置RAM权限:https://help.aliyun.com/document_detail/61175.html
3.2. 出现云盘 Size错误;
创建云盘对Size有如下要求,请检查;
普通云盘:最小5Gi;
高效云盘:最小20Gi;
SSD云盘:最小20Gi;
3.3. 出现zone错误;
ecs挂载云盘时,必须在同一个region下面的相同zone内,否则不能挂载成功;
3.4. 升级系统后,云盘有时报错:input/output error
1). 升级flexvolume到最新版本;:
2). 对于已经出问题的Pod,需要重建;
Flexvolume版本信息:https://yq.aliyun.com/articles/596314
3.5. 云盘pvname与diskid不同时报错
按照使用文档,需要把pvname配置与diskid相同,若您创建的云盘pv配置的名字与diskid不同时,参考以下步骤做到兼容:
1. pvname与diskid不同时,查看使用此pv的pod,并找到pod所在的节点;
2. 在对应的节点上创建目录:mkdir -p /etc/kubernetes/volumes/disk/remove,并创建以下文件:/etc/kubernetes/volumes/disk/pvnanme.conf,内容为diskid;
升级flexvolume到最新版本;