现象:线上发现从节点服务的容器状态在凌晨1点从running变成aggined不可用
容器状态:task
NEW 初始化状态
PENDING 资源分配了任务时的状态
ASSIGNED task被分配到节点后的状态
ACCEPTED task被worker节点接受后的状态。
PREPARING Docker正在准备task
STARTING Docker启动task
RUNNING 正在运行中的状态
COMPLETE task已经存在,并且没有错误码
FAILED task已经存在,但是有错误码出现
SHUTDOWN Docker被请求关闭task
REJECTED worker节点拒绝接受task
ORPHANED 节点离线时间超长
解决:重启异常服务,状态不更改还是aggined,
检查磁盘、inode是否已满,
df -h
df -i
docker服务状态
systemctl status docker
swarm集群状态
docker node ls
重新加入从节点到集群:
master:
master驱离从节点
docker node ls
设置从节点不可调度
docker node update --availability drain yt1m4w3suuroh621hcd7rmz
删除从节点
docker node rm yt1m4w3suuroh621hcd7rmz
查看token
docker swarm join-token worker
查看集群信息
docker node ls
node:
停止docker服务
systemctl stop docker
删除swarm集群信息
rm -rf /var/lib/docker/swarm
启动docker服务
systemctl start docker
查看集群状态
docker node ls
加入到集群(复制上面查询到的token)
docker swarm join --token SWMTK-1-0hkycqn3qwxtime5t6ozkspzjy014gbc2g0xrnpftbjporp7vf-d24abxalc8253fhfampo1e 172.16.2.82:2377
master:
查看集群状态
docker node ls
portainer图形化管理:
重启从节点上的服务
服务启动正常
master的docke突然挂掉了
查看docker状态
systemctl status docker
百度没多少准确信息
执行dokcerd,docker服务启动,swarm服务正常