Kubernetes全栈架构师（Kubeadm高可用安装k8s集群）--学习笔记

2022-02-21 20:39:30

Etcd Cluster：键值数据库，存放k8s的数据，比如我们创建的资源，所做的变更
Master：控制节点，控制整个集群
Node：主要用来跑pod和容器
Kube-APIServer：它是整个k8s的控制大脑，所有的流量都会经过APIServer
ControllerManager：集群的控制器
Scheduler：集群的调度器，控制pod调度到哪一个node节点
Load Balancer：负载均衡，一般使用nginx + keepalived，或者keepalived + haproxy，如果有硬件资源如f5，就不需要Load Balancer，通过虚拟IP连接

Kubeadm基本环境配置

Kubeadm 是官方推荐的安装方式，但是生产环境推荐使用二进制的方式安装

Kubeadm 证书的有效期是一年，因为官方建议运行一年的过程中必须要升级一次

高可用Kubernetes集群规划

主机名	IP地址	说明
k8s-master01 ~ 03	192.168.232.128 ~ 130	master节点 * 3
k8s-master-lb	192.168.232.236	keepalived虚拟IP
k8s-node01 ~ 02	192.168.232.131 ~ 132	worker节点 * 2

配置信息	备注
Pod网段	172.168.0.0/12
Service网段	10.96.0.0/12

VIP（虚拟IP）不要和公司内网IP重复，首先去ping一下，不通才可用。VIP需要和主机在同一个局域网内

[root@localhost ~]# ping 192.168.232.236

PING 192.168.232.236 (192.168.232.236) 56(84) bytes of data.

From 192.168.232.128 icmp_seq=1 Destination Host Unreachable

From 192.168.232.128 icmp_seq=2 Destination Host Unreachable

From 192.168.232.128 icmp_seq=3 Destination Host Unreachable

公有云上搭建VIP是公有云的负载均衡的IP，比如阿里云的内网SLB的地址，腾讯云内网ELB的地址

基本环境配置

环境搭建
静态ip设置
节点配置

环境搭建

不要使用带中文的服务器和克隆的虚拟机

安装虚拟机：https://www.cnblogs.com/mr-xiong/p/12468280.html

下载centos-7镜像：https://zhuanlan.zhihu.com/p/104118123

三台master节点，两台node节点，每台虚拟机分配2核2G，存储使用20G硬盘

安装完成后启动并通过Xshell 7连接五台虚拟机

Xshell 7下载地址：https://downloadly.net/2020/15/4832/03/xmanager/01/?#/4832-netsaran-122140071106.html

使用Xshell 7可以同时发送命令到所有会话，菜单栏--工具--发送键输入到所有会话

通过 VMware 菜单栏编辑，虚拟网络编辑器查看子网地址，192.168.232.0

静态ip设置

打开目录

cd /etc/sysconfig/network-scripts

修改文件 ifcfg-ens33

#修改BOOTPROTO为static

#BOOTPROTO=dhcp

BOOTPROTO=static

#修改ONBOOT为yes

ONBOOT=yes

IPADDR=192.168.232.128

GATEWAY=192.168.232.2

NETMASK=255.255.255.0

DNS1=114.114.114.114

DNS2=8.8.8.8

重启网络服务

service network restart

查看当前IP地址

ip a

根据集群规划分别设置五台虚拟机静态ip，设置完成后使用 Xshell 7 连接到五台虚拟机

Xshell 7 切换tab快捷键：ctrl + tab

节点配置

所有节点配置hosts，修改/etc/hosts如下：

vim /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.232.128 k8s-master01

192.168.232.129 k8s-master02

192.168.232.130 k8s-master03

192.168.232.236 k8s-master-lb # 如果不是高可用集群，该IP为Master01的IP

192.168.232.131 k8s-node01

192.168.232.132 k8s-node02

CentOS 7安装yum源如下：

curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo

yum install -y yum-utils device-mapper-persistent-data lvm2

yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo

cat <<EOF > /etc/yum.repos.d/kubernetes.repo

[kubernetes]

name=Kubernetes

baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/

enabled=1

gpgcheck=1

repo_gpgcheck=1

gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg

EOF

sed -i -e '/mirrors.cloud.aliyuncs.com/d' -e '/mirrors.aliyuncs.com/d' /etc/yum.repos.d/CentOS-Base.repo

必备工具安装

yum install wget jq psmisc vim net-tools telnet yum-utils device-mapper-persistent-data lvm2 git -y

所有节点关闭防火墙、selinux、dnsmasq、swap。服务器配置如下：

systemctl disable --now firewalld

systemctl disable --now dnsmasq

systemctl disable --now NetworkManager

setenforce 0

sed -i 's#SELINUX=enforcing#SELINUX=disabled#g' /etc/sysconfig/selinux

sed -i 's#SELINUX=enforcing#SELINUX=disabled#g' /etc/selinux/config

查看config文件，SELINUX被设为disabled

[root@localhost ~]# cat /etc/selinux/config 

# This file controls the state of SELinux on the system.

# SELINUX= can take one of these three values:

#     enforcing - SELinux security policy is enforced.

#     permissive - SELinux prints warnings instead of enforcing.

#     disabled - No SELinux policy is loaded.

SELINUX=disabled

# SELINUXTYPE= can take one of three values:

#     targeted - Targeted processes are protected,

#     minimum - Modification of targeted policy. Only selected processes are protected.

#     mls - Multi Level Security protection.

SELINUXTYPE=targeted

关闭swap分区

swapoff -a && sysctl -w vm.swappiness=0

注释后重启服务器，swap分区就不会再打开

sed -ri '/^[^#]*swap/s@^@#@' /etc/fstab

安装ntpdate，保证五台服务器时间一致，云服务器不需要

rpm -ivh http://mirrors.wlnmp.com/centos/wlnmp-release-centos.noarch.rpm

yum install ntpdate -y

所有节点同步时间。时间同步配置如下：

ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

echo 'Asia/Shanghai' >/etc/timezone

ntpdate time2.aliyun.com

# 查看一下时间

date

# 加入到crontab

crontab -e

*/5 * * * * /usr/sbin/ntpdate time2.aliyun.com

所有节点配置limit：

ulimit -SHn 65535

设置limit永久生效

vim /etc/security/limits.conf

# 末尾添加如下内容

* soft nofile 655360

* hard nofile 131072

* soft nproc 655350

* hard nproc 655350

* soft memlock unlimited

* hard memlock unlimited

取消发送键输入到所有会话

Master01节点免密钥登录其他节点，安装过程中生成配置文件和证书均在Master01上操作，集群管理也在Master01上操作，阿里云或者AWS上需要单独一台kubectl服务器。密钥配置如下：

ssh-keygen -t rsa

# 把文件传送到五个节点

for i in k8s-master01 k8s-master02 k8s-master03 k8s-node01 k8s-node02;do ssh-copy-id -i .ssh/id_rsa.pub $i;done

下载安装所有的源码文件：

cd /root/ ; git clone https://github.com/dotbalo/k8s-ha-install.git

无法下载的可以通过本地拉取压缩再上传到服务器

yum安装zip

yum install -y unzip zip

解压文件

unzip k8s-ha-install.zip

所有节点（发送键输入到所有会话）升级系统并重启，此处升级没有升级内核，下节会单独升级内核：

yum update -y --exclude=kernel* && reboot #CentOS7需要升级，CentOS8可以按需升级系统

推荐centos7，因为CentOS8在2021年停止维护，而centos7到2024年才停止维护

重启完成之后，查看版本（CentOS Linux release 7.9.2009 (Core)）

cat /etc/redhat-release

Kubeadm系统及内核升级

查看内核版本

uname -a

内核3.10版本使用docker会有一些bug，需要升级

CentOS7 需要升级内核至4.18+，本地升级的版本为4.19

在master01节点（取消发送键输入到所有会话）下载内核：

cd /root

wget http://193.49.22.109/elrepo/kernel/el7/x86_64/RPMS/kernel-ml-devel-4.19.12-1.el7.elrepo.x86_64.rpm

wget http://193.49.22.109/elrepo/kernel/el7/x86_64/RPMS/kernel-ml-4.19.12-1.el7.elrepo.x86_64.rpm

从master01节点传到其他节点：

for i in k8s-master02 k8s-master03 k8s-node01 k8s-node02;do scp kernel-ml-4.19.12-1.el7.elrepo.x86_64.rpm kernel-ml-devel-4.19.12-1.el7.elrepo.x86_64.rpm $i:/root/ ; done

所有节点（发送键输入到所有会话）安装内核

cd /root && yum localinstall -y kernel-ml*

所有节点更改内核启动顺序，因为默认是3.10的

grub2-set-default  0 && grub2-mkconfig -o /etc/grub2.cfg

grubby --args="user_namespace.enable=1" --update-kernel="$(grubby --default-kernel)"

检查默认内核是不是4.19

grubby --default-kernel

所有节点重启，然后检查内核是不是4.19

reboot

uname -a

所有节点安装ipvsadm：

yum install ipvsadm ipset sysstat conntrack libseccomp -y

所有节点配置ipvs模块，在内核4.19+版本nf_conntrack_ipv4已经改为nf_conntrack， 4.18以下使用nf_conntrack_ipv4即可：

vim /etc/modules-load.d/ipvs.conf

# 加入以下内容

ip_vs

ip_vs_lc

ip_vs_wlc

ip_vs_rr

ip_vs_wrr

ip_vs_lblc

ip_vs_lblcr

ip_vs_dh

ip_vs_sh

ip_vs_fo

ip_vs_nq

ip_vs_sed

ip_vs_ftp

ip_vs_sh

nf_conntrack

ip_tables

ip_set

xt_set

ipt_set

ipt_rpfilter

ipt_REJECT

ipip

加载配置

systemctl enable --now systemd-modules-load.service

开启一些k8s集群中必须的内核参数，所有节点配置k8s内核：

cat <<EOF > /etc/sysctl.d/k8s.conf

net.ipv4.ip_forward = 1

net.bridge.bridge-nf-call-iptables = 1

net.bridge.bridge-nf-call-ip6tables = 1

fs.may_detach_mounts = 1

vm.overcommit_memory=1

vm.panic_on_oom=0

fs.inotify.max_user_watches=89100

fs.file-max=52706963

fs.nr_open=52706963

net.netfilter.nf_conntrack_max=2310720

net.ipv4.tcp_keepalive_time = 600

net.ipv4.tcp_keepalive_probes = 3

net.ipv4.tcp_keepalive_intvl =15

net.ipv4.tcp_max_tw_buckets = 36000

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_max_orphans = 327680

net.ipv4.tcp_orphan_retries = 3

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_max_syn_backlog = 16384

net.ipv4.ip_conntrack_max = 65536

net.ipv4.tcp_max_syn_backlog = 16384

net.ipv4.tcp_timestamps = 0

net.core.somaxconn = 16384

EOF

sysctl --system

所有节点配置完内核后，重启服务器，保证重启后内核依旧加载

reboot

检查是否加载

lsmod | grep --color=auto -e ip_vs -e nf_conntrack

Kubeadm基本组件安装

所有节点安装Docker-ce 19.03，不需要太新，这是官方已经经过验证的版本

yum install docker-ce-19.03.* docker-cli-19.03.* -y

由于新版kubelet建议使用systemd，所以可以把docker的CgroupDriver改成systemd

mkdir /etc/docker

cat > /etc/docker/daemon.json <<EOF

{

  "exec-opts": ["native.cgroupdriver=systemd"]

}

EOF

所有节点设置开机自启动Docker：

systemctl daemon-reload && systemctl enable --now docker

查看docker版本（Server Version: 19.03.15，Cgroup Driver: systemd）

docker info

查看k8s最新版本（取消发送键输入到所有会话）：

yum list kubeadm.x86_64 --showduplicates | sort -r

最新版本是1.21.2-0，但是推荐小版本大于5才使用，所以安装1.20版本

所有节点（发送键输入到所有会话）安装最新版本kubeadm：

yum install kubeadm-1.20* kubelet-1.20* kubectl-1.20* -y

默认配置的pause镜像使用gcr.io仓库，国内可能无法访问，所以这里配置Kubelet使用阿里云的pause镜像：

cat >/etc/sysconfig/kubelet<<EOF

KUBELET_EXTRA_ARGS="--cgroup-driver=systemd --pod-infra-container-image=registry.cn-hangzhou.aliyuncs.com/google_containers/pause-amd64:3.2"

EOF

设置Kubelet开机自启动：

systemctl daemon-reload

systemctl enable --now kubelet

Kubeadm高可用组件安装

如果不是高可用集群，haproxy和keepalived无需安装

公有云要用公有云自带的负载均衡，比如阿里云的SLB，腾讯云的ELB，用来替代haproxy和keepalived，因为公有云大部分都是不支持keepalived的

如果用阿里云的话，kubectl控制端不能放在master节点，因为阿里云的slb有回环的问题，也就是slb代理的服务器不能反向访问SLB，推荐使用腾讯云，腾讯云修复了这个问题。

所有Master节点（node节点取消发送键输入到所有会话）通过yum安装HAProxy和KeepAlived：

yum install keepalived haproxy -y

所有Master节点配置HAProxy（详细配置参考HAProxy文档，所有Master节点的HAProxy配置相同）：

vim /etc/haproxy/haproxy.cfg

删除所有内容

ggdG

添加以下内容，注意首行global是否复制完整

global

  maxconn  2000

  ulimit-n  16384

  log  127.0.0.1 local0 err

  stats timeout 30s

defaults

  log global

  mode  http

  option  httplog

  timeout connect 5000

  timeout client  50000

  timeout server  50000

  timeout http-request 15s

  timeout http-keep-alive 15s

frontend monitor-in

  bind *:33305

  mode http

  option httplog

  monitor-uri /monitor

frontend k8s-master

  bind 0.0.0.0:16443

  bind 127.0.0.1:16443

  mode tcp

  option tcplog

  tcp-request inspect-delay 5s

  default_backend k8s-master

backend k8s-master

  mode tcp

  option tcplog

  option tcp-check

  balance roundrobin

  default-server inter 10s downinter 5s rise 2 fall 2 slowstart 60s maxconn 250 maxqueue 256 weight 100

  server k8s-master01	192.168.232.128:6443  check

  server k8s-master02	192.168.232.129:6443  check

  server k8s-master03	192.168.232.130:6443  check

所有Master节点配置KeepAlived，配置不一样，注意每个节点的IP和网卡（interface参数）

查看网卡名称（ens33）

ip a

如果网卡名称不是ens33，不要把配置文件中的网卡配置替换

Master01节点的配置：

mkdir /etc/keepalived

vim /etc/keepalived/keepalived.conf

删除所有内容

ggdG

取消发送键输入到所有会话

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived

global_defs {

    router_id LVS_DEVEL

script_user root

    enable_script_security

}

vrrp_script chk_apiserver {

    script "/etc/keepalived/check_apiserver.sh"

    interval 5

    weight -5

    fall 2

rise 1

}

vrrp_instance VI_1 {

    state MASTER

    interface ens33

    mcast_src_ip 192.168.232.128

    virtual_router_id 51

    priority 101

    advert_int 2

    authentication {

        auth_type PASS

        auth_pass K8SHA_KA_AUTH

    }

    virtual_ipaddress {

        192.168.232.236

    }

    track_script {

       chk_apiserver

    }

}

Master02节点的配置：

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived

global_defs {

    router_id LVS_DEVEL

script_user root

    enable_script_security

}

vrrp_script chk_apiserver {

    script "/etc/keepalived/check_apiserver.sh"

   interval 5

    weight -5

    fall 2

rise 1

}

vrrp_instance VI_1 {

    state BACKUP

    interface ens33

    mcast_src_ip 192.168.232.129

    virtual_router_id 51

    priority 100

    advert_int 2

    authentication {

        auth_type PASS

        auth_pass K8SHA_KA_AUTH

    }

    virtual_ipaddress {

        192.168.232.236

    }

    track_script {

       chk_apiserver

    }

}

Master03节点的配置：

添加以下内容，注意首行是否复制完整

! Configuration File for keepalived

global_defs {

    router_id LVS_DEVEL

script_user root

    enable_script_security

}

vrrp_script chk_apiserver {

    script "/etc/keepalived/check_apiserver.sh"

 interval 5

    weight -5

    fall 2

rise 1

}

vrrp_instance VI_1 {

    state BACKUP

    interface ens33

    mcast_src_ip 192.168.232.130

    virtual_router_id 51

    priority 100

    advert_int 2

    authentication {

        auth_type PASS

        auth_pass K8SHA_KA_AUTH

    }

    virtual_ipaddress {

        192.168.232.236

    }

    track_script {

       chk_apiserver

    }

}

所有master节点（发送键输入到所有会话，取消node节点）配置KeepAlived健康检查文件：

vim /etc/keepalived/check_apiserver.sh

添加以下内容，注意首行是否复制完整

#!/bin/bash

err=0

for k in $(seq 1 3)

do

    check_code=$(pgrep haproxy)

    if [[ $check_code == "" ]]; then

        err=$(expr $err + 1)

        sleep 1

        continue

    else

        err=0

        break

    fi

done

if [[ $err != "0" ]]; then

    echo "systemctl stop keepalived"

    /usr/bin/systemctl stop keepalived

    exit 1

else

    exit 0

fi

我们通过KeepAlived虚拟出来一个VIP，VIP会配置到一个master节点上面，它会通过haproxy暴露的16443的端口反向代理到我们的三个master节点上面，所以我们可以通过VIP的地址加上16443访问到我们的API server

健康检查会检查haproxy的状态，三次失败就会将KeepAlived停掉，停掉之后KeepAlived会跳到其他的节点

添加权限

chmod +x /etc/keepalived/check_apiserver.sh

启动haproxy

systemctl daemon-reload

systemctl enable --now haproxy

查看端口（16443）

netstat -lntp

启动keepalived

systemctl enable --now keepalived

查看系统日志（Sending gratuitous ARP on ens33 for 192.168.232.236）

tail -f /var/log/messages

cat /var/log/messages | grep 'ens33' -5

查看ip

ip a

可以看到192.168.232.236绑定到了master01，其他两个节点是没有的

测试VIP

ping 192.168.232.236 -c 4

telnet 192.168.232.236 16443

如果ping不通且telnet没有出现 ] ，则认为VIP不可以，不可在继续往下执行，需要排查keepalived的问题

比如防火墙和selinux，haproxy和keepalived的状态，监听端口等
所有节点查看防火墙状态必须为disable和inactive：systemctl status firewalld
所有节点查看selinux状态，必须为disable：getenforce
master节点查看haproxy和keepalived状态：systemctl status keepalived haproxy
master节点查看监听端口：netstat -lntp

Kubeadm集群初始化

官方初始化文档：https://kubernetes.io/docs/setup/production-environment/tools/kubeadm/high-availability/

在生产环境中有些配置需要修改，因为使用默认的配置可能会导致网段冲突，所以我们使用配置文件的形式初始化

发送键输入到所有会话

Master01节点创建 kubeadm-config.yaml 配置文件如下：

vim kubeadm-config.yaml

Master01：（# 注意，如果不是高可用集群，192.168.232.236:16443改为master01的地址，16443改为apiserver的端口，默认是6443，注意更改v1.18.5自己服务器kubeadm的版本：kubeadm version）

以下文件内容，宿主机网段、podSubnet网段、serviceSubnet网段不能重复，具体看前面的高可用Kubernetes集群规划

apiVersion: kubeadm.k8s.io/v1beta2

bootstrapTokens:

- groups:

  - system:bootstrappers:kubeadm:default-node-token

  token: 7t2weq.bjbawausm0jaxury

  ttl: 24h0m0s

  usages:

  - signing

  - authentication

kind: InitConfiguration

localAPIEndpoint:

  advertiseAddress: 192.168.232.128

  bindPort: 6443

nodeRegistration:

  criSocket: /var/run/dockershim.sock

  name: k8s-master01

  taints:

  - effect: NoSchedule

    key: node-role.kubernetes.io/master

---

apiServer:

  certSANs:

  - 192.168.232.236

  timeoutForControlPlane: 4m0s

apiVersion: kubeadm.k8s.io/v1beta2

certificatesDir: /etc/kubernetes/pki

clusterName: kubernetes

controlPlaneEndpoint: 192.168.232.236:16443

controllerManager: {}

dns:

  type: CoreDNS

etcd:

  local:

    dataDir: /var/lib/etcd

imageRepository: registry.cn-hangzhou.aliyuncs.com/google_containers

kind: ClusterConfiguration

kubernetesVersion: v1.20.0

networking:

  dnsDomain: cluster.local

  podSubnet: 172.168.0.0/12

  serviceSubnet: 10.96.0.0/12

scheduler: {}

更新kubeadm文件

kubeadm config migrate --old-config kubeadm-config.yaml --new-config new.yaml

查看kubeadm版本（GitVersion:"v1.20.8"）

kubeadm version

将配置文件中的 kubernetesVersion: v1.20.0 改为一致的 kubernetesVersion: v1.20.8

node节点取消发送键输入到所有会话

将new.yaml文件复制到其他master节点，之后所有Master节点提前下载镜像，可以节省初始化时间：

kubeadm config images pull --config /root/new.yaml

因为配置了阿里云镜像（imageRepository: registry.cn-hangzhou.aliyuncs.com/google_containers），所以下载速度比默认使用的gcr镜像快，国内访问不了gcr镜像

因为配置了token过期时间（ttl: 24h0m0s），所以可能出现今天生成token，明天加入不了集群的问题

同时master节点为我们配置了一个污点（taints），这个污点可以让我们的mater不部署容器

criSocket就是通过哪一个socket连接我们的docker，dockershim在k8s 1.20版本废弃，官方不维护，后期可能有人会维护，也可以改成其他cri的runtime

Master01节点（取消发送键输入到所有会话）初始化，初始化以后会在/etc/kubernetes目录下生成对应的证书和配置文件，之后其他Master节点加入Master01即可：

kubeadm init --config /root/new.yaml  --upload-certs

kubeadm 的配置管理是通过 pod 管理的，所有的组件都是通过容器启动的，通过 /etc/kubernetes/manifests 目录下面的 yaml 文件启动，这就是 kubelet 生命周期管理的目录，在这里面配置一个 pod 的 yaml 文件，它就会为你管理 pod 的生命周期

进入到该目录中

cd /etc/kubernetes/manifests

可以看到以下文件

etcd.yaml  kube-apiserver.yaml  kube-controller-manager.yaml  kube-scheduler.yaml

kubeadm 与二进制安装不一样的地方在于它的配置管理都在 yaml 文件中，可以编辑文件查看，二进制是一个单独的server文件，如果更改了配置，千万不要手动让它生效，kubelet 会自动帮我们加载配置，重启容器

如果初始化失败，重置后再次初始化，命令如下：

kubeadm reset -f ; ipvsadm --clear  ; rm -rf ~/.kube

初始化成功以后，会产生Token值，用于其他节点加入时使用，因此要记录下初始化成功生成的token值（令牌值）：

Your Kubernetes control-plane has initialized successfully!

To start using your cluster, you need to run the following as a regular user:

  mkdir -p $HOME/.kube

  sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

  sudo chown $(id -u):$(id -g) $HOME/.kube/config

Alternatively, if you are the root user, you can run:

  export KUBECONFIG=/etc/kubernetes/admin.conf

You should now deploy a pod network to the cluster.

Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:

  https://kubernetes.io/docs/concepts/cluster-administration/addons/

You can now join any number of the control-plane node running the following command on each as root:

  kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \

    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \

    --control-plane --certificate-key 7fc2e6005c32476d189b5b4763e2131404df187f7601b01d33370c7485ed2c53

Please note that the certificate-key gives access to cluster sensitive data, keep it secret!

As a safeguard, uploaded-certs will be deleted in two hours; If necessary, you can use

"kubeadm init phase upload-certs --upload-certs" to reload certs afterward.

Then you can join any number of worker nodes by running the following on each as root:

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \

    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8

Master01节点配置环境变量，用于访问Kubernetes集群：

cat <<EOF >> /root/.bashrc

export KUBECONFIG=/etc/kubernetes/admin.conf

EOF

source /root/.bashrc

管理集群的命令 kubectl 只需要在一个节点上面有就可以，这个节点可以是 k8s 节点，也可以不是，它就是通过 admin.conf 文件和 k8s 通讯的，文件中定义了一个变量 KUBECONFIG，指定了文件的地址，然后我们就可以操作我们的集群了

查看节点状态：

kubectl get nodes

可以看到它添加了一个规则 control-plane

NAME           STATUS     ROLES                  AGE     VERSION

k8s-master01   NotReady   control-plane,master   3m54s   v1.20.8

查看server:

kubectl get svc

可以看到以下的server

NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE

kubernetes   ClusterIP   10.96.0.1    <none>        443/TCP   5m32s

采用初始化安装方式，所有的系统组件均以容器的方式运行并且在kube-system命名空间内，生产环境建议创建一个namespaces

此时可以查看Pod状态：

kubectl get pods -n kube-system -o wide

可以看到以下的pod

NAME                                   READY   STATUS    RESTARTS   AGE     IP                NODE           NOMINATED NODE   READINESS GATES

coredns-54d67798b7-lrvm8               0/1     Pending   0          6m40s   <none>            <none>         <none>           <none>

coredns-54d67798b7-tkfrx               0/1     Pending   0          6m40s   <none>            <none>         <none>           <none>

etcd-k8s-master01                      1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>

kube-apiserver-k8s-master01            1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>

kube-controller-manager-k8s-master01   1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>

kube-proxy-4gwlb                       1/1     Running   0          6m40s   192.168.232.128   k8s-master01   <none>           <none>

kube-scheduler-k8s-master01            1/1     Running   0          6m34s   192.168.232.128   k8s-master01   <none>           <none>

高可用Master及Token过期处理

注意：以下步骤是上述init命令产生的Token过期了才需要执行以下步骤，如果没有过期不需要执行

Token过期后生成新的token：

kubeadm token create --print-join-command

Master需要生成--certificate-key

kubeadm init phase upload-certs  --upload-certs

Token没有过期直接执行Join

初始化master02加入集群

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \

--discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \

--control-plane --certificate-key 7fc2e6005c32476d189b5b4763e2131404df187f7601b01d33370c7485ed2c53

在master01查看其他节点

kubectl get node

可以看到master02节点

NAME           STATUS     ROLES                  AGE   VERSION

k8s-master01   NotReady   control-plane,master   25m   v1.20.8

k8s-master02   NotReady   control-plane,master   91s   v1.20.8

尝试重新生成token

kubeadm token create --print-join-command

kubeadm init phase upload-certs  --upload-certs

替换参数，初始化master03加入集群

kubeadm join 192.168.232.236:16443 --token rff9me.bhgzm7d3j2uoq5fv     --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8 \

--control-plane --certificate-key d3fb9602f75f4f879d4eea083129bd110734824ef8721c956be95ae481022992

可以在master01查看新生成的token

kubectl get secret -n kube-system

这就是新生成的token

NAME                                             TYPE                                  DATA   AGE

bootstrap-token-rff9me                           bootstrap.kubernetes.io/token         6      3m31s

查看token内容：

kubectl get secret -n kube-system bootstrap-token-rff9me -oyaml

可以看到过期时间（这是通过base64加密的）：

expiration: MjAyMS0wNy0wOFQxNzo0MjoyMiswODowMA==

解密一下：

echo "MjAyMS0wNy0wOFQxNzo0MjoyMiswODowMA==" | base64 -d

可以看到解密后的时间

2021-07-08T22:42:22+08:00

Kubeadm Node及Calico节点配置

Kubeadm Node

Node节点上主要部署公司的一些业务应用，生产环境中不建议Master节点部署系统组件之外的其他Pod，测试环境可以允许Master节点部署Pod以节省系统资源。

初始化node01，node02加入集群（与master相比，不需要control-plane）

kubeadm join 192.168.232.236:16443 --token 7t2weq.bjbawausm0jaxury \

    --discovery-token-ca-cert-hash sha256:3b304187585d91d18d33d171592d4d37ec237d68af4837efebbb5c9ec86072d8

所有节点初始化完成后，查看集群状态

kubectl  get node

可以看到所有节点

NAME           STATUS     ROLES                  AGE     VERSION

k8s-master01   NotReady   control-plane,master   39m     v1.20.8

k8s-master02   NotReady   control-plane,master   16m     v1.20.8

k8s-master03   NotReady   control-plane,master   9m38s   v1.20.8

k8s-node01     NotReady   <none>                 22s     v1.20.8

k8s-node02     NotReady   <none>                 11s     v1.20.8

Calico节点配置

以下步骤只在master01执行

cd /root/k8s-ha-install && git checkout manual-installation-v1.20.x && cd calico/

如果是本地下载上传的话需要现在本地切换分支再上传

unzip k8s-ha-install.zip

cd k8s-ha-install/calico/

修改calico-etcd.yaml的以下位置：

修改etcd的节点

sed -i 's#etcd_endpoints: "http://<ETCD_IP>:<ETCD_PORT>"#etcd_endpoints: "https://192.168.232.128:2379,https://192.168.232.129:2379,https://192.168.232.130:2379"#g' calico-etcd.yaml

使用默认配置

ETCD_CA=`cat /etc/kubernetes/pki/etcd/ca.crt | base64 | tr -d '\n'`

ETCD_CERT=`cat /etc/kubernetes/pki/etcd/server.crt | base64 | tr -d '\n'`

ETCD_KEY=`cat /etc/kubernetes/pki/etcd/server.key | base64 | tr -d '\n'`

sed -i "s@# etcd-key: null@etcd-key: ${ETCD_KEY}@g; s@# etcd-cert: null@etcd-cert: ${ETCD_CERT}@g; s@# etcd-ca: null@etcd-ca: ${ETCD_CA}@g" calico-etcd.yaml

把 etcd_key 放到 secret 里面，secret 会挂载到 calico 容器的 pod 里面，挂载的名称就是 ETCD_CA，这样 calico 就能找到证书，就可以连接到 etcd，就可以把 pod 信息存储到 etcd 里面

sed -i 's#etcd_ca: ""#etcd_ca: "/calico-secrets/etcd-ca"#g; s#etcd_cert: ""#etcd_cert: "/calico-secrets/etcd-cert"#g; s#etcd_key: "" #etcd_key: "/calico-secrets/etcd-key" #g' calico-etcd.yaml

修改 pod 网段

POD_SUBNET=`cat /etc/kubernetes/manifests/kube-controller-manager.yaml | grep cluster-cidr= | awk -F= '{print $NF}'`

注意下面的这个步骤是把calico-etcd.yaml文件里面的CALICO_IPV4POOL_CIDR下的网段改成自己的Pod网段，也就是把192.168.x.x/16改成自己的集群网段，并打开注释，所以更改的时候请确保这个步骤的这个网段没有被统一替换掉，如果被替换掉了，还请改回来：

sed -i 's@# - name: CALICO_IPV4POOL_CIDR@- name: CALICO_IPV4POOL_CIDR@g; s@#   value: "192.168.0.0/16"@  value: '"${POD_SUBNET}"'@g' calico-etcd.yaml

检查文件：

vim calico-etcd.yaml

可以看到 etcd-key 已经导入进来，它就是把证书 /etc/kubernetes/pki/etcd/ca.crt 读取出来，再经过 base64 加密，再填到这个位置

安装 calico

kubectl apply -f calico-etcd.yaml

查看容器状态

kubectl  get po -n kube-system

成功运行

NAME                                       READY   STATUS    RESTARTS   AGE

calico-kube-controllers-5f6d4b864b-f2ssh   1/1     Running   0          2m54s

calico-node-78wg7                          1/1     Running   0          2m54s

calico-node-8hxxj                          1/1     Running   0          2m54s

calico-node-8t4c9                          1/1     Running   0          2m54s

calico-node-fgwdv                          1/1     Running   0          2m54s

calico-node-jzh8w                          1/1     Running   0          2m54s

目前用的是阿里云的镜像，生产环境需要推荐使用自己的镜像仓库，这样速度更快

Dashboard&Metrics Server安装

Metrics Server

在新版的Kubernetes中系统资源的采集均使用Metrics-server，可以通过Metrics采集节点和Pod的内存、磁盘、CPU和网络的使用率。

github 地址：https://github.com/kubernetes-sigs/metrics-server

查看yaml文件配置

cd metrics-server-0.4.x-kubeadm/

vim comp.yaml

添加了证书，不然可能导致获取不到度量指标

- --requestheader-client-ca-file=/etc/kubernetes/pki/front-proxy-ca.crt # change to front-proxy-ca.crt for kubeadm

镜像地址也修改为阿里云

image: registry.cn-beijing.aliyuncs.com/dotbalo/metrics-server:v0.4.1

将Master01节点的front-proxy-ca.crt复制到所有Node节点

scp /etc/kubernetes/pki/front-proxy-ca.crt k8s-node01:/etc/kubernetes/pki/front-proxy-ca.crt

scp /etc/kubernetes/pki/front-proxy-ca.crt k8s-node02:/etc/kubernetes/pki/front-proxy-ca.crt

安装metrics server

cd /root/k8s-ha-install/metrics-server-0.4.x-kubeadm/

kubectl  create -f comp.yaml

查看状态

kubectl  top node

显示CPU状态，内存使用量

NAME           CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%

k8s-master01   204m         10%    1114Mi          59%

k8s-master02   128m         6%     1133Mi          60%

k8s-master03   113m         5%     1056Mi          56%

k8s-node01     54m          2%     809Mi           43%

k8s-node02     71m          3%     834Mi           44%

Dashboard部署

Dashboard用于展示集群中的各类资源，同时也可以通过Dashboard实时查看Pod的日志和在容器中执行一些命令等。

github 地址：https://github.com/kubernetes/dashboard

安装指定版本dashboard

查看yaml文件配置

cd /root/k8s-ha-install/dashboard/

grep "image" dashboard.yaml

可以看到只修改了镜像地址

image: registry.cn-beijing.aliyuncs.com/dotbalo/dashboard:v2.0.4

imagePullPolicy: Always

image: registry.cn-beijing.aliyuncs.com/dotbalo/metrics-scraper:v1.0.4

注意：所有的镜像包括caclico, coredns, etcd等等都要放到自己公司内部的镜像仓库，这样发布、更新、故障恢复的速度更快

安装

kubectl  create -f .

安装最新版

如果需要访问最新版本可以访问官方github获取连接，但是没必要安装最新

kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.0.3/aio/deploy/recommended.yaml

创建管理员用户vim admin.yaml

apiVersion: v1

kind: ServiceAccount

metadata:

  name: admin-user

  namespace: kube-system

---

apiVersion: rbac.authorization.k8s.io/v1

kind: ClusterRoleBinding

metadata:

  name: admin-user

  annotations:

    rbac.authorization.kubernetes.io/autoupdate: "true"

roleRef:

  apiGroup: rbac.authorization.k8s.io

  kind: ClusterRole

  name: cluster-admin

subjects:

- kind: ServiceAccount

  name: admin-user

  namespace: kube-system

应用

kubectl apply -f admin.yaml -n kube-system

登录dashboard

在谷歌浏览器（Chrome）启动文件中加入启动参数，用于解决无法访问Dashboard的问题

--test-type --ignore-certificate-errors

右键--属性--快捷方式--目标

"C:\Program Files\Google\Chrome\Application\chrome.exe" --test-type --ignore-certificate-errors

更改dashboard的svc为NodePort：

kubectl edit svc kubernetes-dashboard -n kubernetes-dashboard

将ClusterIP更改为NodePort（如果已经为NodePort忽略此步骤）

查看端口号：

kubectl get svc kubernetes-dashboard -n kubernetes-dashboard

端口号为10.99.156.65

NAME                   TYPE       CLUSTER-IP     EXTERNAL-IP   PORT(S)         AGE

kubernetes-dashboard   NodePort   10.99.156.65   <none>        443:32272/TCP   9m58s

查看容器是否启动完成

kubectl get po -A

根据自己的实例端口号，通过任意安装了kube-proxy的宿主机或者VIP的IP+端口即可访问到dashboard：

访问Dashboard：https://192.168.232.236:32272（请更改32272为自己的端口），选择登录方式为令牌（即token方式）

也可以通过宿主机的ip访问：https://192.168.232.128:32272

查看端口占用

netstat -lntp

占用情况

Active Internet connections (only servers)

Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name

tcp        0      0 0.0.0.0:32272           0.0.0.0:*               LISTEN      31552/kube-proxy

可以看到 NodePort 所做的事情就是在宿主机上启动一个端口号 32272，这个端口号会对应到 dashboard，每一台服务器都会启动这个端口，都可以访问到 dashboard

https://192.168.232.129:32272

https://192.168.232.130:32272

https://192.168.232.131:32272

https://192.168.232.132:32272

查看token值：

kubectl -n kube-system describe secret $(kubectl -n kube-system get secret | grep admin-user | awk '{print $1}')

得到token值：

token:      eyJhbGciOiJSUzI1NiIsImtpZCI6IkxReUpVOGk4b0FrUUlLVDgyb1hTb0U1Uzg4cHZYRzBMRXJqOERHRDJMQ0EifQ.eyJpc3MiOiJrdWJlcm5ldGVzL3NlcnZpY2VhY2NvdW50Iiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9uYW1lc3BhY2UiOiJrdWJlLXN5c3RlbSIsImt1YmVybmV0ZXMuaW8vc2VydmljZWFjY291bnQvc2VjcmV0Lm5hbWUiOiJhZG1pbi11c2VyLXRva2VuLXJ2bW1oIiwia3ViZXJuZXRlcy5pby9zZXJ2aWNlYWNjb3VudC9zZXJ2aWNlLWFjY291bnQubmFtZSI6ImFkbWluLXVzZXIiLCJrdWJlcm5ldGVzLmlvL3NlcnZpY2VhY2NvdW50L3NlcnZpY2UtYWNjb3VudC51aWQiOiIxMDkwNTc5MS1mMmJmLTRlMmQtYjJiNy1hYTRlNjU5YTM1MjQiLCJzdWIiOiJzeXN0ZW06c2VydmljZWFjY291bnQ6a3ViZS1zeXN0ZW06YWRtaW4tdXNlciJ9.UEayfCEyeAx-wrguqqyZIKTr1O9OzFyksowng6J54BhdonBhF3JEcbJlykjRfP4DZzpniorWdwE6AhuE-VQ8xiyKcMEl8mnnovHM3T65v1DsD3KSdfFnbdFXLyEnA7zeS7-7oh7-fQkEHcPvEWJGO7OJq3aVVxxVqgvecuxkC0v43Bp3yVlZZ94bmRpy3VeEtAJ1KYgDH33oSOzBqRJ5GOWqCicepQFlwsrERu8slwa1yazu7upcR7mn2H-bXZxZY09HPG3gM0xypfULhdV8xd7ZI1wovm29na_PjcPB8w3b3tMbqF8ee5BKQdZGORZWYdAZhActT33rYqhZs_1ieg

将token值输入到令牌后，单击登录即可访问Dashboard

切换 namespace 到 kube-system

一些必须的配置更改

将Kube-proxy改为ipvs模式，因为在初始化集群的时候注释了ipvs配置，所以需要自行修改一下：

在master01节点执行

kubectl edit cm kube-proxy -n kube-system

搜索定位到mode

/mode 回车

修改为 ipvs

mode: “ipvs”

保存退出：shift + z + z

更新 Kube-Proxy 的 Pod：

kubectl patch daemonset kube-proxy -p "{\"spec\":{\"template\":{\"metadata\":{\"annotations\":{\"date\":\"`date +'%s'`\"}}}}}" -n kube-system

查看 pod 滚动更新

kubectl get po -n kube-system -owide

可以看到新起的是在 master03

NAME                                       READY   STATUS    RESTARTS   AGE     IP                NODE           NOMINATED NODE   READINESS GATES

kube-proxy-47pww                           1/1     Running   0          2m33s   192.168.232.129   k8s-master02   <none>           <none>

kube-proxy-4mlnm                           1/1     Running   0          2m21s   192.168.232.128   k8s-master01   <none>           <none>

kube-proxy-6h8mx                           1/1     Running   0          2m8s    192.168.232.132   k8s-node02     <none>           <none>

kube-proxy-6p7hg                           1/1     Running   0          2m12s   192.168.232.131   k8s-node01     <none>           <none>

kube-proxy-fzgws                           1/1     Running   0          118s    192.168.232.130   k8s-master03   <none>           <none>

在 master03 验证 Kube-Proxy 模式，接着可以在所有服务器验证一下

curl 127.0.0.1:10249/proxyMode

注意事项

kubeadm安装的集群，证书有效期默认是一年。master节点的kube-apiserver、kube-scheduler、kube-controller-manager、etcd都是以容器运行的。可以通过kubectl get po -n kube-system查看。

启动和二进制的区别：

kubelet的配置文件在/etc/sysconfig/kubelet和/var/lib/kubelet/config.yaml，修改后需要重启kubelet进程

其他组件的配置文件在/etc/kubernetes/manifests目录下，比如kube-apiserver.yaml，该yaml文件更改后，kubelet会自动刷新配置，也就是会重启pod。不能再次创建该文件

kube-proxy的配置在kube-system命名空间下的configmap中，可以通过

kubectl edit cm kube-proxy -n kube-system

进行更改，更改完成后，可以通过patch重启kube-proxy

kubectl patch daemonset kube-proxy -p "{\"spec\":{\"template\":{\"metadata\":{\"annotations\":{\"date\":\"`date +'%s'`\"}}}}}" -n kube-system

Kubeadm安装后，master节点默认不允许部署pod，会占用资源，在学习过程中可以通过以下方式打开：

查看Taints：

kubectl  describe node -l node-role.kubernetes.io/master=  | grep Taints

可以看到三个污点

Taints:             node-role.kubernetes.io/master:NoSchedule

Taints:             node-role.kubernetes.io/master:NoSchedule

Taints:             node-role.kubernetes.io/master:NoSchedule

删除Taint：

kubectl  taint node  -l node-role.kubernetes.io/master node-role.kubernetes.io/master:NoSchedule-

查看Taints：

kubectl  describe node -l node-role.kubernetes.io/master=  | grep Taints

可以看到三个污点

Taints:             <none>

Taints:             <none>

Taints:             <none>

课程链接（私信我领取专属福利）

http://www.kubeasy.com/

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

欢迎转载、使用、重新发布，但务必保留文章署名郑子铭（包含链接： http://www.cnblogs.com/MingsonZheng/ ），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。

码农公寓

Kubernetes全栈架构师（Kubeadm高可用安装k8s集群）--学习笔记

目录

k8s高可用架构解析

Kubeadm基本环境配置

高可用Kubernetes集群规划

基本环境配置

环境搭建

静态ip设置

节点配置

Kubeadm系统及内核升级

Kubeadm基本组件安装

Kubeadm高可用组件安装

Kubeadm集群初始化

高可用Master及Token过期处理

Kubeadm Node及Calico节点配置

Kubeadm Node

Calico节点配置

Dashboard&Metrics Server安装

Metrics Server

Dashboard部署

安装指定版本dashboard

安装最新版

登录dashboard

一些必须的配置更改

注意事项

启动和二进制的区别：

课程链接（私信我领取专属福利）

码农公寓

目录

k8s高可用架构解析

Kubeadm基本环境配置

高可用Kubernetes集群规划

基本环境配置

环境搭建

静态ip设置

节点配置

Kubeadm系统及内核升级

Kubeadm基本组件安装

Kubeadm高可用组件安装

Kubeadm集群初始化

高可用Master及Token过期处理

Kubeadm Node及Calico节点配置

Kubeadm Node

Calico节点配置

Dashboard&Metrics Server安装

Metrics Server

Dashboard部署

安装指定版本dashboard

安装最新版

登录dashboard

一些必须的配置更改

注意事项

启动和二进制的区别：

课程链接（私信我领取专属福利）

相关文章