Docker内核知识

1.Docker的内核知识

Docker容器的本质是宿主机上的进程,通过namespace实现资源隔离,通过cgroups实现资源限制,通过写时复制机制实现高效的文件操作。

1.1.namespace资源隔离

    Linux提供了6种namespace隔离的系统调用。

             Docker内核知识

  Linux内核实现namespace的主要目的就是为了实现轻量级虚拟化(容器)服务。在同一个namespace下的进程可以感知彼此的变化,而对外界的进程一无所知。这样就可以让容器中的进程产生错觉,仿佛自己置身于一个独立的系统环境中,以此达到独立和隔离的目的。

1.1.1.调用namespace的API

  namespace的API包括clone()、setns()以及unshare(),还有/proc下的部分文件。为了确定隔离的到底是哪种namespace,在使用这些API时,通常需要指定以下六个常数的一个或多个,通过|(位或)操作来实现。你可能已经在上面的表格中注意到,这六个参数分别是CLONE_NEWIPC、CLONE_NEWNS、CLONE_NEWNET、CLONE_NEWPID、 CLONE_NEWUSER和CLONE_NEWUTS。

  1.通过clone()创建新进程的同时创建namespace

  使用clone()来创建一个独立namespace的进程是最常见做法,它的调用方式如下:

int clone(int (*child_func)(void *), void *child_stack, int flags, void *arg);

  clone()实际上是传统UNIX系统调用fork()的一种更通用的实现方式,它可以通过flags来控制使用多少功能。一共有二十多种CLONE_*的flag(标志位)参数用来控制clone进程的方方面面(如是否与父进程共享虚拟内存等等),下面外面逐一讲解clone函数传入的参数。

  • 参数child_func传入子进程运行的程序主函数。
  • 参数child_stack传入子进程使用的栈空间
  • 参数flags表示使用哪些CLONE_*标志位
  • 参数args则可用于传入用户参数

  2.查看/proc/[pid]/ns文件

  用户就可以在/proc/[pid]/ns文件下看到指向不同namespace号的文件,效果如下所示,形如[4026531839]者即为namespace号。

  可以通过ps -ef查看容器内不同的进程,从而进入对应的ns中,会发现同一容器下,pid,mnt,net等编号相同。

  如果两个进程指向的namespace编号相同,就说明他们在同一个namespace下,否则则在不同namespace里面。/proc/[pid]/ns的另外一个作用是,一旦文件被打开,只要打开的文件描述符(fd)存在,那么就算PID所属的所有进程都已经结束,创建的namespace就会一直存在。

$ ls -l /proc/$$/ns         < ipc:[4026531839]
lrwxrwxrwx. 1 mtk mtk 0 Jan  8 04:12 mnt -> mnt:[4026531840]
lrwxrwxrwx. 1 mtk mtk 0 Jan  8 04:12 net -> net:[4026531956]
lrwxrwxrwx. 1 mtk mtk 0 Jan  8 04:12 pid -> pid:[4026531836]
lrwxrwxrwx. 1 mtk mtk 0 Jan  8 04:12 user->user:[4026531837]
lrwxrwxrwx. 1 mtk mtk 0 Jan  8 04:12 uts -> uts:[4026531838]

1.1.2.UTS

  UTS提供了主机名和域名的隔离,这样每个容器就可以拥有了独立的主机名和域名,在网络上可以被视作一个独立的节点而非宿主机上的一个进程。

  Docker中,每个镜像基本都以自己所提供的服务命名了自己的hostname而没有对宿主机产生任何影响,用的就是这个原理。

1.1.3.IPC

  IPC:容器 中进程间进行通信通常采用的消息队列,信号量,和共享内存。

  IPC资源就申请了这样一个全局唯一的32位ID,所以IPC namespace中实际上包含了系统IPC标识符以及实现POSIX消息队列的文件系统。

  在同一个IPC namespace下的进程彼此可见,而与其他的IPC namespace下的进程则互相不可见=====》同一ns下进程并不一定彼此可见。

1.1.4.PID

  两个不同的namespace可以拥有相同的PID。每个PID namespace都有 各自的计数程序。

  内核为所有的PID namespace维护了一个树状结构,最顶层的是系统初始时创建的,我们称之为root namespace。他创建的新PID namespace就称之为child namespace(树的子节点),而原先的PID namespace就是新创建的PID namespace的parent namespace(树的父节点)。通过这种方式,不同的PID namespaces会形成一个等级体系。所属的父节点可以看到子节点中的进程,并可以通过信号量等方式对子节点中的进程产生影响。

  • 每个PID namespace中的第一个进程“PID 1“,都会像传统Linux中的init进程一样拥有特权,起特殊作用。
  • 一个namespace中的进程,不可能通过kill或ptrace影响父节点或者兄弟节点中的进程,因为其他节点的PID在这个namespace中没有任何意义。
  • 如果你在新的PID namespace中重新挂载/proc文件系统,会发现其下只显示同属一个PID namespace中的其他进程。
  • 在root namespace中可以看到所有的进程,并且递归包含所有子节点中的进程。

(1)PID namespace中的init进程

  当我们新建一个PID namespace时,默认启动的进程PID为1。

  PID namespace维护这样一个树状结构,非常有利于系统的资源监控与回收。Docker启动时,第一个进程也是这样,实现了进程监控和资源回收,它就是dockerinit。

(2)信号量与init进程

  PID Namespace如此特殊,自然内核也赋予它了特殊权限---信号量屏蔽。

  如果init进程没有写处理某个代码逻辑,那么再同一个PID namespace下的进程即使拥有超级权限,发送给他的信号量都会被屏蔽。这个功能防止了init进程被误杀。

  如果是init的父进程 ,如果不是SIGKILL(销毁进程)或SIGSTOP(暂停进程)也会被忽略。但如果发送SIGKILL或SIGSTOP,子节点的init会强制执行(无法通过代码捕捉进行特殊处理),也就是说父节点中的进程有权终止子节点中的进程。

 

1.1.5.Mount

  Mount namespace通过隔离文件挂载点来对文件进程隔离,是第一个出现的namespace。

  隔离后,不同mount namespace中的文件结构发生变化也互不影响。

  你可以通过/proc/[pid]/mounts查看到所有挂载在当前namespace中的文件系统,还可以通过/proc/[pid]/mountstats看到mount namespace中文件设备的统计信息,包括挂载文件的名字、文件系统类型、挂载位置等等。

  一个挂载状态可能为如下的其中一种:

  • 共享挂载(shared)
  • 从属挂载(slave)
  • 共享/从属挂载(shared and slave)
  • 私有挂载(private)
  • 不可绑定挂载(unbindable)

1.1.6.Network

  Network namespace主要提供了网络资源的隔离,包括网络设备,IPv4和IPv6协议栈、IP路由表、防火墙、/proc/net目录、/sys/class/net目录、端口(socket)等等。

1.1.7User

  User namespace主要隔离了安全相关的标识符(identifiers)和属性(attributes),包括用户ID、用户组ID、root目录、key(指密钥)以及特殊权限。说得通俗一点,一个普通用户的进程通过clone()创建的新进程在新user namespace中可以拥有不同的用户和用户组。

 

1.2.cgroups资源限制

  cgroups是Linux内核提供的一种机制,这种机制可以根据需求把一系列系统任务及其子任务整合(或分隔)到按资源划分等级的不同组内,从而为系统资源管理提供一个统一的框架。

  cgroups可以限制、记录任务组所使用的物理资源(包括CPU、Memory、IO等),为容器实现虚拟化提供基本保证、是构建Docker等一系列虚拟化管理工具的基石。

1.2.1.cgroups特点

  1.cgroups的api以一个伪文件系统的方式实现,用户态的程序可以通过文件操作实现cgroups的组织管理。

        2. cgroups的组织管理操作单元可以细粒到线程级别,另外用户可以创建和销毁cgroup,从而实现资源再分配。

        3.所有资源管理的功能,都以子系统的方式实现,接口统一。

        4.子任务创建之初与其父任务处于同一个cgroups控制组。

1.2.2.cgroups作用

  实现cgroups的主要目的是为不同用户层面的资源管理,提供一个统一化的接口。从单个任务的资源控制到操作系统层面的虚拟化,cgroups提供了四大功能。

  1.资源限制:cgroups可以对任务使用的资源总额进行限制,如一旦超过设定的内存限制就发出OOM

  2.优先级分配:通过分配的CPU时间片数量及磁盘IO带宽大小。

  3.资源统计:cgroups可以统计系统的资源使用量。

  4.任务控制:cgroups可以对任务进行挂起、恢复等操作。

1.2.3.术语

  • task(任务):cgroups的术语中,task就表示系统的一个进程。
  • cgroup(控制组):cgroups 中的资源控制都以cgroup为单位实现。cgroup表示按某种资源控制标准划分而成的任务组,包含一个或多个子系统。一个任务可以加入某个cgroup,也可以从某个cgroup迁移到另外一个cgroup。
  • subsystem(子系统):cgroups中的subsystem就是一个资源调度控制器(Resource Controller)。比如CPU子系统可以控制CPU时间分配,内存子系统可以限制cgroup内存使用量。
  • hierarchy(层级树):hierarchy由一系列cgroup以一个树状结构排列而成,每个hierarchy通过绑定对应的subsystem进行资源调度。hierarchy中的cgroup节点可以包含零或多个子节点,子节点继承父节点的属性。整个系统可以有多个hierarchy。

1.2.4.组织结构与基本规则

  (1)同一个hierarchy可以附加一个或者多个subsystem。

  (2)一个subsystem可以附加到多个hierarchy,当且仅当这些hierarchy只有这唯一一个subsystem。

  (3)系统每次新建一个hierarchy时,该系统上的所有task默认构成了这个新建的hierarchy的初始化cgroup,这个cgroup也称为root cgroup。

1.2.5.subsystem

  subsystem:cgroups的资源控制系统。每种subsystem控制一种资源,目前Docker使用了如下8中subsystem:

  • blkio:为块设备设定输入/输出限制,比如物理驱动设备(包括磁盘、固态硬盘、USB等)。
  • cpu: 使用调度程序控制task对CPU的使用。
  • cpuacct: 自动生成cgroup中task对CPU资源使用情况的报告。
  • cpuset: 为cgroup中的task分配独立的CPU(此处针对多处理器系统)和内存。
  • devices :可以开启或关闭cgroup中task对设备的访问。
  • freezer :可以挂起或恢复cgroup中的task。
  • memory :可以设定cgroup中task对内存使用量的限定,并且自动生成这些task对内存资源使用情况的报告。
  • perf_event :使用后使得cgroup中的task可以进行统一的性能测试。{![perf: Linux CPU性能探测器,详见https://perf.wiki.kernel.org/index.php/Main_Page]}
  • *net_cls 这个subsystem Docker没有直接使用,它通过使用等级识别符(classid)标记网络数据包,从而允许 Linux 流量控制程序(TC:Traffic Controller)识别从具体cgroup中生成的数据包。

 

  查询mount 的cgroup的文件系统

  Docker内核知识

   以cpu子系统为例

   Docker内核知识

   在/sys/fs/cgroup的cpu子目录下创建控制组,控制组目录创建成功后,多了下面类似文件

$/sys/fs/cgroup/cpu# mkdir cgtest2
$/sys/fs/cgroup/cpu# ls cgtest2/ 
 cgroup.clone_children cgroup.procs cpuacct.stat cpuacct.usage cpuacct.usage_percpu cpu.cfs_period_us cpu.cfs_quota_us cpu.shares cpu.stat notify_on_release tasks

#限制18828进程
 $echo 18828 >> /sys/fs/cgroup/cpu/cgtest2/tasks
#将cpu限制为最高使用20%
 $echo 2000 > /sys/fs/cgroup/cpu/cgtest2/cpu.cfs_quota_us

#查看docker控制组目录
$/sys/fs/cgroup/cpu# tree docker/
docker/
├── 20fb25551e96ba42b2401ef70785da68e96ffc10525b10c2434e2b9ad4f1e477      #容器ID
│   ├── cgroup.clone_children
│   ├── cgroup.procs
│   ├── cpuacct.stat
│   ├── cpuacct.usage
│   ├── cpuacct.usage_percpu
│   ├── cpu.cfs_period_us
│   ├── cpu.cfs_quota_us
│   ├── cpu.shares
│   ├── cpu.stat
│   ├── notify_on_release
│   └── tasks

  

1.2.3.cgroups实现方式机工作原理

   1.cgroups如何判断资源超限机超出限额后的措施

 

    cgroups提供了统一的接口对资源进行控制和统计,但限制的方式不尽相同。

   2./sys/fs/cgroup/cpu/docker/

    一个cgroup创建完成,不管绑定了何种子系统,其目录下都会生产下面几个文件,用来描述cgroup信息,把相应的信息写入这些配置文件就可以生效。

    tasks:罗列了所有在该cgroup中任务的TID,即所有进程及线程。

     cgroup.procs:罗列了所有在该cgroup中的TGID(线程组ID)

     notify_on_release:表示是否在cgroup中最后一个任务推出时通知运行releaseagent,填0或者1,默认为0表示不运行

1.2.4.cgroups的使用方法简介

1.安装cgroup

#apt-get install cgroup-bin
# mkdir /cgroup      这个目录可以用于挂载subsystem

2.查看cgroup及子系统挂载状态

  • 查看所有的cgroup:lscgroup
  • 查看所有支持的子系统:lssubsys -a
  • 查看所有子系统挂载的位置: lssubsys –m
  • 查看单个子系统(如memory)挂载位置:lssubsys –m memory

3.创建hierarchy并挂载子系统  

  创建hierarchy

 #mount -t tmpfs yaohongcgroups /sys/fs/cgroup

  创建对应文件夹

#mkdir /sys/fs/cgroup/yh

  创建subsystem到对应层级

# mount -t cgroup -o subsystems yhsubsystem /cgroup/yhtest

1.3.Docker 架构预览

  Docker时采用client-server架构模式,如下图所示,Docker client向Docker daemno发送信息进行互相交互.

       Docker内核知识

 

   Docker 通过driver模块来实现容器执行环境的创建和管理.

  通过镜像管理中的distribution、registry模块从Docker  registry中下载镜像,

       通过镜像管理中的image、reference和layer存储镜像的元数据;

       通过镜像驱动graphdriver将镜像文件存储到具体的文件系统中;

       当需要为Docker容器创建网络环境时,通过网络管理模块network调用libnetwork创建并配置Docker容器的网络环境;

       当需要为容器创建数据卷volume时,通过volume调用某个具体的volumedriver创建一个数据卷,来创建一个数据卷并负责后续的挂载操作;

       当需要限制Docker容器运行资源或者执行用户指令等操作时,咋通过execdriver来完成。

       libcontainer时对cgroups和namespace的二次封装,

       execdriver时通过libcontainer来实现对容器的具体管理,包括利用UTS、IPC、PID、network、mount、user等namespace实现容器之间的资源隔离和利用cgroups实现资源限制

  【Docker daemon】

    后台核心进程,用户相应client的请求,该进程会在后台启动一个API Server,负责接收由Docker client发送的请求,请求有daemon分发调度,再由具体的函数来执行请求。

  【Docker client】

    用于想Docker daemon发起请求,执行相应的容器管理操作,它即是可以命令行工具docker,也是遵循Docker API的客户端。

  【image mamagement】

    Docker通过distribution、registry、layer、image、reference等模块实现Docker镜像的管理,这些模块统称为镜像管理【image mamagement】

    1.distribution:负责与Docker registry进行交换,上传下载镜像以及存储与v2相关的元数据。

    2.register:负责与Docker registry有关的身份验证,镜像查找,验证及管理

    3.image:负责与镜像元数据有关的存储,查找,镜像层的引用

    4.reference(参考):负责存储本地所有镜像的repository(存储库),并维护与镜像ID之间的映射关系。

    5.layer:负责与镜像层和容器层元数据有关的增删查改,并负责将镜像层的增删查改操作映射到实际存储镜像层文件系统的graphdriver模块。

1.4.client和daemon

 1.4.1.client模式

  Docker命令对应源文件时docker/docker.go,它的使用方式如下:

docker [OPTIONS] COMMAND [arg ...]

  其中OPTIONS参数称为flag,任何时候执行一个docker命令,Docker都需要先解析这些flag,然后按照用户声明的COMMAND向子命令执行对应的操作。

  client模式下的docker命令工作流程包含如下几个步骤。

  1.解析flag信息

  这里列出几个client模式比较重要的OPTIONS

    Debug,对应-D和–debug参数,这个flag用于启动调试模式
    LogLevel,对应-l和–log-level参数,默认等级是info,可选参数有:panic、error、warn、info、debug。
    Hosts,对应-H和–host=[]参数,对于client模式,就是指本次操作需要连接的Docker daemon位置,而对于daemon模式,则提供所要监听的地址。若Hosts变量或者系统环境变量                         DOCKER_HOST不为空,说明用户指定了host对象;否则使用默认设定,默认情况下Linux系统设置为unix:///var/run/docker.sock.
    protoAddrParts,这个信息来自于-H参数中://前后的两部分组合,即与Docker daemon建立通信的协议方式与socket地址。
  2.创建client实例

    client的创建就是在已有配置参数信息的基础上,调用api/client/cli.go#NewDockerCli,需要设置好proto(传输协议)、addr(host的目标地址)和tlsConfig(安全传输层协议的配置),另外还会配置标准输入输出及错误输出。

  3.执行具体的命令

  Docker client对象创建成功后,剩下的执行具体命令的过程就交给cli/cli.go来处理。

 1.4.2.daemon模式

  Docker运行时如果使用docker daemon 子命令,就会运行Docker daemon。一旦docker进入了daemon模式,剩下的初始化和启动工作就都由Docker的docker/daemon.go#CmdDaemon来完成。

Docker daemon通过一个server模块(api/server/server.go)接收来自client的请求,然后根据请求类型,交由具体的方法去执行。

  下面是Docker daemon启动与初始化过程的详细解析

1.API Server的配置和初始化过程

  首先,在docker/daemon.go#CmdDaemon中,Docker会继续按照用户的配置完成server的初始化并启动它。这个server为API Server,就是专门负责响应用户请求并将请求交给daemon具体方法去处理的进程。它的启动过程如下。
  (I)整理解析用户指定的各项参数。

  (2)创建PID文件。

  (3)加载所需的serve辅助配置,包括日志、是否允许远程访问、版本以及TLS认证信息等。

  (4)根据上述server配置,加上之前解析出来的用户指定的server配置(比如Hosts ),通过goroutine的方式启动API Server。这个server监听的socket位置就是Hosts的值。

  (5)创建一个负责处理业务的daemon对象(对应daemon/damone.go)作为负责处理用户请求的逻辑实体。

  (6)对APIserver中的路由表进行初始化,即将用户的请求和对应的处理函数相对应起来。

  (7)设置一个channel,保证上述goroutine只有在server出错的情况下才会退出。

  (8)设置信号捕获,当Docker daemon进程收到INT, TERM, QUIT信号时,关闭API Server,调用shutdownDaemon停止这个daemon。

  (9)如果上述操作都成功,API ServergjG会与上述daemon绑定,并允许接受来自client的连接。

  (10)最后,Docker daemon进程向宿主机的init守护进程发送“READY=1”信号,表示这个Docker daemon已经开始正常工作了。
2.daemon对象的创建与初始化过程

  docker daemon是如何创建出来的?是通过daemon/daemon.go#NewDaemon方法。

  NewDaemon过程会按照Docker的功能特点,完成所需的属性设置用户或者系统指定的值,需要完成的配置至少包括以下特点:

  (1)Docker容器的配置信息:设置默认的网络最大传输单元,检测网桥配置信息

  (2)检测系统支持及用户权限

  (3)工作路径,默认为/var/lib/docker

  (4)配置Docker容器所需的文件环境

    配置graphdriver目录,用于完成Docker容器镜像管理所需的底层存储驱动层

    Docker内核知识

 

1.5.libcontainer

  libcontainer是Docker对容器管理的包,它基于Go语言实现,通过管理namespace、cgroups、capabilities以及文件系统来进行容器控制。

  你可以使用libcontainer创建容器,并对容器进行生命周期的管理。

1.5.1libcontainer特性

  目前版本的libcontainer,功能实现上涵盖了包括namespaces使用、cgroups管理,Rootfs的配置启动,默认的Linux capability权限集、以及经常运行环境变量配。

  1.建立文件系统:文件系统方面,容器运行rootfs。所有容器中要执行的指令,都需要包含在rootfs所有挂载在容器销毁时都会被卸载。

  2.资源管理:Docker使用cgroup进行资源管理和限制,包括设备、内存、CPU、输入输出等。

  3.安全特性:libcontainer目前可通过配置capabilities、SELinux、apparmor 以及seccomp进行一定的安全防范。

  4.在运行着的容器中执行新进程:就是我们熟悉的docker exec功能,指令的二进制文件需要包含在容器的rootfs之内。

  5.容器热迁移:通过libcontainer你已经可以把一个正在运行的进程状态保存到磁盘上,然后在本地或其他机器中重新恢复当前的运行状态。

1.6.libcontainer实现原理

  在Docker中,对容器管理的模块为execdriver,目前Docker支持的容器管理方式有两种,一种就是最初支持的LXC方式,另一种称为native,即使用libcontainer进行容器管理。

  虽然在execdriver中只有LXC和native两种选择,但是native(即libcontainer)通过接口的方式定义了一系列容器管理的操作,包括处理容器的创建(Factory)、容器生命周期管理(Container)、进程生命周期管理(Process)等一系列接口。

 

1.6.Docker镜像管理

1.6.1.什么是Docker镜像

  Docker镜像:Docker镜像是一个只读性的Docker容器模板,含有启动Docker容器所需的文件系统结构及其内容是启动一个Docker容器的基础。

1.rootfs

  rootfs:Docker镜像的文件内容以及一些运行Docker容器的配置文件组成了Docker容器的静态文件系统环境。

  可以这么理解,Docker镜像是Docker 容器的静态视角,Docker容器时Docker镜像的运行状态。

  在Docker架构中,当Docker daemon为Docker容器挂载rootfs时,沿用了linux内核启动时的方法,即将rootfs设置为只读模式。在挂载完毕后,利用联合挂载(union mount)技术在已有的只读rootfs上再挂载一个读写层。这样,可读写层处于Docker容器文件系统的最顶层,其下可能联合挂载多个只读层,只有再Docker容器运行过程中国文件系统发生变化,才会将变化的内容写到可读写层,并且隐藏只读层中老文件。

  容器文件系统其实是一个相对独立的组织,分为1.可读写部分(read-write layer及volumes),2.init-layer,3.只读层(read-only layer)这3个部分共同组成的一个容器所需的下层文件系统。

2.镜像的主要特点

  (1)分层:docker commit提交这个修改过的容器文件系统为一个新的镜像时,保存的内容仅为最上层读写文件系统中被更新过的文件。

  (2)写是复制:多个容器之间共享镜像,不需要再复制出一份镜像,而是将所有的镜像层以只读的方式挂载到一个挂载点,而在上面覆盖一个可读写层的容器层。

  (3)内容寻址:对镜像层的内容计算校验和,生成一个内容哈希值,并以此哈希值替代之前的UUID作为镜像的唯一标志,

  (4)联合挂载(union mount):可以在一个挂载点同时挂载多个文件系统,将挂载点的原目录与被挂载内容进行整合,使得最终可见的文件系统将会包含整合之后的各层文件和目录。

1.6.2.Docker镜像关键概念

  (1)registry:保持Docker镜像,其中还包括镜像层次结构和关于镜像的元数据。

  (2)repository(存储库):registry是repository的集合,repository是镜像的集合。

  (3)manifest(描述文件):主要存在于registry中作为Docker镜像的元数据文件,在pull、push、save和load中作为镜像结构和基础信息的描述文件。

  (4)image:用来存储一组镜像相关的元数据,主要包括镜像的架构(amd64、arm64)、镜像默认配置信息,构建镜像的容器配置信息,包含所有镜像层信息的rootfs。

  (5)layer(镜像层):用来管理镜像层的中间概念,主要存放镜像层的DIFF_ID、size、cache-id和parent等内容。

  (6)dockerfile: 

 

1.8.Docker网络管理

1.8.1.Docker网络架构

  Docker公司再libnetwork中使用了CNM。CNM定义了构建容器虚拟化网络的模型,同时还提供了可以用于开发多种网络驱动的标准化接口和组件。

   libnetwork和Docker Daemon及各个网络驱动的关系可以通过下图表示:

   Docker daemon通过调用libnetwork对外提供的API完成网络的创建个管理等功能。

  libnetwork中则使用了CNM来完成网络功能的提供,CNM中主要有sandbox、endpoint、network这3种组件。

  Docker内核知识

 

   CNM中的3个核心组件如下:

  (1)沙盒:一个沙盒包含了一个容器网络栈的信息。沙盒可以对容器的接口、路由、DNS等设置进行管理。沙盒可以有多个端点和网络。

  (2)端点:一个端点可以加入一个沙盒和一个网络。一个端点只可以属于一个网络并且只属于一个沙盒。

  (3)网络:一个网络时一组可以直接互相联调的端点,一个网络可以包括多个端点。

  Docker内核知识

 

   libnetwork中有一下5个内置驱动:

  • bridge:默认驱动,网桥模式。
  • host:去掉容器和Docker主机之间的网络隔离,直接使用主机的网络。不会为Docker模式创建网络协议栈,即不会创建network namespace。
  • overlay:覆盖网络将多个Docker daemons 连接在一起,使swarm服务能够相互通信。
  • macvlan:macvlan网络允许您将MAC地址分配给容器,使其显示为网络上的物理设备。Docker daemons 按其MAC地址将通信路由到容器。在处理希望直接连接到物理网络而不是通过Docker主机的网络堆栈路由的遗留应用程序时,使用macvlan驱动程序有时是最佳选择。
  • null:Docker容器拥有自己的namepsace但不进行网络配置。

  创建网络:

# docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
77a80a9afsdfff        bridge              bridge              local
94694ffrfrfrfrfb        host                host                local
39573frfrfrfrs4        none                null                local


# docker network create backend
ead41d30f820c2699ed532e84d0fsdffb5a1f4c37eea6c54bfa687b903649

# docker network create fronted
8d94c681869f96b668c3abb72d3cb6aa14af236e94ef4fac7e38c157260787a6

# docker network ls
NETWORK ID          NAME                DRIVER              SCOPE
ead41dsssff820        backend             bridge              local
77a80a9a5c6bc        bridge                bridge              local
8d94ccccc1869f        fronted              bridge              local
9469402ccc53b        host                  host                 local
395736cvc0e54        none                 null                  local

  指定容器网络

# docker run -it --name container1 --net backend busybox

  

 1.8.2.bridge网络

  此条路由表示目的IP地址的数据包时docker0发出的。

# route -n
172.25.0.0      0.0.0.0         255.255.0.0     U     0      0        0 docker0

   如下图,docke0就时一个网桥,网桥的概念就类似与一个交换机,为连在其上的设备转发数据帧。

    网桥上的veth网卡设备相当于交换机上的端口,可以将多个容器或虚拟机连接在其上,docker 0网桥就为连在其上的容器转发数据帧,是得同一台宿主机上的Docker容器之间可以互相通信。

   Docker内核知识

 

   查看机器上的网桥和上面的端口:

# brctl show
bridge name	bridge id		STP enabled	interfaces
docker0		8000.02420e64d653	no		veth7eb3e54
yhbro		8000.000000000000	no

  创建网桥:

# brctl show addbr yhbro

  网桥参数设置:

  --bip=CIDR:设置docker0的ip地址和子网范围。

  --fixed-cidr=CIDR:限制Docker容器获取IP范围。

1.8.3.Docker daemon网络配置原理

  Docker自身的网络,主要分为两部分,第一是Docker daemon的网络配置,第二是libcontainer的网络配置。Docker daemon的网络指的daemon启动时,在主机系统上所作的网络设置,可以被所有的docker容器使用,libcontainer的网络正对具体的容器是使用docker run命令启动容器是时,根据传入的参数为容器做的网络配置工作。

1.8.4.libcontainer网络配置原理

 

1.9.Docker与容器安全

1.9.1.Docker的安全机制

  1.Docker daemon安全:默认使用Unix域套接字的方式与客户端进行通信,这种形式相对于TCP的形式比较安全。

  2.镜像安全:registry访问权限控制可以保证镜像的安全。

        registry安全:添加了仓库访问认证。

        验证校验和:保证镜像的完整性。

  3.内核安全:内核容器提供了两种技术cgroups和namespace。

  4.容器之间网络安全:--icc可以禁止容器之间通信,主要通过设定iptables规划和实现。

  5.容器能力限制:可以通过允许修改进程ID,用户组ID,等能力限制

  6.限制能力:比如不需要setgid、setuid能力,可以再run容器时添加--cap-drop  SETUID  --cap-drop  SETGID。

  7.添加能力:比如启动容器时使用--cap-add ALL --cap-add SYS_TIME来增加允许修改系统时间能力。

 

1.9.DockerFile实践

  1. Dockerfile整体就两类语句组成:

  • # Comment 注释信息
  • Instruction arguments 指令 参数,一行一个指令。
Dockerfile文件名首字母必须大写。Dockerfile指令不区分大小写,但是为方便和参数做区分,通常指令使用大写字母。Dockerfile中指令按顺序从上至下依次执行。Dockerfile中第一个非注释行必须是FROM指令,用来指定制作当前镜像依据的是哪个基础镜像。

Dockerfile中需要调用的文件必须跟Dockerfile文件在同一目录下,或者在其子目录下,父目录或者其它路径无效。

  

DockerFile目前支持的参数:

1.ADD:ADD与COPY的指令功能上很相似,都支持复制本地文件到镜像的功能,但ADD指令还支持其它的功能。

 

           ADD的时候要复制的文件可以是个网络文件的URL。

 

2.COPY:COPY

     

               

 

3.ENV:指定环境变量,同docker run -e,为镜像定义所需的环境变量,并可被ENV指令后面的其它指令所调用。

   调用格式为$variable_name或者${variable_name},使用docker run启动容器的时候加上 -e 的参数为variable_name赋值,可以覆盖Dockerfile中ENV指令指定的此variable_name的值。

           但是不会影响到dockerfile中已经引用过此变量的文件名。

4.FROM:FROM指令必须为Dockerfile文件开篇的第一个非注释行,用于指定构建镜像所使用的基础镜像,后续的指令运行都要依靠此基础镜像,所提供的的环境(简单说就是假如Dockerfile中所引用的基础镜像里面没有mkdir命令,那后续的指令是没法使用mkdir参数的

          

5.LABEL:同docker run -l,让用户为镜像指定各种元数据(键值对的格式)

6.STOPSIGNAL:指定发送使容器退出的系统调用信号。docker stop之所以能停止容器,就是发送了15的信号给容器内PID为1的进程。此指令一般不会使用。

 

7.USER:用于指定docker build过程中任何RUN、CMD等指令的用户名或者UID。默认情况下容器的运行用户为root。

8.VOLUME:docker run -v简化版,用于在镜像中创建一个挂载点目录。指定工作目录,可以指多个,每个WORKDIR只影响他下面的指令,直到遇见下一个WORKDIR为止。

9.WORKDIR:同docker run -w, Docker的镜像由只读层组成,每个只读层对应一个Dockerfile的一个指令,各个层堆叠在一起,每一层都是上一层的增量。WORKDIR也可以调用由ENV指令定义的变量。

 

FROM ubuntu:1804   #从ubuntu:18.04Docker映像创建一个图层。
COPY . /app             #从Docker客户端的当前目录添加文件。
RUN mkdir /APP       #使用构建您的应用程序make
CMD python /app/aa.py    #指定要在容器中运行的命令

  尽可能通过字母数字排序多行参数来简化以后的更改。这有助于避免软件包重复,并使列表更易于更新。这也使PR易于阅读和查看。在反斜杠(\)之前添加空格也有帮助。

RUN apt-get update && apt-get install -y \
  bzr \
  cvs \
  git \
  mercurial \
  subversion

 

2.总结

2.1.什么是Docker

  Docker本质上是一个进程,用namespace进行隔离,cgroup进行资源限制,rootfs作为文件系统。

2.2.namespace

  namespace共分为6种,UTS,IPC,PID,NETWORK,MOUNT,USER。

  UTS:隔离主机名和域名。IPC:隔离消息队列,信号量和共享内存。PID:隔离进程。network:隔离网络。mount:隔离挂载。user:隔离用户。

  隔离的作用就是产生轻量级的虚拟化,相同namespace下进程可以感知彼此的变化,不同namespace的进程直接彼此无感知。

2.3.cgroup

  cgroup可以对资源进行限制,分配和统计,在/sys/fs/cgroup/中都是一个个cgroup子系统,这些子系统分别控制着输入、输出、cpu大小、内存大小等。

2.4Docker的架构及相关组件

  采用client-server模式:

  docker-client(可以是docker客户端命令也可以是API的客户端)发请求给docker-daemon,docker-daemon启动API-server接收到消息后,根据请求调用对应组件:

       libnetwork:控制network

       execdontainer:调用libcontainer(对namespace、cgroup的二次封装)控制namespace、cgroup

       value:通过控制ececdriver控制卷

  grapdriver:将镜像文件存储到具体的文件系统中

  images manager:describetion和registry控制镜像拉取,layer、image、reference控制镜像元数据。

2.5.Docker网络

  分为bridge(创建namespace并且每个容器拥有自己的ip)、hosts(公用宿主机namespace,使用宿主机ip),overlay,null(拥有自己的namespace,但不进行网络配置)。

上一篇:Docker内核知识


下一篇:g2o入门(一)曲线拟合