企业运维容器之 docker 安全

企业运维容器之 docker 安全

1. Docker 安全

  • Docker 容器的安全性,很大程度上依赖于Linux系统自身,因为共享的是 linux 的内核;评估Docker的安全性时,主要考虑以下几个方面:
    Linux 内核的命名空间机制提供的容器隔离安全;
    Linux 控制组机制对容器资源的控制能力安全;
    Linux 内核的能力机制所带来的操作权限安全;
    Docker程序(特别是服务端)本身的抗攻击性;
    其他安全增强机制对容器安全性的影响。
[root@server2 volumes]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
[root@server2 volumes]# docker run -d --name demo nginx
957483e929c0f30663511f76760bb6338b0f04335b21dfa62c5978340dbff9c3
[root@server2 volumes]# docker ps
CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS               NAMES
957483e929c0        nginx               "/docker-entrypoint.…"   4 seconds ago       Up 3 seconds        80/tcp              demo
[root@server2 volumes]# docker inspect demo | grep Pid
            "Pid": 6489,
            "PidMode": "",
            "PidsLimit": null,

[root@server2 volumes]# cd /proc/6489/		##独立的命名空间和进程同名;
[root@server2 6489]# cd ns/
[root@server2 ns]# ls
ipc  mnt  net  pid  user  uts

运行起来的容器时没有接口的;只有一个套接字来供本机连接;

[root@server2 docker]# cd /run/
[root@server2 run]# ls
auditd.pid   cryptsetup       docker.sock  lvmetad.pid  rhsm          sysconfig    user
console      dbus             faillock     mount        rpcbind.sock  syslogd.pid  utmp
containerd   dmeventd-client  initramfs    netreport    sepermit      systemd      xtables.lock
convoy       dmeventd-server  lock         plymouth     setrans       tmpfiles.d
crond.pid    docker           log          qga.state    sshd.pid      tuned
cron.reboot  docker.pid       lvm          rhnsd.pid    sudo          udev
  1. 命名空间隔离的安全
    当docker run启动一个容器时,Docker将在后台为容器创建一个独立的命名空间。命名空间提供了最基础也最直接的隔离。
    与虚拟机方式相比,通过Linux namespace来实现的隔离不是那么彻底。
    容器只是运行在宿主机上的一种特殊的进程,那么多个容器之间使用的就还是同一个宿主机的操作系统内核。
    在 Linux 内核中,有很多资源和对象是不能被 Namespace 化的,比如:时间。

共用内核内存:

[root@server2 ~]# docker rm -f demo
demo
[root@server2 ~]# docker run -it --rm busybox
/ # ls
bin   dev   etc   home  proc  root  sys   tmp   usr   var
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
18: eth0@if19: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         214        1228           0         555        1624
Swap:          2047           0        2047
/ # 
[root@server2 ~]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         162        1262          16         573        1658
Swap:          2047           0        2047
  1. 控制组资源控制的安全
    当docker run启动一个容器时,Docker将在后台为容器创建一个独立的控制组策略集合。
    Linux Cgroups提供了很多有用的特性,确保各容器可以公平地分享主机的内存、CPU、磁盘IO等资源。
    确保当发生在容器内的资源压力不会影响到本地主机系统和其他容器,它在防止拒绝服务攻击(DDoS)方面必不可少。

  2. 内核能力机制
    能力机制(Capability)是Linux内核一个强大的特性,可以提供细粒度的权限访问控制。
    大部分情况下,容器并不需要“真正的”root权限,容器只需要少数的能力即可。
    默认情况下,Docker采用“白名单”机制,禁用“必需功能”之外的其他权限。

虽然是root 但是没有权限:

[root@server2 ~]# docker run -it --rm busybox
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
20: eth0@if21: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
ip: SIOCSIFFLAGS: Operation not permitted
/ # 
  1. Docker服务端防护
    使用Docker容器的核心是Docker服务端,确保只有可信的用户才能访问到Docker服务。
    将容器的root用户映射到本地主机上的非root用户,减轻容器和主机之间因权限提升而引起的安全问题。
    允许Docker 服务端在非root权限下运行,利用安全可靠的子进程来代理执行需要特权权限的操作。这些子进程只允许在特定范围内进行操作。

  2. 其他安全特性
    在内核中启用GRSEC和PAX,这将增加更多的编译和运行时的安全检查;并且通过地址随机化机制来避免恶意探测等。启用该特性不需要Docker进行任何配置。
    使用一些有增强安全特性的容器模板。
    用户可以自定义更加严格的访问控制机制来定制安全策略。
    在文件系统挂载到容器内部时,可以通过配置只读模式来避免容器内的应用通过文件系统破坏外部环境,特别是一些系统运行状态相关的目录。

2. 容器资源控制

  • Linux Cgroups 的全称是 Linux Control Group。
    是限制一个进程组能够使用的资源上限,包括 CPU、内存、磁盘、网络带宽等等。
    对进程进行优先级设置、审计,以及将进程挂起和恢复等操作。
    Linux Cgroups 给用户暴露出来的操作接口是文件系统。
    它以文件和目录的方式组织在操作系统的 /sys/fs/cgroup 路径下。
    执行此命令查看:mount -t cgroup
[root@server2 ~]# mount -t cgroup		##查看当前系统被挂载的位置
cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)
cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_prio,net_cls)
cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)
cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)
cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)
cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpuacct,cpu)
cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)
cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)
cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)
cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)
cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)

在 /sys/fs/cgroup 下面有很多诸如 cpuset、cpu、 memory 这样的子目录,也叫子系统。
在每个子系统下面,为每个容器创建一个控制组(即创建一个新目录)。
控制组下面的资源文件里填上什么值,就靠用户执行 docker run 时的参数指定。

[root@server2 ~]# cd /sys/fs/cgroup/
[root@server2 cgroup]# ls
blkio  cpuacct      cpuset   freezer  memory   net_cls,net_prio  perf_event  systemd
cpu    cpu,cpuacct  devices  hugetlb  net_cls  net_prio          pids
  1. CPU限额
    docker run -it --cpu-period=100000 --cpu-quota=20000 ubuntu
    cpu_period 和 cpu_quota 这两个参数需要组合使用,用来限制进程在长度为 cpu_period 的一段时间内,只能被分配到总量为 cpu_quota 的 CPU 时间,以上设置表示20%的 cpu 时间。

对于当前cpu 大小为1G,设置 cpu 使用大小为100;当发生资源争抢时占十分之一;

[root@server2 ~]# docker run --help|grep cpu
[root@server2 ~]# cd /sys/fs/cgroup/cpu/
[root@server2 cpu]# ls
cgroup.clone_children  cpuacct.stat          cpu.cfs_quota_us   cpu.stat           system.slice
cgroup.event_control   cpuacct.usage         cpu.rt_period_us   docker             tasks
cgroup.procs           cpuacct.usage_percpu  cpu.rt_runtime_us  notify_on_release  user.slice
cgroup.sane_behavior   cpu.cfs_period_us     cpu.shares         release_agent
[root@server2 cpu]# mkdir x2
[root@server2 cpu]# cd x2/
[root@server2 x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[root@server2 x2]# cat cpu.shares 
1024
[root@server2 x2]# echo 100 > cpu.shares 
[root@server2 ~]# lscpu 

[root@server2 ~]# cd /sys/devices/system/cpu/
[root@server2 cpu]# ls
cpu0  cpuidle   kernel_max  nohz_full  online    power    smt     vulnerabilities
cpu1  isolated  modalias    offline    possible  present  uevent
[root@server2 cpu]# cd cpu1/
[root@server2 cpu1]# ls
cache        crash_notes_size  firmware_node  online  subsystem  uevent
crash_notes  driver            node0          power   topology
[root@server2 cpu1]# cat online 
1
[root@server2 cpu1]# echo 0 > online 		##关闭指定 cpu 
[root@server2 cpu1]# cat online 
0

开启两个进程,来看其对于 cpu 的争抢测试:

[root@server2 cpu1]# top		
##此时用 top 查看时就只有一个 cpu 
[root@server2 cpu1]# dd if=/dev/zero of=/dev/null &
[1] 7529
[root@server2 cpu1]# cgexec -g cpu:x2 dd if=/dev/zero of=/dev/null &
[2] 7530

[root@server2 cpu1]# top		
##此时用 top 看时,对于cg 开启的进程只占 10 分之一;
  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND                        
 7529 root      20   0  107996    620    524 R 91.0  0.0   0:32.10 dd                             
 7530 root      20   0  107996    620    524 R  8.6  0.0   0:01.75 dd                             
 7531 root      20   0  161980   2208   1560 R  0.3  0.1   0:00.01 top   

还原之前的 cpu 内存和数量,限制 cpu 的百分比;

[root@server2 ~]# cd /sys/fs/cgroup/cpu/x2/
[root@server2 x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[root@server2 x2]# echo 1024 > cpu.shares 

[root@server2 ~]# cd /sys/devices/system/cpu/cpu1
[root@server2 cpu1]# ls
crash_notes  crash_notes_size  driver  firmware_node  node0  online  power  subsystem  uevent
[root@server2 cpu1]# echo 1 > online 

[root@server2 cpu1]# cd /sys/fs/cgroup/
[root@server2 cgroup]# ls
blkio  cpuacct      cpuset   freezer  memory   net_cls,net_prio  perf_event  systemd
cpu    cpu,cpuacct  devices  hugetlb  net_cls  net_prio          pids
[root@server2 cgroup]# cd cpu
[root@server2 cpu]# cd x2/
[root@server2 x2]# ls
cgroup.clone_children  cpuacct.usage         cpu.rt_period_us   notify_on_release
cgroup.event_control   cpuacct.usage_percpu  cpu.rt_runtime_us  tasks
cgroup.procs           cpu.cfs_period_us     cpu.shares
cpuacct.stat           cpu.cfs_quota_us      cpu.stat
[root@server2 x2]# cat cpu.cfs_quota_us
-1
[root@server2 x2]# cat cpu.cfs_period_us
100000
[root@server2 x2]# echo 20000 > cpu.cfs_quota_us
[root@server2 x2]# cat cpu.cfs_quota_us		
##设定大小为百分之二十
20000

运行进程来测试;

[root@server2 x2]# dd if=/dev/zero of=/dev/null &
[1] 7596
[root@server2 x2]# cgexec -g cpu:x2 dd if=/dev/zero of=/dev/null &
[2] 7597
[root@server2 x2]# top


  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                       
 7596 root      20   0  107996    620    524 R 100.0  0.0   0:50.09 dd                            
 7597 root      20   0  107996    616    524 R  20.3  0.0   0:01.74 dd                            
 7598 root      20   0  161980   2208   1560 R   0.3  0.1   0:00.01 top    

除了以上的放式,还可以在运行容器时指定cpu百分比;

[root@server2 ~]# docker run --help | grep cpu
[root@server2 ~]# docker run -d --name demo --cpu-quota 10000 nginx
5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da
[root@server2 ~]# cd /sys/fs/cgroup/cpu/docker/
[root@server2 docker]# ls
5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da

[root@server2 docker]# cd 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da
[root@server2 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cat tasks 
7748
7802
##一个是容器进程一个是应用进程

[root@server2 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# docker inspect demo | grep Pid
            "Pid": 7748,
            "PidMode": "",
            "PidsLimit": null,


[root@server2 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cat cpu.cfs_quota_us
10000
[root@server2 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# docker rm -f demo
demo
[root@server2 5e9fef22786fcbc12a044dc84495b69a23ce1eac7e9d320d92c22d19ac7d88da]# cd -
No such file or directory
##结束进程之后,此时再次返回之前的目录时就没有了
  1. 内存限制
    容器可用内存包括两个部分:物理内存和 swap 交换分区。
    docker run -it --memory 200M --memory-swap=200M ubuntu
    –memory设置内存使用限额
    –memory-swap设置swap交换分区限额

运行一个容器来设置其内存配额;

[root@server2 cgroup]# cd memory/		
##对于内存,此目录为父级目录,当开启一个docker 时,会自动生成一个目录,词目录和父级目录一致
[root@server2 memory]# ls
cgroup.clone_children           memory.kmem.tcp.limit_in_bytes      memory.oom_control
cgroup.event_control            memory.kmem.tcp.max_usage_in_bytes  memory.pressure_level
cgroup.procs                    memory.kmem.tcp.usage_in_bytes      memory.soft_limit_in_bytes
cgroup.sane_behavior            memory.kmem.usage_in_bytes          memory.stat
docker                          memory.limit_in_bytes               memory.swappiness
memory.failcnt                  memory.max_usage_in_bytes           memory.usage_in_bytes
memory.force_empty              memory.memsw.failcnt                memory.use_hierarchy
memory.kmem.failcnt             memory.memsw.limit_in_bytes         notify_on_release
memory.kmem.limit_in_bytes      memory.memsw.max_usage_in_bytes     release_agent
memory.kmem.max_usage_in_bytes  memory.memsw.usage_in_bytes         system.slice
memory.kmem.slabinfo            memory.move_charge_at_immigrate     tasks
memory.kmem.tcp.failcnt         memory.numa_stat   

指定内存大小来运行容器:

[root@server2 memory]# cd docker/
[root@server2 docker]# ls
[root@server2 docker]# docker run --help | grep memory
##查看帮助
[root@server2 docker]# docker run -it --rm -m 256M busybox
##指定内存大小来运行容器
/ # free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         215        1228           0         555        1624
Swap:          2047           0        2047
/ # [root@server2 docker]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
3a04aee87a71        busybox             "sh"                20 seconds ago      Up 19 seconds                           agitated_sutherland
[root@server2 docker]# docker inspect 3a04aee87a71 |grep Pid
            "Pid": 7122,
            "PidMode": "",
            "PidsLimit": null,
[root@server2 docker]# cd /proc/7122/
[root@server2 docker]# pwd
/sys/fs/cgroup/memory/docker
[root@server2 docker]# ls

3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037                                           ##此时会生成一个名称很长的目录,以区别于开启非常多容器的其他名称 

[root@server2 docker]# cd 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df
[root@server2 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# ls
##查看当前容器的资源控制信息
cgroup.clone_children           memory.kmem.tcp.max_usage_in_bytes  memory.oom_control
cgroup.event_control            memory.kmem.tcp.usage_in_bytes      memory.pressure_level
cgroup.procs                    memory.kmem.usage_in_bytes          memory.soft_limit_in_bytes
memory.failcnt                  memory.limit_in_bytes               memory.stat
memory.force_empty              memory.max_usage_in_bytes           memory.swappiness
memory.kmem.failcnt             memory.memsw.failcnt                memory.usage_in_bytes
memory.kmem.limit_in_bytes      memory.memsw.limit_in_bytes         memory.use_hierarchy
memory.kmem.max_usage_in_bytes  memory.memsw.max_usage_in_bytes     notify_on_release
memory.kmem.slabinfo            memory.memsw.usage_in_bytes         tasks
memory.kmem.tcp.failcnt         memory.move_charge_at_immigrate
memory.kmem.tcp.limit_in_bytes  memory.numa_stat
[root@server2 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# cat memory.limit_in_bytes
268435456		##刚好为 256M

计算一下:

[root@foundation15 Downloads]# bc
bc 1.07.1
Copyright 1991-1994, 1997, 1998, 2000, 2004, 2006, 2008, 2012-2017 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'. 
268435456/1024/1024
256

将运行起来的容器进程好存在容器的信息中;

[root@server2 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# cat tasks
7122
[root@server2 3a04aee87a71ae172767c7c22de6bfc51453e3476ae44895507c2037df1934df]# docker inspect 3a04aee87a71 |grep Pid
            "Pid": 7122,
            "PidMode": "",
            "PidsLimit": null,

除了运行容器时指定的内存之外,还有其他的一些默认设置;如果没有配置信息,会将父级目录的复制到新运行的容器中去;

[root@server2 docker]# pwd
/sys/fs/cgroup/memory/docker
[root@server2 docker]# cat memory.limit_in_bytes
9223372036854771712
[root@server2 docker]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED             STATUS              PORTS               NAMES
3a04aee87a71        busybox             "sh"                7 minutes ago       Up 7 minutes                            agitated_sutherland
[root@server2 docker]# docker rm -f 3a04aee87a71
3a04aee87a71
[root@server2 docker]# yum install libcgroup-tools.x86_64 -y
	##下载一个 cg 管理工具

新建一个目录会自动复制父级目录的东西;

[root@server2 docker]# cd /sys/fs/cgroup/memory/
[root@server2 memory]# mkdir x1
[root@server2 memory]# cd x1/
##此目录中的文件不能用 vim 来编辑
[root@server2 x1]# cat tasks 
[root@server2 x1]# echo 268435456 > memory.limit_in_bytes
[root@server2 x1]# cat memory.limit_in_bytes
268435456
[root@server2 x1]# df
Filesystem            1K-blocks    Used Available Use% Mounted on
/dev/mapper/rhel-root  17811456 1839556  15971900  11% /
devtmpfs                1011444       0   1011444   0% /dev
tmpfs                   1023468       0   1023468   0% /dev/shm
tmpfs                   1023468   16984   1006484   2% /run
tmpfs                   1023468       0   1023468   0% /sys/fs/cgroup
/dev/vda1               1038336  135088    903248  14% /boot
tmpfs                    204696       0    204696   0% /run/user/0

[root@server2 x1]# cd /dev/shm		##该目录会自动挂载物理内存一半
[root@server2 shm]# ls
[root@server2 shm]# dd if=/dev/zero of=bigfile bs=1M count=300
300+0 records in
300+0 records out
314572800 bytes (315 MB) copied, 0.552017 s, 570 MB/s
##测试储存300M来察看其速度
[root@server2 shm]# rm -f bigfil

调用指定的身份来查看其内存所做限制使用情况;可以看到大于256 M 时还是做执行了,因为其在 swap 分区做了一部分的缓存;

[root@server2 shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=300
300+0 records in
300+0 records out
314572800 bytes (315 MB) copied, 0.552017 s, 570 MB/s
[root@server2 shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         162        1006         270         829        1403
Swap:          2047          46        2001
[root@server2 shm]# rm -f bigfile 

对 swap 分区限制,将执定使用特定的身份来测试;将内存和swap 的内存总共限制为256M;

[root@server2 x1]# pwd
/sys/fs/cgroup/memory/x1
[root@server2 x1]# cat memory.memsw.limit_in_bytes 
9223372036854771712
[root@server2 x1]# cat memory.limit_in_bytes 
268435456
[root@server2 x1]# echo 268435456 > memory.memsw.limit_in_bytes
[root@server2 x1]# cat memory.memsw.limit_in_bytes
268435456

测试:当大于256M时直接被限制;

[root@server2 memory]# cd /dev/shm/	
[root@server2 shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=300
Killed
[root@server2 shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         161        1006         271         830        1403
Swap:          2047           0        2047
[root@server2 shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=100
100+0 records in
100+0 records out
104857600 bytes (105 MB) copied, 0.0364535 s, 2.9 GB/s
[root@server2 shm]# rm -f bigfile 
[root@server2 shm]# cgexec -g memory:x1 dd if=/dev/zero of=bigfile bs=1M count=200
200+0 records in
200+0 records out
209715200 bytes (210 MB) copied, 0.0769189 s, 2.7 GB/s
[root@server2 shm]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1998         161        1061         216         775        1458
Swap:          2047           0        2047

对于新建的子级目录的删除:

[root@server2 memory]# cgdelete -g delete memory:x1/

系统层面的对 cgroup 的更改:

vim /etc/cgconfig.conf
##写入限制的内容和 swap 等信息;
systemctl restart cgconfig.service

vim /etc/cgrules.conf 
##指定规则,对于某一用户的限制
systemctl start cgred
##启动服务,来读取写入的文件
  1. Block IO限制
    docker run -it --device-write-bps /dev/sda:30MB ubuntu
    –device-write-bps限制写设备的bps
    目前的block IO限制只对direct IO有效。(不使用文件缓存)

运行容器时,设定其写入速度为 30M;

[root@server2 ~]# fdisk -l

[root@server2 ~]# docker run -it --rm --device-write-bps /dev/vda:30M busybox
/ # dd if=/dev/zero of=bigfile bs=1M count=200 oflag=direct		##必须加这个参数
200+0 records in
200+0 records out
209715200 bytes (200.0MB) copied, 6.842526 seconds, 29.2MB/s
/ # dd if=/dev/zero of=bigfile bs=1M count=100 oflag=direct
100+0 records in
100+0 records out
104857600 bytes (100.0MB) copied, 3.317217 seconds, 30.1MB/s
/ # dd if=/dev/zero of=bigfile bs=1M count=100 	##当不加参数时,速度是直接用内存
100+0 records in
100+0 records out
104857600 bytes (100.0MB) copied, 0.055986 seconds, 1.7GB/s
/ # 

3. docker 安全加固

利用LXCFS增强docker容器隔离性和资源可见性。

安装该软件包:

[root@server2 ~]# yum install lxcfs-2.0.5-3.el7.centos.x86_64.rpm -y
[root@server2 ~]# lxcfs /var/lib/lxcfs/ &		##运行起来
[root@server2 ~]# cd /var/lib/lxcfs/
[root@server2 lxcfs]# ls
cgroup  proc
[root@server2 lxcfs]# cd cgroup/
[root@server2 cgroup]# ls
blkio        cpuset   freezer  memory        net_prio,net_cls  pids
cpuacct,cpu  devices  hugetlb  name=systemd  perf_event
[root@server2 cgroup]# cd ..
[root@server2 lxcfs]# cd proc/
[root@server2 proc]# ls
cpuinfo  diskstats  meminfo  stat  swaps  uptime

下载 ubuntu 镜像来测试;

[root@server2 ~]# docker pull ubuntu
Using default tag: latest
latest: Pulling from library/ubuntu
345e3491a907: Pull complete 
57671312ef6f: Pull complete 
5e9250ddb7d0: Pull complete 
Digest: sha256:adf73ca014822ad8237623d388cedf4d5346aa72c270c5acc01431cc93e18e2d
Status: Downloaded newer image for ubuntu:latest
docker.io/library/ubuntu:latest

运行测试:

[root@server2 ~]# docker run  -it -m 256m \
>       -v /var/lib/lxcfs/proc/cpuinfo:/proc/cpuinfo:rw \
>       -v /var/lib/lxcfs/proc/diskstats:/proc/diskstats:rw \
>       -v /var/lib/lxcfs/proc/meminfo:/proc/meminfo:rw \
>       -v /var/lib/lxcfs/proc/stat:/proc/stat:rw \
>       -v /var/lib/lxcfs/proc/swaps:/proc/swaps:rw \
>       -v /var/lib/lxcfs/proc/uptime:/proc/uptime:rw \
>       ubuntu
root@6fef4cbae7cf:/# free -m
              total        used        free      shared  buff/cache   available
Mem:            256           0         255         216           0         255
Swap:           256           0         256

设置特权级运行的容器:–privileged=true
有的时候我们需要容器具备更多的权限,比如操作内核模块,控制swap交换分区,挂载USB磁盘,修改MAC地址等。

[root@server2 ~]# docker run -it --rm busybox
/ # ls
bin   dev   etc   home  proc  root  sys   tmp   usr   var
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
32: eth0@if33: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
ip: SIOCSIFFLAGS: Operation not permitted
/ # 
[root@server2 ~]# docker run -it --rm --privileged=true busybox
/ # id
uid=0(root) gid=0(root) groups=10(wheel)
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
34: eth0@if35: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set down eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
34: eth0@if35: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip link set up eth0
/ # 

[root@server2 ~]# docker inspect 46426330eacf |less

          "PidMode": "",
            "Privileged": true,
            "PublishAllPorts": false,
            "ReadonlyRootfs": false,
            "SecurityOpt": [
                "label=disable"
            ],
  • 设置容器白名单:–cap-add
    –privileged=true 的权限非常大,接近于宿主机的权限,为了防止用户的滥用,需要增加限制,只提供给容器必须的权限。此时Docker 提供了权限白名单的机制,使用–cap-add添加必要的权限。
    capabilities手册地址:
[root@server2 ~]# docker rm -f 46426330eacf
46426330eacf
[root@server2 ~]# docker run -it --rm --cap-add NET_ADMIN busybox
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip addr add 172.17.0.100/24 dev eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
    inet 172.17.0.100/24 scope global eth0
       valid_lft forever preferred_lft forever
/ # ip addr del 172.17.0.100/24 dev eth0
/ # ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue qlen 1000
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
38: eth0@if39: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
    link/ether 02:42:ac:11:00:02 brd ff:ff:ff:ff:ff:ff
    inet 172.17.0.2/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever
/ # [root@server2 ~]# 

[root@server2 ~]# docker ps
CONTAINER ID        IMAGE               COMMAND             CREATED              STATUS              PORTS               NAMES
8f5672b99d86        busybox             "sh"                About a minute ago   Up About a minute                       dazzling_brown
[root@server2 ~]# docker inspect 8f5672b99d86 |less


           "VolumesFrom": null,
            "CapAdd": [
                "NET_ADMIN"
            ],
            "CapDrop": null,
            "Capabilities": null,

  • docker安全的遗留问题
    主要的内核子系统都没有命名空间,如:
    SELinux
    cgroup
    在/sys下的文件系统
    /proc/sys, /proc/sysrq-trigger, /proc/irq, /proc/bus
    设备没有命名空间:
    /dev/mem
    /dev/sd*文件系统设备
    内核模块

  • 安全加固的思路
    保证镜像的安全,使用安全的基础镜像;
    删除镜像中的 setuid 和 setgid 权限;
    启用 Docker 的内容信任;最小安装原则;
    对镜像进行安全漏洞扫描,镜像安全扫描器:Clair
    容器使用非root用户运行。

4. 总结

  • 以上了解了 docker 的安全现状,虽然还是有很多没有完善的地方,但不能否认 docker 依然是当前最安全的容器技术。

Docker安全的顶尖开源工具:
Docker Bench for Security 对照安全基准审计Docker容器的脚本
Clair API驱动的静态容器安全分析工具,拥有庞大的CVE数据库
Cilium 内核层可感知API的网络和安全工具
Anchore 使用CVE数据和用户定义的策略检查容器安全的工具
OpenSCAP Workbench 用于为各种平台创建和维护安全策略的环境
Dagda 用于在Docker容器中扫描漏洞、特洛伊木马、病毒和恶意软件的工具
Notary 使用服务器加强容器安全的框架,用于以加密方式委派责任
Sysdig Falco 提供了行为活动监控,可深入了解容器

上一篇:g2o入门(一)曲线拟合


下一篇:DDD 领域驱动设计-谈谈 Repository、IUnitOfWork 和 IDbContext 的实践(转)