进程在Linux内核中的角色扮演

2022-09-20 14:01:02

在Linux内核中，内核将进程、线程和内核线程一视同仁，即内核使用唯一的数据结构task_struct来分别表示他们；内核使用相同的调度算法对这三者进行调度；并且内核也使用同一个函数do_fork()来分别创建这三种执行线程（thread of execution）。执行线程通常是指任何正在执行的代码实例，比如一个内核线程，一个中断处理程序或一个进入内核的进程。

这样处理无疑是简洁方便的，并且内核在统一处理这三者之余并没有失去他们本身所具有的特性。本文将结合进程、线程和内核线程的特性浅谈进程在内核中的角色扮演问题。

1.进程描述符task_struct的多角色扮演

上述三种执行线程在内核中都使用统一的数据结构task_struct来表示。task_struct结构即所谓的进程描述符，它包含了与一个进程相关的所有信息。进程描述符中不仅包含了许多描述进程属性的字段，而且还有一系列指向其他数据结构的指针。下面将简单介绍进程描述符中几个比较特殊的字段，它们分别指向代表进程所拥有的资源的数据结构。

mm字段：指向mm_struct结构的指针，该类型用来描述进程整个的虚拟地址空间。

fs字段：指向fs_struct结构的指针，该类型用来描述进程所在文件系统的根目录和当前进程所在的目录信息。

files字段：指向files_struct结构的指针，该类型用来描述当前进程所打开文件的信息。

signal字段：指向signal_struct结构（信号描述符）的指针，该类型用来描述进程所能处理的信号。

对于普通进程来说，上述字段分别指向具体的数据结构以表示该进程所拥有的资源。

对应每个线程而言，内核通过轻量级进程与其进行关联。轻量级进程之所轻量，是因为它与其他进程共享上述所提及的进程资源。比如进程A创建了线程B，则B线程会在内核中对应一个轻量级进程。这个轻量级进程很自然的对应一个进程描述符，只不过B线程的进程描述符中的某些代表资源指针会和A进程中对应的字段指向同一个数据结构，这样就实现了多线程之间的资源共享。

由于内核线程只运行在内核态，并且只能由其他内核线程创建，所以内核线程并不需要和普通进程那样的独立地址空间。因此内核线程的进程描述符中的mm指针即为NULL。内核线程是否共享父内核线程的某些资源，则通过向内核线程创建函数kernel_thread()传递参数来决定。

通过上面的分析可以发现，内核中使用统一的进程描述符来表示进程、线程和内核线程，根据他们不同的特性，其进程描述符中某些代表资源的字段的指向会有所不同，以实现扮演不同角色。

2. do_fork()的多角色扮演

进程、线程以及内核线程都有对应的创建函数，不过这三者所对应的创建函数最终在内核都是由do_fork()进行创建的，具体的调用关系图如下：

从图中可以看出，内核中创建进程的核心函数即为看do_fork()，该函数的原型如下：

long do_fork(unsigned long clone_flags,
                   unsigned long stack_start,
                   struct pt_regs *regs,
                   unsigned long stack_size,
                   int __user *parent_tidptr,
                   int __user *child_tidptr)

该函数的参数个数是固定的，每个参数的功能如下：

clone_flags：代表进程各种特性的标志。低字节指定子进程结束时发送给父进程的信号代码，一般为SIGCHLD信号，剩余三个字节是若干个标志或运算的结果。

stack_start：子进程用户态堆栈的指针，该参数会被赋值给子进程的esp寄存器。

regs：指向通用寄存器值的指针，当进程从用户态切换到内核态时通用寄存器中的值会被保存到内核态堆栈中。

stack_size：未被使用，默认值为0。

parent_tidptr：该子进程的父进程用户态变量的地址，仅当CLONE_PARENT_SETTID被设置时有效。

child_tidptr：该子进程用户态变量的地址，仅当CLONE_CHILD_SETTID被设置时有效。

既然进程、线程和内核线程在内核中都是通过do_fork()完成创建的，那么do_fork()是如何体现其功能的多样性？其实，clone_flags参数在这里起到了关键作用，通过选取不同的标志，从而保证了do_fork()函数实现多角色——创建进程、线程和内核线程——功能的实现。clone_flags参数可取的标志很多，下面只介绍几个与本文相关的标志。

CLONE_VIM：子进程共享父进程内存描述符和所有的页表。

CLONE_FS：子进程共享父进程所在文件系统的根目录和当前工作目录。

CLONE_FILES：子进程共享父进程打开的文件。

CLONE_SIGHAND：子进程共享父进程的信号处理程序、阻塞信号和挂起的信号。使用该标志必须同时设置CLONE_VM标志。

如果创建子进程时设置了上述标志，那么子进程会共享这些标志所代表的父进程资源。

2.1 进程的创建

在用户态程序中，可以通过fork()、vfork()和clone()三个接口函数创建进程，这三个函数在库中分别对应同名的系统调用。系统调用函数通过128号软中断进入内核后，会调用相应的系统调用服务例程。这三个函数对应的服务历程分别是sys_fork()、sys_vfork()和sys_clone()。

int sys_fork(struct pt_regs *regs)
   {
            return do_fork(SIGCHLD, regs->sp, regs, 0, NULL, NULL);
   }

int sys_vfork(struct pt_regs *regs)
   {
            return do_fork(CLONE_VFORK | CLONE_VM | SIGCHLD, regs->sp, regs, 0,
                           NULL, NULL);
   }

   long   sys_clone(unsigned long clone_flags, unsigned long newsp,
              void __user *parent_tid, void __user *child_tid, struct pt_regs *regs)
   {
            if (!newsp)
                    newsp = regs->sp;
            return do_fork(clone_flags, newsp, regs, 0, parent_tid, child_tid);
   }

通过上述系统调用服务例程的源码可以发现，三个服务历程内部都调用了do_fork()，只不过差别在于第一个参数所传的值不同。这也正好导致由这三个进程创建函数所创建的进程有不同的特性。下面对每种进程作以简单说明。

fork()：由于do_fork()中clone_flags参数除了子进程结束时返回给父进程的SIGCHLD信号外并无其他特性标志，因此由fork()创建的进程不会共享父进程的任何资源。子进程会完全复制父进程的资源，也就是说父子进程相对独立。不过由于写时复制技术（Copy On Write，COW）的引入，子进程可以只读父进程的物理页，只有当两者之一去写某个物理页时，内核此时才会将这个页的内容拷贝到一个新的物理页，并把这个新的物理页分配给正在写的进程。

vfork()：do_fork()中的clone_flags使用了CLONE_VFORK和CLONE_VM两个标志。CLONE_VFORK标志使得子进程先于父进程执行，父进程会阻塞到子进程结束或执行新的程序。CLONE_VM标志使得子进程共享父进程的内存地址空间（父进程的页表项除外）。在COW技术引入之前，vfork()适用子进程形成后立马执行execv()的情形。因此，vfork()现如今已经没有特别的使用之处，因为写实复制技术完全可以取代它创建进程时所带来的高效性。

clone()：clone通常用于创建轻量级进程。通过传递不同的标志可以对父子进程之间数据的共享和复制作精确的控制，一般flags的取值为CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND。由上述标志可以看到，轻量级进程通常共享父进程的内存地址空间、父进程所在文件系统的根目录以及工作目录信息、父进程当前打开的文件以及父进程所拥有的信号处理函数。

2.2 线程的创建

每个线程在内核中对应一个轻量级进程，两者的关联是通过线程库完成的。因此通过pthread_create()创建的线程最终在内核中是通过clone()完成创建的，而clone()最终调用do_fork()。

2.3 内核线程的创建

一个新内核线程的创建是通过在现有的内核线程中使用kernel_thread()而创建的，其本质也是向do_fork()提供特定的flags标志而创建的。

int kernel_thread(int (*fn)(void *), void *arg, unsigned long flags)
   {
           /*some register operations*/
            return do_fork(flags | CLONE_VM | CLONE_UNTRACED, 0, &regs, 0, NULL, NULL);
   }

从上面的组合的flag可以看出，新的内核线程至少会共享父内核线程的内存地址空间。这样做其实是为了避免赋值调用线程的页表，因为内核线程无论如何都不会访问用户地址空间。CLONE_UNTRACED标志保证内核线程不会被任何进程所跟踪，

3. 进程的调度

由于进程、线程和内核线程使用统一数据结构来表示，因此内核对这三者并不作区分，也不会为其中某一个设立单独的调度算法。内核将这三者一视同仁，进行统一的调度。

参考资料：

1. 深入理解Linux内核

2. Linux内核设计与实现

码农公寓