Linux内核分析——可执行程序的装载

2023-08-08 15:36:34

链接的过程

目标文件有三种形式：
- 可重定位的目标文件
- 可执行目标文件
- 共享目标文件
ELF格式的可重定位目标文件的结构如下：
.text:已编译程序的机器代码
.rodata:只读数据
.data：已初始化的全局C变量
.bss:未初始化的全局C变量.在目标文件中这个节不占实际空间,仅是一个占位符.
.sysmtab:一个符号表,存放在程序中被定义和引用的函数和全局变量的信息.
.rel.text:当链接器把这个目标文件和其他文件结合时,.text节中的许多位置都需要修改.一般而言,任何调用外部函数或者引用全局变量的指令都要修改.另一个方面,调用本地函数的指令则不需要修改.
.rel//.data:被模块定义或引用的任何全局变量的信息.
.debug:一个调试符号表
.line:原始C源程序中的行号和.text节中机器指令之间的映射.
.strtab:一个字符串表,其中内容包括.symtab和.debug节中的符号表,以及节头部中的节名字.
可以通过readelf -h process查看的ELF文件的头部信息

通过shell程序调用execve将命令行参数和环境参数传递给可执行程序的main函数中。而后execve在创建新的用户态堆栈时，则将main函数中参数压入堆栈中。最终执行sys_execve来真正实现在系统下参数的传递。
当新的可执行文件被调用的时候，则旧的可执行文件所占有的空间会被新的可执行文件所占用，从而execve返回时，返回的并非为旧的可执行文件所产生的数据，而是新加载进来的可执行文件的返回数据，从而使新的可执行文件可以被执行。

在用户态中调用execve(),引发系统中断，在内核态中执行对应的函数sys_execve
sys_execve函数调用do_execve函数，该函数会读入可执行文件。
接下来系统会调用search_binary_handler，根据可执行文件的类型查找到相应的处理函数。根据每种文件创建一个struct linux_binfmt的结构体，并将其连接到一个链表智商，执行时候系统就会遍历这个链表，从而找到相应的结构。
从而调用对应的load_binary函数开始加载可执行文件。
系统是通过load_elf_binary来加载elf类型的可执行文件。该函数会先读入ELF文件的头部，根据ELF文件的头部信息读入各种数据。
如果存在动态链接库，则需要将动态链接映射到共享区域之中。此时就需要使用load_elf_interp来加载映像，并把返回的入口地址设置为load_elf_interp的动态链接器的入口
如下图所示：

使用gdb跟踪sys_execve内核函数的处理过程，分析exec*函数对应的系统调用处理过程，理解Linux内核如何装载和启动一个可执行程序。

sys_execve() -> do_execve() -> do_execve_common() -> exec_binprm() -> search_binary_handler() -> load_elf_binary() -> start_thread()

池彬宁 + 原创作品转载请注明出处 + 《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000