对C语言中static的理解

对C语言中的static关键字的深入理解

在一次面试的时候面试官问我static全局变量与全局变量的区别,之前虽然用过但是并没仔细去搞懂他,这次来细心的学习一下。

基本概念

使用static有三种情况:

  • 函数内部static变量
  • 函数外部static变量
  • static函数

函数内部的static变量,关键在于生命周期持久,他的值不会随着函数调用的结束而消失,下一次调用时,static变量的值,还保留着上次调用后的内容。

函数外部的static变量,以及static函数,关键在于私有性,它们只属于当前文件,其它文件看不到他们。例如:

/* test_static1.c */
#include <stdio.h> void foo() {
} static void bar() {
} int i = ;
static int j = ; int main(void){
printf ("%d \n", i);
printf ("%d \n", j);
return ;
}
/* test_static2.c */
void foo() {
} static void bar() {
} int i = ;
static int j = ;

将两个文件一起编译

gcc test_static1.c test_static2.c -o test_static

编译器会提示:

/tmp/ccuerF9V.o: In function `foo':
test_static2.c:(.text+0x0): multiple definition of `foo'
/tmp/cc9qncdw.o:test_static1.c:(.text+0x0): first defined here
/tmp/ccuerF9V.o:(.data+0x0): multiple definition of `i'
/tmp/cc9qncdw.o:(.data+0x0): first defined here
collect2: ld returned exit status

把与非static变量i相的语句注释掉就不会有此提示i重复定义了,原因就在于使用static声明后,变量私有化了,不同文件中的同名变量不会相互chong_tu。

static 函数也与此类似,将函数声明为static,说明我们只在当前文件中使用这个函数,其它文件看不到,即使重名,也不会相互chong_tu。

深入理解

作为一名程序员我们就不应该仅仅满足于了解现象,还要了解现象的背后有什么

为什么函数内部的static变量和普通函数变量生命周期不一样

我们的程序,从源代码经过编译,链接生成了可执行文件,可执行文件被加载到存储器中,然后执行。以Linux程序为例,每个Linux程序都有一个运行时存储器映像。可以理解为程序运行时,存储器中的数据分布。

对C语言中static的理解

图1 Linux运行时存储器映像

当程序运行时,操作系统会创建用户栈(User stack),一个函数被调用时,它的参数,局部变量,返回地址等等,都会被压入栈中,当函数执行结束后,这些数据就会被其它函数使用,所以函数调用结束后,局部变量的值不会被保持。我们将此区域放大,可以看到用户栈中都有哪些内容。

对C语言中static的理解

图2 栈帧结构

而static变量与普通局部变量不同,它不是保留在栈中。注意图一中,有一块区域,"Loaded from executable file",其中有一块 .data, .bss区,static变量会被存储在这里,所以函数调用结束后,static变量的值仍然会得到保留。而 .data, .bss区,executable file,与程序的编译,链接,相关。

首先,多个源代码会分别被编译成可重定位目标程序,然后链接器会最终生成可执行目标程序。可重定位目标程序的结构如图3所示,可以看出,此时,.data, .bss区,已经出现。

对C语言中static的理解

图3 可重定位目标程序

.data 区存储已经初始化的全局C变量,.bss 区存储没有初始化的全局C变量,所以这两个区域又被称为全局区。而编译器会为每个static变量在.data或者.bss中分配空间。

可执行目标程序的结构如图4所示

对C语言中static的理解

图4 可执行目标程序

将图4与图1比较,就会发现,可执行目标程序的一部分被加载到存储器中,这就是"Loaded from executable file"的来源。

另外,从图一中,也可以看出,使用malloc分配的内存空间,与函数局部变量,static变量的不同。

为什么函数外部的static变量及static函数只对文件内部可见

要解释这个问题,我们首先要理解问题本身。这个问题的本质其实是,当我们遇到一个变量或者函数时,我们去哪里寻找它,static变量/函数与普通变量/函数的寻找方式有什么不同。

我们回到刚才的例子,这一次,仔细地观察编译链接时的提示信息:

/* test_static1.c */
#include <stdio.h> void foo() {
} static void bar() {
} int i = ;
static int j = ; int main(void){
printf ("%d \n", i);
printf ("%d \n", j);
return ;
}
/* test_static2.c */
void foo() {
} static void bar() {
} int i = ;
static int j = ;

将两个文件一起编译

gcc test_static1.c test_static2.c -o test_static

编译器会提示:

/tmp/ccuerF9V.o: In function `foo':
test_static2.c:(.text+0x0): multiple definition of `foo'
/tmp/cc9qncdw.o:test_static1.c:(.text+0x0): first defined here
/tmp/ccuerF9V.o:(.data+0x0): multiple definition of `i'
/tmp/cc9qncdw.o:(.data+0x0): first defined here
collect2: ld returned exit status

  你会发现,虽然我们只用了一条命令对两个文件进行编译链接,但是,实际上,两个源文件是被分别编译成/tmp/ccuerF9V.o及/tmp/cc9qncdw.o,并且,错误并不是出现在编译时,而是出现在链接时,链接器ld返回了1。链接是把两个可重新定位的目标程序,组合在一起,组合的时候,我们发现了变量i及函数foo的定义出现chong_tu。而声明为static的变量j及函数bar并没有提示chong_tu。

  这说明,在ld进行链接时,需要进行某种检查,去发现chong_tu。ld的输入是每个源文件生成的可重定位目标文件,那么这些目标文件里一定会有一些信息,告诉ld它们有什么变量,然后ld才能检查是不是有chong_tu。

  说起可重定位目标文件,我们一直都没有解释为什么要重定位。其实这很好理解,一个源文件编译后,如果生成的目标文件中,各个地址就是最终运行时的地址,那么这些地址很可能会和其它文件中的地址chong_tu。因为编译一个文件时,我们不会知道有其它文件的存在,所以编译时无法确定最终的地址。因此,编译单个文件时,生成的目标文件中的地址都是从0开始,链接时,链接器会将不同目标文件中的地址重新定位,最终生成可执行文件。注意这里的chong_tu和前面说的chong_tu不是一回事,这里的chong_tu是不同的可重定位目标文件中相同地址的chong_tu,前面一段讲的是同名变量之间的chong_tu。

此时,我们不得不回到可重定位目标文件的格式。

对C语言中static的理解

图3 可重定位目标程序

注意 .symtab节,这个节存储符号表,假设当前可重定位目标模块为m, 符号表会告诉我们m中定义和引用的符号信息,主要分为:

  • m定义,并可以被其它模块引用的全局符号:m中的非static函数,非static全局变量。
  • 由其它模块定义,并被m引用的全局符号:m中使用extern声明的变量
  • 只被m引用的本地符号:m中的static函数,static全局变量。

现在编译一下,然后用GNU READELF工具看一下符号表。

    $ gcc -c test_static1.c -o test_static1.o
$ readelf -s test_static1.o
Symbol table '.symtab' contains  entries:
Num: Value Size Type Bind Vis Ndx Name
: NOTYPE LOCAL DEFAULT UND
: FILE LOCAL DEFAULT ABS test_static1.c
: SECTION LOCAL DEFAULT
: SECTION LOCAL DEFAULT
: SECTION LOCAL DEFAULT
: FUNC LOCAL DEFAULT bar
: OBJECT LOCAL DEFAULT j
: SECTION LOCAL DEFAULT
: SECTION LOCAL DEFAULT
: SECTION LOCAL DEFAULT
: SECTION LOCAL DEFAULT
: FUNC GLOBAL DEFAULT foo
: OBJECT GLOBAL DEFAULT i
: 0000000a FUNC GLOBAL DEFAULT main
: NOTYPE GLOBAL DEFAULT UND printf

表的数据结构不解释,有兴趣,看扩展阅读部分。

现在,假如你是链接器ld,我给你2个可重定位目标程序,你从中得到两个符号表,这时候,你就可以检查出两个符号表是否存在chong_tu了。

由于全局符号可能会定义相同的名字,链接器会有一套规则,来确定选择哪个符号。符号分为强符号与弱符号。

  • 强符号:函数和已经初始化的全局变量是强符号
  • 弱符号:未初始化的全局变量是弱符号

处理相同名字的全局符号的规则是:

  1. 不允许有多个强符号
  2. 如果有一个强符号,多个弱符号,那么选择强符号
  3. 如果有多个弱符号,那么从中任意选择一个

总结:

1.static全局变量与全局变量

  static 全局变量:只对本文件生效,可以使用,本工程其他文件不可见,不能使用。存放在全局数据区。

  全局变量:全局变量只要加上extern,则对本工程全部文件有效。

2.static局部变量与局部变量

  static局部变量:存放在全局数据区,只对本函数有效。

  局部变量:存放在局部数据区,只对本函数有效。

3.static函数与函数

  static函数:定义的函数只对本文件可见,对于本工程其他文件不可见,不可使用。

  函数:对于本工程都可以进行调用,只声明了此文件即可。

共同点:static声明一次,如果不改变那么static的值一直是初始化的值,如果在初始化的时候没有进行赋值,则系统默认赋0。这一次调用的值是上一次修改的值。

上一篇:如何在Java中避免equals方法的隐藏陷阱


下一篇:9.Python3标准库--数据压缩与归档