《C陷阱与缺陷》之1词法"陷阱"

编译器中负责将程序分解为一个一个符号的部分,一般称为"词法分析器"。在C语言中,符号之间的空白(包括空格符、制表符或换行符)将被忽略。

1、=不同于==

C语言使用符号"="作为赋值运算符,符号"=="作为比较。赋值运算相对比较运算出现得更频繁,因此字符较少的符号"="就被赋予了更常用的含义——赋值操作。C语言中赋值符号被作为一种操作符对待,因而重复进行赋值操作可以很容易地书写,并且赋值操作还可以被嵌入到更大的表达式中。

这种使用上的便利性可能导致一个潜在的问题:当程序员本意是作为比较运算时,却可能无意中误写成了赋值运算。
if (x = y) break;
该句本意是要检查x是否等于y,而实际上是将y的值赋给了x,然后检查该值是否为零。

while(c = ' ' || c == '\t' || c == '\n') c = getc(f);
由于程序员在比较' '和变量c时误将比较运算符"=="写成了赋值运算符"="。因为赋值运算符"="优先级要低于逻辑运算符"||",因此实际上是将以下表达式的值赋给了c
' ' || c == '\t' || c == '\n'
因为' '不等于0(ASCII值为32),那么无论变量c此前为何值,上述表达式求值的结果都是1,循环一直进行下去直到整个文件结束。

我们应该显式地进行比较,不应该简单关闭警告选项。
if (x = y) foo();
应该写作:
if ((x = y) == !0) foo();

如果把赋值运算符误写成比较运算符,同样会造成混淆:
if ((filedesc == open(argv[i], 0)) < 0) error();
因为比较运算表达式的值只有0或者1,因此(filedesc == open(argv[i], 0))的值永远只会是01,不可能<0而执行到error()函数。

    

2、&和|不同于&&和||

 C语言中很容易将按位运算&与逻辑运算符&&,或者将按位或|与逻辑运算符||调换。

3、词法分析中的"贪心法"

 C语言中的符号,例如"/"、"*"、"="只有一个字符长,称为单字符符号;例如"/*"、"=="以及标识符包含多个字符,称为多字符符号。当C编译器读入一个字符'/'后又跟了一个'*',那么编译器就必须作出判断:是将其作为2个分别的符号对待,还是合起来作为一个符号对待。C语言对这个问题的解决方案可以归纳成一个简单的规则:每一个符号应该包含尽可能多的字符。也就是说,编译器将程序分解成符号的方法是,从左到右一个字符一个字符读入,如果该字符可能组成一个符号,那么再读入下一个字符,判断已经读入的2个字符组成的字符串是否可能是一个符号的组成部分;如果可能,继续读入下一个字符,重复上述判断,直到读入的字符组成的字符串已不再可能组成一个有意义的符号。这个处理策略叫做"贪心法"。

举例:
表达式a---ba -- - b含义相同,与a - -- b含义不同。
y = x/*p
本意是用x除以p所指向的值,把所得的商再赋给y;实际上,/*被编译器理解为一段注释的开始,编译器将不断读入字符,直到*/出现为止。
y = x / *p /* p指向除数 */
或者更加清楚一点,写作:
y = x/(*p)
这样得到的实际效果才是语句注释所表示的原意。

4、整型常量

 如果一个整数常量的第一个字符是数字0,那么该常量将被视为八进制。因此,10和010的含义是截然不同。

5、字符与字符串

C语言中的单引号和双引号含义迥异,在某些情况下如果把2者弄混,编译器并不会检测报错,从而在运行时产生难以预料的结果。用单引号引起的一个字符实际代表一个整数;用双引号引起来的字符串代表的却是一个指向无名数组起始字符的指针,该数组被双引号之间的字符以及一个额外的二进制为0的字符'\0'初始化。

例如:
char *slash = '\';
在编译时将会生成一个错误信息,因为'\'并不是一个字符指针。然而,某些C编译器对函数参数并不进行类型检查,特别是printf函数的参数。

上一篇:【编程】如何提高代码可读性、可维护性


下一篇:GO worker pool