学内嵌汇编首先知道编译器的编译流程,内嵌汇编就是嵌套在高级程序语言中的汇编语言。在cpp 文件转成 .s 汇编文件时,内嵌汇编保持不动,只有高级程序语言会编译成汇编合成在.s文件中。下面的链接将了C的源码是怎么变成汇编码:
《Linux C:汇编码的生成 》https://blog.csdn.net/superSmart_Dong/article/details/115920429
目录
一、基本汇编
基本汇编就是纯汇编语言,而扩展汇编在基本汇编上加了些功能,例如可用占位符实现从C程序中向内嵌汇编中传递/输出变量值,而不用去分析当前代码的堆栈结构。也可以不用关心具体用哪些寄存器合适。先来看看基本的内嵌汇编
int main(){
int aaa = 1 ,bbb=2;
__asm__ __volatile__ (
"movl $88,-12(%ebp) \n\t"
"movl $66,-16(%ebp) \n\t"
);
cout<<aaa<<" "<<bbb; //输出 88 66
return 0;
}
内嵌汇编用 asm() 关键字来表明括号内写的是汇编码,每段汇编码当用字符串引号来引起来,在编译时直接套在编译后的汇编文件中。由于计算机的原因,大多数系统用换行符作为汇编语言一条语句的结束符,而有些系统用分号';'表示,而也有些系统的分号是作为注释符号。所以每个系统下的汇编语言语法可能并不统一。
在上述代码的汇编代码块中,%ebp 表示 ebp寄存器中对应的内存地址,而-12(%ebp)表示ebp寄存器中对应的内存地址再往低地址偏移12个字节。在我的系统中该地址对应的变量是aaa的地址值。上段代码在我的WINDOWS上可以正常执行而在我的Linux上执行会出现段错误,代码要改成如下方式才有同样的效果。之所以无法兼容,是因为每个系统编译出来的堆栈情况可能会不一样,用的寄存器也不一样。
#include "iostream"
using namespace std;
int main(){
int aaa = 1 ,bbb=2;
__asm__ __volatile__ (
"movl $88,-8(%rbp) \n\t"
"movl $66,-4(%rbp) \n\t"
);
cout<<aaa<<" "<<bbb;
return 0;
}
对应的汇编码
.....
pushq %rbp
movq %rsp, %rbp
subq $16, %rsp
movl $1, -8(%rbp)
movl $2, -4(%rbp)
#APP
# 9 "main.cpp" 1
movl $88,-8(%rbp)
movl $66,-4(%rbp)
# 0 "" 2
#NO_APP
movl -8(%rbp), %eax
movl %eax, %esi
.....
可以看出不同系统下的寄存器可能不同,例如fp,bp,ebp,rbp都是不同系统下功能类似的寄存器。也可以看出堆栈情况的表达方式也和WINDOWS下的不一样了。基本内嵌汇编可以写在函数体外部,但在不同系统的寄存器,汇编语法,堆栈分配情况不一样,用相同代码的兼容性问题就要考虑非常多,并且操作起来也十分的不方便。扩展内嵌汇编有些许的改善,虽然它必须写在C的函数体中。
二、扩展汇编
asm asm-qualifiers ( AssemblerTemplate
: OutputOperands
: InputOperands
: Clobbers
: GotoLabels
)
asm-qualifiers : __volatile__修饰词就不需要多讲了,不加volatile 编译器会帮你优化一些操作,删除一些没用的代码。 goto修饰词,用来配合内容中的GotoLabel
在小括号内的文本如果发现冒号‘:’则该语句块视为扩展汇编。内容由5部分组成:
1)用来写代码的汇编代码模板 AssemblerTemplate,
2)替换掉代码中的占位符的输出变量OutputOperands,
3)替换掉代码中的占位符的输入变量 InputOperands ,
4)排除掉InputOperands 和OutputOperands 中自动匹配寄存器规则中的寄存器集合。
5)GotoLabels,替换掉代码中的跳转标签,通常用“ %l ” 开头
看看下述代码:
int test(){ cout<<" test call \t";return 20;}
int main(){
int aaa = 1 ,bbb=2;
__asm__ __volatile__ (
"popl %%eax \n\t"
"pushl %[asmlabel] \n\t"
"call *%2 \n\t"
"movl %1 ,%0\n\t"
:"=rm" (aaa)
:"r" (bbb),"b"(test),[asmlabel]"A"(2)
:"%eax"
);
cout<<aaa<<" "<<bbb;
return 0;
}
1)占位符和操作数变量:
扩展汇编从输出操作数,输入操作数,gotolabel中去替代asm依次代码中的占位符,从%0开始。 "=r" (aaa) 替代了 %0 , "r"(bbb)替代了%1 , “b”(test)替代了 %2 , “A”(2)替代了%3...依次类推。用占位符实现代码块外部向asm内部传递值。如果觉得数数字麻烦,可以给操作数命名一个变量,用%[操作数变量名] 来代替占位符中的部分。
2)输出操作数:
格式为 [操作数变量] “约束”(变量值)。操作数变量,这个可缺省。何为约束?由于汇编命令通常需要用寄存器或者内存地址来进行运算,而不是变量名。所以当C程序向asm内部传递数值时,需要指明该变量用哪些寄存器或者内存去存放这个值。其中 “r”代表寄存器的泛型,“m”代表内存的泛型, “rm”就是从寄存器或者内存中挑出任意一个来存储变量值。输出操作数的约束必须要有前缀,前缀有两种,“=”代表asm的操作会覆盖原先的变量值(相当于引用传递),“+”单纯的读写寄存器或内存,不去主动覆盖原来的变量值。当然,原先变量存在寄存器中,结果asm把该寄存器的原数据丢失则另说。
3)输入操作数:
格式为 [操作数变量] “约束”(表达式)。操作数变量稍后再讲,这个可缺省。它没有"+"或者“=”这样的前缀。只负责传值。
4)Clobbers:
在输出/输入操作数中如果存在泛型,则Clobbers的作用就是编译器在挑选具体的寄存器时,将Clobbers中的寄存器列表排除在挑选规则之外。例如上述程序指定了“%eax” 那么, 在输出/输入操作数 中的 "r" 就不会去选择 eax寄存器了。
5)GotoLabel:
由于ASM语句块中看不见其他块中的Label标签,标签名可能会在编译中发生变化。所以直接在基础汇编代码中直接写标签名会造成标签名不一致情况。gcc可以对列出的标签集合,实现C程序和Asm之间的跳转。
int main(){
int aaa = 1 ,bbb=2;
__asm__ __volatile__ goto(
"cmp %1,%0 \n\t"
"jne %l2"
: //goto不可以由输出操作数
:"r"(aaa),"r"(bbb)
:"cc"
:Lable
);
cout<<"adadadada\n";
Lable:
cout<<aaa<<" "<<bbb;
return 0;
}
三、扩展汇编的转义
由于%被当成占位符去用了。如果想直接引用寄存器,那么需要输出两个“%”
扩展汇编符 | 对应的基本汇编符 |
%% | % |
%= | = |
%{ | { |
%| | | |
%} | } |
四、多汇编方言模板
之前说过,因为每个机器上的汇编语法可能会不一样。所以可以提供多种模板给编译器挑选。模板的非共同部分用花括号括起来{} ,每个模板直接用竖线"|"分割。 例如
// 等价的intel 写法
__asm__ __volatile__ (
....
"bt %[Base],%[Offset] \n\t"
...
);
//att写法
__asm__ __volatile__ (
....
"btl %[Offset], %[Base] \n\t"
...
);
//合并起来就是
__asm__ __volatile__ (
....
"bt {l %[Offset],%[Base] | %[Base],%[Offset]} \n\t"
...
);
五、常用的操作数类型
代码 | 操作数 |
m | 任意内存 |
r | 任意寄存器 |
i | 整数立即数 |
E | float立即数 |
o | 可偏移的内存地址,通常与'<'或'>' 搭配,m的子集 |
V | 不可偏移的内存地址,即偏移地址后访问不合法的内存地址。m的子集 |
g | 常用寄存器,内存,整数立即数 |
X | 任何操作数 |
六、给C代码命名一个asm汇编变量名
命名方式是在声明后 加上 asm("asm变量名")的形式进行命名。而命名必须是全局或者静态的.声明完后,就可以asm代码中直接访问变量名。
#include "iostream"
using namespace std;
int test()asm("test");
int test()
{ cout<<" test call \t";return 20;}
int main(){
static int aaa asm("myvar") = 1;
int bbb=2;
__asm__ __volatile__ (
"call test \n\t"
"movl %1 ,%0 \n\t" //movl $2, %r
"add $10,%0 \n\t" //add $10,%r ,此时寄存器值为12
"movl %0,myvar\n\t" // 此时 myvar 的内存值是12
"add myvar,%0" // add myvar,%0 , 此时寄存器值是24,内存值是12
:"=r" (aaa) //执行完模板后,%0对应的寄存器替换成aaa,值为24
:"r" (bbb),"r0"(test),[asmlabel]"A"(3)
:"%eax"
);
cout<<aaa<<" "<<bbb; //24 2
return 0;
}