Linux C: 内嵌汇编语法

    学内嵌汇编首先知道编译器的编译流程,内嵌汇编就是嵌套在高级程序语言中的汇编语言。在cpp 文件转成 .s 汇编文件时,内嵌汇编保持不动,只有高级程序语言会编译成汇编合成在.s文件中。下面的链接将了C的源码是怎么变成汇编码:

    《Linux C:汇编码的生成 》https://blog.csdn.net/superSmart_Dong/article/details/115920429

目录

一、基本汇编

二、扩展汇编

1)占位符和操作数变量:

2)输出操作数:

3)输入操作数:

4)Clobbers:

5)GotoLabel:

三、扩展汇编的转义

四、多汇编方言模板

五、常用的操作数类型

六、给C代码命名一个asm汇编变量名


 

 

一、基本汇编

      基本汇编就是纯汇编语言,而扩展汇编在基本汇编上加了些功能,例如可用占位符实现从C程序中向内嵌汇编中传递/输出变量值,而不用去分析当前代码的堆栈结构。也可以不用关心具体用哪些寄存器合适。先来看看基本的内嵌汇编

int main(){
    int aaa = 1 ,bbb=2;
    __asm__ __volatile__ (
     "movl $88,-12(%ebp) \n\t"
     "movl $66,-16(%ebp) \n\t"
    );
    cout<<aaa<<"   "<<bbb;  //输出 88 66
    return 0;
}

        内嵌汇编用  asm() 关键字来表明括号内写的是汇编码,每段汇编码当用字符串引号来引起来,在编译时直接套在编译后的汇编文件中。由于计算机的原因,大多数系统用换行符作为汇编语言一条语句的结束符,而有些系统用分号';'表示,而也有些系统的分号是作为注释符号。所以每个系统下的汇编语言语法可能并不统一

        在上述代码的汇编代码块中,%ebp 表示 ebp寄存器中对应的内存地址,而-12(%ebp)表示ebp寄存器中对应的内存地址再往低地址偏移12个字节。在我的系统中该地址对应的变量是aaa的地址值。上段代码在我的WINDOWS上可以正常执行而在我的Linux上执行会出现段错误,代码要改成如下方式才有同样的效果。之所以无法兼容,是因为每个系统编译出来的堆栈情况可能会不一样,用的寄存器也不一样。

#include "iostream"
 using namespace  std;
int main(){
    int aaa = 1 ,bbb=2;
    __asm__ __volatile__ (
     "movl $88,-8(%rbp) \n\t"
     "movl $66,-4(%rbp) \n\t"
    );
    cout<<aaa<<"   "<<bbb;
    return 0;
}

对应的汇编码

        .....
        pushq   %rbp
        movq    %rsp, %rbp
        subq    $16, %rsp
        movl    $1, -8(%rbp)
        movl    $2, -4(%rbp)
#APP
# 9 "main.cpp" 1
        movl $88,-8(%rbp)
        movl $66,-4(%rbp)

# 0 "" 2
#NO_APP
        movl    -8(%rbp), %eax
        movl    %eax, %esi
        .....

    可以看出不同系统下的寄存器可能不同,例如fp,bp,ebp,rbp都是不同系统下功能类似的寄存器。也可以看出堆栈情况的表达方式也和WINDOWS下的不一样了。基本内嵌汇编可以写在函数体外部,但在不同系统的寄存器,汇编语法,堆栈分配情况不一样,用相同代码的兼容性问题就要考虑非常多,并且操作起来也十分的不方便。扩展内嵌汇编有些许的改善,虽然它必须写在C的函数体中。

二、扩展汇编

asm asm-qualifiers ( AssemblerTemplate
: OutputOperands
: InputOperands
: Clobbers
: GotoLabels
)

asm-qualifiers :  __volatile__修饰词就不需要多讲了,不加volatile 编译器会帮你优化一些操作,删除一些没用的代码。 goto修饰词,用来配合内容中的GotoLabel

在小括号内的文本如果发现冒号‘:’则该语句块视为扩展汇编。内容由5部分组成:

1)用来写代码的汇编代码模板 AssemblerTemplate,

2)替换掉代码中的占位符的输出变量OutputOperands,

3)替换掉代码中的占位符的输入变量 InputOperands ,

4)排除掉InputOperands 和OutputOperands 中自动匹配寄存器规则中的寄存器集合。

5)GotoLabels,替换掉代码中的跳转标签,通常用“ %l ” 开头

看看下述代码:

int  test(){ cout<<" test call \t";return  20;}
int main(){
    int aaa = 1 ,bbb=2;
    __asm__ __volatile__ (
    "popl %%eax \n\t"
    "pushl %[asmlabel]   \n\t"
    "call *%2   \n\t"
    "movl %1 ,%0\n\t"
    :"=rm" (aaa)
    :"r" (bbb),"b"(test),[asmlabel]"A"(2)
    :"%eax"
    );
    cout<<aaa<<"   "<<bbb;
    return 0;
}

1)占位符和操作数变量:

扩展汇编从输出操作数,输入操作数,gotolabel中去替代asm依次代码中的占位符,从%0开始。 "=r" (aaa) 替代了 %0 ,  "r"(bbb)替代了%1  ,  “b”(test)替代了 %2 , “A”(2)替代了%3...依次类推。用占位符实现代码块外部向asm内部传递值。如果觉得数数字麻烦,可以给操作数命名一个变量,用%[操作数变量名] 来代替占位符中的部分。

2)输出操作数:

格式为 [操作数变量] “约束”(变量值)。操作数变量,这个可缺省。何为约束?由于汇编命令通常需要用寄存器或者内存地址来进行运算,而不是变量名。所以当C程序向asm内部传递数值时,需要指明该变量用哪些寄存器或者内存去存放这个值。其中 “r”代表寄存器的泛型,“m”代表内存的泛型, “rm”就是从寄存器或者内存中挑出任意一个来存储变量值。输出操作数的约束必须要有前缀,前缀有两种,“=”代表asm的操作会覆盖原先的变量值(相当于引用传递),“+”单纯的读写寄存器或内存,不去主动覆盖原来的变量值。当然,原先变量存在寄存器中,结果asm把该寄存器的原数据丢失则另说。

3)输入操作数:

格式为 [操作数变量] “约束”(表达式)。操作数变量稍后再讲,这个可缺省。它没有"+"或者“=”这样的前缀。只负责传值。

4)Clobbers:

在输出/输入操作数中如果存在泛型,则Clobbers的作用就是编译器在挑选具体的寄存器时,将Clobbers中的寄存器列表排除在挑选规则之外。例如上述程序指定了“%eax” 那么, 在输出/输入操作数 中的 "r" 就不会去选择 eax寄存器了。

5)GotoLabel:

 由于ASM语句块中看不见其他块中的Label标签,标签名可能会在编译中发生变化。所以直接在基础汇编代码中直接写标签名会造成标签名不一致情况。gcc可以对列出的标签集合,实现C程序和Asm之间的跳转。

int main(){
    int aaa = 1 ,bbb=2;
    __asm__  __volatile__  goto(
     "cmp  %1,%0 \n\t"
     "jne  %l2"
     :                        //goto不可以由输出操作数
     :"r"(aaa),"r"(bbb)
     :"cc"
     :Lable
    );
    cout<<"adadadada\n";
    Lable:
    cout<<aaa<<"   "<<bbb;
    return 0;
}

 

三、扩展汇编的转义

     由于%被当成占位符去用了。如果想直接引用寄存器,那么需要输出两个“%”

扩展汇编符 对应的基本汇编符
%% %
%= =
%{ {
%| 

|

%} }

四、多汇编方言模板

之前说过,因为每个机器上的汇编语法可能会不一样。所以可以提供多种模板给编译器挑选。模板的非共同部分用花括号括起来{} ,每个模板直接用竖线"|"分割。   例如

 // 等价的intel 写法
    __asm__ __volatile__ (
     ....
    "bt %[Base],%[Offset] \n\t"
     ...
    );

//att写法
   __asm__ __volatile__ (
     ....
    "btl %[Offset], %[Base] \n\t"
     ...
    );

//合并起来就是
 __asm__ __volatile__ (
     ....
    "bt {l %[Offset],%[Base] | %[Base],%[Offset]} \n\t"
     ...
);

五、常用的操作数类型

 

代码

操作数

m 任意内存
r

任意寄存器

i 整数立即数
E float立即数
o 可偏移的内存地址,通常与'<'或'>' 搭配,m的子集
V 不可偏移的内存地址,即偏移地址后访问不合法的内存地址。m的子集
g 常用寄存器,内存,整数立即数
X 任何操作数

 

六、给C代码命名一个asm汇编变量名

     命名方式是在声明后 加上 asm("asm变量名")的形式进行命名。而命名必须是全局或者静态的.声明完后,就可以asm代码中直接访问变量名。

#include "iostream"
using namespace  std;
int  test()asm("test");
int  test()
{ cout<<" test call \t";return  20;}
 int main(){
    static  int aaa asm("myvar") = 1;
    int bbb=2;
    __asm__ __volatile__ (
    "call test \n\t"      
    "movl %1 ,%0 \n\t"   //movl  $2, %r
    "add  $10,%0 \n\t"   //add  $10,%r    ,此时寄存器值为12
    "movl %0,myvar\n\t"  // 此时 myvar 的内存值是12
    "add  myvar,%0"      // add  myvar,%0  , 此时寄存器值是24,内存值是12
    :"=r" (aaa)          //执行完模板后,%0对应的寄存器替换成aaa,值为24
    :"r" (bbb),"r0"(test),[asmlabel]"A"(3)
    :"%eax"
    );
    cout<<aaa<<"   "<<bbb;    //24  2
    return 0;
}

 

上一篇:Java ASM系列一:Core API


下一篇:从0创建一个OS(十四) 裸内核框架