题记一:各大安全软件公司对此项技术可能都有一定的技术保密,在老东家也不例外,由于种种原因未能参与此项技术研发甚是遗憾,也未能接触到其源码,只能自行研究并与各位共享并探讨一下技术方案,所以在此也提醒各位,由于本文所述均为自己在有限机型上实验的结果,不保证对其他机型上的兼容性,也不保证可能引发的无限重启等技术风险。
题记二:谨以此文献给前同事huzhong、zhongjihong两位大牛,感谢二位对我技术上,尤其是Android Native方面的点拨!
随着Android设备上的隐私安全问题越来越被公众重视,恶意软件对用户隐私,尤其是对电话、短信等私密信息的威胁日益突出,各大主流安全软件均推出了自己的隐私行为监控功能,在root情况下能有效防止恶意软件对用户隐私的窃取,那么这背后的技术原理是什么?我带着疑问开始一步步探索,如果要拦截恶意软件对电话、短信等API的调用,在Java或者Dalvik层面是不好进行的,因为这些层面都没有提供Hook的手段,而在Native层面,我认为可行的方案是对电话、短信的运行库so进行Hook(比如系统运行库\system\lib\libreference-ril.so或\system\lib\libril.so),如果注入自己的so到上述进程后,并通过dlopen()和dlsym()获取原有API地址,替换原有API地址为自己so中的API地址就可以达到Hook的目的。
Hook的前提是进程注入,而Linux下最便捷的进程注入手段——ptrace,是大名鼎鼎的调试工具GDB的关键技术点;本文参考自Pradeep Padala于2002年的博文http://www.linuxjournal.com/article/6100(国内很多博客有这篇文章的译文,不过本着获取“一手”知识的想法,还是细读了原版英文,确实发现了一些翻译得不够到位的地方,在此还是推荐各位能读原文就不要读译文),由于02年时还是ia32(32位Intel Architecture)时代,时至今日,在我ia64也就是x64的机器已经无法运行了,所以自己动手实现了x64版本。代码主要功能是注入子进程的地址空间,Hook住子进程执行系统调用时的参数,并反转其参数,从而逆序输出ls命令的结果。
代码如下:(由于在vim编辑器下不方便用中文注释,所以源码中均为本人“中式”英语注释,囧,不过几个关键点我稍后用中文说明)
1 /* 2 ptrace3.c 3 author: pengyiming 4 description: 5 1, child process need be traced by father process 6 2, father process reserve the result of "ls" command which executed by child process 7 */ 8 9 #include <stdio.h> 10 #include <stdlib.h> 11 #include <string.h> 12 #include <sys/ptrace.h> 13 #include <sys/types.h> 14 #include <sys/wait.h> 15 #include <sys/reg.h> 16 #include <sys/user.h> 17 #include <sys/syscall.h> 18 #include <unistd.h> 19 20 #ifdef __x86_64__ 21 22 #define OFFSET_UNIT 8 23 24 #else 25 26 #define OFFSET_UNIT 4 27 28 #endif 29 30 // converter long to char[] 31 union 32 { 33 long rawData; 34 char strData[sizeof(long)]; 35 } converter; 36 37 void getData(pid_t child, unsigned long long dataAddr, unsigned long long dataLen, char * const p_data) 38 { 39 // PEEKDATA counter 40 int counter = 0; 41 // PEEKDATA max count 42 int maxCount = dataLen / sizeof(long); 43 if (dataLen % sizeof(long) != 0) 44 { 45 maxCount++; 46 } 47 // moving pointer 48 void * p_moving = p_data; 49 50 while (counter < maxCount) 51 { 52 memset(&converter, 0, sizeof(long)); 53 converter.rawData = ptrace(PTRACE_PEEKDATA, child, dataAddr + counter * sizeof(long), NULL); 54 if (converter.rawData < 0) 55 { 56 perror("ptrace peek data error : "); 57 } 58 59 memcpy(p_moving, converter.strData, sizeof(long)); 60 p_moving += sizeof(long); 61 counter++; 62 } 63 p_data[dataLen] = ‘\0‘; 64 } 65 66 void setData(pid_t child, unsigned long long dataAddr, unsigned long long dataLen, char * const p_data) 67 { 68 // POKEDATA counter 69 int counter = 0; 70 // POKEDATA max count 71 int maxCount = dataLen / sizeof(long); 72 // data left length (prevent out of range in memory when written) 73 int dataLeftLen = dataLen % sizeof(long); 74 // moving pointer 75 void * p_moving = p_data; 76 77 // write part of data which align to sizeof(long) 78 int ret; 79 while (counter < maxCount) 80 { 81 memset(&converter, 0, sizeof(long)); 82 memcpy(converter.strData, p_moving, sizeof(long)); 83 ret = ptrace(PTRACE_POKEDATA, child, dataAddr + counter * sizeof(long), converter.rawData); 84 if (ret < 0) 85 { 86 perror("ptrace poke data error : "); 87 } 88 89 p_moving += sizeof(long); 90 counter++; 91 } 92 93 // write data left 94 if (dataLeftLen != 0) 95 { 96 memset(&converter, 0, sizeof(long)); 97 memcpy(converter.strData, p_moving, dataLeftLen); 98 ret = ptrace(PTRACE_POKEDATA, child, dataAddr + counter * sizeof(long), converter.rawData); 99 if (ret < 0) 100 { 101 perror("ptrace poke data error : "); 102 } 103 } 104 } 105 106 void reverseStr(char * p_str) 107 { 108 int strLen = strlen(p_str); 109 char * p_head = p_str; 110 char * p_tail = p_str + strLen - 1; 111 char tempCh; 112 113 // skip ‘\n‘ 114 if (*p_tail == ‘\n‘) 115 { 116 p_tail--; 117 } 118 119 //exchange char 120 while (p_head < p_tail) 121 { 122 tempCh = *p_head; 123 *p_head = *p_tail; 124 *p_tail = tempCh; 125 126 p_head++; 127 p_tail--; 128 } 129 } 130 131 void debugRegs(struct user_regs_struct * p_regs ) 132 { 133 printf("syscall param DS = %llu\n", p_regs->ds); 134 printf("syscall param RSI = %llu\n", p_regs->rsi); 135 printf("syscall param ES = %llu\n", p_regs->es); 136 printf("syscall param RDI = %llu\n", p_regs->rdi); 137 138 printf("syscall return RAX = %llu\n", p_regs->rax); 139 printf("syscall param RBX = %llu\n", p_regs->rbx); 140 printf("syscall param RCX = %llu\n", p_regs->rcx); 141 printf("syscall param RDX = %llu\n", p_regs->rdx); 142 } 143 144 int main() 145 { 146 pid_t child = fork(); 147 if(child == 0) 148 { 149 ptrace(PTRACE_TRACEME, 0, NULL, NULL); 150 151 // make a syscall(SYS_write) 152 execl("/bin/ls", "ls", NULL); 153 } 154 else 155 { 156 int status; 157 // SYS_write will be called twice, one is entry, another is exit, so we mark it 158 unsigned int calledCount = 0; 159 160 while (1) 161 { 162 wait(&status); 163 if (WIFEXITED(status)) 164 { 165 break; 166 } 167 168 // PEEK regs to find the syscall(SYS_execve) 169 struct user_regs_struct regs; 170 ptrace(PTRACE_GETREGS, child, NULL, ®s); 171 172 // catch it! 173 if (regs.orig_rax == SYS_write) 174 { 175 if (calledCount == 0) 176 { 177 calledCount = 1; 178 179 // debugRegs(®s); 180 181 char * p_dataStr = (char *) malloc((regs.rdx + 1) * sizeof(char)); 182 if (p_dataStr == NULL) 183 { 184 return; 185 } 186 187 getData(child, regs.ds * OFFSET_UNIT + regs.rsi, regs.rdx, p_dataStr); 188 reverseStr(p_dataStr); 189 setData(child, regs.ds * OFFSET_UNIT + regs.rsi, regs.rdx, p_dataStr); 190 } 191 else if (calledCount == 1) 192 { 193 // debugRegs(®s); 194 } 195 } 196 197 ptrace(PTRACE_SYSCALL, child, NULL, NULL); 198 } 199 } 200 201 return 0; 202 }
代码执行结果:
可以看到工程目录下的文件名均被反转输出,已达到想要的效果,那么接下来解释代码中的几个关键点:
1,SYSCALL与orig_rax寄存器
不论是ia32还是ia64,orig_rax寄存器都存放着每一次系统调用的ID,为了方便开发和调试,我们可以在/usr/include/x86_64-linux-gnu/sys/syscall.h中找到系统调用的定义,比如#define SYS_write __NR_write,但是我们无法得知__NR_write具体代表的ID,进一步搜索,可以在/usr/include/x86_64-linux-gnu/asm/unistd_64.h中找到ia64下对__NR_write的定义,#define __NR_write 1,这样一来我们打印出orig_rax寄存器中的值就可以判断此时子进程正在进行何种操作了。
2,PTRACE_PEEKDATA与PTRACE_PEEKTEXT参数的选取
Linux进程的地址空间不存在独立的数据段和代码段(或叫正文段),二者位于同一空间,所以上述两个参数并无实际意义上的区别,不过为了标识我们是在读取数据段中的数据,还是使用PTRACE_PEEKDATA比较好,同理对应于PTRACE_POKEDATA和PTRACE_POKETEXT。
3,联合体converter
由于执行PTRACE_PEEKDATA操作时,返回值的二进制代表内存中的实际数据,我们可以利用“联合体中的变量有相同的初始地址”这一特性来帮助我们完成从二进制到字符串的转换。(这是一个做过嵌入式开发的人基本都知道的小技巧,考虑到做Android开发对这段代码可能会有疑惑,容我啰嗦两句)
4,数据段寻址
这是在实现x64版本时遇到的最大的困难,在getData()与setData()函数中,第二个参数表示数据在数据段中的地址,由于和ia32时寻址方式不一致,苦苦搜索几天,发现国内很多博客上的说法并不一致,最终在Intel官网上下载了Intel处理器开发手册《64-ia-32-architectures-software-developer-vol-1-manual.pdf》方才解答我的问题,寻址方式涉及两个寄存器,DS和RSI,参考手册的说法,DS表示数据段的selector,其实这个selector就是index索引的意思,由于x64下字长64bit,即8个字节,索引乘以8即得数据段在内存中的基址,RSI表示数据段内偏移地址,与基址相加即可得出数据的绝对地址,使用此地址直接访问内存就可以取出数据。
好了,至此本文就已经结束了,相信各位看完以上对关键点的解释部分可以对ptrace有一个初步了解,下一篇会参考Pradeep Padala的博文进一步学习ptrace相关技术,实现一个更有意思的小程序,不过最近有很多事情有待处理,时间就待定吧~