用户空间缺页异常pte_handle_fault()分析--(上)【转】

       前面简单的分析了内核处理用户空间缺页异常的流程,进入到了handle_mm_fault()函数,该函数为触发缺页异常的地址address分配各级的页目录,也就是说现在已经拥有了一个和address配对的pte了,但是这个pte如何去映射物理页框,内核又得根据pte的状态进行分类和判断,而这个过程又会牵扯出一些其他的概念……这也是初读linux内核源码的最大障碍吧,在一些复杂的处理中,一个点往往可以延伸出一个面,容易让人迷失方向……因此后面打算分几次将这个函数分析完,自己也没有完全理解透,所以不到位的地方欢迎大家指出,一起交流~

[cpp] view plain copy
 
  1. static inline int handle_pte_fault(struct mm_struct *mm,  
  2.         struct vm_area_struct *vma, unsigned long address,  
  3.         pte_t *pte, pmd_t *pmd, unsigned int flags)  
  4. {  
  5.     pte_t entry;  
  6.     spinlock_t *ptl;  
  7.   
  8.     entry = *pte;  
  9.     if (!pte_present(entry)) {//如果页不在主存中  
  10.         if (pte_none(entry)) {//页表项内容为0,表明进程未访问过该页  
  11.   
  12.             /*如果vm_ops字段和fault字段都不为空,则说明这是一个基于文件的映射*/  
  13.             if (vma->vm_ops) {  
  14.                 if (likely(vma->vm_ops->fault))  
  15.                     return do_linear_fault(mm, vma, address,  
  16.                         pte, pmd, flags, entry);  
  17.             }  
  18.             /*否则分配匿名页*/  
  19.             return do_anonymous_page(mm, vma, address,  
  20.                          pte, pmd, flags);  
  21.         }  
  22.   
  23.         /*属于非线性文件映射且已被换出*/  
  24.         if (pte_file(entry))  
  25.             return do_nonlinear_fault(mm, vma, address,  
  26.                     pte, pmd, flags, entry);  
  27.   
  28.         /*页不在主存中,但是页表项保存了相关信息,则表明该页被内核换出,则要进行换入操作*/  
  29.         return do_swap_page(mm, vma, address,  
  30.                     pte, pmd, flags, entry);  
  31.     }  
  32.             
  33.          ...  
  34.          ...  
  35.   
  36. }  

 

首先要确定的一点就是pte对应的页是否驻留在主存中,因为pte有可能之前映射了页,但是该页被换出了。上面的代码给出了pte对应的页没有驻留在主存中的情况。如果pte对应的页没有驻留在主存中,且没有映射任何页,即pte_present()返回0,pte_none()返回0,则要判断要分配一个匿名页还是一个映射页。在Linux虚拟内存中,如果页对应的vma映射的是文件,则称为映射页,如果不是映射的文件,则称为匿名页。两者最大的区别体现在页和vma的组织上,因为在页框回收处理时要通过页来逆向搜索映射了该页的vma。对于匿名页的逆映射,vma都是通过vma结构体中的vma_anon_node(链表节点)和anon_vma(链表头)组织起来,再把该链表头的信息保存在页描述符中;而映射页和vma的组织是通过vma中的优先树节点和页描述符中的mapping->i_mmap优先树树根进行组织的,具体可以参看ULK3。

来看基于文件的映射的处理:

[cpp] view plain copy
 
  1. static int do_linear_fault(struct mm_struct *mm, struct vm_area_struct *vma,  
  2.         unsigned long address, pte_t *page_table, pmd_t *pmd,  
  3.         unsigned int flags, pte_t orig_pte)  
  4. {  
  5.     pgoff_t pgoff = (((address & PAGE_MASK)  
  6.             - vma->vm_start) >> PAGE_SHIFT) + vma->vm_pgoff;  
  7.   
  8.     pte_unmap(page_table);//如果page_table之前用来建立了临时内核映射,则释放该映射  
  9.     return __do_fault(mm, vma, address, pmd, pgoff, flags, orig_pte);  
  10. }  

关键函数__do_fault():

[cpp] view plain copy
 
  1. static int __do_fault(struct mm_struct *mm, struct vm_area_struct *vma,  
  2.         unsigned long address, pmd_t *pmd,  
  3.         pgoff_t pgoff, unsigned int flags, pte_t orig_pte)  
  4. {  
  5.     pte_t *page_table;  
  6.     spinlock_t *ptl;  
  7.     struct page *page;  
  8.     pte_t entry;  
  9.     int anon = 0;  
  10.     int charged = 0;  
  11.     struct page *dirty_page = NULL;  
  12.     struct vm_fault vmf;  
  13.     int ret;  
  14.     int page_mkwrite = 0;  
  15.   
  16.     vmf.virtual_address = (void __user *)(address & PAGE_MASK);  
  17.     vmf.pgoff = pgoff;  
  18.     vmf.flags = flags;  
  19.     vmf.page = NULL;  
  20.   
  21.     ret = vma->vm_ops->fault(vma, &vmf);//调用定义好的fault函数,确保将所需的文件数据读入到映射页  
  22.       
  23.     if (unlikely(ret & (VM_FAULT_ERROR | VM_FAULT_NOPAGE)))  
  24.         return ret;  
  25.   
  26.     if (unlikely(PageHWPoison(vmf.page))) {  
  27.         if (ret & VM_FAULT_LOCKED)  
  28.             unlock_page(vmf.page);  
  29.         return VM_FAULT_HWPOISON;  
  30.     }  
  31.   
  32.     /* 
  33.      * For consistency in subsequent calls, make the faulted page always 
  34.      * locked. 
  35.      */  
  36.     if (unlikely(!(ret & VM_FAULT_LOCKED)))  
  37.         lock_page(vmf.page);  
  38.     else  
  39.         VM_BUG_ON(!PageLocked(vmf.page));  
  40.   
  41.     /* 
  42.      * Should we do an early C-O-W break? 
  43.      */  
  44.     page = vmf.page;  
  45.     if (flags & FAULT_FLAG_WRITE) {//写访问  
  46.         if (!(vma->vm_flags & VM_SHARED)) {//私有映射,则要创建一个副本进行写时复制  
  47.             anon = 1;// 标记为一个匿名映射  
  48.             if (unlikely(anon_vma_prepare(vma))) {//创建一个anon_vma实例给vma  
  49.                 ret = VM_FAULT_OOM;  
  50.                 goto out;  
  51.             }  
  52.             page = alloc_page_vma(GFP_HIGHUSER_MOVABLE,//分配一个页  
  53.                         vma, address);  
  54.             if (!page) {  
  55.                 ret = VM_FAULT_OOM;  
  56.                 goto out;  
  57.             }  
  58.             if (mem_cgroup_newpage_charge(page, mm, GFP_KERNEL)) {  
  59.                 ret = VM_FAULT_OOM;  
  60.                 page_cache_release(page);  
  61.                 goto out;  
  62.             }  
  63.             charged = 1;  
  64.             /* 
  65.              * Don't let another task, with possibly unlocked vma, 
  66.              * keep the mlocked page. 
  67.              */  
  68.             if (vma->vm_flags & VM_LOCKED)  
  69.                 clear_page_mlock(vmf.page);  
  70.             /*创建数据的副本,将数据拷贝到新分配的页*/  
  71.             copy_user_highpage(page, vmf.page, address, vma);  
  72.             __SetPageUptodate(page);  
  73.         } else {  
  74.             /* 
  75.              * If the page will be shareable, see if the backing 
  76.              * address space wants to know that the page is about 
  77.              * to become writable 
  78.              */  
  79.             if (vma->vm_ops->page_mkwrite) {  
  80.                 int tmp;  
  81.   
  82.                 unlock_page(page);  
  83.                 vmf.flags = FAULT_FLAG_WRITE|FAULT_FLAG_MKWRITE;  
  84.                 tmp = vma->vm_ops->page_mkwrite(vma, &vmf);  
  85.                 if (unlikely(tmp &  
  86.                       (VM_FAULT_ERROR | VM_FAULT_NOPAGE))) {  
  87.                     ret = tmp;  
  88.                     goto unwritable_page;  
  89.                 }  
  90.                 if (unlikely(!(tmp & VM_FAULT_LOCKED))) {  
  91.                     lock_page(page);  
  92.                     if (!page->mapping) {  
  93.                         ret = 0; /* retry the fault */  
  94.                         unlock_page(page);  
  95.                         goto unwritable_page;  
  96.                     }  
  97.                 } else  
  98.                     VM_BUG_ON(!PageLocked(page));  
  99.                 page_mkwrite = 1;  
  100.             }  
  101.         }  
  102.   
  103.     }  
  104.   
  105.     page_table = pte_offset_map_lock(mm, pmd, address, &ptl);  
  106.   
  107.     /* 
  108.      * This silly early PAGE_DIRTY setting removes a race 
  109.      * due to the bad i386 page protection. But it's valid 
  110.      * for other architectures too. 
  111.      * 
  112.      * Note that if FAULT_FLAG_WRITE is set, we either now have 
  113.      * an exclusive copy of the page, or this is a shared mapping, 
  114.      * so we can make it writable and dirty to avoid having to 
  115.      * handle that later. 
  116.      */  
  117.     /* Only go through if we didn't race with anybody else... */  
  118.     if (likely(pte_same(*page_table, orig_pte))) {//确定没有竞争,也就是页表项中的内容和之前是一样的  
  119.         flush_icache_page(vma, page);  
  120.         entry = mk_pte(page, vma->vm_page_prot);//页表项指向对应的物理页  
  121.   
  122.         /*如果是写操作,则将页的访问权限置为RW*/  
  123.         if (flags & FAULT_FLAG_WRITE)  
  124.             entry = maybe_mkwrite(pte_mkdirty(entry), vma);  
  125.   
  126.         /*如果之前生成的页是匿名的,则将其集成到逆向映射当中*/  
  127.         if (anon) {  
  128.             inc_mm_counter(mm, anon_rss);  
  129.             page_add_new_anon_rmap(page, vma, address);//建立匿名页与第一个vma的逆向映射  
  130.         } else {  
  131.             inc_mm_counter(mm, file_rss);  
  132.             page_add_file_rmap(page);//建立页与vma的普通映射  
  133.             if (flags & FAULT_FLAG_WRITE) {  
  134.                 dirty_page = page;  
  135.                 get_page(dirty_page);  
  136.             }  
  137.         }  
  138.         set_pte_at(mm, address, page_table, entry);//修改page_table使其指向entry对应的页框  
  139.   
  140.         /* no need to invalidate: a not-present page won't be cached */  
  141.         update_mmu_cache(vma, address, entry);  
  142.     } else {  
  143.         if (charged)  
  144.             mem_cgroup_uncharge_page(page);  
  145.         if (anon)  
  146.             page_cache_release(page);  
  147.         else  
  148.             anon = 1; /* no anon but release faulted_page */  
  149.     }  
  150.   
  151.     pte_unmap_unlock(page_table, ptl);  
  152.   
  153. out:  
  154.     if (dirty_page) {  
  155.         struct address_space *mapping = page->mapping;  
  156.   
  157.         if (set_page_dirty(dirty_page))  
  158.             page_mkwrite = 1;  
  159.         unlock_page(dirty_page);  
  160.         put_page(dirty_page);  
  161.         if (page_mkwrite && mapping) {  
  162.             /* 
  163.              * Some device drivers do not set page.mapping but still 
  164.              * dirty their pages 
  165.              */  
  166.             balance_dirty_pages_ratelimited(mapping);  
  167.         }  
  168.   
  169.         /* file_update_time outside page_lock */  
  170.         if (vma->vm_file)  
  171.             file_update_time(vma->vm_file);  
  172.     } else {  
  173.         unlock_page(vmf.page);  
  174.         if (anon)  
  175.             page_cache_release(vmf.page);  
  176.     }  
  177.   
  178.     return ret;  
  179.   
  180. unwritable_page:  
  181.     page_cache_release(page);  
  182.     return ret;  
  183. }  



首先要做的就是调用vma->vm_ops中定义好的fault()函数,将所需的数据从文件读入到映射页中,该函数还会将vma插入到映射页的mapping->i_mmap优先树中。

文件一般以共享的方式进行映射,接下来就要判断触发异常的操作是否包含写操作,如果是写操作并且该vma不是以共享的方式映射该页,则要进行写时复制,也就是创建一个新的页来供该vma读写,此时会申请一个匿名页,并将数据拷贝到该匿名页中。

接下来就要计算出page对应的pte值是多少,并将page_table指向的pte以该值进行填充,这样就完成了页表项到物理页的映射

 

再来看分配匿名页的处理

[cpp] view plain copy
 
  1. static int do_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,  
  2.         unsigned long address, pte_t *page_table, pmd_t *pmd,  
  3.         unsigned int flags)  
  4. {  
  5.     struct page *page;  
  6.     spinlock_t *ptl;  
  7.     pte_t entry;  
  8.   
  9.     pte_unmap(page_table);  
  10.   
  11.     /* Check if we need to add a guard page to the stack */  
  12.     if (check_stack_guard_page(vma, address) < 0)  
  13.         return VM_FAULT_SIGBUS;  
  14.   
  15.     /* Use the zero-page for reads */  
  16.     /*如果是读操作,那么就让entry指向一个已有的填充为0的现有页,因为进程是第一次访问该页, 
  17.       所以页中的内容是什么并不重要,这样进一步推迟了新页的分配*/  
  18.     if (!(flags & FAULT_FLAG_WRITE)) {  
  19.         entry = pte_mkspecial(pfn_pte(my_zero_pfn(address),  
  20.                         vma->vm_page_prot));  
  21.         page_table = pte_offset_map_lock(mm, pmd, address, &ptl);  
  22.         if (!pte_none(*page_table))  
  23.             goto unlock;  
  24.         goto setpte;  
  25.     }  
  26.   
  27.     /*如果是写操作,则要分配一个新的页*/  
  28.     /* Allocate our own private page. */  
  29.     if (unlikely(anon_vma_prepare(vma)))//分配一个anon_vma实例  
  30.         goto oom;  
  31.       
  32.     /*分配一个被0填充的页*/  
  33.     page = alloc_zeroed_user_highpage_movable(vma, address);  
  34.     if (!page)  
  35.         goto oom;  
  36.     __SetPageUptodate(page);  
  37.   
  38.     if (mem_cgroup_newpage_charge(page, mm, GFP_KERNEL))  
  39.         goto oom_free_page;  
  40.   
  41.     /*获取页对应的PTE内容*/  
  42.     entry = mk_pte(page, vma->vm_page_prot);  
  43.   
  44.     /*如果是写操作则将页的权限设为读写并设置为脏页*/  
  45.     if (vma->vm_flags & VM_WRITE)  
  46.         entry = pte_mkwrite(pte_mkdirty(entry));  
  47.   
  48.     page_table = pte_offset_map_lock(mm, pmd, address, &ptl);  
  49.     if (!pte_none(*page_table))  
  50.         goto release;  
  51.   
  52.     inc_mm_counter(mm, anon_rss);  
  53.     page_add_new_anon_rmap(page, vma, address);//建立线性区和匿名页的反向映射  
  54. setpte:  
  55.     set_pte_at(mm, address, page_table, entry);//设置page_table对应的pte  
  56.   
  57.     /* No need to invalidate - it was non-present before */  
  58.     update_mmu_cache(vma, address, entry);//更新MMU缓存  
  59. unlock:  
  60.     pte_unmap_unlock(page_table, ptl);  
  61.     return 0;  
  62. release:  
  63.     mem_cgroup_uncharge_page(page);  
  64.     page_cache_release(page);  
  65.     goto unlock;  
  66. oom_free_page:  
  67.     page_cache_release(page);  
  68. oom:  
  69.     return VM_FAULT_OOM;  
  70. }  

匿名页分配的工作和__do_fault()中分配匿名页差不多,只不过前面多了一个读写的判断,如果是读的话,不会分配匿名页,而是让pte指向一个被0填充的页,这样就进一步推迟了页的分配。也许你会觉得奇怪,既然要读数据怎么可以分配一个事先准备好的全0的页,其实仔细想想就会明白,缺页异常处理进行到这里,一定是第一次访问相应的内存时才会触发,匿名页对应的一般都是堆,栈这些区域,对这些区域的访问一定先是写而不是读,所以对于这种操作本身就不正常,分配一个被0填充的页使用户进程读出来的都是0也许会更安全一些。

 

如果不是这两种情况的话,也就是说pte_none()返回的是0,那就说明pte之前映射过页,只是该页已被换出

如果该页之前是用来进行非线性文件映射的话,其处理的主体函数就是上面介绍过的__do_fault()

[cpp] view plain copy
 
  1. static int do_nonlinear_fault(struct mm_struct *mm, struct vm_area_struct *vma,  
  2.         unsigned long address, pte_t *page_table, pmd_t *pmd,  
  3.         unsigned int flags, pte_t orig_pte)  
  4. {  
  5.     pgoff_t pgoff;  
  6.   
  7.     flags |= FAULT_FLAG_NONLINEAR;  
  8.   
  9.   
  10.     if (!pte_unmap_same(mm, pmd, page_table, orig_pte))  
  11.         return 0;  
  12.   
  13.     if (unlikely(!(vma->vm_flags & VM_NONLINEAR))) {//确保vma具有非线性映射属性  
  14.         /* 
  15.          * Page table corrupted: show pte and kill process. 
  16.          */  
  17.         print_bad_pte(vma, address, orig_pte, NULL);  
  18.         return VM_FAULT_SIGBUS;  
  19.     }  
  20.   
  21.     pgoff = pte_to_pgoff(orig_pte);//获取映射的文件偏移  
  22.     return __do_fault(mm, vma, address, pmd, pgoff, flags, orig_pte);  
  23. }  

pte_to_pgoff()这个函数是和pgoff_to_pte()相对的一组操作。在非线性文件映射的页被换出时,其映射文件的偏移会以PAGE_SIZE为单位进行编码,存储到其pte中,所以当要重新换入该页时,要进行相应的解码计算出pgoff,再由__do_fault()进行处理!

对于页没有驻留在主存的情况中的最后一种处理方式,do_swap_page(),留在下次再做分析!

【作者】张昺华
【新浪微博】 张昺华--sky
【twitter】 @sky2030_
【facebook】 张昺华 zhangbinghua
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
上一篇:《Java编码指南:编写安全可靠程序的75条建议》—— 指南19:对细粒度的安全定义自定义安全权限


下一篇:Scala :关于递归函数的返回值