【上课课件整理复习】第六章 网页数据的采集(2)

二、采集整个网站

网页数据分析

分析

  • 决定如何做好这些事情的第一步就是先观察网站上的一些页面,然后拟定一个采集模式。通过观察几个*页面,包括词条和非词条页面,比如隐私策略之类的页面,就会得出下面的规则:
  • 所有的标题(所有页面上,不论是词条页面、编辑历史页面还是其他页面)都是在h1 → span 标签里,而且页面上只有一个h1 标签。
  • 所有的正文文字都在div#bodyContent
    标签里。这个规则对所有页面都适用,除了文件页面,页面不包含内容文字(content text)的部分内容。
  • 编辑链接只出现在词条页面上。如果有编辑链接,都位于li#ca-edit 标签的li#caedit→ span → a 里面。

优化实现

from urllib import request
from bs4 import BeautifulSoup
import re
pages = set()
def getLinks
上一篇:【501】pytorch教程之nn.Module类详解


下一篇:React代码联系