二、采集整个网站
网页数据分析
分析
- 决定如何做好这些事情的第一步就是先观察网站上的一些页面,然后拟定一个采集模式。通过观察几个*页面,包括词条和非词条页面,比如隐私策略之类的页面,就会得出下面的规则:
- 所有的标题(所有页面上,不论是词条页面、编辑历史页面还是其他页面)都是在h1 → span 标签里,而且页面上只有一个h1 标签。
- 所有的正文文字都在div#bodyContent
标签里。这个规则对所有页面都适用,除了文件页面,页面不包含内容文字(content text)的部分内容。 - 编辑链接只出现在词条页面上。如果有编辑链接,都位于li#ca-edit 标签的li#caedit→ span → a 里面。
优化实现
from urllib import request
from bs4 import BeautifulSoup
import re
pages = set()
def getLinks