Python爬虫(九)_非结构化数据与结构化数据

2022-12-09 15:11:16

爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考：Python学习指南

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

定（要知道你准备在哪个范围或者网站去搜索）
爬（将所有的网站的内容全部爬下来）
取（分析数据，去掉对我们没用处的数据）
存（按照我们想要的方式存储和使用）
表（可以根据数据的类型通过一些图标展示）

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构
结构化数据：先有结构，再有数据
不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式