系统学习金融数据挖掘之爬虫技术基础（附源代码）（网页结构基础）

2024-02-06 08:49:58

个人公众号 yk 坤帝
后台回复 python金融基础获取源代码

1. 爬虫基础1 - 网页结构基础

1.1 浏览器F12的运用，以及如何看网页源代码
首先安装谷歌浏览器：从官网https://www.google.cn/chrome/下载
当然用别的浏览器，比如火狐浏览器等都是可以。

按F12(有的电脑要同时按住左下角的Fn键)能弹出如下图的内容即可。

百度搜索“阿里巴巴”，然后按一下F12,弹出如下页面:

这个按住F12弹出来的东西叫做开发者工具，是进行数据挖掘的利器，对于爬虫来说，只需要会用下图的这两个按钮即可。

（1）选择按钮：

点击一下它，发现它会变成蓝色，然后把鼠标在页面上移动移动，会发现页面上的颜色机会发生改变。如下一页图所示，当移动鼠标的时候，会发现界面上的颜色会发生变化，并且Elements里的内容就会随之发生变化。

如果没看到中文，点击下下图那个箭头把内容展开即可。

(2) Elements元素按钮：

Elements元素按钮里面的内容可以理解为就是网站的源码，最后爬虫爬到的内容大致就是长这个样子的。在下图阿里那个地方鼠标双击俩下，这两个字变成可编辑的格式。

可以把它改成“工作”，然后同样双击下面一行的“baba_上”使它变成可编辑的格式，把“baba_上”中的“baba”删掉，可以看到第一个的标题变成下图了：

还可以用同样的操作，先选
择选择按钮，点击下面的
阿里股价：
用同样的方法可以在
Elements里将这个数字
改成所想改的数据，
如下图所示：
1.2 查看网页源码的另外一个方式