在view source页面保存下来的网页源码和保存网页得到的源码不同

2023-07-18 22:19:34

前言

以前抓网页都是直接requests+bs4直接刚的，今天想拿一下拉钩的数据，就继续按照以下步骤来了：

先找个想爬的网页，然后写解析功能
批量爬，然后解析
入库

探究

结果发现行不通了，用bs4去解析，结果连title都拿不到，而网页源码里明明是有的！于是用浏览器打开网页然后view source，在view source页面点击存储为文件，然后用vscode打开保存的网页，进行对比。发现，tmd内容居然不一样……好多标签在保存的网页中根本看不到。

原因

想一下原因，肯定是js造成的。于是又搜了一下这种现象，得知：

保存源代码”是对源代码完整的保存下来，包括上面的图片链接，超链接的指向，都完完整整按照原本的样式保存下来了。并没有保存图片或者其他的一些文件。而另存为的时候由浏览器（IE）自动生成一个和保存的网页文件名 + .files的文件夹，该文件夹中保存了网页上面所有的图片及一些外部链接CSS、Js脚本，并自动对网页上的链接进行修改，指向以网页文件名+.files的文件夹，这样就看其来整个网页是完整保存下来了。

参考自：http://sky-xin.iteye.com/blog/1960546

原来是浏览器的处理过程导致的，view source就是真的只能看到源代码里，未经浏览器处理的代码…有些非静态的东西，自然得等加载出来后才能看到…唔