推荐一个网页抓取小工具Web Scraper

2023-12-02 08:52:10

想分享的这款工具是个Chrome下的插件，叫：Web Scraper，是一款可以从网页中提取数据的Chrome网页数据提取插件。在某种意义上，你也可以把它当做一个爬虫工具。

第一步创建Sitemap

打开Chrome浏览器，按F12调出开发者工具，Web Scraper在最后一个页签，点击后，再选择“Create Sitemap”菜单，点击“Create Sitemap”选项。

首先输入你想抓取的网站URL，以及你自定义的这条抓取任务的名字，比如我取的name是：xiniulevel，URL是：http://www.xiniudata.com/industry/level

第二步创建抓取节点

我想抓取的是一级标签和二级标签，所以先点进去刚才创建的Sitemap，再点击“Add new selector”，进入抓取节点选择器配置页，在页面上点击“Select”按钮，这时你会看到出现了一个浮层

推荐一个网页抓取小工具Web Scraper

这时当你鼠标移入网页时，会自动把某个你鼠标悬停的位置绿色高亮。这时你可以先单击一个你想选择的区块，会发现区块变成了红色，想把同一层级的区块全选中，则可以继续点击相邻的下一个区块，这时工具会默认选中所有同级的区块，如下图：

推荐一个网页抓取小工具Web Scraper

我们会发现下方悬浮窗的文本输入框自动填充了区块的XPATH路径，接着点击“Done selecting！”结束选择，悬浮框消失，选中的XPATH自动填充到下方Selector一行。另外务必选中“Multiple”，以声明你要选多个区块。最后点击Save selector按钮结束。

推荐一个网页抓取小工具Web Scraper

第三步获取元素值

完成Selector的创建后，回到上一页，你会发现多了一行Selector表格，接下来就可以直接点击Action中的Data preview，查看所有想获取的元素值。

推荐一个网页抓取小工具Web Scraper

上图所示部分，是我已经添加了一级标签和二级标签两个Selector的情况，点击Data preview的弹窗内容其实就是我想要的，直接复制到EXCEL就行了，也不用什么太复杂的自动化爬取处理。

以上就是对Web Scraper使用过程的简单介绍。当然我的用法还不是完全高效，因为每次想获取二级标签时还要先手动切换一级标签，再执行抓取指令，应该还有更好的做法，不过对我而言已经足够了。这篇文章主要是想和你普及下这款工具，不算教程，更多功能还是要根据你的需求自行摸索~

码农公寓