苏宁百万级商品爬取简述

2022-04-03 06:26:47

代码下载链接苏宁百万级商品爬虫

声明

本系列文章+代码案例时对爬虫的内容学习概括，希望更多的人知道如何使用c#进行简单爬虫项目的开发，并不存在恶意工具部分电商网站的观念。分享的的代码中对网页爬取都做了休眠等待（200-500）毫秒的限制，希望大家不要恶意使用。

首先简单概述一下自己的学习计划，在爬虫这个模块的学习过程中。可以了解到很多的知识，例如

运行环境+技术选型

因为工作时无聊想到的东西，所以在不耽误工作的情况下，编码周期为1个礼拜。

采用winform程序的形式，分首页+4个子页面
首页是对主要功能的概述，添加4个按钮，每个按钮触发新的页面，按钮分别为：

因为之前都是对单页面的爬取，或者是对某些分页数据爬取，都只是一个小demo。所以在设计程序结构的过程中一定会存在问题。当我已经完成项目后，重新回顾自己的代码也觉得好多地方存在可以修改的地方。
对很多技术的生疏，异步多线程在工作中不长使用，没有踩过坑，所以一定会跌的很惨。xpath，正则这些语法的遗忘
界面设计可能会很丑，不美观

在新建解决方案后，我首先建立一个demo项目，这个项目只是用来做效果图，用来让自己对所做的程序有个大概的布局。
首页设计图：
首页是对功能的详细抽象描述，所以定义三个模块，每个模块再放置自己的内容。
“初始化数据”只是一个按钮，点击弹出提示框，点击确认清理所有产品数据

首页.png

商品类别设计图.png

商品内容设计图.png

建立索引设计图.png

查询产品设计图.png

对商品进行爬取，首先要知道有多少类别，不同类别数据性展示是否为不同形式。如果为不同形式，那就要区分爬取，如果相同，那就更加方便。
产品有那么多属性，取哪些字段，百万的数据量应该如何存储，同样的百万数量应该如果查询，这都是在前期应该考虑好的问题。不然等开始编码再修改就很麻烦