web scraper

2022-07-12 10:34:34

最近想做个基于公交站点的空间通达性研究。
主要三个内容：一公交站点数据获取，包括公交站点名称，路线，站点经纬度。淘宝上有卖的，想自己建立。二是数据基础上的分析。三是分析结果的可视化。

公交站点获取上，学习了如何用web scraper来爬取。
[https://blog.csdn.net/biggbang/article/details/86251526](web scraper的基本介绍)
爬取的数据是默认排序的，而不是根据爬取顺序排序，这时候需要将web scraper的默认本地数据库转换为couchDB。[https://www.cnblogs.com/web-scraper/p/web-scraper-couchdb.html]
最新的web scraper版本无法选择couchDB数据库，需要安装0.4.x或以前的web scraper版本。
这个couchDB经常无法启动，表现为web scraper无法创建新的sitemap。目前的解决办法：1 运行-services.msc，找到couchDB并重新启动。2 web scraper选项选本地数据库，再重新选择couchDB。
web scraper较为全面的介绍[https://www.cnblogs.com/web-scraper/p/web-scraper-learn.html]
很多资源在卤蛋实验室。
2.公交站点经纬度的下载
目前是使用https://www.bilibili.com/video/av80398402/。但无法用爬虫实现，只能手动切换线路。可否显示公交线路，再用爬虫爬取？