转载一个不错的Scrapy学习博客笔记

2024-04-10 12:48:24

背景：

最近在学习网络爬虫Scrapy，官网是 http://scrapy.org

官方描述：Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing。

官方文档对其详细描述：
“Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。”

博主young-hz的博客：（可以一步步实践更好的理解Scrapy，获益良多）

Scrapy研究探索（一）——基础入门
http://blog.csdn.net/u012150179/article/details/32343635
scrapy研究探索（二）——爬w3school.com.cn
http://blog.csdn.net/u012150179/article/details/32911511
Scrapy研究探索（三）——Scrapy核心架构与代码运行分析
http://blog.csdn.net/u012150179/article/details/34441655
Scrapy研究探索（四）——中文输出与中文保存
http://blog.csdn.net/u012150179/article/details/34450547
Scrapy研究探索（五）——自动多网页爬取（抓取某人博客所有文章）
http://blog.csdn.net/u012150179/article/details/34486677
Scrapy研究探索（六）——自动爬取网页之II（CrawlSpider）
http://blog.csdn.net/u012150179/article/details/34913315
Scrapy研究探索（七）——如何防止被ban之策略大集合
http://blog.csdn.net/u012150179/article/details/35774323

码农公寓

相关文章