背景:
最近在学习网络爬虫Scrapy,官网是 http://scrapy.org
官方描述:Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing。
官方文档对其详细描述:
“Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。”
博主young-hz的博客:(可以一步步实践更好的理解Scrapy,获益良多)
Scrapy研究探索(一)——基础入门
http://blog.csdn.net/u012150179/article/details/32343635
scrapy研究探索(二)——爬w3school.com.cn
http://blog.csdn.net/u012150179/article/details/32911511
Scrapy研究探索(三)——Scrapy核心架构与代码运行分析
http://blog.csdn.net/u012150179/article/details/34441655
Scrapy研究探索(四)——中文输出与中文保存
http://blog.csdn.net/u012150179/article/details/34450547
Scrapy研究探索(五)——自动多网页爬取(抓取某人博客所有文章)
http://blog.csdn.net/u012150179/article/details/34486677
Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
http://blog.csdn.net/u012150179/article/details/34913315
Scrapy研究探索(七)——如何防止被ban之策略大集合
http://blog.csdn.net/u012150179/article/details/35774323