如何创建scrapy项目?
输入命令:
scrapy startproject project_name
在当前目录下创建名字叫project_name的scrapy项目
命令格式:scrapy startproject 项目名
如何启动官方提供的爬虫模版?
进入project_name这个项目目录下,输入命令
srapy genspider blog i.cnblogs.com
命令格式:“srapy genspider 爬虫模块名 域名”
如何调试scrapy项目?
在项目目录下新建一个start.py文件,写入:
#!/usr/bin/python3 from scrapy.cmdline import execute if __name__ == '__main__':
execute(['scrapy', 'crawl', 'spider_name', '--nolog'])
在windows系统,会出现错误:no model win32 如何解决?
pip install pypiwin32
调试时候注意点:
默认scrapy会读取该网页的robots协议,把遵守协议改成False
ROBOTSTXT_OBEY = True --> False
如何进行调试?
scrapy shell 调试网站
scrapy shell http://www.cnblogs.com/2bjiujiu/
通过以下命令:
response
如果状态200表示获取页面成功,通过response对象进行css或xpath调试
response.css('#homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0::text').extract()
response.xpath("//a[@id='homepage1_HomePageDays_DaysList_ctl00_DayList_TitleUrl_0']/text()").extract()
如何加入请求头?
scrapy shell -s user-agent='省略' url
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36" http://www.cnblogs.com/2bjiujiu/