scrapy-shell的使用

####

进入虚拟环境,里面安装了scrapy,

进入命令行,输入命令,scrapy shell 'https://scrapy.org' --nolog,执行后,会自动将指定 url 的网页下载下来,

注意一点:不要在你的爬虫项目文件夹下面执行这个命令,会报错的,

会弹出交互页面,

然后你就可以使用response.xpath("//title")

类似这样的,来调试你的xpath,

####

下载完后,url 的内容保存在 response 的变量中
response.body
response.headers
response.headers['Server']
response.xpath() 使用 xpath
response.css() 使用 css 语法选取内容

 

 

#####

上一篇:Python自学- Scrapy爬虫(1)


下一篇:scrapy模拟浏览器爬取51job(动态渲染页面爬取)