python – 如何从亚马逊产品页面中提取asin

我有以下网页Product page,我试图从中获取ASIN(在这种情况下ASIN = B014MHZ90M),我不知道如何从页面获取它.

我正在使用Python 3.4,Scrapy和以下代码:

hxs = Selector(response)
product_name = "".join(hxs.xpath('//span[contains(@class,"a-text-ellipsis")]/a/text()').extract())
product_model = hxs.xpath('//body//div[@id="buybox_feature_div"]//form[@method="post"]/input[@id="ASIN"/text()').extract()

这样我就得不到必填字段(ASIN号).
1.为了获得产品型号(ASIN),我该怎么办?

2.有没有办法调试这样的代码(我正在使用PyCharm).我无法使用调试器但只运行它而没有看到“慢动作”中发生了什么.

提前感谢大家.

解决方法:

查看您链接的亚马逊页面,ASIN编号显示在“产品详细信息”部分中.使用scrapy shell以下xpath

response.xpath('//li[contains(.,"ASIN: ")]//text()').extract()

回报

[u'ASIN: ', u'B014MHZ90M']

为了调试XPATH,我总是使用scrapy shell和Firebug for Firefox.

上一篇:VPC 流日志


下一篇:20年美赛C题数据集解读与O奖论文思路