2021-11-08

@TOC爬虫中的xpath在table中的循环使用

table的xpath,去掉tbody

url_list = response.xpath(’//*[@id=“ctl00_cph_myDataList”]/tr//td’)
for url in url_list:
print(url)
href = url.xpath(’.//span//a/@href’).extract_first()
print(href)
# self.url_list.append(self.pre_url+href)
print(self.pre_url + href)
yield scrapy.Request(url=self.pre_url + href, callback=self.parse_detail)

循环中二次提取xpath时,注意前面加<.>

href = url.xpath(’.//span//a/@href’).extract_first()

看评论

https://blog.csdn.net/qq_41400928/article/details/102615916

好像有别的解决方法

[https://www.cnblogs.com/brady-wang/p/11005070.html]

上一篇:Python测试框架对比


下一篇:HTML