Python爬虫XPath解析后保存CSV文件乱码的问题

一般情况是以下这样的:

#xpath解析:

html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8')) #pandas保存: df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8') 但是解析爬取后保存CSV文件一直是乱码,可能是网页中字符串有繁体字的缘故,爬下的网址链接没问题。交替试了多种编码格式才搞定! 以下组合不再乱码: #xpath: html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk')) #pandas: df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')
上一篇:Webstorm less watcher 配置


下一篇:Python爬虫学习之(一)| 基础