一般情况是以下这样的:
#xpath解析:
html = etree.HTML(doc,parser=etree.HTMLParser(encoding='utf8')) #pandas保存: df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='utf8') 但是解析爬取后保存CSV文件一直是乱码,可能是网页中字符串有繁体字的缘故,爬下的网址链接没问题。交替试了多种编码格式才搞定! 以下组合不再乱码: #xpath: html = etree.HTML(doc,parser=etree.HTMLParser(encoding='gbk')) #pandas: df.to_csv(pathname+'/xx.csv',line_terminator="\n",index=False,mode='a',encoding='gb18030')