python爬虫中文乱码问题(request方式爬取)

req = requests.get(url)返回的是类对象

其包括的属性有:

req.encoding:返回编码方式

req.text:text返回的是处理过的Unicode型的数据

req.content:content返回的是bytes型的原始数据

content是把内容bytes返回. 而text是decode成Unicode. 如果headers没有charset字符集的化,text()会调用chardet来计算字符集

也就是说text是解码完的数据,调用req.text()就不需要解码了,问题经常出现解码中的类型码是否正确,这个下面在说,先明白text()和content()的区别

假设对获取的内容最终都编码成‘utf-8’的类型text()和content的处理方式如下所示:

requests.get(url).text.encode('utf8','ignore')  #如果req.text()自动解码正确,直接编码,自动解码下面介绍

requests.get(url).content.decode('gbk','ignore').encoding('utf-8','ignore') #假设源码是gbk,则需要先解码在编码成utf-8

1. 遇到的中文乱码问题
1.1 简单的开始
    使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行。

  1. url = 'http//www.pythonscraping.com/'
  2. req = requests.get(url)
  3. print(req.text)
  4. tree = html.fromstring(req.text)
  5. print(tree.xpath("//h1[@class='title']/text()"))

1.2 麻烦的开始
    本来当时的想法是写一些基础模块,方便之后开发的时候调用,减少重复性工作。为了保证代码在任何情况下都不会出现bug,所以想着用同样的代码爬取中文网站获取里面的文字
    修改上面代码中的两行代码:

  1. url = 'http://sports.sina.com.cn/g/premierleague/index.shtml'
  2. print(tree.xpath("//span[@class='sec_blk_title']/text()"))

运行程序可以发现,在语句print(req.text)输出的内容中,中文字体已经是乱码了。最后的结果输出是['?????©è§\x86é?\x91', '??\x80?\x9c\x9f?\x9b\x9eé??']
2 乱码解决办法
2.1 试错
    由于之前爬取csdn上一个网页没有出现乱码问题,但是在sina体育网站上出现了乱码,所以当时以为不是编码问题,以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性,但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。
    在网上查看了多个相关问题的解决方案:
    1. http://*.com/questions/3122145/zlib-error-error-3-while-decompressing-incorrect-header-check
    2. http://blog.csdn.net/pxf1234567/article/details/42006697
    3. http://blog.csdn.net/bytxl/article/details/21278249

总结:参考上述文献,结果还是没有解决问题,但是就考虑是不是方向错了。不过这部分工作也没有白做,很多网站返回数据都会有压缩问题,之后的工作中也能用上。

2.2 乱码终极解决办法
    后来查阅官方文档中response-content相关内容,说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测,前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了,如果你创建了自己的编码,并使用codecs 模块进行注册,你就可以轻松地使用这个解码器名称作为 r.encoding 的值, 然后由Requests来为你处理编码。(自己没有使用codecs模块,所以这里不贴代码了,不过按官方的说法使用codecs模块是最简单的一种方式。)
    另一份官方文档片段明确说了reponse编码处理方式:
        Requests遵循RFC标准,编码使用ISO-8859-1 。
        只有当HTTP头部不存在明确指定的字符集,并且 Content-Type 头部字段包含 text 值之时, Requests才不去猜测编码方式。

现在直接上实验结果,在原始代码中添加以下代码片段:

点击(此处)折叠或打开

  1. print(req.headers['content-type'])
  2. print(req.encoding)
  3. print(req.apparent_encoding)
  4. print(requests.utils.get_encodings_from_content(page_content.text))

输出结果分别是:
    text/html
    ISO-8859-1#response内容的编码
    utf-8#response headers里设置的编码
    ['utf-8']#response返回的html header标签里设置的编码
    返回的内容是采用‘ISO-8859-1’,所以出现了乱码,而实际上我们应该采用‘utf-8’编码
        
    总结:当response编码是‘ISO-8859-1’,我们应该首先查找response header设置的编码;如果此编码不存在,查看返回的Html的header设置的编码,代码如下:

点击(此处)折叠或打开

  1. if req.encoding == 'ISO-8859-1':
  2. encodings = requests.utils.get_encodings_from_content(req.text)
  3. if encodings:
  4. encoding = encodings[0]
  5. else:
  6. encoding = req.apparent_encoding
  7. else:
  8. encoding = req.encoding
  9. encode_content = req.content.decode(encoding, 'ignore').encode('utf-8', 'ignore')
上一篇:Android超链接


下一篇:分布式服务管理框架-Zookeeper节点ACL