Python读写文件乱码问题

2022-09-14 12:19:30

对开发者来说，最恼人的问题之一莫过于读写文件的时候，由于编码千差万别，出现乱码问题。好难快速解决啊。。。

最近我也遇到了这样的问题，经研究，把大致的解决思路拿出来共享。

1. python中习惯首先声明编码类型

#!/usr/bin/python

# -*- coding: <encoding name> -*-

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

PS：不一定所有文件都是 utf-8 编码的，这里要注意啊。。。

2. 出现编码问题时，首先查看下该文件的初始编码方式，linux下命令为：file -i filename

eg:当前文件的编码为 “ISO-8859-1”，随后就将Python中的”utf-8“做了相应修改

在读取文件时，需要先解码：

str = str.decode("ISO-8859-1")  ## 这样返回的就是unicode的str

在写入文件时，再用同样的方式编码（这里暂且不提文件转码）：

str = str.encode("ISO-8859-1")

例如，解析一段“ISO-8859-1”编码的json，代码如下

 import json

 Jstr = json.loads(str, encoding="ISO-8859-1")

 ########

 ## handle sth to ”data“

 ########

 print data.encode("ISO-8859-1")

这样print 或 写入的文件就不存在乱码啦。

3:utf-8格式写入文件
如果以上 json 文件是 utf-8 编码，写入后转为了 unicode，现在要写入utf-8，可以用如下方式：

import codecs

 name='xxx.json'

 f=codecs.open(name,'r',encoding='utf8')

 of=codecs.open(name+'.txt','w', encoding='utf8')

 for line in f:

     dictdata=json.loads(line)

     out=json.dumps(dictdata,indent=4, ensure_ascii=False)

     of.write(out+'\n')  

 of.close()

码农公寓

相关文章