R语言读写中文编码方式

2022-09-17 19:48:19

最近遇到一个很头疼的事，就是 R语言读写中文编码方式。在网上找到了一篇博文，谢谢博主的精彩分享，让我很快解决了问题，在此也分享一下

R语言读写数据的方法很多，这里主要是我在使用read.csv/read.table和write.csv/write.table时遇到的一些中文格式编码的问题。常见的中文编码方式两种：GBK(GB2312)和UTF-8。

Windows系统下：

read.csv()和read.table()方法不指定文件格式时，默认读取的文件是GBK格式。Rstudio里面有设置默认文本编码方式，但是修改前后读入中文数据情况都一样。

Linux（我使用的Redhat）系统下：

系统指定中文编码方式是UTF-8，所以read.csv()和read.table()都要求UTF-8。

如下两个文件，分别是UTF-8格式和GBK格式，首先用read.csv读取，可以看到不指定编码方式时，读取UTF-8格式文件是乱码。用encoding指定读取的文件编码方式为UTF-8后，正常。这样看起来read.csv()方法读取UTF-8好像可行？

那么我们再来看一个例子，相同的数据，只是最后多增加一列中文。同样，上面三种方式，读取UTF-8的时候问题直接变成了读取出错，“列的数目比列的名字要多”，并且制定编码方式为UTF-8也无法拯救你了。为什么会这样呢？

提示意思是，列名少了，那就去掉表头header=F就行了，结果如下，还是乱码，并且原本四列数据读进来后变成了七列。虽然指定encoding为UTF-8后没有了乱码，但是读取时行之间会错乱。但是用fileEncoding就没有问题了！

上述，总结而言，使用read.csv()时，有中文的话，请务必保证你的文件是GBK编码格式的。或者用fileEncoding来指定编码格式，不要用encoding！

跟read.csv一样的问题，并且，这里header=F也可行。read.table比read.csv更严格，要求行都有相同的长度，不会自动填充NA。

write.csv/write.table方法可以使用，可以使用fileEncoding来指定输出文件的编码方式，如下，只要你的系统能识别这种方式就OK。

其实啰啰嗦嗦了这么久，总结而言就一句话read.csv/read.table尽量读入文件GBK格式（Win下），或者UTF-8格式（Linux下），不是的话，用fileEncoding指定编码格式，不要用encoding。

码农公寓