Python库pandas之五
- 输入/输出
- DataFrame.to_csv
- 函数
- 应用实列
输入/输出
DataFrame.to_csv
函数
词法:DataFrame.to_csv(path_or_buf=None, *, sep=‘,’, na_rep=‘’, float_format=None, columns=None, header=True, index=True, index_label=None, mode=‘w’, encoding=None, compression=‘infer’, quoting=None, quotechar=‘"’, lineterminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal=‘.’, errors=‘strict’, storage_options=None)
将DataFrame对象写入逗号分隔值 ,即csv文件。
参数说明
-
path_or_buf,该参数类型是字符串, 文件路径对象, 有类似文件特征的对象, 或None, 默认值为None
path_or_buf可以是字符串、文件路径对象(实现 os.PathLike[str])或实现 write() 函数的类文件对象。
如果path_or_buf是None,则结果以字符串形式返回。
如果该参数是一个非二进制文件对象,则应使用 newline=‘’ 打开它,禁用通用换行符。
如果该参数是一个二进制文件对象,mode可能需要包含“b”。 -
sep,该参数类型是字符串, 默认值为‘,’
该参数是长度为 1 的字符串。它是输出文件的字段分隔符。 -
na_rep,该参数类型是字符串, 默认值为‘’
替代丢失的数据。 -
float_format,该参数类型是字符串, Callable, 默认值为None
用于浮点数的格式字符串。如果该参数是Callable,它优先于其他数字格式化参数。 -
columns,该参数类型是sequence, 是可选的
要写的列。 -
header,该参数类型是bool或字符串list, 默认值为True
确定是否输出列名称。如果参数是字符串列list,则它们被用作列名的别名。 -
index,该参数类型是bool, 默认值为True
确定是否写行名称。 -
index_label,该参数类型是字符串,sequence, 或False, 默认值为None
如果需要,索引列的列名称。
如果该参数是None,并且 header 和 index 为 True,则使用索引名称。
如果对象使用 MultiIndex,则应给出序列。
如果为 False,则不打印索引名称字段。 -
mode,该参数类型是{‘w’, ‘x’, ‘a’}, 默认值为‘w’
转发到 open(mode=) 或 fsspec.open(mode=) 来控制文件打开。典型值包括:
‘w’,首先截断文件。
‘x’,排他创建,如果文件已存在,则失败。
‘a’,如果存在,则追加到文件末尾。 -
encoding,该参数类型是字符串, 是可选的
表示输出文件中使用的编码的字符串,默认为“utf-8”。如果path_or_buf 是非二进制文件对象,则不支持编码。 -
compression,该参数类型是字符串或字典, 默认值为‘infer’
用于输出数据的动态压缩。
如果“infer”和“path_or_buf”是类似路径,则检测以下扩展名的压缩:“.gz”、“.bz2”、“.zip”、“.xz”、“.zst”、“.tar” 、“.tar.gz”、“.tar.xz”或“.tar.bz2”。
如果该参数是None,表示不压缩。
如果该参数是字典,那么该字典包含键 ‘method’,而且该键的值为 {‘zip’, ‘gzip’, ‘bz2’, ‘zstd’, ‘xz’, ‘tar’} 之一,其他键值对转发到 zipfile.ZipFile、gzip.GzipFile、bz2.BZ2File、zstandard.ZstdCompressor、lzma.LZMAFile 或 tarfile.TarFile。 -
quoting,该参数类型是csv 模块中的可选常量
默认为 csv.QUOTE_MINIMAL。如果您设置了 float_format,则浮点数将转换为字符串,因此 csv.QUOTE_NONNUMERIC会将它们视为非数字。 -
quotechar,该参数类型是字符串, 默认值为‘"’
该参数是长度为 1 的字符串。用于引用字段的字符。 -
lineterminator,该参数类型是字符串, 是可选的
该参数是输出文件中使用的换行符或字符序列。默认为 os.linesep,这取决于调用此方法的操作系统(Linux 为“\n”,Windows 为“\r\n”)。 -
chunksize,该参数类型是int,或None
一次写入的最大行数。 -
date_format,该参数类型是字符串, 默认为None
日期时间对象的格式字符串。 -
doublequote,该参数类型是bool, 默认为True
控制字段内quotechar 的引用。 -
escapechar,该参数类型是字符串, 默认为None
该参数是长度为 1 的字符串。在合适的地方,用于转义 sep 和 quotechar 的字符。 -
decimal,该参数类型是字符串, 默认为‘.’
该参数是字符串,被用作小数点分隔符。 -
errors,该参数类型是字符串, 默认为‘strict’
指定如何处理编码和解码错误。 -
storage_options,该参数类型是字典, 是可选的
对于特定存储连接有意义的额外选项,例如主机、端口、用户名、密码等。对于 HTTP(S) URL,键值对将作为标头选项转发到 urllib.request.Request。对于其他 URL(例如以“s3://”和“gcs://”开头),键值对将转发到 fsspec.open。
应用实列
下列程序使用各种不同的参数,说明这些参数如何影响DataFrame.to_csv的输出文件
import pandas as pd
import sqlite3 as sqlite
def df_to_csv(df):
df.to_csv("test_1.csv", index=False);
cols = ("name","salary")
df.to_csv("test_2.csv", index=False, columns=cols);
df.to_csv("test_3.csv", index=False, sep="|");
cols = ("name","age")
df.to_csv("test_4.csv", index=False, columns=cols, header=("name", "Married age"));
if __name__ == "__main__":
conn = sqlite.connect("test_db.db")
df = pd.read_sql('SELECT * FROM peoples', conn)
print(df)
df_to_csv(df)
下列屏幕输出,给出DataFrame中包含的数据
C:\>python pandas_io_4.py
name age salary
0 Helen 25 40000
1 Michael 20 20000
2 Tom 35 40000
3 John 30 20000
4 Jeff 25 50000
5 Johnson 350 120000
上述程序运行结束后,文件test_1.csv的内容
name,age,salary
Helen,25,40000
Michael,20,20000
Tom,35,40000
John,30,20000
Jeff,25,50000
Johnson,350,120000
上述程序运行结束后,文件test_2.csv的内容
name,salary
Helen,40000
Michael,20000
Tom,40000
John,20000
Jeff,50000
Johnson,120000
上述程序运行结束后,文件test_3.csv的内容
name|age|salary
Helen|25|40000
Michael|20|20000
Tom|35|40000
John|30|20000
Jeff|25|50000
Johnson|350|120000
上述程序运行结束后,文件test_4.csv的内容
name,Married age
Helen,25
Michael,20
Tom,35
John,30
Jeff,25
Johnson,350