【知识点】
1. txt文本数据的读写:
- open,write
- 参数mode
- readlines()read()readline()的不同
- 待解决问题:f.close()、为什么两次open后变空值?
2. CSV及Excel文本数据的读写
- to_csv(),read_csv()
- to_excel(),read_excel()
- 都是上述格式
3.更多的DataFrame操作
4.数据规模太大怎么办
- 压缩文件
- 使用精确更低的数据类型
- 数据分块
=====================================================
1. txt文本数据的读写
先打开Open,后读取read
1) open(file=文本路径,mode=默认r,encoding=一般为‘utf-8’)
2) mode:
- r 只读,文件不存在则报错
- w 只写,文件不存在会先创建,存在则会覆盖原文件
- a 只写,文件不存在先创建,不会覆盖而是继续写入
- rb,wb 读写二进制文件
可读可写,其他同上:
- r+
- w+
- a+
3) f.read
- read() 读取整个文件,将整个文件内容放入一个str变量中,文件非常大时无法使用
- readline() 只读文件的一行,该行放到一个str变量中
- readlines() 读取整个文件,按行将内容放到一个list中
4)f.wirte
5)例子
- 只读r
- 只写w
2. CSV及Excel的读写
- df 是一个dataframe
4. 数据规模太大
1)压缩文件
- 压缩类型相应后缀:.gz .bz2 .zip .xz
2)使用精度更低的数据类型
- float64占8个字节,有20个数字,则占160个字节
- 通过定义dtypes字典修改
3)数据分块
- read_csv中的参数chunksize(每个块的行数大小),返回一个可迭代变量
(共20行,最后返回4行)