Pandas:从CSV中读取一个含有datetime类型的DataFrame

前言

有一个CSV文件test.csv,其中有一列是datetime类型,其他列是数值列,就像下边这样:

Pandas:从CSV中读取一个含有datetime类型的DataFrame

 

问题

1、读取该CSV文件,把datetime列转换为datetime类型,并将它设置为索引列;

2、筛选时间在15:58到16:03之间的行。

解决

①导入相关模块;

import pandas as pd

②读取test.csv;

data=pd.read_csv('test.csv',encoding='GBK',names=['DT','Changes'],header=0)

结果

data
                 DT   Changes
0   2021/5/22 15:58 -1041.690
1   2021/5/22 15:59 -1041.770
2   2021/5/22 16:01 -1041.050
...
15  2021/5/22 16:20  -997.787
16  2021/5/22 16:22  -994.114
17  2021/5/22 16:23 -1007.710

在看data各列的类型:

data.dtypes
DT          object
Changes    float64
dtype: object

可见我们的datetime数据读进来之后就变成了object类型,而不是datetime类型

③将DT列由Object类型转化为datetime类型;

data = data.assign( DT=pd.to_datetime(data['DT'] )))

这里用到了两个函数assign()与to_datetime():

assign():插入新列,如果新旧列名相同,会覆盖旧列;

to_datetime():把Series转换为datetime类型。

所以上述代码的意思就是:把data的'DT'列转化为datetime类型,把转换后的DT列覆盖原来的DT列。

如果想看这两个函数的具体用法,可以看:

Python:pandas(三)——DataFrame - ShineLe - 博客园

Python:pandas(二)——pandas函数 - ShineLe - 博客园

④把DT列设置为Index列;

data = data.set_index('DT')

结果

data.set_index('DT')
                      Changes
DT                           
2021-05-22 15:58:00 -1041.690
2021-05-22 15:59:00 -1041.770
2021-05-22 16:01:00 -1041.050
...
2021-05-22 16:20:00  -997.787
2021-05-22 16:22:00  -994.114
2021-05-22 16:23:00 -1007.710

类型

data.dtypes
DT         datetime64[ns]
Changes           float64
dtype: object

转换完成!

⑤筛选时间在15:58到16:03之间的行。

data_choose=data.between_time('15:58','16:03')

结果

                     Changes
DT                          
2021-05-22 15:58:00 -1041.69
2021-05-22 15:59:00 -1041.77
2021-05-22 16:01:00 -1041.05
2021-05-22 16:02:00 -1041.49

前边之所以做那么多,就是为了最后的筛选,由于between_time只能对index为datetime类型的数据进行筛选,所以前边要把datetime变成index列。

关于between_time,可以参考Python:pandas(三)——DataFrame - ShineLe - 博客园

 

完整代码

import pandas as pd

data = pd.read_csv('test.csv', encoding='GBK', names=['DT', 'Changes'], header=0)
data = data.assign(DT=pd.to_datetime(data['DT']))
data = data.set_index('DT')
data_choose = data.between_time('15:58', '16:03')

 

上一篇:02-数据结构与算法-单向链表


下一篇:mac安装mysql