我有一些交易的数据框.我想根据项目和时间列的值对这些交易进行分组:目标是对彼此相差1小时以内的项目进行分组.因此,我们在下一次观察时(不在观察前一个小时之内)开始一个新组(请参阅DataFrame B中的列开始时间).
这是数据:我想将A转换为B.
A=
item time result
A 2016-04-18 13:08:25 Y
A 2016-04-18 13:57:05 N
A 2016-04-18 14:00:12 N
A 2016-04-18 23:45:50 Y
A 2016-04-20 16:53:48 Y
A 2016-04-20 17:11:47 N
B 2016-04-18 15:24:48 N
C 2016-04-23 13:20:44 N
C 2016-04-23 14:02:23 Y
B=
item start time end time Ys Ns total count
A 2016-04-18 13:08:25 2016-04-18 14:08:25 1 2 3
A 2016-04-18 23:45:50 2016-04-18 00:45:50 1 0 1
A 2016-04-20 16:53:48 2016-04-20 17:53:48 1 1 2
B 2016-04-18 15:24:48 2016-04-18 16:24:48 0 1 1
C 2016-04-23 13:20:44 2016-04-23 14:20:44 1 1 2
这是我所做的:
grouped = A.groupby('item')
A['end'] = (grouped['time'].transform(lambda grp: grp.min()+pd.Timedelta(hours=1)))
A2 = A.loc[(A['time'] <= A['end'])]
这每天给我一组:在第一次交易后1小时内进行交易.因此,我在同一天错过了其他交易,但与第一笔交易相隔1个多小时.我的奋斗是如何组织这些团体.然后,我可以使用pd.crosstab从结果列中获取所需的详细信息.
我的另一个想法是按项目和时间对A进行排序,然后逐行进行.如果时间在上一行的1小时之内,它将添加到该组,否则,它将创建一个新组.
解决方法:
1)设置一个window_end列以供以后与.groupby()一起使用,并定义.get_windows()以检查每个项目组的行是否适合当前的当前1小时窗口,或者什么也不做,并保留初始化值.适用于所有项目组:
df['window_end'] = df.time + pd.Timedelta('1H')
def get_windows(data):
window_end = data.iloc[0].window_end
for index, row in data.iloc[1:].iterrows():
if window_end > row.time:
df.loc[index, 'window_end'] = window_end
else:
window_end = row.window_end
df.groupby('item').apply(lambda x: get_windows(x))
2)使用带有.groupby()的窗口和项,并返回.value_counts()作为转置后的DataFrame,清理索引并添加总计:
df = df.groupby(['window_end', 'item']).result.apply(lambda x: x.value_counts().to_frame().T)
df = df.fillna(0).astype(int).reset_index(level=2, drop=True)
df['total'] = df.sum(axis=1)
要得到:
N Y total
window_end item
2016-04-18 14:08:25 A A 2 1 3
2016-04-18 16:24:48 B B 1 0 1
2016-04-19 00:45:50 A A 0 1 1
2016-04-20 17:53:48 A A 1 1 2
2016-04-23 14:20:44 C C 1 1 2