Similarity analysis of frequent sequential activity pattern mining

1 文章简介

文章首先提出了一种frequent sequential activity pattern mining的方法,然后对于每个出行者都可以挖掘出他的若干frequent sequential pattern,进而提出了不同的pattern的相似性度量方法,在此基础上提出了inter-person和intra-person的相似性度量方法。之后,用层次聚类以及提出的相似性度量手段来进行了聚类,最后分析了demographics和pattern的关系,使用的方法是logoit回归。

2 具体方法

文章最为重要的是所提出的frequent sequential activity pattern mining的方法以及相似性度量方法,后面的聚类以及分析的话相对较为常规,这里就不做介绍了。

2.1 frequent sequential activity pattern mining

frequent sequential activity pattern mining采用的算法是Prefix-Span algorithm,这个算法是一个比较成熟的算法了,网上的资料也相对比较多。frequent sequential activity pattern mining的思路是首先得到一个人一天每一次trip的OD点,在得到OD点之后,将OD点打上label,在本文的case里面,这个label只是home或者work,在自己用时可以打上更多的label了。然后便可以使用Prefix-Span algorithm挖掘出frequent sequential activity pattern。一个人可以有很多个frequent sequential activity pattern,只要长度大于等于3的作者均予以保留。

2.2 inter-person & intra-person similarity

相似性度量需要满足一些基本性质,下图是这些基本性质:
Similarity analysis of frequent sequential activity pattern mining
两个pattern的相似性度量公式如下:
Similarity analysis of frequent sequential activity pattern mining
inter-person similarity度量公式如下:

Similarity analysis of frequent sequential activity pattern mining
Similarity analysis of frequent sequential activity pattern mining
Similarity analysis of frequent sequential activity pattern mining
intra-person similarity度量公式如下:
Similarity analysis of frequent sequential activity pattern mining

参考文献

Zhenyu Shou, Xuan Di. Similarity analysis of frequent sequential activity pattern mining, Transportation Research Part C 96 (2018) 122–143.

上一篇:sentence similarity vs text (multi-sentence) similarity


下一篇:Elasticsearch 7.10 之 Similarity module