Salient Subsequence Learning for Time Series Clustering论文笔记

Salient Subsequence Learning for Time Series Clustering

Qin Zhang, Jia Wu, Member, IEEE, Peng Zhang, Guodong Long, Chengqi Zhang, Senior Member, IEEE

TPAMI 2018

什么是shapelet?

shapelet是时间序列的子序列,具有判别性,其在某种意义上最大程度地代表类。

从树叶分类说起,自然是根据树叶的形状分类
Salient Subsequence Learning for Time Series Clustering论文笔记
将每个树叶用一个一维的时间序列来表示
Salient Subsequence Learning for Time Series Clustering论文笔记
根据shapelets分类
Salient Subsequence Learning for Time Series Clustering论文笔记

shapelets的优点

  • 可解释性好
  • 结果更精确,因为考虑的是局部特征,而非全局特征(很容易收到噪声和扭曲的影响)
  • 速度更快,时间复杂度为O(mn)(m为时间序列长度,n为shapelet长度)

主要贡献

  • USSL 无监督的shapelet学习,用于时间序列聚类,结合了pseudo-class labels, spectral analysis, regularized least-squares techniques and shapelet regularization
  • 在UCR Time Series数据集上进行了验证,是state-of-the-art

目前方法存在的问题

  • 最初通过扫描整个时间序列来获取shapelets的候选模板,时间复杂度很高

    Synthetic Control dataset 包含600个时间序列, 长度为60,候选模板有1:098 × 10^6个

  • 最近Grabocka等人提出一种基于回归学习的方法,寻找shapelets,大大减少了时间复杂度,但是需要标记

USSL框架

Salient Subsequence Learning for Time Series Clustering论文笔记

无监督的shapelet学习

  • Shapelet-transformed Representation

  • Pseudo-class Labels

  • Spectral Analysis

  • Least-squares Minimization

  • Shapelet Similarity Minimization

  • Unsupervised Salient Subsequence Learning
    Salient Subsequence Learning for Time Series Clustering论文笔记

    第一部分是谱正则化项,以保持时间序列之间的局部结构。第二部分通过最小化shapelets之间的相似性来使其多样化。第三部分则为学习最佳伪类标签和伪分类器的最小二乘正则化。

  • coordinate descent algorithm 坐标下降法

    当要优化的函数含有多个自变量时,每次只更新一个自变量,固定其他自变量

实验

数据集:UCR Time Series 中的36个时间序列

评价指标

  • Rand Index
    Salient Subsequence Learning for Time Series Clustering论文笔记
  • NMI(Normalized Mutual Information)
    Salient Subsequence Learning for Time Series Clustering论文笔记

实验结果

  • 等长的时间序列聚类
    Salient Subsequence Learning for Time Series Clustering论文笔记Salient Subsequence Learning for Time Series Clustering论文笔记

  • 不等长的时间序列聚类

Salient Subsequence Learning for Time Series Clustering论文笔记

上一篇:chrome实时显示fps


下一篇:Android FPS监测 方法总结