binder

时间序列聚类

时间序列聚类(TSCL)是一个非常受欢迎的研究领域,已经产生了数千篇出版物。核心问题是将时间序列分组。广义上,TSCL可以分为那些处理(可能经过转换的)整个时间序列的方法,以及那些提取不依赖于时间的特征,然后使用标准聚类算法的方法。

此图总结了不同的方法

time series clustering

图1. 时间序列聚类算法的分类,取自[1]。包括以下模型:K-means [2], K-spectral centroid [3], K-DBA [4], Kernel K-means [5], K-shapes [6], K-multishapes [7], PAM [8], CLARA [9], CLARANS [10], Alternate [11], DBSCAN [12], HDBSCAN[13], OPTICS [14], BIRCH [15], Agglomerative [16], Feature K-means [17], Feature K-medoids [17], U-shapelets [18], USSL [19], RSFS [20], NDFS [21], 深度学习和降维方法参见[22]

聚类笔记本

  • aeon 目前专注于使用弹性距离函数的分区方法。基于分区的笔记本概述了aeon中的功能。

  • sklearn 具有基于密度基于层次的聚类算法,这些算法可以与aeon弹性距离结合使用。请参阅sklearn and aeon distances笔记本。

  • 基于深度学习的TSCL是一个非常热门的话题,我们正在努力将深度学习功能引入aeon,首批[深度学习]算法即将推出

  • 基于定制特征的TSCL算法可以轻松地通过aeon转换器和sklearn聚类器在管道中构建。一些示例在[sklearn聚类]中。我们将在中期将基于定制特征的聚类算法引入aeon

我们正在扩展[1]中描述的基准测试,以包括所有聚类器。到目前为止,我们发现使用MSM距离的medoids表现最佳。

cd_diag

参考文献

[1] Christopher Holder, Matthew Middlehurst, 和 Anthony Bagnall. 时间序列聚类中弹性距离函数的回顾与评估, 知识与信息系统. 即将出版 (2023)

[2] J. MacQueen 等人。一些用于分类和分析多元观测的方法。在第五届伯克利数学统计与概率研讨会论文集,第1卷,第281-297页,1967年

[3] J. Yang 和 J. Leskovec。在线媒体中的时间变化模式。在第四届ACM国际网络搜索与数据挖掘会议论文集,WSDM’11,第177-186页,2011年。

[4] F. Petitjean, A. Ketterlin, 和 P. Gancarski. 一种用于动态时间规整的全局平均方法,及其在聚类中的应用. 模式识别, 44:678–, 2011年3月

[5] I. S. Dhillon, Y. Guan, 和 B. Kulis. 核k均值:谱聚类和归一化割. 在第十届ACM SIGKDD国际知识发现与数据挖掘会议论文集, 2004

[6] J. Paparrizos 和 L. Gravano. k-shape: 高效且准确的时间序列聚类。在2015年ACM SIGMOD国际数据管理会议论文集,第1855-1870页,2015年

[7] J. Paparrizos 和 L. Gravano。快速且准确的时间序列聚类。ACM 数据库系统交易(TODS),42(2):1–49, 2017

[8] P. J. R. Leonard Kaufman. 围绕中心点的分割(程序PAM),第2章,第68-125页。John Wiley and Sons, Ltd, 1990

[9] L. Kaufman 和 P. J. Rousseeuw. 大型数据集的聚类. 在《实践中的模式识别》中,第425-437页,1986年

[10] R. Ng 和 J. Han. CLARANS: 一种用于空间数据挖掘的聚类对象方法。知识与数据工程,IEEE Transactions on, 14:1003–1016, 10 2002

[11] S. P. Lloyd. PCM中的最小二乘量化. IEEE Trans. Inf. Theory, 28:129–136, 1982

[12] M. Ester, H.-P. Kriegel, J. Sander, 和 X. Xu. 一种基于密度的算法,用于在带有噪声的大型空间数据库中发现聚类。在第二届国际知识发现与数据挖掘会议(KDD'96)的会议录中,第226-231页,1996年

[13] L. McInnes 和 J. Healy. 加速的层次密度聚类. IEEE 国际数据挖掘研讨会 (ICDMW), 页码 33–42, 2017

[14] M. Ankerst, M. M. Breunig, H.-P. Kriegel, 和 J. Sander. Optics: 通过排序点来识别聚类结构. SIGMOD Rec., 28(2):49–60, 1999

[15] T. Zhang, R. Ramakrishnan, 和 M. Livny. Birch: 一种适用于超大型数据库的高效数据聚类方法. SIGMOD Rec., 25(2):103–114, 1996年6月

[16] J. H. W. Jr. 通过层次分组优化目标函数。美国统计协会杂志,58(301):236–244, 1963

[17] T. R ̈as ̈anen 和 M. Kolehmainen。基于特征的电力使用时间序列数据聚类。卷5495,2009年

[18] J. Zakaria, A. Mueen, 和 E. Keogh. 使用无监督形状进行时间序列聚类。在2012年IEEE第12届国际数据挖掘会议上,第785-794页,2012年

[19] Q. Zhang, J. Wu, P. Zhang, G. Long, 和 C. Zhang. 时间序列聚类的显著子序列学习. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(9):2193–2207, 2019

[20] L. Shi, L. Du, 和 Y.-D. Shen. 鲁棒谱学习用于无监督特征选择. 在 2014 IEEE 国际数据挖掘会议上, 页码 977–982, 2014

[21] Z. Li, Y. Yang, J. Liu, X. Zhou, 和 H. Lu. 使用非负谱分析的无监督特征选择。在第二十六届AAAI人工智能会议论文集,AAAI’12,第1026–1032页。AAAI出版社,2012年

[22] B. Lafabregue, J. Weber, P. Gancarski, 和 G. Forestier. 端到端深度表示学习用于时间序列聚类:一项比较研究. 数据挖掘与知识发现, 36:29—-81, 2022


使用nbsphinx生成。Jupyter笔记本可以在这里找到。