.ts 文件格式

本文档正式规定了.ts文件格式,该格式由aeon使用。 以utf-8编码的.ts文件存储时间序列数据集及其相应的 元数据(通过字符串标识符指定)。字符串标识符指的是文件中以@开头的字符串。

.ts 文件按以下顺序包含信息块:

  1. 描述块。 包含任意数量的以#开头的连续行。 每个#后面跟着一个任意的(utf-8)符号序列。 .ts规范没有规定描述块的内容,但通常包括文件中包含的数据集的描述,即完整的数据字典、引用等。

  2. 一个元数据块。 包含以@开头的连续行。 每个@后面直接跟着一个没有空格的字符串标识符 (@),然后是该标识符的适当值,值的类型取决于标识符的类型。除了@data必须在此块的末尾外,所有字符串标识符的出现顺序没有严格规定。此块中的行数取决于数据集的某些属性(例如:如果数据集是多变量的,则需要额外的一行来指定通道数)

  3. 一个数据集块。 包含多个表示数据集的浮点值集合。有n个案例,每个案例都有自己的时间序列,由新行分隔。系列中的值以逗号,分隔的列表表示,每个值的索引相对于其在所述列表中的位置(0, 1, …, m)。一个实例可能包含1到d个通道,其中每个案例的通道使用冒号:分隔。如果存在时间戳,则系列中的每个值都用圆括号括起来,即(YYYY-MM-DD HH:mm:ss,)。 响应变量位于每个案例的末尾,并通过冒号分隔。

这里是一个示例 .ts 文件的摘录,展示了所有三个部分的内容:

#The data was generated from students wearing a smart watch.
#Consists of four classes, which are walking, resting, running and badminton.
...
@problemName BasicMotions
@timeStamps false
@missing false
...
@data
-0.740653,-0.740653,10.208449,2.867009:-0.194301,-0.194301,-0.249618,0.516079:Standing
-0.247409,-0.247409,-0.77129,-0.576154:-0.368484,-0.020851,-0.020851,-0.465607:Walking
...

例如文件,请参见aeon/datasets/data/中的文件或访问 tsml Zenodo社区

元数据

aeon的核心加载器/写入器函数依赖于元数据的存在,以正确地将数据加载到内存中。 提供有关数据集的信息对于不熟悉该数据集的其他用户也很有帮助。

单个字符串标识符的格式为:@ [value], 除了@data没有后续信息。每个元数据条目应在新的一行。

标识符

描述

附加评论

示例

@problemname

数据集的名称。

任意 string

值不能包含空格

BasicMotions

@timestamps

是否存在时间戳。

true, false

true / false 仅限

false

@missing

是否存在缺失值。

true, false

true / false

false

@univariate

时间序列是否只有一个维度。

true, false

true / false 仅限

false

@dimension

通道数量。

整数 > 0

仅当 @univariate false 时存在。

6

@equallength

是否所有案例长度相等。

true, false

true / false 仅限

true

@serieslength

每个案例中的时间点数。

整数 > 0

仅在 @equallength true 时存在。

100

@targetlabel

是否存在目标标签。

true, false

仅适用于回归数据;true / false 仅限

true

@classlabel

是否存在类别标签。

false / true ..

仅适用于分类数据;当true时,还包含以空格分隔的整数/字符串作为标签。

true Standing Running Walking Badminton

@data

标记数据的开始。

-

数据从下一行开始。

-