.ts 文件格式¶
本文档正式规定了.ts文件格式,该格式由aeon使用。
以utf-8编码的.ts文件存储时间序列数据集及其相应的
元数据(通过字符串标识符指定)。字符串标识符指的是文件中以@开头的字符串。
.ts 文件按以下顺序包含信息块:
描述块。 包含任意数量的以
#开头的连续行。 每个#后面跟着一个任意的(utf-8)符号序列。.ts规范没有规定描述块的内容,但通常包括文件中包含的数据集的描述,即完整的数据字典、引用等。一个元数据块。 包含以
@开头的连续行。 每个@后面直接跟着一个没有空格的字符串标识符 (@),然后是该标识符的适当值,值的类型取决于标识符的类型。除了@data必须在此块的末尾外,所有字符串标识符的出现顺序没有严格规定。此块中的行数取决于数据集的某些属性(例如:如果数据集是多变量的,则需要额外的一行来指定通道数)一个数据集块。 包含多个表示数据集的浮点值集合。有
n个案例,每个案例都有自己的时间序列,由新行分隔。系列中的值以逗号,分隔的列表表示,每个值的索引相对于其在所述列表中的位置(0, 1, …,m)。一个实例可能包含1到d个通道,其中每个案例的通道使用冒号:分隔。如果存在时间戳,则系列中的每个值都用圆括号括起来,即(YYYY-MM-DD HH:mm:ss,。 响应变量位于每个案例的末尾,并通过冒号分隔。)
这里是一个示例 .ts 文件的摘录,展示了所有三个部分的内容:
#The data was generated from students wearing a smart watch.
#Consists of four classes, which are walking, resting, running and badminton.
...
@problemName BasicMotions
@timeStamps false
@missing false
...
@data
-0.740653,-0.740653,10.208449,2.867009:-0.194301,-0.194301,-0.249618,0.516079:Standing
-0.247409,-0.247409,-0.77129,-0.576154:-0.368484,-0.020851,-0.020851,-0.465607:Walking
...
例如文件,请参见aeon/datasets/data/中的文件或访问
tsml Zenodo社区。
元数据¶
aeon的核心加载器/写入器函数依赖于元数据的存在,以正确地将数据加载到内存中。
提供有关数据集的信息对于不熟悉该数据集的其他用户也很有帮助。
单个字符串标识符的格式为:@,
除了@data没有后续信息。每个元数据条目应在新的一行。
标识符 |
描述 |
值 |
附加评论 |
示例 |
|---|---|---|---|---|
|
数据集的名称。 |
任意 |
值不能包含空格 |
|
|
是否存在时间戳。 |
|
|
|
|
是否存在缺失值。 |
|
仅 |
|
|
时间序列是否只有一个维度。 |
|
|
|
|
通道数量。 |
整数 > 0 |
仅当 |
6 |
|
是否所有案例长度相等。 |
|
|
|
|
每个案例中的时间点数。 |
整数 > 0 |
仅在 |
100 |
|
是否存在目标标签。 |
|
仅适用于回归数据; |
|
|
是否存在类别标签。 |
|
仅适用于分类数据;当 |
|
|
标记数据的开始。 |
- |
数据从下一行开始。 |
- |