pyts.datasets.fetch_ucr_dataset

pyts.datasets.fetch_ucr_dataset(dataset, use_cache=True, data_home=None, return_X_y=False)[来源]

按名称从UCR时间序列分类档案库获取数据集。

获取的数据集会自动保存在pyts/datasets/_cached_datasets文件夹中。为避免多次下载相同数据集,强烈建议不要修改use_cachepath的默认值。

Parameters:
dataset : str

数据集的名称。

use_cache : bool (default = True)

如果为True,检查数据集是否已被获取,如果是则加载已获取的版本。如果为False,则从UCR时间序列分类档案中下载数据集。

data_home : None or str (default = None)

包含缓存数据集的文件夹路径。 如果为None,则使用pyts/datasets/cached_datasets/UCR/文件夹。 如果未找到数据集,则会下载并缓存到该路径中。

return_X_y : bool (default = False)

如果为True,则返回(data_train, data_test, target_train, target_test) 而不是Bunch对象。有关datatarget对象的更多信息请参见下文。

Returns:
data : Bunch

类似字典的对象,具有以下属性:

data_train : array of floats

训练集中的时间序列。

data_test : array of floats

测试集中的时间序列。

target_train : array of integers

训练集中的分类标签。

target_test : array of integers

测试集中的分类标签。

DESCR : str

数据集的完整描述。

url : str

数据集的URL地址。

(data_train, data_test, target_train, target_test) : tuple if return_X_y is True

注意事项

缺失值用NaN表示。

参考文献

[1]H. A. Dau 等人, "UCR时间序列档案库". arXiv:1810.07758 [cs, stat], 2018.
[2]A. Bagnall 等人,"UEA 和 UCR 时间序列分类库", www.timeseriesclassification.com.