pyts.datasets.fetch_ucr_dataset¶
-
pyts.datasets.fetch_ucr_dataset(dataset, use_cache=True, data_home=None, return_X_y=False)[来源]¶ 按名称从UCR时间序列分类档案库获取数据集。
获取的数据集会自动保存在
pyts/datasets/_cached_datasets文件夹中。为避免多次下载相同数据集,强烈建议不要修改use_cache和path的默认值。Parameters: - dataset : str
数据集的名称。
- use_cache : bool (default = True)
如果为True,检查数据集是否已被获取,如果是则加载已获取的版本。如果为False,则从UCR时间序列分类档案中下载数据集。
- data_home : None or str (default = None)
包含缓存数据集的文件夹路径。 如果为None,则使用
pyts/datasets/cached_datasets/UCR/文件夹。 如果未找到数据集,则会下载并缓存到该路径中。- return_X_y : bool (default = False)
如果为True,则返回
(data_train, data_test, target_train, target_test)而不是Bunch对象。有关data和target对象的更多信息请参见下文。
Returns: - data : Bunch
类似字典的对象,具有以下属性:
- data_train : array of floats
训练集中的时间序列。
- data_test : array of floats
测试集中的时间序列。
- target_train : array of integers
训练集中的分类标签。
- target_test : array of integers
测试集中的分类标签。
- DESCR : str
数据集的完整描述。
- url : str
数据集的URL地址。
- (data_train, data_test, target_train, target_test) : tuple if
return_X_yis True
注意事项
缺失值用NaN表示。
参考文献
[1] H. A. Dau 等人, "UCR时间序列档案库". arXiv:1810.07758 [cs, stat], 2018. [2] A. Bagnall 等人,"UEA 和 UCR 时间序列分类库", www.timeseriesclassification.com.