随机形状变换¶
- class RandomShapeletTransform(n_shapelet_samples: int = 10000, max_shapelets: int | None = None, min_shapelet_length: int = 3, max_shapelet_length: int | None = None, remove_self_similar: bool = True, time_limit_in_minutes: float = 0.0, contract_max_n_shapelet_samples: float = inf, n_jobs: int = 1, parallel_backend=None, batch_size: int | None = 100, random_state: int | None = None)[source]¶
随机形状变换。
实现二进制形状变换,遵循[1]、[2]的方法,使用随机提取的形状。形状是从训练集中提取的子序列。该变换找到一组形状,这些形状能够基于形状与整个序列之间的距离有效地分离类别。形状与序列之间的距离(在文献中称为sDist)定义为形状与所有与形状长度相同的窗口之间的最小欧几里得距离。
概述:输入n个长度为m的d通道序列。连续提取候选形状并在批次中过滤它们。
- For each candidate shapelet:
从一个实例中提取一个具有随机长度、位置和维度的shapelet,并找到它与每个训练案例的距离。
使用距离的有序列表和训练数据的类别标签计算形状的信息增益。
如果无法获得比当前最差信息增益更高的信息增益,则放弃评估该形状。
- For each shapelet batch:
将每个候选者添加到其类别的shapelet堆中,如果已达到最大数量的shapelet,则移除信息增益最低的shapelet。
从堆中移除自相似的形状。
使用最终过滤后的shapelets集,将数据转换为从系列到每个shapelet的距离向量。
- Parameters:
- n_shapelet_samplesint, default=10000
要评估的候选形状数量。过滤至<= max_shapelets,保留具有最大信息增益的形状。
- max_shapeletsint or None, default=None
为最终转换保留的最大形状数。每个类别值将有其自己的最大值,设置为n_classes / max_shapelets。如果为None,则使用10 * n_cases和1000之间的最小值。
- min_shapelet_lengthint, default=3
候选形状长度下限。
- max_shapelet_lengthint or None, default= None
候选形状长度的上限。如果为None,则不使用最大长度。
- remove_self_similarboolean, default=True
在合并候选shapelets时,移除重叠的“自相似”shapelets。
- time_limit_in_minutesfloat, default=0.0
时间合同以分钟为单位限制构建时间,覆盖n_shapelet_samples。 默认值为0表示使用n_shapelet_samples。
- contract_max_n_shapelet_samplesfloat, default=np.inf
当设置了time_limit_in_minutes时,要提取的最大shapelets数量。
- n_jobsint, default=1
用于fit和transform的并行任务数量。
-1表示使用所有处理器。- parallel_backendstr, ParallelBackendBase instance or None, default=None
在joblib中指定并行化后端实现,如果为None,则默认使用“threads”的“prefer”值。有效选项包括“loky”、“multiprocessing”、“threading”或自定义后端。有关更多详细信息,请参阅joblib Parallel文档。
- batch_sizeint or None, default=100
在合并到最佳形状集之前处理的形状候选数量。
- random_stateint or None, default=None
随机数生成的种子。
- Attributes:
- n_classes_int
类的数量。
- n_cases_int
训练案例的数量。
- n_channels_int
每个案例的维度数量。
- max_shapelet_length_int
拟合训练数据的最大实际形状长度。
- min_n_timepoints_int
训练数据中序列的最小长度。
- classes_list
类别标签。
- shapeletslist
数据集处理后的存储的形状片段及相关信息。 列表中的每个项目都是一个包含以下7个项目的元组: (形状片段信息增益,形状片段长度,形状片段提取的起始位置,形状片段维度,形状片段在拟合中提取的实例索引,形状片段的类别值,z标准化的形状片段数组)
另请参阅
ShapeletTransformClassifier
注释
Capabilities ¶ 缺失值
无
多线程
是
逆变换
否
单变量
是
多变量
是
不等长
是
对于Java版本,请参见‘TSML <https://github.com/time-series-machine-learning/tsml-java/src/java/tsml/>`_.
参考文献
[1]Jon Hills 等人,“通过形状变换对时间序列进行分类”, 《数据挖掘与知识发现》,28(4),851–881,2014年。
[2]A. Bostrom 和 A. Bagnall,“用于多类时间序列分类的二进制Shapelet变换”,《大规模数据与知识中心系统交易》,32卷,2017年。
示例
>>> from aeon.transformations.collection.shapelet_based import ( ... RandomShapeletTransform ... ) >>> from aeon.datasets import load_unit_test >>> X_train, y_train = load_unit_test(split="train") >>> t = RandomShapeletTransform( ... n_shapelet_samples=500, ... max_shapelets=10, ... batch_size=100, ... ) >>> t.fit(X_train, y_train) RandomShapeletTransform(...) >>> X_t = t.transform(X_train)
方法
clone([random_state])获取具有相同超参数的对象的克隆。
fit(X[, y])将转换器拟合到X,如果是有监督的,可以选择使用y。
fit_transform(X[, y])拟合数据,然后转换它。
get_class_tag(tag_name[, raise_error, ...])从估计器类获取标签值(仅限类标签)。
从估计器类及其所有父类中获取类标签。
get_fitted_params([deep])获取拟合参数。
Sklearn 元数据路由。
get_params([deep])获取此估计器的参数。
get_tag(tag_name[, raise_error, ...])从估计器类中获取标签值。
get_tags()从估计器中获取标签。
inverse_transform(X[, y])反向转换X并返回一个反向转换后的版本。
reset([keep])将对象重置为初始化后的干净状态。
set_params(**params)设置此估计器的参数。
set_tags(**tag_dict)将动态标签设置为给定值。
transform(X[, y])转换X并返回转换后的版本。
- clone(random_state=None)[source]¶
获取具有相同超参数的对象克隆。
克隆是一个没有共享引用的不同对象,处于初始化后的状态。 这个函数等同于返回自身的
sklearn.clone。 在值上等同于type(self)(**self.get_params(deep=False))。- Parameters:
- random_stateint, RandomState instance, or None, default=None
设置克隆的随机状态。如果为None,则不设置随机状态。 如果为int,random_state是随机数生成器使用的种子。 如果为RandomState实例,random_state是随机数生成器。
- Returns:
- estimatorobject
type(self)的实例,self 的克隆(见上文)
- fit(X, y=None)[source]¶
将转换器拟合到X,如果是有监督的,可以选择使用y。
- State change:
将状态更改为“已拟合”。
写入自身: _is_fitted : 标志设置为True。 模型属性(以“_”结尾) : 依赖于估计器
- Parameters:
- Xnp.ndarray or list
要拟合转换的数据,必须是有效的集合类型。输入数据,可以是任意数量的通道,形状为
( n_cases, n_channels, n_timepoints)的等长序列,或者是形状为[n_cases]的numpy数组列表(任意数量的通道,不等长序列),2D np.array(n_channels, n_timepoints_i),其中n_timepoints_i是序列i的长度。允许其他类型的数据,并将其转换为上述类型之一。不同的估计器具有处理不同类型输入的不同能力。如果
self.get_tag("capability:multivariate")为False,它们无法处理多变量序列。如果self.get_tag( "capability:unequal_length")为False,它们无法处理不等长的输入。在这两种情况下,如果X具有估计器无法处理的特性,则会引发ValueError。- ynp.ndarray, default=None
1D np.array 的浮点数或字符串,形状为
(n_cases)- 用于拟合的类标签(真实值),对应于 X 中的实例索引。如果为 None,则在拟合时不使用任何标签。
- Returns:
- selfa fitted instance of the estimator
- fit_transform(X, y=None)[source]¶
拟合数据,然后进行转换。
将转换器适配到X和y,并返回X的转换版本。
- State change:
将状态更改为“已拟合”。
写入自身: _is_fitted : 标志设置为 True。 模型属性(以“_”结尾) : 依赖于估计器。
- Parameters:
- Xnp.ndarray or list
要拟合转换的数据,必须是有效的集合类型。输入数据,可以是任意数量的通道,等长序列的形状为
(n_cases, n_channels, n_timepoints)或形状为[n_cases]的numpy数组列表(任意数量的通道,不等长序列),2D np.array( n_channels, n_timepoints_i),其中n_timepoints_i是序列i的长度。允许其他类型的数据,并将其转换为上述类型之一。不同的估计器具有处理不同类型输入的不同能力。如果
self.get_tag("capability:multivariate")为False,它们无法处理多变量序列。如果self.get_tag( "capability:unequal_length")为False,它们无法处理不等长的输入。在这两种情况下,如果X具有估计器无法处理的特性,则会引发ValueError。- ynp.ndarray, default=None
1D np.array 的浮点数或字符串,形状为
(n_cases)- 用于拟合的类标签(真实值),对应于 X 中的实例索引。如果为 None,则在拟合时不使用任何标签。
- Returns:
- transformed version of X
- classmethod get_class_tag(tag_name, raise_error=True, tag_value_default=None)[source]¶
从估计器类获取标签值(仅限类标签)。
- Parameters:
- tag_namestr
标签值的名称。
- raise_errorbool, default=True
当未找到标签时是否引发ValueError。
- tag_value_defaultany type, default=None
如果未找到标签且未引发错误,则使用默认/回退值。
- Returns:
- tag_value
cls中
tag_name标签的值。 如果未找到,当raise_error为True时返回错误,否则返回tag_value_default。
- Raises:
- ValueError
如果
raise_error为 True 并且tag_name不在self.get_tags().keys()中
示例
>>> from aeon.classification import DummyClassifier >>> DummyClassifier.get_class_tag("capability:multivariate") True
- classmethod get_class_tags()[source]¶
从估计器类及其所有父类获取类标签。
- Returns:
- collected_tagsdict
标签名称和标签值对的字典。 通过嵌套继承从
_tags类属性中收集。 这些不会被set_tags或类__init__调用设置的动态标签覆盖。
- get_fitted_params(deep=True)[source]¶
获取拟合参数。
- State required:
需要状态为“已拟合”。
- Parameters:
- deepbool, default=True
如果为True,将返回此估计器的拟合参数以及包含的作为估计器的子对象。
- Returns:
- fitted_paramsdict
拟合参数名称映射到它们的值。
- get_params(deep=True)[source]¶
获取此估计器的参数。
- Parameters:
- deepbool, default=True
如果为True,将返回此估计器及其包含的子对象的参数。
- Returns:
- paramsdict
参数名称映射到它们的值。
- get_tag(tag_name, raise_error=True, tag_value_default=None)[source]¶
从估计器类获取标签值。
包括动态和覆盖的标签。
- Parameters:
- tag_namestr
要检索的标签名称。
- raise_errorbool, default=True
当未找到标签时是否引发ValueError。
- tag_value_defaultany type, default=None
如果未找到标签且未引发错误,则使用默认/回退值。
- Returns:
- tag_value
自身中
tag_name标签的值。 如果未找到,当raise_error为True时返回错误,否则返回tag_value_default。
- Raises:
- ValueError
如果 raise_error 是
True并且tag_name不在self.get_tags().keys()中
示例
>>> from aeon.classification import DummyClassifier >>> d = DummyClassifier() >>> d.get_tag("capability:multivariate") True
- get_tags()[source]¶
从估计器中获取标签。
包括动态和覆盖的标签。
- Returns:
- collected_tagsdict
标签名称和标签值对的字典。 通过嵌套继承从
_tags类属性收集,然后从__init__或set_tags中收集任何被覆盖和新添加的标签。
- inverse_transform(X, y=None)[source]¶
对X进行逆变换并返回逆变换后的版本。
- Currently it is assumed that only transformers with tags
“input_data_type”=”Series”, “output_data_type”=”Series”,
可以有一个逆变换。
- State required:
需要状态为“已拟合”。
- Accesses in self:
_is_fitted : 必须为 True 拟合模型属性(以“_”结尾): 通过 _inverse_transform 访问
- Parameters:
- Xnp.ndarray or list
要拟合转换的数据,必须是有效的集合类型。输入数据,可以是任意数量的通道,形状为
( n_cases, n_channels, n_timepoints)的等长序列,或者是形状为[n_cases]的numpy数组列表(任意数量的通道,不等长序列),2D np.array(n_channels, n_timepoints_i),其中n_timepoints_i是序列i的长度。允许其他类型的数据,并将其转换为上述类型之一。不同的估计器具有处理不同类型输入的不同能力。如果
self.get_tag("capability:multivariate")为False,它们无法处理多变量序列。如果self.get_tag( "capability:unequal_length")为False,它们无法处理不等长的输入。在这两种情况下,如果X具有估计器无法处理的特性,则会引发ValueError。- ynp.ndarray, default=None
1D np.array 的浮点数或字符串,形状为
(n_cases)- 用于拟合的类标签(真实值),对应于 X 中的实例索引。如果为 None,则在拟合时不使用任何标签。
- Returns:
- inverse transformed version of X
与X类型相同
- reset(keep=None)[source]¶
将对象重置为初始化后的干净状态。
在调用
self.reset()之后,self的值等于或类似于type(self)(**self.get_params(deep=False)),假设没有使用keep保留其他属性。- Detailed behaviour:
- removes any object attributes, except:
超参数(
__init__的参数) 包含双下划线的对象属性,即字符串“__”
使用当前超参数的值(
get_params的结果)运行__init__- Not affected by the reset are:
包含双下划线的对象属性 类和对象方法,类属性 在
keep参数中指定的任何属性
- Parameters:
- keepNone, str, or list of str, default=None
如果为None,则除了超参数外,所有属性都将被移除。 如果为str,则仅保留具有此名称的属性。 如果为str列表,则仅保留具有这些名称的属性。
- Returns:
- selfobject
自我引用。
- set_params(**params)[source]¶
设置此估计器的参数。
该方法适用于简单的估计器以及嵌套对象(如
Pipeline)。后者具有<component>__<parameter>形式的参数,以便可以更新嵌套对象的每个组件。- Parameters:
- **paramsdict
估计器参数。
- Returns:
- selfestimator instance
估计器实例。
- set_tags(**tag_dict)[source]¶
将动态标签设置为给定值。
- Parameters:
- **tag_dictdict
标签名称和标签值对的字典。
- Returns:
- selfobject
自我引用。
- transform(X, y=None)[source]¶
转换X并返回转换后的版本。
- State required:
需要状态为“已拟合”。
访问自身: _is_fitted : 必须为 True 拟合模型属性(以“_”结尾) : 必须设置,通过 _transform 访问
- Parameters:
- Xnp.ndarray or list
要拟合转换的数据,必须是有效的集合类型。输入数据,可以是任意数量的通道,形状为
( n_cases, n_channels, n_timepoints)的等长序列,或者是形状为[n_cases]的numpy数组列表(任意数量的通道,不等长序列),2D np.array(n_channels, n_timepoints_i),其中n_timepoints_i是序列i的长度。允许其他类型的数据,并将其转换为上述类型之一。不同的估计器具有处理不同类型输入的不同能力。如果
self.get_tag("capability:multivariate")为False,它们无法处理多变量序列。如果self.get_tag( "capability:unequal_length")为False,它们无法处理不等长的输入。在这两种情况下,如果X具有估计器无法处理的特性,则会引发ValueError。- ynp.ndarray, default=None
1D np.array 的浮点数或字符串,形状为
(n_cases)- 用于拟合的类标签(真实值),对应于 X 中的实例索引。如果为 None,则在拟合时不使用任何标签。
- Returns:
- transformed version of X