提取特征的概述

tsfresh 计算了大量的特征。所有特征计算器都包含在子模块中:

tsfresh.feature_extraction.feature_calculators

此模块包含特征计算器,它们以时间序列作为输入并计算特征的值。

以下列表包含了当前版本的 tsfresh 中支持的所有特征计算:

abs_energy(x)

返回时间序列的绝对能量,即平方值的总和

absolute_maximum(x)

计算时间序列 x 中的最高绝对值。

absolute_sum_of_changes(x)

返回序列 x 中连续变化绝对值的总和

agg_autocorrelation(x, param)

时间序列自相关性的描述性统计。

agg_linear_trend(x, param)

计算时间序列值在分块聚合后与从0到分块数减一的序列之间的线性最小二乘回归。

approximate_entropy(x, m, r)

实现了一个矢量化的近似熵算法。

ar_coefficient(x, param)

此特征计算器拟合自回归 AR(k) 过程的无条件最大似然。

augmented_dickey_fuller(x, param)

时间序列是否有单位根?

autocorrelation(x, lag)

根据公式 [1] 计算指定滞后的自相关。

benford_correlation(x)

用于异常检测应用 [1][2]。返回首位数分布的相关性。

binned_entropy(x, max_bins)

首先将 x 的值分入 max_bins 个等距的箱中。

c3(x, lag)

使用c3统计量来测量时间序列中的非线性

change_quantiles(x, ql, qh, isabs, f_agg)

首先固定由x分布的分位数ql和qh给定的走廊。

cid_ce(x, normalize)

这个函数计算器是对时间序列复杂度 [1] 的一个估计(更复杂的时间序列有更多的峰值、谷值等)。

count_above(x, t)

返回 x 中值高于 t 的百分比

count_above_mean(x)

返回 x 中高于 x 均值的值的数量

count_below(x, t)

返回 x 中小于 t 的值的百分比

count_below_mean(x)

返回 x 中小于 x 均值的值的数量

cwt_coefficients(x, param)

计算Ricker小波的连续小波变换,也称为“墨西哥帽小波”,其定义为

energy_ratio_by_chunks(x, param)

计算第 i 个分块的平方和,该平方和以整个序列的平方和的比率表示。

fft_aggregated(x, param)

返回绝对傅里叶变换谱的谱质心(均值)、方差、偏度和峰度。

fft_coefficient(x, param)

通过快速傅里叶变换算法计算一维离散傅里叶变换的傅里叶系数,输入为实数。

first_location_of_maximum(x)

返回 x 中最大值的第一个位置。

first_location_of_minimum(x)

返回 x 的最小值的第一个位置。

fourier_entropy(x, bins)

计算时间序列功率谱密度(使用Welch方法)的分箱熵。

friedrich_coefficients(x, param)

多项式

的系数,该多项式已拟合到朗之万模型的确定性动力学中

has_duplicate(x)

检查 x 中的任何值是否出现超过一次

has_duplicate_max(x)

检查 x 的最大值是否被多次观测到

has_duplicate_min(x)

检查 x 的最小值是否被观察到多次

index_mass_quantile(x, param)

计算时间序列 x 的相对索引 i,其中 x 的质量的 q% 位于 i 的左侧。

kurtosis(x)

返回 x 的峰度(使用调整后的 Fisher-Pearson 标准化矩系数 G2 计算)。

large_standard_deviation(x, r)

时间序列是否有 标准差?

last_location_of_maximum(x)

返回 x 中最大值的相对最后位置。

last_location_of_minimum(x)

返回 x 的最小值的最后一个位置。

lempel_ziv_complexity(x, bins)

基于Lempel-Ziv压缩算法计算复杂度估计。

length(x)

返回 x 的长度

linear_trend(x, param)

计算时间序列值相对于从0到时间序列长度减一的序列的线性最小二乘回归。

linear_trend_timewise(x, param)

计算时间序列值相对于从0到时间序列长度减一的序列的线性最小二乘回归。

longest_strike_above_mean(x)

返回x中大于x均值的最长连续子序列的长度

longest_strike_below_mean(x)

返回x中连续子序列的最大长度,该子序列小于x的均值

matrix_profile(x, param)

计算一维矩阵轮廓[1],并返回该矩阵轮廓的Tukey五数概括法加上均值。

max_langevin_fixed_point(x, r, m)

动力学的最大不动点 :math:argmax_x {h(x)=0}` 从多项式

估计,该多项式已拟合到朗之万模型的确定性动力学

maximum(x)

计算时间序列 x 中的最高值。

mean(x)

返回 x 的平均值

mean_abs_change(x)

平均首次差异。

mean_change(x)

时间序列差异的平均值。

mean_n_absolute_max(x, number_of_maxima)

计算时间序列中 n 个绝对最大值的算术平均值。

mean_second_derivative_central(x)

返回中心近似二阶导数的平均值

median(x)

返回 x 的中位数

minimum(x)

计算时间序列 x 的最小值。

number_crossing_m(x, m)

计算 x 在 m 上的交叉次数。

number_cwt_peaks(x, n)

x 中不同峰值的数量。

number_peaks(x, n)

计算时间序列 x 中至少有 n 个支持点的峰值数量。

partial_autocorrelation(x, param)

计算偏自相关函数在给定滞后期的值。

percentage_of_reoccurring_datapoints_to_all_datapoints(x)

返回非唯一数据点的百分比。

percentage_of_reoccurring_values_to_all_values(x)

返回时间序列中出现次数超过一次的值的百分比。

permutation_entropy(x, tau, dimension)

计算排列熵。

quantile(x, q)

计算 x 的 q 分位数。

query_similarity_count(x, param)

此特征计算器接受一个输入查询子序列参数,将查询(在z归一化的欧几里得距离下)与时间序列中的所有子序列进行比较,并返回查询在时间序列中被找到的次数(在某个预定义的最大距离阈值内)。

range_count(x, min, max)

统计区间 [min, max) 内的观测值数量。

ratio_beyond_r_sigma(x, r)

比值,表示值偏离 x 均值超过 r * std(x)(即 r 倍标准差)的程度。

ratio_value_number_to_time_series_length(x)

返回一个因子,如果时间序列中的所有值都只出现一次,则该因子为1,否则小于1。

root_mean_square(x)

返回时间序列的均方根(rms)。

sample_entropy(x)

计算并返回 x 的样本熵。

set_property(key, value)

此方法返回一个装饰器,将函数的属性键设置为值

skewness(x)

返回 x 的样本偏度(使用调整后的 Fisher-Pearson 标准化矩系数 G1 计算)。

spkt_welch_density(x, param)

此特征计算器估计时间序列 x 在不同频率下的互功率谱密度。

standard_deviation(x)

返回 x 的标准差

sum_of_reoccurring_data_points(x)

返回时间序列中出现次数超过一次的所有数据点的总和。

sum_of_reoccurring_values(x)

返回时间序列中出现次数超过一次的所有值的总和。

sum_values(x)

计算时间序列值的总和

symmetry_looking(x, param)

布尔变量,表示 x 的分布 看起来是否对称

time_reversal_asymmetry_statistic(x, lag)

返回时间反转不对称统计量。

value_count(x, value)

计算时间序列 x 中 value 的出现次数。

variance(x)

返回 x 的方差

variance_larger_than_standard_deviation(x)

方差比标准差大吗?

variation_coefficient(x)

返回x的变异系数(标准误差/均值,给出均值周围变异的相对值)。