更新日志

tsfresh 使用 语义化版本控制

版本 0.20.3

  • Bug修复/拼写错误/文档:
    • 修复了问题 #1073:更新了 setup.cfg 以要求更新的 scipy 版本 (#1081)

    • extract_relevant_features 现在将 chunksize 传递给 extract_features (#1083)

    • 修复代码和测试以兼容 numpy >= 2.0 (#1085)

    • 更新 tsfresh.feature_extraction.feature_calculators.skewness,使其与不忽略 nan 的设计原则保持一致 (#1066)

    • 修复流水线笔记本中的拼写/语法错误 (#1082)

    • 增加了恢复线程限制的建议 (#1069)

    • 修复01示例笔记本,以防止训练集和测试集之间的信息泄露

    • 功能计算器返回类型文档 (#1070)

版本 0.20.2

  • 新增功能
    • 使 Dask 和 Distributed 成为可选依赖项 (#1061)

    • 查看和设置 N 个作业 (#1029)

  • Bug修复/拼写错误/文档:
    • 关于并行化效率的额外说明 (#1046)

    • 更新文档提取设置以提高清晰度和格式化效果 (#1033)

    • 拼写错误 (#1031, #1034, #1049, #1048)

版本 0.20.1

  • 新增功能
    • 使 tsfresh 兼容 numpy 1.24 (#1018) 和 pandas 2.0 (#1028)

  • Bug修复/拼写错误/文档:
    • 在 check_if_pandas_series (#963) 中使用 pandas Index.equals

    • 更新包布局、CI/CD 和开发者设置

版本 0.20.0

  • 重大变更
    • matrixprofile 包成为了一个可选依赖项

  • Bug修复/拼写错误/文档:
    • 修复 pandas>1.3.5 的 Friedrich 系数特征提取

    • 修复示例笔记本移动后的文件路径

版本 0.19.0

  • 重大变更
    • 由于依赖于 statsmodels 0.13,放弃对 Python 3.6 的支持

  • 新增功能
    • 改进文档 (#831, #834, #851, #853, #870)

    • 添加 absolute_maximum 和 mean_n_absolute_max 特征 (#833)

    • 使设置可拾取 (#845, #847, #910)

    • 禁用多进程处理 n_jobs=1 (#852)

    • 添加 black、isort 和 pre-commit (#876)

  • Bug修复/拼写错误/文档:
    • 修复时间序列转换为序列以计算lempel_ziv_complexity的问题 (#806)

    • 修复范围计数配置 (#827)

    • 重写文档 (#893)

    • 修复 statsmodels 弃用问题 (#898, #912)

    • 修复需求中的拼写错误 (#903)

    • 将 statsmodels 升级到 v0.13 (#

    • 更新参考文献

版本 0.18.0

  • 新增功能
    • 允许任意滚动大小 (#766)

    • 允许进行多类显著性检验 (#762)

    • 为 RelevantFeatureAugmenter 添加多类选项 (#782)

    • 添加 matrix_profile 特征 (#793)

    • 新增查询相似度计数器功能 (#798)

    • 添加均方根特征 (#813)

  • Bug修复/拼写错误/文档:
    • 不要将笔记本测试的覆盖率发送到 codecov (#759)

    • 修复笔记本中的拼写错误(#757, #780)

    • 修复 make_forecasting_frame 的输出格式 (#758)

    • 修复徽章并移除基准测试

    • 修复 BY 笔记本绘图 (#760)

    • Ts 预测示例改进 (#763)

    • 同时抑制dask中的警告 (#769)

    • 更新 relevant_feature_augmenter.py (#779)

    • 修复 quick_start.rst 中的列名 (#778)

    • 改进相关性表格功能文档 (#781)

    • 修复了 #789 在“如何添加自定义功能”中的拼写错误 (#790)

    • 在警告时转换为正确类型 (#799)

    • 修复文档中的小拼写错误 (#802)

    • 将不需要的文件类型添加到 gitignore (#819)

    • 修复构建和测试失败 (#815)

    • 修复输入文档 (#800)

    • 更新 scikit-learn 版本 (#822)

版本 0.17.0

我们将默认分支从“master”更改为“main”。

  • 重大变更
    • 在 roll_time_series 中将构造的 id 从字符串改为元组 (#700)

    • 同理于 add_sub_time_series_index (#720)

  • 新增功能
    • 实现了Lempel-Ziv复杂度和傅里叶熵(#688)

    • 通过为常见标识符添加断言来防止 #524 问题(#690)

    • 添加了排列熵(#691)

    • 添加了一个logo :-) (#694)

    • 实现了Benford分布特性(#689)

    • 重做了笔记本 (#701, #704)

    • 加快结果透视 (#705)

    • 为 dask 绑定添加测试 (#719)

    • 重构输入数据迭代以减少内存需求 (#707)

    • 添加了基准测试 (#710)

    • 使 dask 成为可能的输入格式 (#736)

  • 错误修复:
    • 修复了一个选择中的错误,该错误导致所有无序索引的回归任务出错 (#715)

    • 修复了readthedocs(#695, #696)

    • 修复 #705 之后的 spark 和 dask,以及针对非 id 命名的 id 列 (#712)

    • 修复预测笔记本中的问题 (#729)

    • 如果可能,让 tsfresh 选择值列 (#722)

    • 从 coveralls github 动作迁移到 codecov (#734)

    • 提高数据处理速度 (#735)

    • 修复了更新、更严格的 pandas 版本 (#737)

    • 修复功能计算器的文档 (#743)

版本 0.16.0

  • 重大变更
    • 修复特征名称中参数的排序问题 (#656) 特征名称现在由所有参数的排序列表组成。过去这适用于所有非组合器特征,现在也适用于组合器特征。如果你依赖于实际的特征名称,这是一个破坏性的变化。

    • 更改滚动后的id(#668)现在,您的数据的旧id仍然保留。此外,我们改进了没有时间列的数据框的滚动方式以及新子时间序列的命名方式。同时,文档也得到了很大的改进。

  • 新增功能
    • 添加了变异系数 (#654)

    • 将笔记本中的 datetimeindex 解释添加到文档中 (#661)

    • 优化 RelevantFeatureAugmenter 以避免重新提取 (#669)

    • 添加了函数 add_sub_time_series_index (#666)

    • 添加了 Dockerfile

    • 速度优化和速度测试脚本 (#681)

  • Bug修复
    • 将提取的 ar 系数增加到完整的参数范围。(#662)

    • 文档修复 (#663, #664, #665)

    • 重写了 sample_entropy 特征计算器 (#681)。现在它更快了,(希望)也更正确了。但你的结果将会改变!

版本 0.15.1

  • 更新日志和文档修复

版本 0.15.0

  • 新增功能
    • 添加 count_above 和 count_below 功能 (#632)

    • 为 dask 数据帧和 pyspark 数据帧添加便利绑定 (#651)

  • Bug修复
    • 修复文档构建和sphinx中的功能表(#637, #631, #627)

    • 将脚本添加到API文档

    • 跳过旧版 Python 版本的 dask 测试 (#649)

    • 添加缺失的分销商关键词 (#648)

    • 修复 cwt 的元组输入 (#645)

版本 0.14.1

  • 修复 Travis 部署

版本 0.14.0

  • 重大变更
    • 将 Benjamini-Hochberg 实现替换为 statsmodels 实现 (#570)

  • 重构与文档
    • travis.yml (#605)

    • gitignore (#608)

    • 修复 c3 的文档字符串 (#590)

    • 功能/pep8 (#607)

  • 新增功能
    • 提高测试覆盖率 (#609)

    • 为 augmented_dickey_fuller() 添加 “autolag” 参数 (#612)

  • Bug修复
    • 功能/pep8 (#607)

    • 修复在Windows上使用多进程时的警告过滤问题 (#610)

    • 移除过时的日志配置 (#621)

    • 将 Benjamini-Hochberg 实现替换为 statsmodels 实现 (#570)

    • 修复内核和笔记本的命名 (#626)

版本 0.13.0

  • 放弃对 Python 2.7 的支持 (#568)

  • 修复的错误
    • 修复 friedrich_coefficients 和 agg_linear_trend 中的缓存问题 (#593)

    • 添加了对错误列名的检查,并为该检查添加了测试(#586)

    • 确保不要安装测试文件夹(#599)

    • 确保至少有一列我们可以用于数据 (#589)

    • 避免在 energy_ratio_by_chunks 中除以零 (#588)

    • 确保 get_moment() 使用浮点数计算 (#584)

    • 当未提供 column_value 和 column_kind 时保留索引 (#576)

    • 在需要时添加 @set_property(“input”, “pd.Series”) (#582)

    • 修复最长连续特征中的偏移错误(修复 #577)(#578)

    • 添加 set_property 导入 (#572)

    • 修复拼写错误 (#571)

    • 修复熔化归一化输入的索引 (#563)

    • 修复 travis (#569)

  • 移除警告 (#583)

  • 更新到最新Python版本 (#594)

  • 优化
    • 如果 ql >= qh,则从 change_quantiles 提前返回 (#591)

    • 优化 mean_second_derivative_central (#587)

    • 使用 Numpy 的 sum 函数提升性能 (#567)

    • 优化 mean_change(修复问题 #542)并修正文档(#574)

版本 0.12.0

  • 修复了错误
    • 弗里德里希系数的错误计算

    • 特征选择选择了太多特征

    • roll_time_series 中被忽略的 max_timeshift 参数

  • 为 Python 2 添加弃用警告

  • 增加了对基于索引的特性的支持

  • 新功能计算器
    • linear_trend_timewise

  • 启用 RelevantFeatureAugmenter 在交叉验证管道中使用

  • 将 scipy 依赖增加到 1.2.0

版本 0.11.2

  • 在 energy_ratio_by_chunks 中更改分块以使用所有数据点

  • 修复 spkt_welch_density 的警告

  • 为“value_count”和“range_count”调整默认设置

  • 添加
    • maxlag 参数到 agg_autocorrelation 函数

  • 现在,输入DataFrame的kind列被转换为字符串类型,旧的派生FC_Settings可能会失效

  • 只有在 extract_features 中将 kind_to_fc_parameters 设置为 None 时,才将 default_fc_parameters 设置为 ComprehensiveFCParameters()。

  • 移除了 pyscaffold

  • 使用渐近算法推导肯德尔τ

版本 0.11.1

  • 一般性能改进

  • 移除了对依赖项的硬性固定

  • 修复了错误
    • 股票价格预测笔记本

    • 多分类笔记本

版本 0.11.0

  • 新功能计算器:
    • fft_aggregated

    • cid_ce

  • 将 mean_second_derivate_central 重命名为 mean_second_derivative_central

  • 如果在特征选择中未找到相关特征,则添加警告

  • 为 from_columns 方法添加 columns_to_ignore 参数

  • 添加分布式模块,包含对 Dask 上分布式特征提取的支持

版本 0.10.1

  • 将测试套件拆分为单元测试和集成测试

  • 修复了以下错误
    • 使用值列的名称作为时间序列类型

    • 防止产生导致高内存消耗的子进程

    • 从 travis 到 pypi 的部署修复

版本 0.10.0

  • 新功能计算器:
    • 部分自相关

  • 在文档中添加了计算特征的列表

  • 添加了两个 ipython 笔记本到
    • 在特征上展示PCA

    • 说明 Benjamini Yekutieli 程序

  • 修复了以下错误
    • Dickey Fuller 设置的不当引用

版本 0.9.0

  • 新功能计算器:
    • ratio_beyond_r_sigma

    • energy_ratio_by_chunks

    • number_crossing_m

    • c3

    • fft系数的角与绝对值

    • agg_autocorrelation

    • p-值和用于augmented_dickey_fuller的usedLag

    • change_quantiles

  • 更改了以下功能的计算方式:
    • fft_coefficients

    • 自相关

    • 时间反演不对称统计量

  • 移除了以下功能计算器:
    • 大量峰值

    • mean_自相关

    • mean_abs_change_quantiles

  • 在特征选择中添加对多分类的支持

  • 改进的滚动机制描述

  • 为预测任务添加了 make_forecasting_frame 方法

  • 内部放弃了时间序列的 pandas 表示,从而实现了显著的速度提升

  • 将特征计算器类型从 aggregate/aggregate 替换为 parameter/apply 到 simple/combiner

  • 为 ipython 笔记本添加测试

  • 添加了笔记本以检查 dft 特征

  • 确保 RelevantFeatureAugmentor 始终进行插补

  • 修复了以下错误
    • impute 是用均值替换整个列

    • fft 系数仅在截断部分计算

    • 允许抑制来自 impute 函数的警告

    • 在 time_reversal_asymmetry_statistic 中添加了缺失的滞后

版本 0.8.1

  • 新功能:
    • 线性趋势

    • agg 趋势

  • 新的 sklearn 兼容转换器
    • PerColumnImputer

  • 修复了错误
    • 使 mannwhitneyu 方法与 scipy > v0.18.0 兼容

  • 为 travis 添加了缓存

  • 内部,增加了特征的串行计算

版本 0.8.0

  • API 变更:
    • 移除特征提取设置对象,替换为关键字参数和平面字典 (fc_parameters)

    • 移除特征选择设置对象,替换为关键字参数

  • 添加了包含新API示例的笔记本

  • 在文档中新增了关于新API的章节

  • 调整了旧笔记本和文档以适应新API

版本 0.7.1

  • 为滚动工具添加了一个最大偏移参数

  • 添加了一个关于如何在Windows上使用tsfresh的FAQ条目

  • 大幅减少了以下功能的运行时间
    • cwt_coefficient

    • index_mass_quantile

    • number_peaks

    • large_standard_deviation

    • symmetry_looking

  • 移除基线单元测试

  • bugfixes:
    • 每个样本的并行插补是在块上进行的,这导致了非确定性结果

    • 在其他数据类型上进行插值未能正常工作

  • 文档的几个改进

版本 0.7.0

  • 新的滚动实用工具,用于使用 tsfresh 进行时间序列预测任务

  • bugfixes:
    • index_mass_quantile 正在使用时间序列容器中的全局索引

    • 一个与 id_column 同名的索引正在破坏并行化

    • friedrich_coefficients 和 max_langevin_fixed_point 偶尔会停滞

版本 0.6.0

  • 特征选择的进度条

  • 新功能:确定性动力学最大不动点的估计

  • 新笔记本:演示如何在包含训练和测试数据集的管道中使用 tsfresh

  • 移除无日志处理程序警告

  • 修复了 RelevantFeatureAugmenter 中关于 evaluate_only_added_features 参数的错误

版本 0.5.0

  • 新示例:driftbif 模拟

  • 并行化的进一步改进

  • 文档中的语言改进

  • 某些功能的性能改进

  • impute 函数的性能改进

  • 新功能和功能重命名:sum_of_recurring_values, sum_of_recurring_data_points

版本 0.4.0

  • 修复了几个错误:UCI 数据集的检查,mean_abs_change_quantiles 的索引超出范围错误

  • 添加了一个进度条,表示提取过程的进度

  • 为每个样本添加了并行化

  • 为比较特征提取结果与旧快照添加了单元测试

  • 添加了 high_comp_cost 属性

  • 添加了 ReasonableFeatureExtraction 设置,仅计算不带“high_comp_cost”属性的特征

版本 0.3.1

  • 修复了几个错误:关闭多进程池 / 索引超出范围的cwt计算器 / 索引质量量化中的除以0

  • 现在默认情况下所有警告都被禁用了

  • 对于单一类型的时序数据,值列的名称用作特征前缀。

版本 0.3.0

  • 修复了解析“NUMBER_OF_CPUS”环境变量的错误

  • 现在,每个类型的特征都是并行计算的

版本 0.2.0

  • 现在 p 值是并行计算的

  • 修复了常量功能的错误

  • 允许时间序列列被命名为 0

  • 将 uci 仓库数据集移动到 github 镜像

  • 添加功能计算器 sample_entropy

  • 添加了 MinimalFeatureExtraction 设置

  • 修复了傅里叶系数计算中的错误

版本 0.1.2

  • 增加了对 Python 3.5.2 的支持

  • 修复了特征命名中的错误,该错误导致特征命名具有不确定性

版本 0.1.1

  • 主要是修复了read-the-docs文档、pypi的readme等

版本 0.1.0

  • 初始版本 :)