发布说明#

v1.31.0 2024年5月14日#

  • 增强功能
    • 增加对Python 3.12的支持 (GH#2713)

  • 修复
    • flatten_list 工具函数移入 feature_discovery 模块以修复导入错误 (GH#2702)

  • 变更
    • 暂时限制Dask版本 (GH#2694)

    • 移除从Dask或Pyspark数据框创建 EntitySets 的支持 (GH#2705)

    • 在需求文件中提升 tqdmpip 的最低版本 (GH#2716)

    • 在调用 tarfile.extractall 时使用 filter 参数以安全地反序列化EntitySets (GH#2722)

  • 测试变更
    • 修复序列化测试以兼容pytest 8.1.1 (GH#2694)

    • 更新以允许最小依赖检查器正常运行 (GH#2709)

    • 更新拉取请求检查CI操作 (GH#2720)

    • 更新发布说明更新检查CI操作 (GH#2726)

感谢以下人员为本版本做出贡献: @thehomebrewnerd

重大变更#

  • 在此版本的Featuretools中,不再支持从Dask或Pyspark数据框创建EntitySets。使用pandas数据框创建EntitySets的行为保持不变。

v1.30.0 2024年2月26日#

  • 变更
    • 更新numpy、pandas和Woodwork的最低要求 (GH#2681)

    • 更新发布说明版本以适应发布 (GH#2689)

  • 测试变更
    • 更新 make_ecommerce_entityset 以在没有Dask的情况下工作 (GH#2677)

感谢以下人员为本版本做出贡献: @tamargrey, @thehomebrewnerd

v1.29.0 2024年2月16日#

Featuretools的此次发布将不支持Python 3.8

  • 修复
    • 修复依赖问题 (GH#2644, GH#2656)

    • 为pandas 2.2.0的nunique bug添加解决方法,并取消pandas依赖的固定版本 (GH#2657)

  • 变更
    • 修复is_categorical_dtype的弃用警告 (GH#2641)

    • 移除spark安装时对woodwork、pyarrow、numpy和pandas的固定版本 (GH#2661)

  • 文档变更
    • 更新Featuretools标志以在暗模式下正确显示 (GH#2632)

    • 在发布不可行时移除对高级原语的引用 (GH#2674)

  • 测试变更
    • 更新测试以兼容新版本的``holidays`` (GH#2636)

    • 将ruff更新至0.1.6并使用ruff linter/formatter (GH#2639)

    • 更新``release.yaml``以使用PyPI发布的可信发布者 (GH#2646, GH#2653, GH#2654)

    • 更新依赖检查器和测试以包含Dask (GH#2658)

    • 修复与Woodwork主分支一起运行的测试,使其可以触发 (GH#2657)

    • 修复最小依赖检查器操作 (GH#2664)

    • 修复与Woodwork主分支测试相关的Slack警报 (GH#2668)

感谢以下人员为此次发布做出的贡献: @gsheni, @thehomebrewnerd, @tamargrey, @LakshmanKishore

v1.28.0 2023年10月26日#

  • 修复
    • 修复``PercentTrue``原语中的默认值bug (GH#2627)

  • 变更
    • 重构``featuretools/tests/primitive_tests/utils.py``以利用列表推导提高Pythonic质量 (GH#2607)

    • 重构``can_stack_primitive_on_inputs`` (GH#2522)

    • 更新文档图片的s3存储桶 (GH#2593)

    • 暂时将pandas的最大版本限制为``<2.1.0``,pyarrow为``<13.0.0`` (GH#2609)

  • 更新以兼容 pandas 版本 2.1.0 并移除 pandas 的上限版本限制 (GH#2616)

  • 文档更改
    • 修复 README 上的测试徽章 (GH#2598)

    • 更新 readthedocs 配置以使用 build.os (GH#2601)

  • 测试更改
    • 更新 airflow 查看镜性能测试工作流程 (GH#2615)

    • 移除旧的性能测试工作流程 (GH#2620)

感谢以下人员为本版本做出的贡献: @gsheni, @petejanuszewski1, @thehomebrewnerd, @tosemml

v1.27.0 2023年7月24日#

  • 增强功能
    • 添加对 Python 3.11 的支持 (GH#2583)

    • 添加对 pandas v2.0 的支持 (GH#2585)

  • 更改
    • 移除自然语言原语插件 (GH#2570)

    • 更新以解决各种警告 (GH#2589)

  • 测试更改
    • 通过 Airflow 在合并时运行查看镜性能测试 (GH#2575)

感谢以下人员为本版本做出的贡献: @gsheni, @petejanuszewski1, @sbadithe, @thehomebrewnerd

v1.26.0 2023年4月27日#

  • 增强功能
    • 引入新的单表 DFS 算法 (GH#2516)。此功能为**实验性**功能,不正式支持。

    • 添加高级原语安装命令 (GH#2545)

  • 修复
    • 修复 DaysInMonth 的描述 (GH#2547)

  • 更改
    • 使 Dask 成为可选依赖 (GH#2560)

感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @thehomebrewnerd

重大更改#

  • Dask 现在是 Featuretools 的可选依赖。用户在运行 calculate_feature_matrix 时,如果 n_jobs 设置为 1 以外的任何值, 现在需要在运行 calculate_feature_matrix 之前安装 Dask。所需的 Dask 依赖项可以通过 pip install "featuretools[dask]" 安装。

v1.25.0 2023年4月13日#

  • 增强功能
    • 添加 MaxCount, MedianCount, MaxMinDelta, NUniqueDays, NMostCommonFrequency,

      NUniqueDaysOfCalendarYear, NUniqueDaysOfMonth, NUniqueMonths, NUniqueWeeks, IsFirstWeekOfMonth (GH#2533)

    • 添加 HasNoDuplicates, NthWeekOfMonth, IsMonotonicallyDecreasing, IsMonotonicallyIncreasing,

      IsUnique (GH#2537)

  • 修复
    • 修复发布说明标题版本 (GH#2544)

  • 变更
    • 限制 pandas 版本为 < 2.0.0 (GH#2533)

    • 将最小 pandas 版本升级到 1.5.0 (GH#2537)

    • 移除 CorrelationAutoCorrelation 原语,因为这些可能导致数据泄露 (GH#2537)

    • 移除 Kurtosis 原语对 IntegerNullable 的支持 (GH#2537)

感谢以下人员为本版本做出的贡献: @gsheni

v1.24.0 2023年3月28日#

  • 增强功能
    • 添加 AverageCountPerUnique, CountryCodeToContinent, FileExtension, FirstLastTimeDelta, SavgolFilter,

      CumulativeTimeSinceLastFalse, CumulativeTimeSinceLastTrue, PercentChange, PercentUnique (GH#2485)

    • 添加 FullNameToFirstName, FullNameToLastName, FullNameToTitle, AutoCorrelation,

      Correlation, DateFirstEvent (GH#2507)

    • 添加 Kurtosis, MinCount, NumFalseSinceLastTrue, NumPeaks,

      NumTrueSinceLastFalse, NumZeroCrossings (GH#2514)

  • 修复
    • 固定 github-action-check-linked-issues 版本为 1.4.5 (GH#2497)

    • 支持 Woodwork 的更新数字推断(将整数作为字符串处理) (GH#2505)

    • 更新 SubtractNumeric 原语,添加交换律类属性 (GH#2527)

  • 变更

  • 核心需求、测试需求和开发需求的单独Makefile命令 (GH#2518)

感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @ozzieD

v1.23.0 2023年2月15日#

  • 变更
    • TotalWordLengthUpperCaseWordCount 更改为返回 IntegerNullable (GH#2474)

  • 测试变更
    • 添加GitHub Actions缓存以加速工作流程 (GH#2475)

    • 修复最新的依赖检查器安装命令 (GH#2476)

    • 为CI工作流程添加关联问题的拉取请求检查 (GH#2477, GH#2481)

    • 从lint工作流程中移除make package (GH#2479)

感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @sbadithe

v1.22.0 2023年1月31日#

  • 增强功能
    • 添加 AbsoluteDiff, SameAsPrevious, Variance, Season, UpperCaseWordCount 转换原语 (GH#2460)

  • 修复
    • 修复 NumWords 中连续空格的错误 (GH#2459)

    • 修复与 holidays v0.19.0 的兼容性问题 (GH#2471)

  • 变更
    • 在pre-commit-config中指定black和ruff配置参数 (GH#2456)

    • NumCharacters 在给定null输入时返回null (GH#2463)

  • 文档变更
    • 更新 release.md 以添加启动Looking Glass性能测试运行的说明 (GH#2461)

    • 固定 jupyter-client==7.4.9 以修复损坏的文档构建 (GH#2463)

    • 取消固定jupyter-client文档要求 (GH#2468)

  • 测试变更
    • NumWordsNumCharacters 原语添加测试套件 (GH#2459, GH#2463)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd

v1.21.0 2023年1月18日#

  • 增强功能

  • 新增 get_recommended_primitives 函数到 featuretools (GH#2398)

  • 变更
    • 更新 build_docs 工作流,仅在 Python 3.8 和 Python 3.10 上运行 (GH#2447)

  • 文档变更
    • 对发布说明进行小修复 (GH#2444)

  • 测试变更
    • 添加测试,检查 Natural Language 原语在面对边缘情况输入时是否超时 (GH#2429)

    • 修复与 composeml 0.10 的测试兼容性 (GH#2439)

    • 最小依赖单元测试作业在其中一个作业失败时不中止 (GH#2437)

    • 在合并到主分支时运行 Looking Glass 性能测试 (GH#2440, GH#2441)

    • 添加 ruff 进行代码检查,并替换 isort/flake8 (GH#2448)

感谢以下人员对此次发布的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @thehomebrewnerd

v1.20.0 2023年1月5日#

  • 增强功能
    • 添加 TimeSinceLastFalse, TimeSinceLastMax, TimeSinceLastMin, 和 TimeSinceLastTrue 原语 (GH#2418)

    • 添加 MaxConsecutiveFalse, MaxConsecutiveNegatives, MaxConsecutivePositives, MaxConsecutiveTrue, MaxConsecutiveZeros, NumConsecutiveGreaterMean, NumConsecutiveLessMean (GH#2420)

  • 修复
    • 修复 _handle_binary_comparison 函数名中的拼写错误,并更新 set_feature_names 文档字符串 (GH#2388)

    • 仅允许 Datetime 时间索引作为 RateOfChange 原语的输入 (GH#2408)

    • 防止 NumberOfWordsInQuotes 中的正则表达式灾难性回溯 (GH#2413)

    • 修复 feature_set_calculator.py 中的碎片化 PerformanceWarning (GH#2424)

    • 修复 NumberOfCommonWords 特征在自定义 word_set 情况下的序列化问题 (GH#2432)

    • 通过标准化分隔符正则表达式改进 NaturalLanguage 原语的边缘情况处理 (GH#2423)

  • 在多个基元中移除对 DatetimeOrdinal 输入的支持,以防止创建无法计算的特征 (GH#2434)

  • 变更
    • 通过删除对 _features_have_same_path 的调用来重构 _all_direct_and_same_path (GH#2400)

    • 通过一次遍历 input_features 来重构 _build_transform_features (GH#2400)

    • DeepFeatureSynthesis 初始化时仅遍历一次 ignore_columns (GH#2397)

    • 解决空 Pandas 系列警告 (GH#2403)

    • EntitySet.add_last_time_indexes 中使用 init_with_partial_schama 而不是 init 初始化 Woodwork (GH#2409)

    • 更新以兼容 numpy 1.24.0 (GH#2414)

    • TotalWordLengthdelimiter_regex 参数已重命名为 do_not_count (GH#2423)

  • 文档变更
    • 从 1.19.0 版本说明中移除未使用的部分 (GH#2396)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd

重大变更#

  • TotalWordLengthdelimiter_regex 参数已重命名为 do_not_count。 旧的保存特征如果对该参数使用了非默认值,将无法加载。

  • 已从 LessThanScalarGreaterThanScalarLessThanEqualToScalarGreaterThanEqualToScalar 基元中移除对 DatetimeOrdinal 输入的支持。

v1.19.0 2022年12月9日#

  • 增强功能
    • 添加 OneDigitPostalCodeTwoDigitPostalCode 基元 (GH#2365)

    • 添加 ExpandingCountExpandingMinExpandingMeanExpandingMaxExpandingSTDExpandingTrend 基元 (GH#2343)

  • 修复
    • 修复 DeepFeatureSynthesis,使其在创建转换特征时考虑 base_of_exclude 系列的属性 (GH#2380)

  • 修复了 test_version 中负版本号的问题 (GH#2389)

  • 修复了 MultiplyNumericBoolean 原语中可能导致某些输入数据类型组合错误的错误 (GH#2393)

  • 测试更改
    • 修复了 test_holiday_out_of_range 中的版本比较问题 (GH#2382)

感谢以下人员为本版本做出的贡献: @sbadithe, @thehomebrewnerd

v1.18.0 2022年11月15日#

  • 增强功能
    • 添加 RollingOutlierCount 原语 (GH#2129)

    • 添加 RateOfChange 原语 (GH#2359)

  • 修复
    • Rolling*Exponential* 原语设置 uses_full_dataframe (GH#2354)

    • 更新以兼容即将发布的 Woodwork 0.21.0 版本 (GH#2363)

    • 更新演示数据集位置以使用新链接 (GH#2366)

    • 修复 holidays 发布 0.17 后的 test_holiday_out_of_range (GH#2373)

  • 更改
    • 移除 click 和 CLI 功能 (list-primitives, info) (GH#2353, GH#2358)

  • 文档更改
    • 使用 Sphinx 并行构建文档 (GH#2351)

    • 使用非编辑安装以允许本地文档构建 (GH#2367)

    • 从文档中移除 primitives.featurelabs.com 网站 (GH#2369)

  • 测试更改
    • 使用 tmp_path 替换 pytest 的 tmpdir 固定装置 (GH#2344)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd

重大更改#

  • featuretools CLI 已完全移除。

v1.17.0 2022年10月31日#

  • 增强功能
    • 添加 featuretools-sklearn-transformer 作为额外的安装选项 (GH#2335)

    • 添加 CountAboveMean, CountBelowMean, CountGreaterThan, CountInsideNthSTD, CountInsideRange, CountLessThan, CountOutsideNthSTD, CountOutsideRange (GH#2336)

    • 变更
      • 重构primitives目录以使用单独的primitives文件 (GH#2331)

      • 限制dask和distributed的2022.10.1版本 (GH#2347)

    • 文档变更
      • 在文档的安装页面上添加Featuretools-SQL (GH#2337)

      • 修复Featuretools文档中的断链 (GH#2339)

    感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd

v1.16.0 2022年10月24日#

  • 增强功能
    • 添加ExponentialWeighted原语和DateToTimeZone原语 (GH#2318)

    • 从``nlp_primitives``库中添加14个自然语言原语 (GH#2328)

  • 文档变更
    • 修复``aggregation_primitive_base.py``和``features_deserializer.py``中的拼写错误 (GH#2317) (GH#2324)

    • 更新SQL集成文档以反映Snowflake兼容性 (GH#2313)

  • 测试变更
    • 添加Windows安装测试 (GH#2330)

感谢以下人员为本版本做出的贡献: @gsheni, @sbadithe, @thehomebrewnerd

v1.15.0 2022年10月6日#

  • 增强功能
    • 在``EntitySet``字典中添加``series_library``属性 (GH#2257)

    • 利用继承自``str``的``Library``枚举 (GH#2275)

  • 变更
    • 将Rolling*原语的默认间隙从0更改为1以防止意外泄漏 (GH#2282)

    • 更新以兼容pandas 1.5.0 (GH#2290, GH#2291, GH#2308)

    • 从发布工作流中排除文档文件 (GH#2295)

    • 提升可选pyspark依赖项的要求 (GH#2299)

    • 提升``scipy``和``woodwork[spark]``依赖项的要求 (GH#2306)

  • 文档变更
    • 添加文档描述如何将``featuretools_sql``与``featuretools``一起使用 (GH#2262)

  • 文档更改
    • 移除 featuretools_sql 作为文档要求 (GH#2302)

    • 修复 DiffDatetime doctest 中的拼写错误 (GH#2314)

    • 修复 EntitySet 文档中的拼写错误 (GH#2315)

  • 测试更改
    • 移除 Windows CI 测试中的 graphviz 版本限制 (GH#2285)

    • 使用 pytest -n auto 运行 CI 测试 (GH#2298, GH#2310)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd

重大更改#

  • EntitySet 模式已更新,包含 series_library 属性

  • 此版本中 Rolling* 原语的默认行为已更改。如果在未定义 gap 值的情况下使用此原语,此版本返回的特征值将与先前版本返回的特征值不同。

v1.14.0 2022年9月1日#

  • 增强功能
    • Lag 原语替换 NumericLag (GH#2252)

    • 重构 build_features 以将长时间运行的 DFS 调用速度提高 50% (GH#2224)

  • 修复
    • 修复与 holidays 0.15 的兼容性问题 (GH#2254)

  • 更改
    • 更新发布说明以明确 conda 发布部分 (GH#2249)

    • 仅使用 pyproject.toml(远离 setup.cfg)(GH#2260, GH#2263, GH#2265)

    • 为 pyproject.toml 项目添加入口点说明 (GH#2272)

  • 文档更改
    • 修复以移除使用 Spark EntitySets 指南中的警告 (GH#2258)

  • 测试更改
    • 添加 tests/profiling/dfs_profile.py (GH#2224)

    • 添加工作流程以在没有测试依赖项的情况下测试 featuretools (GH#2274)

感谢以下人员为本版本做出的贡献: @cp2boston, @gsheni, @ozzieD, @stefaniesmith, @thehomebrewnerd

v1.13.0 2022年8月18日#

  • 修复

  • 允许布尔列包含在 remove_highly_correlated_features 中 (GH#2231)

  • 变更
    • 重构模式版本检查以使用 packaging 方法 (GH#2230)

    • 将滚动基元的重复逻辑提取到通用实用函数中 (GH#2218)

    • 将 pandas 版本设置为 >=1.4.0 (GH#2246)

    • 移除由于 pandas 版本 < 1.4.0 导致的 roll_series_with_gap 中的解决方法 (GH#2246)

  • 文档变更
    • 在 IsFederalHoliday 基元文档字符串的各部分之间添加换行符 (GH#2235)

  • 测试变更
    • 更新创建 feedstock PR 分支仓库以使用 (GH#2223, GH#2237)

    • 更新开发需求并使用最新的文档 (GH#2225)

感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @sbadithe, @tamargrey

v1.12.1 2022年8月4日#

  • 修复
    • 更新 TrendRollingTrend 基元以处理 IntegerNullable 输入 (GH#2204)

    • camel_and_title_to_snake 处理带有数字的蛇形字符串 (GH#2220)

    • 更改 _get_description 以空白行分割以避免截断基元描述 (GH#2219)

  • 文档变更
    • 添加将新用户添加到 featuretools feedstock 的说明 (GH#2215)

  • 测试变更
    • 添加创建 feedstock PR 工作流 (GH#2181)

    • 为 python 3.9 和 3.10 添加性能测试 (GH#2198, GH#2208)

    • 添加测试以确保基元文档字符串使用标准化动词 (GH#2200)

    • 配置 codecov 以避免过早的 PR 评论 (GH#2209)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd

v1.12.0 2022年7月19日#

Warning

Featuretools 此版本将不再支持 Python 3.7

  • 增强功能
    • 添加 IsWorkingHoursIsLunchTime 转换原语 (GH#2130)

    • Diff 添加 periods 参数,并添加 DiffDatetime 原语 (GH#2155)

    • 添加 RollingTrend 原语 (GH#2170)

  • 修复
    • 解决 Woodwork 集成测试失败问题,并移除 codecov 的 Python 版本检查 (GH#2182)

  • 变更
  • 文档变更
    • 在 DFS 的单表条目中增加关于传递字典给 dataframes 参数的信息 (GH#2160)

  • 测试变更
    • 标准化测试文件中的导入,以简化访问 featuretools 函数 (GH#2166)

    • 将 spark 测试拆分为多个 CI 作业以加快运行时间 (GH#2183)

感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @ozzieD, @rwedge, @sbadithe

v1.11.1 2022年7月5日#

  • 修复
    • 从 PartOfDay 原语中移除第24小时,并添加第0小时 (GH#2167)

感谢以下人员为本版本做出的贡献: @tamargrey

v1.11.0 2022年6月30日#

  • 增强功能
    • 将 datetime 和 string 类型添加为 dfs cutoff_time 的有效参数 (GH#2147)

    • 添加 PartOfDay 转换原语 (GH#2128)

    • 添加 IsYearEnd, IsYearStart 转换原语 (GH#2124)

    • 添加 Feature.set_feature_names 方法,直接为多输出特征设置输出列名 (GH#2142)

    • DayOfYearDaysInMonth 原语包含 np.nan 测试 (GH#2146)

    • 允许将 dfs kwargs 传递到 get_valid_primitives (GH#2157)

  • 变更

```rst
  • 改进序列化和反序列化以减少重复基本信息的存储(GH#2136, GH#2127, GH#2144

  • 在setup cfg中对核心需求和测试需求进行排序(GH#2152

  • 测试更改
    • 修复pandas警告并减少dask .apply警告(GH#2145

    • 固定在Windows测试中使用的graphviz版本(GH#2159

感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd

v1.10.0 2022年6月23日#

  • 增强功能
    • 添加 DayOfYear, DaysInMonth, Quarter, IsLeapYear, IsQuarterEnd, IsQuarterStart 转换原语(GH#2110, GH#2117

    • 添加 IsMonthEnd, IsMonthStart 转换原语(GH#2121

    • 移动 Quarter 测试用例(GH#2123

    • 添加 summarize_primitives 函数以获取有关可用原语的指标(GH#2099

  • 更改
  • 文档更改
    • 更新contributing.md以添加pandoc(GH#2103, GH#2104

    • 更新API参考中的NLP原语部分(GH#2109

    • 修复发布说明格式(GH#2139

  • 测试更改
    • 最新的依赖检查器安装spark依赖(GH#2112

    • 修复与pyspark v3.3.0的测试失败(GH#2114, GH#2120

感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @thehomebrewnerd

v1.9.2 2022年6月10日#

  • 修复
    • 将特征来源信息添加到所有多输出特征列(GH#2102

  • 文档更改
    • 更新contributing.md以添加pandoc(GH#2103

感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @thehomebrewnerd ``` @gsheni, @thehomebrewnerd

v1.9.1 2022年5月27日#

  • 增强功能
    • 更新 DateToHolidayDistanceToHoliday 原语以处理时区感知的输入 (GH#2056)

  • 变更
    • 删除 setup.py、MANIFEST.in 并将配置移动到 pyproject.toml (GH#2046)

  • 文档变更
    • 更新 Slack 邀请链接为新的 (GH#2044)

    • 在页脚添加 Slack 和 Stack Overflow 图标 (GH#2087)

    • 更新文档和文档字符串中的死链接 (GH#2092, GH#2095)

  • 测试变更
    • 由于 Woodwork 0.16.3 中来自 normalize_dataframe 的不同错误,跳过测试 (GH#2052)

    • 修复使用 Woodwork 主分支进行测试时的安装问题 (GH#2055)

    • 使用 codecov 动作 v3 (GH#2039)

    • 添加工作流以使用 Featuretools 主分支启动 EvalML 单元测试 (GH#2072)

    • 将 GitHub Actions 工作流的 yml 重命名为 yaml (GH#2073, GH#2077)

    • 更新 Dask 测试夹具以防止不稳定行为 (GH#2079)

    • 更新 Makefile 以提供更好的 pkg 命令 (GH#2081)

    • 添加定期工作流以检查文档中的断链 (GH#2084)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @thehomebrewnerd

v1.9.0 2022年4月27日#

  • 增强功能
    • 改进 UnusedPrimitiveWarning 并添加额外信息 (GH#2003)

    • 更新 DFS 原语匹配以使用原语 input_types 中定义的所有输入 (GH#2019)

    • 添加 MultiplyNumericBoolean 原语 (GH#2035)

  • 修复
    • 修复二进制比较原语中 Ordinal 输入的问题 (GH#2024, GH#2025)

  • 变更
    • 更新 autonormalize 版本要求 (GH#2002)

    • 在 LatLong 原语中移除额外的 NaN 检查 (GH#1924)

  • 实体集创建期间规范化LatLong NaN值 (GH#1924)

  • 传递原语字典到``check_primitive``以避免重复调用 (GH#2016)

  • 从``MultiplyNumeric``原语输入中移除``Boolean``和``BooleanNullable`` (GH#2022)

  • 更新序列化以兼容Woodwork版本0.16.1 (GH#2030)

  • 文档变更
  • 测试变更
    • 使用Woodwork主分支工作流名称更新单元测试 (GH#2033)

    • 为Woodwork主分支失败的单元测试添加Slack警报 (GH#2040)

感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @ozzieD, @rwedge, @thehomebrewnerd

注意#

  • 此版本中DFS算法的更新可能会导致在某些情况下``ft.dfs``返回的特征数量增加。

v1.8.0 2022年3月31日#

  • 变更
    • 移除``make_trans_primitive``和``make_agg_primitive``实用函数 (GH#1970)

  • 文档变更
    • 更新setup cfg中的项目URL以包含Twitter和Slack (GH#1981)

    • 更新nbconvert到版本6.4.5以修复文档构建问题 (GH#1984)

    • 更新ReadMe以居中徽章并添加文档徽章 (GH#1993)

    • 在文档和贡献中添加M1安装说明 (GH#1997)

  • 测试变更
    • 更新计划工作流仅在Alteryx拥有的仓库上运行 (GH#1973)

    • 更新最小依赖检查器以使用支持写文件的新版本 (GH#1975, GH#1976)

    • 添加black linting包并移除autopep8 (GH#1978)

    • 更新测试以兼容Woodwork版本0.15.0 (GH#1984)

感谢以下人员为本版本做出的贡献: @gsheni, @thehomebrewnerd

重大变更#

  • 实用函数 make_trans_primitivemake_agg_primitive 已被移除。要创建自定义原语,请直接定义原语类。

v1.7.0 2022年3月16日#

  • 增强功能
    • 增加对 Python 3.10 的支持 (GH#1940)

    • 添加了 SquareRoot、NaturalLogarithm、Sine、Cosine 和 Tangent 原语 (GH#1948)

  • 修复
    • 更新 conda 安装命令以指定通道 (GH#1917)

  • 变更
  • 文档变更
    • 添加时间序列指南 (GH#1896)

    • 更新文档的 nlp_primitives 最低要求 (GH#1925)

    • 为 PyPi 添加 GitHub URL (GH#1928)

    • 添加回溯发布支持 (GH#1932)

    • 更新 release.md 中的说明 (GH#1963)

  • 测试变更
    • 更新测试用例以覆盖 __main__.py 文件 (GH#1927)

    • 升级 moto 要求 (GH#1929, GH#1938)

    • 添加 Python 3.9 的 linting、完整安装和文档构建 CI 测试 (GH#1934)

    • 添加 CI 工作流以测试最新的 woodwork 主分支 (GH#1936)

    • 为最小依赖检查器添加 wheel 的下限,并将 lint CI 测试限制为 Python 3.10 (GH#1945)

    • 修复 test_es.py 中的非确定性测试 (GH#1961)

感谢以下人员为本版本做出的贡献: @andriyor, @gsheni, @jeff-hernandez, @kushal-gopal, @mingdavidqi, @rwedge, @tamargrey, @thehomebrewnerd, @tvdboom

重大变更#

  • 已弃用的工具 list_variable_types 已从 Featuretools 中移除。

v1.6.0 2022年2月17日#

  • 增强功能
    • 添加 IsFederalHoliday 转换原语 (GH#1912)

  • 修复
    • 修复捕捉 holidays 库为未知国家引发的新的 NotImplementedError (GH#1907)

  • 变更
    • 移除过时的 pandas 解决方法代码 (GH#1906)

  • 文档变更
    • 在文档中添加内联标签和复制粘贴功能 (GH#1905)

  • 测试变更
    • 修复 URL 反序列化文件 (GH#1909)

感谢以下人员为本版本做出的贡献: @jeff-hernandez, @rwedge, @thehomebrewnerd

v1.5.0 2022年2月14日#

Warning

Featuretools 可能在下一个非补丁版本中不再支持 Python 3.7。

  • 增强功能
    • 添加使用偏移别名字符串作为滚动原语输入的能力 (GH#1809)

    • 更新以添加对 pandas 版本 1.4.0 的支持 (GH#1881, GH#1895)

  • 修复
    • 修复 featuretools_primitives 入口点 (GH#1891)

  • 变更
    • 仅允许原语使用蛇形、驼峰和标题大小写 (GH#1854)

    • 将 autonormalize 添加为附加库 (GH#1840)

    • 添加 DateToHoliday 转换原语 (GH#1848)

    • 添加 DistanceToHoliday 转换原语 (GH#1853)

    • 暂时限制 pandas 和 koalas 的最大版本 (GH#1863)

    • 添加 __setitem__ 方法以重载 EntitySet 上的 add_dataframe 方法 (GH#1862)

    • 添加对 woodwork 0.12.0 的支持 (GH#1872, GH#1897)

    • 将 Datetime 和 LatLong 原语拆分为单独的文件 (GH#1861)

    • 空值将不会包含在规范化数据框的索引中 (GH#1897)

  • 文档变更
    • 提升 ipython 版本 (GH#1857)

    • 更新 README.md 添加 Alteryx 链接 (GH#1886)

  • 测试变更
    • 添加检查以防止安装工作流中的包冲突 (GH#1843)

    • 更改自动批准工作流以使用指派人 (GH#1843)

    • 更新自动批准工作流以在触发时删除分支并进行更改 (GH#1852)

    • 升级测试以使用compose版本0.8.0 (GH#1856)

    • 更新深度特征合成和特征序列化测试以使用新的原语文件 (GH#1861)

感谢以下人员为此次发布做出的贡献: @dvreed77, @gsheni, @jacobboney, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999

重大变更#

  • 当使用 normalize_dataframe 创建新数据框时,新数据框的索引将不包含空值。

v1.4.0 2022年1月10日#

  • 增强功能
    • 添加LatLong变换原语 - GeoMidpoint, IsInGeoBox, CityblockDistance (GH#1814)

    • 为错误、功能请求和文档改进添加问题模板 (GH#1834)

  • 修复
    • 修复了Woodwork初始化在特征矩阵上可能失败的错误,如果截止时间导致引入空值 (GH#1810)

  • 变更
    • 跳过特定dask使用行的代码覆盖率 (GH#1829)

    • 将最低要求的numpy版本提升至1.21.0,scipy至1.3.3,koalas至1.8.1 (GH#1833)

    • 移除pyyaml作为要求 (GH#1833)

  • 文档变更
    • 在release.md中移除对conda forge的测试 (GH#1811)

  • 测试变更
    • 为最低和最新依赖合并请求启用自动合并 (GH#1818, GH#1821, GH#1822)

    • 更改自动批准工作流以使用PR编号并每30分钟运行一次 (GH#1827)

    • 添加自动批准工作流以在单元测试完成后运行 (GH#1837)

    • 仅使用模拟的S3 fixtures测试从S3反序列化 (GH#1825)

    • 移除 fastparquet 作为测试依赖 (GH#1833)

感谢以下人员为本版本做出贡献: @davesque, @gsheni, @rwedge, @thehomebrewnerd

v1.3.0 2021年12月2日#

  • 增强功能
    • 添加 NumericLag 转换原语 (GH#1797)

  • 变更
    • 将 pip 更新至 21.3.1 以满足测试需求 (GH#1789)

  • 文档变更
    • 在安装页面添加 Docker 安装说明和文档 (GH#1785)

    • 在文档的安装页面更新正确的 Python 版本 (GH#1784)

    • 修复《提升计算性能指南》中的格式问题 (GH#1786)

感谢以下人员为本版本做出贡献: @gsheni, @HenryRocha, @tamargrey @thehomebrewnerd

v1.2.0 2021年11月15日#

  • 增强功能
    • 添加带有整数参数的滚动转换原语 (GH#1770)

  • 修复
    • 处理新的 graphviz FORMATS 导入 (GH#1770)

  • 变更
    • 将新版本的 featuretools_tsfresh_primitives 作为附加库添加 (GH#1772)

    • load_weather 作为时间序列的演示数据集添加 (GH#1777)

感谢以下人员为本版本做出贡献: @gsheni, @tamargrey

v1.1.0 2021年11月2日#

  • 修复
    • 在原语上检查 base_of_exclude 属性而不是特征类 (GH#1749)

    • 为 pyspark 固定上限 (GH#1748)

    • 修复 get_unused_primitives 仅识别小写原语字符串的问题 (GH#1733)

    • 需要更新版本的 dask 和 distributed (GH#1762)

    • 修复当 n_jobs > 1 时 cutoff_time df 的传递列的错误 (GH#1765)

  • 变更
    • 将新版本的 nlp_primitives 作为附加库添加 (GH#1743)

    • 将模拟数据集中的 date_of_birth(列名)更改为 birthday (GH#1754)

  • 文档变更
    • 升级 Sphinx 并修复文档配置错误 (GH#1760)

  • 测试变更
    • 修改 CI 以在 Python 3.9 上使用最新依赖项运行单元测试 (GH#1738)

    • 为 Jupyter Notebook 的代码检查添加了 Python 版本标准化器 (GH#1741)

感谢以下人员为本版本做出的贡献: @bchen1116, @gsheni, @HenryRocha, @jeff-hernandez, @ridicolos, @rwedge

v1.0.0 2021年10月12日#

  • 增强功能
    • 添加从 Woodwork DataTables 创建 EntitySets 的支持 (GH#1277)

    • 添加 EntitySet.__deepcopy__ 以保留 Woodwork 类型信息 (GH#1465)

    • 添加 EntitySet.__getstate__EntitySet.__setstate__ 以在序列化时保留类型 (GH#1581)

    • 返回的特征矩阵包含 Woodwork 类型信息 (GH#1664)

  • 修复
    • 修复 Featuretools 1.0 的 DFSTransformer 文档 (GH#1605)

    • 修复 calculate_feature_matrix 的时间类型检查和 encode_features 的合成测试 (GH#1580)

    • 恢复 EqualNotEqual 原语中的类别顺序 (GH#1640)

    • 修复 EntitySet.add_relationship 中的错误,导致 foreign_key 标签丢失 (GH#1675)

    • 更新 DFS 以不在数据框的最后一个时间索引列上构建特征 (GH#1695)

  • 变更
    • Entity 中移除 add_interesting_values (GH#1269)

    • set_secondary_time_index 方法从 Entity 移动到 EntitySet (GH#1280)

    • 重构关系创建过程 (GH#1370)

    • EntitySet.update_dataframe 替换 Entity.update_data (GH#1398)

    • 将统一时间索引的验证检查移动到 EntitySet (GH#1400)

    • EntitySet 中用 Woodwork 数据框替换 Entity 对象 (GH#1405)

    • 重构 EntitySet.plot 以兼容 Woodwork 数据框 (GH#1468)

    • last_time_index 移动到 DataFrame 的列中 (GH#1456)

    • 更新序列化/反序列化以兼容 Woodwork (GH#1452)

    • 重构 EntitySet.query_by_values 以兼容 Woodwork 数据框 (GH#1467)

    • list_logical_types 替换 list_variable_types (GH#1477)

    • 允许深度 EntitySet 相等性检查 (GH#1480)

    • 更新 EntitySet.concat 以兼容 Woodwork DataFrame (GH#1490)

    • 添加列出语义标签的函数 (GH#1486)

    • 在必要时在 remove_highly_correlated_features 中初始化 Woodwork 特征矩阵 (GH#1618)

    • 移除 categorical-encoding 作为附加库(稍后将重新添加) (GH#1632)

    • 移除 autonormalize 作为附加库(稍后将重新添加) (GH#1636)

    • 移除 tsfresh, nlp_primitives, sklearn_transformer 作为附加库(稍后将重新添加) (GH#1638)

    • 更新 CumCount 原语的输入和返回类型 (GH#1651)

    • 标准化 Woodwork 的导入 (GH#1526)

    • 将目标实体重命名为目标数据框 (GH#1506)

    • add_dataframe 替换 entity_from_dataframe (GH#1504)

    • 从 Woodwork 列创建特征 (GH#1582)

    • 将默认变量描述逻辑移动到 generate_description (GH#1403)

    • 更新 Woodwork 到 0.4.0 版本,包含 LogicalType.transform 和 LogicalType 实例 (GH#1451)

    • 更新 Woodwork 到 0.4.1 版本,包含 Ordinal 顺序值和空白序列化修复 (GH#1478)

    • 使用 ColumnSchema 作为原语的输入和返回类型 (GH#1411)

    • 更新特征以使用 Woodwork 并移除 EntityVariable 类 (GH#1501)

    • 重新添加 make_index 功能到 EntitySet (GH#1507)

```rst
  • 功能改进
    • 在DFS原语匹配中使用``ColumnSchema`` (GH#1523)

    • 来自Featuretools v0.26.0的更新 (GH#1539)

    • 在``add_interesting_values``中更好地利用Woodwork (GH#1550)

    • 更新``calculate_feature_matrix``以使用Woodwork (GH#1533)

    • 将Woodwork更新至0.6.0版本,更改了分类推断 (GH#1597)

    • 更新``nlp-primitives``要求以适应Featuretools 1.0 (GH#1609)

    • 移除代码中剩余的``Entity``和``Variable``引用 (GH#1612)

    • 将Woodwork更新至0.7.1版本,更改了初始化方式 (GH#1648)

    • 移除与已解决的pandas问题相关的过时代码 (GH#1677)

    • 移除未使用的``_dataframes_equal``和``camel_to_snake``函数 (GH#1683)

    • 将Woodwork更新至0.8.0版本以提升性能 (GH#1689)

    • 移除``encode_features``中的冗余类型转换 (GH#1694)

    • 如果不在原地操作,加快``encode_features``的速度,但会占用一些空间 (GH#1699)

    • 清理注释和被注释掉的代码 (GH#1701)

    • 将Woodwork更新至0.8.1版本以提升性能 (GH#1702)

  • 文档变更
    • 添加Featuretools中的Woodwork类型指南 (GH#1589)

    • 添加过渡到Featuretools 1.0的资源指南 (GH#1627)

    • 更新``using_entitysets``页面以使用Woodwork (GH#1532)

    • 更新FAQ页面以使用Woodwork集成 (GH#1649)

    • 更新DFS页面为Jupyter笔记本并使用Woodwork集成 (GH#1557)

    • 更新Feature Primitives页面为Jupyter笔记本并使用Woodwork集成 (GH#1556)

    • 更新Handling Time页面为Jupyter笔记本并使用Woodwork集成 (GH#1552)

    • 更新Advanced Custom Primitives页面为Jupyter笔记本并使用Woodwork集成 (GH#1587)

``` * 文档更新

  • 更新部署页面以使用Woodwork集成(GH#1588

  • 更新使用Dask EntitySets页面为Jupyter笔记本并使用Woodwork集成(GH#1590

  • 更新指定原语选项页面为Jupyter笔记本并使用Woodwork集成(GH#1593

  • 更新API参考以匹配Featuretools 1.0 API(GH#1600

  • 更新索引页面为Jupyter笔记本并使用Woodwork集成(GH#1602

  • 更新特征描述页面为Jupyter笔记本并使用Woodwork集成(GH#1603

  • 更新使用Koalas EntitySets页面为Jupyter笔记本并使用Woodwork集成(GH#1604

  • 更新术语表以使用Woodwork集成(GH#1608

  • 更新调整DFS页面为Jupyter笔记本并使用Woodwork集成(GH#1610

  • 修复文档中的小格式问题(GH#1607

  • 移除变量页面及更多对变量的引用(GH#1629

  • 更新特征选择页面以使用Woodwork集成(GH#1618

  • 更新提升性能页面为Jupyter笔记本并使用Woodwork集成(GH#1591

  • 修复过渡指南中的拼写错误(GH#1672

  • 更新文档中1.0.0rc1公告的安装说明(GH#1707, GH#1708, GH#1713, GH#1716

  • 修复README.md中演示笔记本的损坏链接(GH#1728

  • 更新``contributing.md``以改进外部贡献者的说明(GH#1723

  • 手动还原由:pr:1677`和:pr:`1679`所做的更改。相关的pandas中的错误仍然存在。(:pr:`1731

  • 测试更改
    • 移除实体测试(GH#1521

    • 修复损坏的``EntitySet``测试(GH#1548

    • 修复损坏的原语测试(GH#1568

    • 将Jupyter笔记本清理器添加到linter中(GH#1719

    • 更新最小和最新依赖检查器的评审人(GH#1715

  • 对EntitySet.__eq__方法进行了全面覆盖测试(GH#1725

  • 添加了测试以验证所有原语可以在没有参数值的情况下初始化(GH#1726

感谢以下人员为本版本做出的贡献: @bchen1116, @gsheni, @HenryRocha, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd, @VaishnaviNandakumar

重大变更#

  • Entity.add_interesting_values 已被移除。要为单个实体添加有趣值,请调用 EntitySet.add_interesting_values 并传递 dataframe_name 参数中要添加有趣值的数据框名称(GH#1405, GH#1370)。

  • Entity.set_secondary_time_index 已被移除并替换为 EntitySet.set_secondary_time_index,增加了 dataframe_name 参数以指定要设置次级时间索引的数据框(GH#1405, GH#1370)。

  • Relationship 初始化已更新,接受父数据框、父列、子数据框和子列的四个名称值,而不是接受两个 Variable 对象(GH#1405, GH#1370)。

  • EntitySet.add_relationship 已更新,接受数据框和列名称值或 Relationship 对象。从 Relationship 对象添加关系现在需要将关系作为关键字参数传递(GH#1405, GH#1370)。

  • Entity.update_data 已被移除。要更新数据框,请调用 EntitySet.replace_dataframe 并使用 dataframe_name 参数(GH#1630, GH#1522)。

  • EntitySet 中的数据不再存储在 Entity 对象中。相反,使用了带有 Woodwork 类型信息的数据框。因此,大多数提到“实体”的语言现在将指“数据框”,提到“变量”的语言现在将指“列”,并且

“变量类型”将使用 Woodwork 类型系统的“逻辑类型”和“语义标签”(GH#1405)。

  • 传递给 EntitySet.__init__ 的元组字典已将 variable_types 元素替换为独立的 logical_typessemantic_tags 字典(GH#1405)。

  • EntitySet.entity_from_dataframe 不再存在。要向实体集中添加新表,请使用 ``EntitySet.add_dataframe``(GH#1405)。

  • EntitySet.normalize_entity 已重命名为 ``EntitySet.normalize_dataframe``(GH#1405)。

  • EntitySet.add_relationship 时,如果父列和子列的 dtypes 不匹配,Featuretools 将不再引发错误。现在,Featuretools 会检查父列和子列的 Woodwork 逻辑类型是否匹配。如果不匹配,现在会发出警告,并且 Featuretools 将尝试更新子列的逻辑类型以匹配父列的(GH#1405)。

  • 如果在 EntitySet.add_dataframe 时未指定索引,只有在 DataFrame 上未初始化 Woodwork 时,才会使用第一列作为索引。当添加已经初始化 Woodwork 的 DataFrame 时,如果没有设置索引,将会引发错误(GH#1405)。

  • Featuretools 将不再对 DataFrame 中的列进行重新排序,以使索引列成为 DataFrame 的第一列(GH#1405)。

  • 现在可以在 Dask 和 Koalas DataFrame 上执行类型推断,但会发出警告,表明这可能是计算密集型的(GH#1405)。

  • EntitySet.time_type 不再存储为 Variable 对象。相反,使用 Woodwork 类型,数值时间类型将由 'numeric' 语义标签字符串指示,日期时间时间类型将由 Datetime 逻辑类型指示(GH#1405)。

  • last_time_indexsecondary_time_indexinteresting_values 不再是属性(GH#1405)。

可以直接访问的实体集表。现在必须通过Woodwork DataFrame的元数据来访问,这是一个字典(GH#1405)。

  • 辅助函数 list_variable_types 将在未来的版本中被移除,并替换为 list_logical_types。在此期间,list_variable_types 将返回与 list_logical_types 相同的输出(GH#1447)。

此版本的新增内容#

添加有趣的值

要为单个实体添加有趣的值,请调用 EntitySet.add_interesting_values,传入要添加有趣值的数据框的ID。

>>> es.add_interesting_values(dataframe_name='log')

设置辅助时间索引

要为特定数据框设置辅助时间索引,请调用 EntitySet.set_secondary_time_index,传入要设置辅助时间索引的数据框名称以及将辅助时间索引列映射到应用辅助时间索引的列的字典。

>>> customers_secondary_time_index = {'cancel_date': ['cancel_reason']}
>>> es.set_secondary_time_index(dataframe_name='customers', customers_secondary_time_index)

创建关系并添加到实体集

现在,关系是通过传递标识实体集的参数以及指定父数据框、父列、子数据框和子列的四个字符串值来创建的。指定参数名称是可选的。

>>> new_relationship = Relationship(
...     entityset=es,
...     parent_dataframe_name='customers',
...     parent_column_name='id',
...     child_dataframe_name='sessions',
...     child_column_name='customer_id'
... )

现在可以通过两种方式将关系添加到实体集中。第一种方法是将关系对象传递给 EntitySet.add_relationship 方法。

>>> es.add_relationship(new_relationship)

第二种方法是将关系参数直接传递给 EntitySet.add_relationship 方法。

>>> es.add_relationship(
...     parent_dataframe_name='customers',
...     parent_column_name='id',
...     child_dataframe_name='sessions',
...     child_column_name='customer_id'
... )

父数据框、父列、子数据框和子列的名称值。使用这种方法时,指定参数名称是可选的。

>>> es.add_relationship(
...     parent_dataframe_name='customers',
...     parent_column_name='id',
...     child_dataframe_name='sessions',
...     child_column_name='customer_id'
... )

还可以通过传入先前创建的 Relationship 对象来添加关系。使用这种方法时,必须包含 relationship 参数名称。

>>> es.add_relationship(relationship=new_relationship)

替换数据框

要替换 EntitySet 中的数据框为新的数据框,请调用 EntitySet.replace_dataframe 并传入要替换的数据框名称以及新数据。

>>> es.replace_dataframe(dataframe_name='log', df=df)

列出逻辑类型和语义标签

逻辑类型和语义标签已取代变量类型来解析和解释列。您可以通过调用 featuretools.list_logical_types 列出所有可用的逻辑类型。

>>> ft.list_logical_types()

您可以通过调用 featuretools.list_semantic_tags 列出所有可用的语义标签。

>>> ft.list_semantic_tags()

v0.27.1 2021年9月2日#

  • 文档更改
    • 在文档中添加横幅,关于即将发布的 Featuretools 1.0 版本 (GH#1669)

感谢以下人员为本版本做出的贡献: @thehomebrewnerd

v0.27.0 2021年8月31日#

  • 更改
    • 移除 autonormalize、tsfresh、nlp_primitives、sklearn_transformer、categorical_encoding 作为附加库(稍后将重新添加)(GH#1644)

    • featuretools_primitives 入口点抛出异常时发出警告消息 (GH#1662)

```rst
  • 在处理 featuretools_primitives 入口点时,遇到同名原语时抛出 RuntimeError (GH#1662)

  • 防止 featuretools_primitives 入口点加载器加载非类对象以及 AggregationPrimitiveTransformPrimitive 基类 (GH#1662)

  • 测试更改
    • 使用正确的安装命令更新最新依赖检查器 (GH#1652)

    • 更新 isort 依赖 (GH#1654)

感谢以下人员为本版本做出的贡献: @davesque, @gsheni, @jeff-hernandez, @rwedge

v0.26.2 2021年8月17日#

  • 文档更改
    • 在 graphviz 安装说明中指定 conda 通道和 Windows exe (GH#1611)

    • 从布局 html 中移除 GA 令牌 (GH#1622)

  • 测试更改

感谢以下人员为本版本做出的贡献: @gsheni, @simha104

v0.26.1 2021年7月23日#

  • 修复
    • EmailAddressToDomain 原语设置 name 属性 (GH#1543)

  • 文档更改
    • 移除并忽略不必要的图文件 (GH#1544)

感谢以下人员为本版本做出的贡献: @davesque, @rwedge

v0.26.0 2021年7月15日#

  • 增强功能
    • 添加 replace_inf_values 实用函数,用于替换特征矩阵中的 inf 值 (GH#1505)

    • 添加 URLToProtocol, URLToDomain, URLToTLD, EmailAddressToDomain, IsFreeEmailDomain 作为转换原语 (GH#1508, GH#1531)

  • 修复
    • include_entitiesprimitive_options 中正确覆盖 exclude_entities (GH#1518)

  • 文档更改

``` * 防止在构建时记录日志 (GH#1498) * 测试变更

  • 在pandas 1.3.0发布候选版本上测试featuretools并进行修复 (GH#1492)

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999

v0.25.0 2021年6月11日#

  • 增强功能
    • 添加 get_valid_primitives 函数 (GH#1462)

    • 添加 EntitySet.dataframe_type 属性 (GH#1473)

  • 变更
    • 将alteryx开源更新检查器的最低版本升级到2.0.0 (GH#1460)

  • 测试变更
    • 将测试的最低pip要求升级到21.1.2 (GH#1475)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge

v0.24.1 2021年5月26日#

  • 修复
    • 将pyyaml的最低要求更新到5.4 (GH#1433)

    • 将psutil的最低要求更新到5.6.6 (GH#1438)

  • 文档变更
    • 更新nbsphinx版本以修复文档构建问题 (GH#1436)

  • 测试变更
    • 为每个CI作业创建单独的工作流程 (GH#1422)

    • 添加最小依赖检查器以生成最小要求文件 (GH#1428)

    • 在PRs和main上针对python 3.7的最小依赖项添加单元测试 (GH#1432, GH#1445)

    • 将urllib3的最低要求更新到1.26.5 (GH#1457)

感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @thehomebrewnerd

v0.24.0 2021年4月30日#

  • 变更
    • 在GitHub上添加自动分配机器人 (GH#1380)

    • 如果entityset中只有一个实体,则将DFS的max_depth减少到1 (GH#1412)

    • 放弃对Python 3.6的支持 (GH#1413)

  • 文档变更
    • 改进发布说明的格式 (GH#1396)

  • 测试变更

  • 更新 Dask/Koalas 测试用例 (GH#1382)

  • 更新测试用例和文档中的 Spark 配置 (GH#1387, GH#1389)

  • 如果一个 CI 作业失败,不要取消其他 CI 作业 (GH#1386)

  • 更新 boto3 和 urllib3 版本要求 (GH#1394)

  • 更新依赖检查器 PR 创建的令牌 (GH#1402, GH#1407, GH#1409)

感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd

v0.23.3 2021年3月31日#

Warning

下一个非修复版本的 Featuretools 将不再支持 Python 3.6

  • 变更
    • 对 Koalas 版本 1.7.0 的微小更新 (GH#1351)

    • 在 setup.py 分类器中明确提及对 Python 3.8 的支持 (GH#1371)

    • 修复 smart-open 版本 5.0.0 的问题 (GH#1372, GH#1376)

  • 测试变更
    • 将发布说明更新检查与单元测试分开 (GH#1347)

    • 性能测试现在指定要检查的提交 (GH#1354)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @thehomebrewnerd

v0.23.2 2021年2月26日#

Warning

下一个非修复版本的 Featuretools 将不再支持 Python 3.6

  • 增强功能
    • list_primitives 函数返回有效的输入类型和返回类型 (GH#1341)

  • 修复
    • 安装 koalas 时限制 numpy 版本 (GH#1329)

  • 变更
    • 警告 Python 3.6 用户将在未来版本中放弃支持 (GH#1344)

  • 文档变更
    • 更新定义自定义原语的文档 (GH#1332)

    • 更新 featuretools 发布说明 (GH#1345)

感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge

v0.23.1 2021年1月29日#

  • 修复 EntitySet.__eq__Entity.__eq__ 的错误并改进测试 (GH#1323)

  • 文档变更
    • 更新文档工具栏中的 Twitter 链接 (GH#1322)

  • 测试变更

感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @seriallazer, @thehomebrewnerd

v0.23.0 2020年12月31日#

  • 修复
    • 修复从不寻常的 dtype 推断变量类型的逻辑 (GH#1273)

    • 允许向 calculate_feature_matrix 传递没有关系的实体 (GH#1290)

  • 变更
    • query_by_values 方法从 Entity 移动到 EntitySet (GH#1251)

    • _handle_time 方法从 Entity 移动到 EntitySet (GH#1276)

    • 移除 ravel 的使用以解决 pandas 1.2.0 中的意外警告 (GH#1286)

  • 文档变更
    • 修复附加组件的安装命令 (GH#1279)

    • 修复文档中的各种断链 (GH#1313)

  • 测试变更
    • 使用仓库范围的令牌进行依赖检查 (GH#1245, GH#1248)

    • 修复文档 CI 测试期间的安装错误 (GH#1250)

感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @thehomebrewnerd

重大变更#

  • Entity.query_by_values 已被移除,并由 EntitySet.query_by_values 替代,并带有 添加了 entity_id 参数,用于指定实体集中应使用哪个实体进行查询。

v0.22.0 2020年11月30日#

  • 增强功能
    • 允许直接在变量上设置变量描述 (GH#1207)

    • 添加为特征谱系图添加特征描述标题的功能 (GH#1212)

    • 在 read_entityset 中添加对本地 tar 文件的支持 (GH#1228)

  • 修复
    • 更新以修复来自 koalas 1.4 的单元测试错误 (GH#1230, GH#1232)

  • 文档更改
    • 删除了未使用的反馈板链接 (GH#1220)

    • 更新页脚为 Alteryx Innovation Labs (GH#1221)

    • 更新文档中指向仓库的链接以使用 alteryx 组织 URL (GH#1224)

  • 测试更改
    • 更新发布说明检查以使用新的仓库 URL (GH#1222)

    • 使用新的拉取请求 Github Action 版本 (GH#1234)

    • 在 featuretools[complete] 测试期间升级 pip (GH#1236)

    • 将 CI 测试迁移到 github actions (GH#1226, GH#1237, GH#1239)

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @jeff-hernandez, @kmax12, @rwedge, @thehomebrewnerd

v0.21.0 2020年10月30日#

  • 增强功能
    • 添加 describe_feature 以生成给定特征的英语语言特征描述 (GH#1201)

  • 修复
    • 更新 EntitySet.add_last_time_indexes 以与 Koalas 1.3.0 兼容 (GH#1192, GH#1202)

  • 更改
    • 将 koalas 要求保留在单独的文件中 (GH#1195)

  • 文档更改
    • 在文档中添加了页脚 (GH#1189)

    • 添加了特征选择函数指南 (GH#1184)

    • 修复 README.md 徽章以使用正确的链接 (GH#1200)

  • 测试更改
    • pysparkkoalas 添加到自动依赖检查中 (GH#1191)

  • 添加 DockerHub 凭证到 CI 测试环境 (GH#1204)

  • 更新 CI 上的高级原语作业名称 (GH#1205)

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd

v0.20.0 2020年9月30日#

Warning

文本变量类型已被弃用,并被自然语言变量类型所取代。文本变量类型将在未来的版本中被移除。

  • 修复
    • 允许 FeatureOutputSlice 特征被序列化 (GH#1150)

    • 修复在使用近似方法时,当标签通过截止时间传递时生成重复标签列的问题 (GH#1160)

    • 确定在使用近似方法和截止时间为 pandas DataFrame 子类时的 calculate_feature_matrix 行为 (GH#1166)

  • 变更
    • 文本变量类型已被自然语言变量类型取代 (GH#1159)

  • 文档变更
    • 更新发布文档以提高清晰度并添加未来发布模板 (GH#1151)

    • 使用 PyData Sphinx 主题 (GH#1169)

  • 测试变更

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @tamargrey, @tuethan1999

v0.19.0 2020年9月8日#

  • 增强功能
    • 支持在实体集中使用 Koalas DataFrame (GH#1031)

    • 添加用于空值、相关性和单一值特征的特征选择函数 (GH#1126)

  • 修复
    • 修复 encode_features 将排除的特征列转换为数值类型的问题 (GH#1123)

    • 提高 dfs 中未使用原语检查的性能 (GH#1140)

  • 变更
  • 对传递给 dfs 的基元进行排序以获得特征的一致排序* (GH#1119)

  • 文档更改
    • 为 dfs 和 calculate_feature_matrix 添加返回值 (GH#1125)

  • 测试更改
    • 更好地测试从无时间索引到有时间索引的归一化用例 (GH#1113)

* 当传递多个使用 make_trans_primitivemake_agg_primitive 构建的基元实例时,这些实例在传递给 dfs 时必须保持相同的相对顺序,以确保特征的一致排序。

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999

重大更改#

  • ft.dfs 将不再从转换基元构建特征,其中输入之一是转换特征、GroupByTransform 特征或转换/GroupByTransform 特征的直接特征。这将使得一些以前由 ft.dfs 生成的特征只有在 seed_features 中显式指定时才可能生成。

v0.18.1 2020年8月12日#

  • 修复
    • 修复在给定 dask entityset 时 EntitySet.plot() 的问题 (GH#1086)

  • 更改
    • setup.py 中使用 nlp-primitives[complete] 安装 nlp_primitives 额外依赖 (GH#1103)

  • 文档更改
    • 修复 README.md 中损坏的下载徽章 (GH#1107)

  • 测试更改
    • 在配置中使用 CircleCI 矩阵作业以触发具有不同参数的相同作业的多次运行 (GH#1105)

感谢以下人员为本版本做出的贡献: @gsheni, @systemshift, @thehomebrewnerd

v0.18.0 2020年7月31日#

  • 增强功能
    • 如果提供的基元在 dfs 期间未使用,则警告用户 (GH#1073)

  • 修复
    • 使用更一致和统一的警告 (GH#1040)

  • 修复
    • 修复缺失实例ID和分类实体索引的问题(GH#1050

    • 移除feature_set_calculator中的warnings.simplefilter以取消静默警告(GH#1053

    • 修复特征名称中包含’>’或’<’的特征可视化问题(GH#1055

    • 修复encode_features与dfs和calculate_feature_matrix之间的布尔数据类型不匹配问题(GH#1082

    • 更新原语选项以检查反转输入,如果原语是可交换的(GH#1085

    • 修复内核重启之间特征顺序不一致的问题(GH#1088

  • 变更
    • 使DFS匹配所有``Datetime``类型的``TimeSince``原语(GH#1048

    • 将默认分支更改为``main``(GH#1038

    • 如果向``Entity.delete_variables()``提供了不正确的输入,则引发TypeError(GH#1064

    • 更新以兼容pandas 1.1.0(GH#1079, GH#1089

    • 将pandas版本设置为pandas>=0.24.1,<2.0.0。过滤Week原语中的pandas弃用警告。(GH#1094

  • 文档变更
    • 移除benchmarks文件夹(GH#1049

    • 在variables页面添加自定义变量类型部分(GH#1066

  • 测试变更
    • 为``ft.demo.load_mock_customer``添加fixture(GH#1036

    • 重构Dask测试单元(GH#1052

    • 实现检查关键依赖项的自动化流程(GH#1045, GH#1054, GH#1081

    • 不对发布PR或自动化依赖PR运行changelog检查(GH#1057

    • 修复Dask测试中的非确定性行为,导致codecov问题(GH#1070

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @monti-python, @rwedge, @systemshift, @tamargrey, @thehomebrewnerd, @wsankey

v0.17.0 2020年6月30日#

  • 增强功能

  • 新增功能
    • 为变量类型添加 list_variable_typesgraph_variable_types (GH#1013)

    • 添加 graph_feature 以生成给定特征的特征血统图 (GH#1032)

  • 修复
    • 在使用 Dask 数据框作为截止时间时改进警告 (GH#1026)

    • 如果尝试添加实体集关系,其中子变量也是子索引,则报错 (GH#1034)

  • 变更
    • 移除 Feature.get_names (GH#1021)

    • 从原语中移除不必要的 pd.Seriespd.DatetimeIndex 调用 (GH#1020, GH#1024)

    • 改进当传递单个值或无值时的截止时间处理 (GH#1028)

    • find_variable_types 移动到变量工具中 (GH#1013)

  • 文档变更
    • 添加变量类型页面以描述一些变量类型和实用函数 (GH#1013)

    • 从文档中移除 featuretools 企业版 (GH#1022)

    • 在 contributing.md 中添加开发安装说明 (GH#1030)

  • 测试变更
    • 在 CircleCI codecov 上传命令中添加 required 标志 (GH#1035)

感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @kmax12, @rwedge, @thehomebrewnerd, @tuethan1999

重大变更#

  • 移除 Feature.get_names,应改用 Feature.get_feature_names

v0.16.0 2020年6月5日#

  • 增强功能
    • 支持在实体集中使用 Dask 数据框 (GH#783)

    • 通过传递 entities 字典初始化实体集时添加 make_index (GH#1010)

    • 添加在 primitive_options 字典中使用原语类和实例作为键的能力 (GH#993)

  • 修复
    • 干净地关闭 tqdm 实例 (GH#1018)

    • 解决 LatLong 列中 NaN 值的问题 (GH#1007)

  • 测试变更
    • 更新测试以兼容numpy v1.19.0 (GH#1016)

    感谢以下人员为本版本做出的贡献: @Alex-Monahan, @frances-h, @gsheni, @rwedge, @thehomebrewnerd

v0.15.0 2020年5月29日#

  • 增强功能
    • 添加 get_default_aggregation_primitivesget_default_transform_primitives (GH#945)

    • 允许截止时间数据框的列可以按任意顺序排列 (GH#969, GH#995)

    • 添加 Age 原语,并将其作为 DFS 的默认转换原语 (GH#987)

    • 添加 include_cutoff_time 参数 - 控制是否在特征计算中包含截止时间的数据 (GH#959)

    • 允许 variables_types 通过其 type_string 被引用 用于 entity_from_dataframe 函数 (GH#988)

  • 修复
    • 修复 Equals 和 NotEquals 原语在比较分类变量或不同数据类型时出现的错误 (GH#968)

    • 标准化 Variable 类的 type_strings,以便 find_variable_types 函数生成一个 具有清晰键到名称转换的字典 (GH#982, GH#996)

    • 由于弃用,移除 test_calculate_feature_matrix 中的 pandas.datetime (GH#998)

  • 文档更改
    • 为文档添加 Python 3.8 支持 (GH#983)

    • 添加一致的 Entityset 文档字符串 (GH#986)

  • 测试更改
    • 为 Python 3.8 环境添加自动化测试 (GH#847)

    • 更新测试依赖 (GH#976)

感谢以下人员为本版本做出的贡献: @ctduffy, @frances-h, @gsheni, @jeff-hernandez, @rightx2, @rwedge, @sebrahimi1988, @thehomebrewnerd, @tuethan1999

重大更改#

  • 调用 featuretools.dfsfeaturetools.calculate_feature_matrix 时使用截止时间

数据框,但不要将时间列标记为目标实体时间索引变量名称或 作为 time,现在将导致 AttributeError。以前,时间列被选择为第一个 不是实例ID列的列。通过此更新,数据框中列的位置 不再用于确定时间列。现在,截止时间 数据框中的实例ID列和时间列可以按任何顺序排列,只要它们命名正确即可。

  • 所有 Variable 子类的 type_string 属性现在都是其类名的蛇形命名转换。这 更改了 UnknownIPAddressEmailAddressSubRegionCodeFilePathLatLongZIPcode 类的 type_string。 使用这些变量的旧保存实体集可能无法正确加载。

v0.14.0 2020年4月30日#

  • 增强功能
    • ft.encode_features - 使用更少的内存进行独热编码列 (GH#876)

  • 修复
    • 使用 logger.warning 修复已弃用的 logger.warn (GH#871)

    • 为 interesting_values 添加 dtype 以修复没有 dtype 的空 Series (GH#933)

    • 删除训练窗口中的重叠 (GH#930)

    • 修复笔记本中的进度条 (GH#932)

  • 更改
    • 将高级原语 CI 测试更改为 Python 3.6 (GH#916)

    • 移除 Python 3.5 支持 (GH#917)

  • 文档更改
    • 修复 README 链接至文档 (GH#872)

    • 使用正确的组织修复 Github 链接 (GH#908)

    • 使用更新后的地址修复文档和文档字符串中的超链接 (GH#910)

    • 移除用于将文档上传到 AWS 的未使用脚本 (GH#911)

感谢以下人员为本版本做出贡献: @frances-h, @gsheni, @jeff-hernandez, @rwedge

重大更改#

  • 在特征计算中使用训练窗口可能会导致与之前版本不同的值。 这样做是为了防止连续的训练窗口通过排除最早时间点的数据来重叠。 例如,如果我们使用每小时的第一分钟作为截止时间,并且训练窗口为一个小时, 那么前一个小时的第一分钟将不再包含在特征计算中。

v0.13.4 2020年3月27日#

Warning

下一个非修复版本的Featuretools将不再支持Python 3.5

  • 修复
    • 修复ft.show_info()在Jupyter笔记本中不显示的问题 (GH#863)

  • 变更
  • 文档变更
    • 添加到primitives.featurelabs.com的链接 (GH#860)

    • 在API参考中添加源代码链接 (GH#862)

    • 更新测试Dask/Spark集成的链接 (GH#867)

    • 更新featuretools的发布文档 (GH#868)

  • 测试变更

感谢以下人员为本版本做出的贡献: @frances-h, @FreshLeaf8865, @jeff-hernandez, @rwedge, @thehomebrewnerd

v0.13.3 2020年2月28日#

  • 修复
    • 修复使用n_jobs时连接关闭错误 (GH#853)

  • 变更
    • 为Python 3.5固定msgpack依赖;从Dask依赖中移除dataframe (GH#851)

  • 文档变更
    • 更新Github问题模板中帮助文档页面的链接 (GH#855)

感谢以下人员为本版本做出的贡献: @frances-h, @rwedge

v0.13.2 2020年1月31日#

  • 增强功能
  • 变更
    • 移除从S3匿名下载时对s3fs库的依赖 (GH#825)

  • 测试变更
    • 添加了GitHub Action以自动运行性能测试(GH#840

感谢以下人员为本版本做出的贡献: @frances-h@rwedge

v0.13.1 2019年12月28日#

  • 修复
    • 当给定错误的ignore_variables输入时引发错误(GH#826

    • 修复在没有子数据时未创建多输出特征的问题(GH#834

    • 移除Equals和NotEquals原语中的类型转换(GH#504

  • 变更
    • 替换已弃用的pd.timedelta时间单位(GH#822

    • 将sklearn包装器移动到单独的库(GH#835GH#837

  • 测试变更
    • 在Windows环境中运行单元测试(GH#790

    • 更新测试所需的boto3版本(GH#838

感谢以下人员为本版本做出的贡献: @jeffzi@kmax12@rwedge@systemshift

v0.13.0 2019年11月30日#

  • 增强功能
    • 添加了GitHub Action以自动将发布上传到PyPI(GH#816

  • 修复
    • 修复某些原语选项不会被应用的问题(GH#807

    • 修复在添加有趣特征后转换为pickle或parquet的问题(GH#798GH#823

    • Diff原语现在使用所有可用数据进行计算(GH#824

    • 防止DFS创建全局忽略变量的Identity特征(GH#819

  • 变更
    • 从serialize.py中移除对Python 2.7的支持(GH#812

    • 使smart_open、boto3和s3fs成为可选依赖项(GH#827

  • 文档变更
    • 在install.rst中移除对Python 2.7的支持并添加3.7(GH#805

    • 修复文档中的导入错误(GH#803

    • 修复changelog中发布标题的格式(GH#806

  • 测试变更
    • 在CI上使用多个CPU运行测试(GH#811

    • 重构测试实体集创建以避免保存到磁盘(GH#813GH#821

  • 从 test_es.py 中移除 get_values() 以消除警告 (GH#820)

感谢以下人员为本版本做出的贡献: @frances-h, @jeff-hernandez, @rwedge, @systemshift

重大变更#

  • 用于从 S3 或 URL 下载或上传的库现在为可选,默认情况下不再安装。要使用此功能,需要单独安装这些库。

  • 修复 Diff 原语的计算方式可能会减慢使用此原语的特征列表的整体计算时间。

v0.12.0 2019年10月31日#

  • 增强功能
    • 添加 First 原语 (GH#770)

    • 添加 Entropy 聚合原语 (GH#779)

    • 允许为多输出原语自定义命名 (GH#780)

  • 修复
    • 防止用户使用 additional_variables 移除基础实体的时间索引 (GH#768)

    • 修复当多输出原语作为 groupby 转换原语提供给 dfs 时出现的错误 (GH#786)

  • 变更
    • 放弃 Python 2 支持 (GH#759)

    • 为 AvgTimeBetween 添加 unit 参数 (GH#771)

    • 要求 Pandas 0.24.1 或更高版本 (GH#787)

  • 文档变更
    • 更新 featuretools slack 链接 (GH#765)

    • 设置仓库以使用 Read the Docs (GH#776)

    • 将 First 原语添加到 API 参考文档 (GH#782)

  • 测试变更

感谢以下人员为本版本做出的贡献: @ablacke-ayx, @BoopBoopBeepBoop, @jeffzi, @kmax12, @rwedge, @thehomebrewnerd, @twdobson

v0.11.0 2019年9月30日#

Warning

下一个非修复版本的 Featuretools 将不再支持 Python 2

  • 增强功能
    • 改进文件复制和写入方式 (GH#721)

  • 新增功能
    • 在实体集的图中添加行数 (GH#727)

    • 在DFS和Timedelta中添加对pandas DateOffsets的支持 (GH#732)

    • 在encode_features中使用字典启用特定特征的top_n值 (GH#735)

    • 在dfs()和calculate_feature_matrix()中添加progress_callback参数 (GH#739, GH#745)

    • 启用按列或按实体指定原语 (GH#748)

  • 修复
    • 修复实体集反序列化 (GH#720)

    • 当DateTimeIndex是变量但未设置为time_index时添加错误消息 (GH#723)

    • 修复以ID为输入的CumCount和其他分组转换原语 (GH#733, GH#754)

    • 修复进度条少计问题 (GH#743)

    • 更新training_window错误断言,仅针对观察结果进行检查 (GH#728)

    • 保存实体集时不删除整个目标文件夹 (GH#717)

  • 变更
    • 在模式版本不匹配时发出警告而非错误 (GH#718)

    • 更改特征计算以按提供的实例ID顺序返回 (GH#676)

    • 在dfs()和calculate_feature_matrix()中移除显示的进度条中的剩余时间 (GH#739)

    • 当base_entity的time_index具有无效类型时,在normalize_entity()中发出警告 (GH#749)

    • 移除toolz作为直接依赖 (GH#755)

    • 允许在Multiply原语中使用布尔变量类型 (GH#756)

  • 文档变更
    • 更新Compose的URL (GH#716)

  • 测试变更

感谢以下人员为本版本做出的贡献: @angela97lin, @chidauri, @christopherbunn, @frances-h, @jeff-hernandez, @kmax12, @MarcoGorelli, @rwedge, @thehomebrewnerd

重大变更#

  • 特征计算将按照提供的实例ID顺序返回,而不是按照实例计算的时间点顺序返回。

v0.10.1 2019年8月25日#

  • 修复
    • 修复序列化的LatLong数据被加载为字符串的问题 (GH#712)

  • 文档更改
    • 修复FAQ单元格输出 (GH#710)

感谢以下人员为本版本做出的贡献: @gsheni, @rwedge

v0.10.0 2019年8月19日#

Warning

下一个非修复版本的Featuretools将不再支持Python 2

  • 增强功能
    • 提供更频繁的进度条更新并更新块大小行为 (GH#631, GH#696)

    • 在encode_features中添加drop_first作为参数 (GH#647)

    • 添加对堆叠多输出原语的支持 (GH#679)

    • 生成直接特征的转换特征 (GH#623)

    • 添加从S3序列化和反序列化以及从URL反序列化的功能 (GH#685)

    • 添加nlp_primitives作为附加库 (GH#704)

    • 在Featuretools插件中添加AutoNormalize (GH#699)

    • 在Timedelta中添加对相对单位(月/年)的功能 (GH#692)

    • 添加categorical-encoding作为附加库 (GH#700)

  • 修复
    • 修复DFS中的性能回归问题 (GH#637)

    • 修复特征关系路径的反序列化 (GH#665)

    • 在添加祖先关系变量后设置索引 (GH#668)

    • 修复Entity初始化中用户提供的variable_types修改 (GH#675)

    • 不计算不必要的特征的依赖关系 (GH#667)

    • 防止规范化实体的新实体与基础实体具有相同的索引 (GH#681)

    • 更新变量类型推断以更好地检查字符串值 (GH#683)

  • 更改
    • 移动dask, distributed导入 (GH#634)

  • 文档更改

  • 杂项更改 (GH#641, GH#658)

  • 修改了编码中 top_n 的 doc_string (GH#648)

  • 超链接 ComposeML (GH#653)

  • 添加了常见问题解答 (GH#620, GH#677)

  • 修复了带有多个问号的常见问题解答问题 (GH#673)

感谢以下人员为本版本做出的贡献: @alexjwang, @allisonportis, @ayushpatidar, @CJStadler, @ctduffy, @gsheni, @jeff-hernandez, @jeremyliweishih, @kmax12, @rwedge, @zhxt95,

v0.9.1 2019年7月3日#

  • 增强功能
    • 加速 groupby 转换计算 (GH#609)

    • 当实体之间存在多条路径时,沿所有路径生成特征 (GH#600, GH#608)

  • 修复
    • 使用列表选择数据框的列 (GH#615)

    • 将计算在 Index 特征上的特征类型更改为 Categorical (GH#602)

    • 通过前向关系过滤数据框 (GH#625)

    • 在 Python 2 的要求中指定 Dask 版本 (GH#627)

    • 在特征计算期间保持数据框按时间排序 (GH#626)

    • 修复了 encode_features 中的错误,该错误在具有多个输出的特征上创建了重复的列 (GH#622)

  • 更改
    • 删除未使用的 variance_selection.py 文件 (GH#613)

    • 删除 Timedelta 数据参数 (GH#619)

    • 删除 DaysSince 原语 (GH#628)

  • 文档更改
  • 测试更改

感谢以下人员为本版本做出的贡献: @CJStadler, @kmax12, @rwedge, @gsheni, @kkleidal, @ctduffy

v0.9.0 2019年6月19日#

  • 增强功能
    • 为timesince原语添加单位参数 (GH#558)

    • 添加安装可选附加库的能力 (GH#551)

    • 从打开的文件和字符串中加载和保存特征 (GH#566)

    • 支持自定义变量类型 (GH#571)

    • 支持在两个实体之间具有多条路径的实体集 (GH#572, GH#544)

    • 添加了show_info函数,更多输出信息添加到CLI featuretools info (GH#525)

  • 修复
    • 当’make_time_index’为无效字符串时,normalize_entity指定错误 (GH#550)

    • 为实体集序列化添加了架构版本 (GH#586)

    • 重命名的特征名称正确序列化 (GH#585)

    • 改进了normalize_entity和entity_from_dataframe中index/time_index为同一列时的错误消息 (GH#583)

    • 删除了所有对allow_where的提及 (GH#587, GH#588)

    • 删除了normalize entity中未使用的变量 (GH#589)

    • 将time since的返回类型更改为数值 (GH#606)

  • 变更
    • 重构get_pandas_data_slice以接受单个实体 (GH#547)

    • 更新TimeSincePrevious和Diff原语 (GH#561)

    • 删除不必要的time_last变量 (GH#546)

  • 文档变更
  • 测试变更

感谢以下人员为本版本做出的贡献: @alexjwang, @allisonportis, @CJStadler, @ctduffy, @gsheni, @kmax12, @rwedge v0.8.0 2019年5月17日 ===================

  • 将NUnique重命名为NumUnique (GH#510)

  • 将特征序列化为JSON (GH#532)

  • 在normalize_entity中一次性删除所有变量 (GH#533)

  • 从normalize_entity中移除不必要的排序 (GH#535)

  • 特征缓存其名称 (GH#536)

  • 仅计算截止时间之前的实例的特征 (GH#523)

  • 移除所有相对导入 (GH#530)

  • 添加了FullName变量类型 (GH#506)

  • 当目标实体不存在时添加错误消息 (GH#520)

  • 新的演示链接 (GH#542)

  • 在DFS中移除重复特征检查 (GH#538)

  • featuretools_primitives入口点期望原始类列表 (GH#529)

  • 更新ALL_VARIABLE_TYPES列表 (GH#526)

  • 更多信息性的N Jobs打印和警告 (GH#511)

  • 更新sklearn版本要求 (GH#541)

  • 更新Makefile (GH#519)

  • 在Entity._handle_time中移除未使用的参数 (GH#524)

  • 从setup.py中移除build_ext代码 (GH#513)

  • 文档更新 (GH#512, GH#514, GH#515, GH#521, GH#522, GH#527, GH#545)

  • 测试更新 (GH#509, GH#516, GH#517, GH#539)

感谢以下人员为本版本做出的贡献:@bphi, @CharlesBradshaw, @CJStadler, @glentennis, @gsheni, @kmax12, @rwedge

重大变更#

  • NUnique 已重命名为 NumUnique

    之前的行为

    from featuretools.primitives import NUnique
    

    新的行为

    from featuretools.primitives import NumUnique
    

v0.7.1 2019年4月24日#

  • 自动为可控原始生成特征名称 (GH#481)

  • 原始文档字符串更新 (GH#489, GH#492, GH#494, GH#495)

  • 将返回字符串的原始函数更改为返回函数 (GH#499)

  • 可通过入口点自定义CLI (GH#493)

  • 改进对孙代进行聚合特征的计算 (GH#479)

  • 重构入口点以使用装饰器 (GH#483)

  • 在测试套件中包含doctests (GH#491)

  • 文档更新 (GH#490)

  • 更新内部标准原语的导入方式 (GH#482)

感谢以下人员为本版本做出的贡献:@bukosabino, @CharlesBradshaw, @glentennis, @gsheni, @jeff-hernandez, @kmax12, @minkvsky, @rwedge, @thehomebrewnerd

v0.7.0 2019年3月29日#

感谢以下人员为本版本做出的贡献:@bukosabino, @CharlesBradshaw, @ColCarroll, @glentennis, @grayskripko, @gsheni, @jeff-hernandez, @jrkinley, @kmax12, @RogerTangos, @rwedge

重大变更#

  • ft.dfs 现在有一个 groupby_trans_primitives 参数,DFS 使用它来自动构建按 ID 列分组并应用转换原语搜索组的功能。此更改适用于以下原语:CumSumCumCountCumMeanCumMinCumMax

    以前的行为

    ft.dfs(entityset=es,
           target_entity='customers',
           trans_primitives=["cum_mean"])
    

    新的行为

    ft.dfs(entityset=es,
           target_entity='customers',
           groupby_trans_primitives=["cum_mean"])
    
  • 与上述更改相关,累积转换特征现在使用新的特征类 GroupByTransformFeature 定义。

    以前的行为

    ft.Feature([base_feature, groupby_feature], primitive=CumulativePrimitive)
    

    新的行为

    ft.Feature(base_feature, groupby=groupby_feature, primitive=CumulativePrimitive)
    

v0.6.1 2019年2月15日#

  • 累积原语 (GH#410)

  • Entity.query_by_values 现在保留底层数据的行顺序 (GH#428)

  • 将国家代码和子区域代码实现为变量类型 (GH#430)

  • 添加了 IPAddress 和 EmailAddress 变量类型 (GH#426)

  • 安装数据和依赖项 (GH#403)

  • 添加 TimeSinceFirst,修复 TimeSinceLast (GH#388)

  • 允许用户传递所需的特征返回类型 (GH#372)

  • 添加新的配置对象 (GH#401)

  • 替换 NUnique get_function (GH#434)

  • _calculate_idenity_features 现在只返回请求的特征,而不是整个实体 (GH#429)

  • 原语函数名称唯一性 (GH#424)

  • 更新 NumCharacters 和 NumWords 原语 (GH#419)

  • 移除 Variable.dtype (GH#416, GH#433)

  • 更改邮政编码表示,pandas 使用字符串 (GH#418)

  • 移除pandas版本上限 (GH#408)

  • 使S3依赖项可选 (GH#404)

  • 检查agg_primitives和trans_primitives是否为正确的原语类型 (GH#397)

  • 均值原语更改 (GH#395)

  • 修复多输出聚合上的变换堆叠 (GH#394)

  • 修复list_primitives (GH#391)

  • 处理graphviz依赖 (GH#389, GH#396, GH#398)

  • 测试更新 (GH#402, GH#417, GH#433)

  • 文档更新 (GH#400, GH#409, GH#415, GH#417, GH#420, GH#421, GH#422, GH#431)

感谢以下人员为本版本做出的贡献: @CharlesBradshaw, @csala, @floscha, @gsheni, @jxwolstenholme, @kmax12, @RogerTangos, @rwedge

v0.6.0 2018年1月30日#

感谢以下人员为本版本做出的贡献: @floscha, @gsheni, @kmax12, @RogerTangos, @rwedge

v0.5.1 2018年12月17日#

  • 添加缺失的依赖项 (GH#353)

  • 将注释移至文档中的注释 (GH#352)

v0.5.0 2018年12月17日#

  • 为normalize_entity中的重复additional/copy_variables添加特定错误 (GH#348)

  • 移除 EntitySet._import_from_dataframe (GH#346)

  • 移除 time_index_reduce 参数 (GH#344)

  • 允许安装额外的原语 (GH#326)

  • 修复 DatetimeIndex 变量转换 (GH#342)

  • 更新 Sklearn DFS Transformer (GH#343)

  • 清理实体创建逻辑 (GH#336)

  • 在转换特征计算中移除列表转换 (GH#330)

  • 修复 sklearn 包装器 (GH#335)

  • 添加 readme 到 pypi

  • 在迁移到 conda-forge 后更新 conda 文档 (GH#334)

  • 为 scikit-learn Pipelines 添加包装器 (GH#323)

  • 从 EntitySet._import_from_dataframe 中移除 parse_date_cols 参数 (GH#333)

感谢以下人员为本版本做出的贡献:@bukosabino, @georgewambold, @gsheni, @jeff-hernandez, @kmax12, 和 @rwedge

v0.4.1 2018年11月29日#

  • 解决默认使用第一列作为索引的错误 (GH#308)

  • 处理从 Id 变量创建特征时的返回类型 (GH#318)

  • 使 id 成为 EntitySet 构造函数的可选参数 (GH#324)

  • 处理对同一列应用相同函数的原语 (GH#321)

  • 更新需求 (GH#328)

  • 清理 DFS 参数 (GH#319)

  • 清理 Pandas 后端 (GH#302)

  • 更新累积转换原语的属性 (GH#320)

  • 版本间特征稳定性文档 (GH#316)

  • 在 GitHub readme 中添加下载计数 (GH#310)

  • 修复 #297 更新测试以检查错误字符串 (GH#303)

  • 在 agg 原语测试中移除 fixtures 的使用 (GH#325)

v0.4.0 2018年10月31日#

  • 移除 ft.utils.gen_utils.getsize 并使 pympler 成为测试需求 (GH#299)

  • 更新 requirements.txt (GH#298)

  • 重构 EntitySet.find_path(…) (GH#295)

  • 清理未使用的方法 (GH#293)

  • 移除 Entity 的未使用 parents 属性 (GH#283)

  • 移除 relationships 参数 (GH#284)

  • 改进时间索引验证 (GH#285)

  • 在分类中对“未知”类别的特征进行编码 (GH#287)

  • 允许在深度特征合成中对直接特征使用 where 子句 (GH#279)

  • 更改为 fullargsspec (GH#288)

  • 并行详细修复 (GH#282)

  • 更新 Python 3.7 的测试 (GH#277)

  • 检查重复行的截止时间 (GH#276)

  • 使用压缩文件加载零售演示数据 (GH#271)

v0.3.1 2018年9月28日#

  • 处理时间重写 (GH#245)

  • 更新 deep_feature_synthesis.py (GH#249)

  • 处理从 DatetimeTimeIndex 创建特征时的返回类型 (GH#266)

  • 更新 retail.py (GH#259)

  • 提高转换原语的一致性 (GH#236)

  • 更新演示文档字符串 (GH#268)

  • 处理非字符串列名 (GH#255)

  • 清理聚合原语的合并 (GH#250)

  • 为 Entity 方法添加测试 (GH#262)

  • 在计算多参数聚合特征时处理无子数据的情况 (GH#264)

  • 添加 is_string 工具函数 (GH#260)

  • 更新 Python 版本以匹配 Docker 容器 (GH#261)

  • 处理无子数据时的 where 子句 (GH#258)

  • 不再缓存演示 CSV,移除配置文件 (GH#257)

  • 避免堆叠“扩展”原语 (GH#238)

  • 在零售 CSV 中使用随机生成的名称 (GH#233)

  • 更新 README.md (GH#243)

v0.3.0 2018年8月27日#

  • 提高所有特征计算的性能 (GH#224)

  • 更新聚合原语以使用更高效的函数 (GH#215)

  • 优化元数据计算 (GH#229)

  • 在没有截止时间数据时更稳健的处理 (GH#234)

  • 分类合并的变通方法 (GH#231)

  • 切换与变量关联的 CSV (GH#228)

  • 从 query_by_values, filter_and_sort 中移除未使用的 kwargs (GH#225)
    • 移除 convert_links_to_integers (GH#219)

    • 添加 conda 安装说明 (GH#223, GH#227)

    • 在文档中添加使用 Dask 并行化的示例 (GH#221)

v0.2.2 2018年8月20日#

  • 移除不必要的检查,与相关实例调用无关并重构 (GH#209)

  • 通过支持 pandas 分类类型来改善内存使用 (GH#196)

  • 将最小 pandas 版本从 0.20.3 提升到 0.23.0 (GH#216)

  • 更好的并行内存警告 (GH#208, GH#214)

  • 更新演示数据集 (GH#187, GH#201, GH#207)

  • 使原语查找不区分大小写 (GH#213)

  • 使用大写名称 (GH#211)

  • 为 Min 设置类名 (GH#206)

  • 从 normalize entity 中移除 variable_types (GH#205)

  • 处理带有最后时间索引的 parquet 序列化 (GH#204)

  • 在 calculate feature matrix 中重置截止时间的索引 (GH#198)

  • 检查 .normalize_entity 的参数类型 (GH#195)

  • 类型检查忽略实体 (GH#193)

v0.2.1 2018年7月2日#

  • CPU 数量修复 (GH#176)

  • 更新航班 (GH#175)

  • 将特征矩阵计算辅助函数移动到单独的文件 (GH#177)

v0.2.0 2018年6月22日#

  • 多进程 (GH#170)

  • 在整个 Featuretools 中处理 repr 中的 unicode 编码 (GH#161)

  • 清理 EntitySet 类 (GH#145)

  • 添加构建和上传 conda 包的支持 (GH#167)

  • Parquet 序列化 (GH#152)

  • 移除变量统计 (GH#171)

  • 确保索引变量排在第一位 (GH#168)

  • 在 normalize 时不更新最后时间索引 (GH#169)

  • calculate_feature_matrix 中移除 cutoff_timelist of times 选项 (GH#165)

  • 配置进行错误检查以查看是否可以写入磁盘 (GH#162)

v0.1.21 2018年5月30日#

v0.1.20 2018年4月13日#

  • DFS参数中的原语作为字符串 (GH#129)

  • 整数时间索引错误修复 (GH#128)

  • 添加make_temporal_cutoffs实用函数 (GH#126)

  • 显示所有实体,将形状显示切换为行/列 (GH#124)

  • 计算特征矩阵时改进分块 (GH#121)

  • 修复num字符nan修复 (GH#118)

  • 修改ignore_variables文档字符串 (GH#117)

v0.1.19 2018年3月21日#

  • 更详细的DFS进度条 (GH#69)

  • 在NumWords之前将文本变量转换为字符串 (GH#106)

  • EntitySet.concat()重新索引关系 (GH#96)

  • 编码特征矩阵时保留非特征列 (GH#111)

  • 对uses_full_entity特征的依赖项使用完整实体更新 (GH#110)

  • 更新零售演示中的列名 (GH#104)

  • 处理需要访问实体所有值的Transform特征 (GH#91)

v0.1.18 2018年2月27日#

  • 修复相关实例错误 (GH#97)

  • 将非特征列添加到计算的特征矩阵 (GH#78)

  • 放宽numpy版本要求 (GH#82)

  • 移除`entity_from_csv`、测试和lint (GH#71)

v0.1.17 2018年1月18日#

  • LatLong类型 (GH#57)

  • 上次时间索引修复 (GH#70)

  • 使中位数聚合基元默认忽略NaN (GH#61)

  • 移除对Python 3.4的支持 (GH#64)

  • 更改`normalize_entity`以更新`secondary_time_index` (GH#59)

  • 取消固定依赖项 (GH#53)

  • associative -> commutative (GH#56)

  • 添加Words和Chars基元 (GH#51)

v0.1.16 2017年12月19日#

  • 修复EntitySet.combine_variables并标准化encode_features (GH#47)

  • Python 3兼容性 (GH#16)

v0.1.15 2017年12月18日#

  • 修复演示数据中的变量类型 (GH#37)

  • 自定义基元关键字参数修复 (GH#38)

  • 更改make_trans_primitive文档字符串中的参数顺序和文本 (GH#42)

v0.1.14 2017年11月20日#

  • 最后时间索引 (GH#33)

  • 将Scipy版本更新至1.0.0 (GH#31)

v0.1.13 2017年11月1日#

  • 添加MANIFEST.in (GH#26)

v0.1.11 2017年10月31日#

  • 包代码检查 (GH#7)

  • 自定义基元创建函数 (GH#13)

  • 将依赖项拆分到单独的文件并固定到最新版本 (GH#15)

  • 选择低信息特征 (GH#18)

  • 修复文档中的拼写错误 (GH#19)

  • 修复Diff基元在罕见NaN情况下的问题 (GH#21)

  • 添加了一些缺失的文档字符串 (GH#23)

  • 趋势修复 (GH#22)

  • 从EntitySet.to_pickle()中移除as_dir=False选项 (GH#20)

  • 实体规范化保留复制和附加变量的类型 (GH#25)

v0.1.10 2017年10月12日#

  • 添加NumTrue基元并更新其他基元的文档字符串 (GH#11)

  • 修复相同基础特征的哈希问题 (GH#8)

  • 头部修复 (GH#9)

  • 修复训练窗口 (GH#10)

  • 为基元添加associative属性 (GH#3)

  • 添加状态徽章,修复setup.py中的许可证 (GH#1)

  • 修复头部打印输出和航班演示索引 (GH#2)

v0.1.9 2017年9月8日#

  • 文档改进
    • 新增 featuretools.demo.load_mock_customer 函数

v0.1.8 2017年9月1日#

  • 错误修复

  • 添加 Percentile 转换原语

v0.1.7 2017年8月17日#

  • 提升 calculate_feature_matrixdfs 中近似计算的性能

  • 添加 Week 转换原语

v0.1.6 2017年7月26日#

  • 添加 load_featuressave_features 以持久化和重新加载特征

  • calculate_feature_matrix 添加 save_progress 参数

  • calculate_feature_matrixdfs 添加 approximate 参数

  • 为 ft.demo 添加 load_flight

v0.1.5 2017年7月11日#

  • 支持 Windows

v0.1.3 2017年7月10日#

  • 将特征子模块重命名为原语

  • 将 prediction_entity 参数重命名为 target_entity

  • calculate_feature_matrix 添加 training_window 参数

v0.1.2 2017年7月3日#

  • 初始发布