发布说明#
v1.31.0 2024年5月14日#
感谢以下人员为本版本做出贡献: @thehomebrewnerd
重大变更#
在此版本的Featuretools中,不再支持从Dask或Pyspark数据框创建EntitySets。使用pandas数据框创建EntitySets的行为保持不变。
v1.30.0 2024年2月26日#
- 测试变更
更新
make_ecommerce_entityset
以在没有Dask的情况下工作 (GH#2677)感谢以下人员为本版本做出贡献: @tamargrey, @thehomebrewnerd
v1.29.0 2024年2月16日#
Featuretools的此次发布将不支持Python 3.8
感谢以下人员为此次发布做出的贡献: @gsheni, @thehomebrewnerd, @tamargrey, @LakshmanKishore
v1.28.0 2023年10月26日#
更新以兼容 pandas 版本
2.1.0
并移除 pandas 的上限版本限制 (GH#2616)
感谢以下人员为本版本做出的贡献: @gsheni, @petejanuszewski1, @thehomebrewnerd, @tosemml
v1.27.0 2023年7月24日#
- 测试更改
通过 Airflow 在合并时运行查看镜性能测试 (GH#2575)
感谢以下人员为本版本做出的贡献: @gsheni, @petejanuszewski1, @sbadithe, @thehomebrewnerd
v1.26.0 2023年4月27日#
感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @thehomebrewnerd
重大更改#
Dask 现在是 Featuretools 的可选依赖。用户在运行
calculate_feature_matrix
时,如果n_jobs
设置为 1 以外的任何值, 现在需要在运行calculate_feature_matrix
之前安装 Dask。所需的 Dask 依赖项可以通过pip install "featuretools[dask]"
安装。
v1.25.0 2023年4月13日#
v1.24.0 2023年3月28日#
- 增强功能
- 添加
AverageCountPerUnique
,CountryCodeToContinent
,FileExtension
,FirstLastTimeDelta
,SavgolFilter
,
CumulativeTimeSinceLastFalse
,CumulativeTimeSinceLastTrue
,PercentChange
,PercentUnique
(GH#2485)
- 添加
FullNameToFirstName
,FullNameToLastName
,FullNameToTitle
,AutoCorrelation
,
Correlation
,DateFirstEvent
(GH#2507)
- 添加
Kurtosis
,MinCount
,NumFalseSinceLastTrue
,NumPeaks
,
NumTrueSinceLastFalse
,NumZeroCrossings
(GH#2514)变更
核心需求、测试需求和开发需求的单独Makefile命令 (GH#2518)
v1.23.0 2023年2月15日#
v1.22.0 2023年1月31日#
- 增强功能
添加
AbsoluteDiff
,SameAsPrevious
,Variance
,Season
,UpperCaseWordCount
转换原语 (GH#2460)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd
v1.21.0 2023年1月18日#
v1.20.0 2023年1月5日#
- 修复
修复
_handle_binary_comparison
函数名中的拼写错误,并更新set_feature_names
文档字符串 (GH#2388)仅允许 Datetime 时间索引作为
RateOfChange
原语的输入 (GH#2408)防止
NumberOfWordsInQuotes
中的正则表达式灾难性回溯 (GH#2413)修复
feature_set_calculator.py
中的碎片化PerformanceWarning
(GH#2424)修复
NumberOfCommonWords
特征在自定义 word_set 情况下的序列化问题 (GH#2432)通过标准化分隔符正则表达式改进 NaturalLanguage 原语的边缘情况处理 (GH#2423)
在多个基元中移除对
Datetime
和Ordinal
输入的支持,以防止创建无法计算的特征 (GH#2434)- 变更
通过删除对
_features_have_same_path
的调用来重构_all_direct_and_same_path
(GH#2400)通过一次遍历
input_features
来重构_build_transform_features
(GH#2400)在
DeepFeatureSynthesis
初始化时仅遍历一次ignore_columns
(GH#2397)解决空 Pandas 系列警告 (GH#2403)
在
EntitySet.add_last_time_indexes
中使用init_with_partial_schama
而不是init
初始化 Woodwork (GH#2409)更新以兼容 numpy 1.24.0 (GH#2414)
TotalWordLength
的delimiter_regex
参数已重命名为do_not_count
(GH#2423)
- 文档变更
从 1.19.0 版本说明中移除未使用的部分 (GH#2396)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd
重大变更#
TotalWordLength
的delimiter_regex
参数已重命名为do_not_count
。 旧的保存特征如果对该参数使用了非默认值,将无法加载。已从
LessThanScalar
、GreaterThanScalar
、LessThanEqualToScalar
和GreaterThanEqualToScalar
基元中移除对Datetime
和Ordinal
输入的支持。
v1.19.0 2022年12月9日#
- 修复
修复 DeepFeatureSynthesis,使其在创建转换特征时考虑
base_of_exclude
系列的属性 (GH#2380)
修复了
test_version
中负版本号的问题 (GH#2389)修复了
MultiplyNumericBoolean
原语中可能导致某些输入数据类型组合错误的错误 (GH#2393)- 测试更改
修复了
test_holiday_out_of_range
中的版本比较问题 (GH#2382)
感谢以下人员为本版本做出的贡献: @sbadithe, @thehomebrewnerd
v1.18.0 2022年11月15日#
- 测试更改
使用 tmp_path 替换 pytest 的 tmpdir 固定装置 (GH#2344)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd
重大更改#
featuretools CLI 已完全移除。
v1.17.0 2022年10月31日#
v1.16.0 2022年10月24日#
- 测试变更
添加Windows安装测试 (GH#2330)
感谢以下人员为本版本做出的贡献: @gsheni, @sbadithe, @thehomebrewnerd
v1.15.0 2022年10月6日#
- 文档变更
添加文档描述如何将``featuretools_sql``与``featuretools``一起使用 (GH#2262)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @thehomebrewnerd
重大更改#
EntitySet
模式已更新,包含series_library
属性此版本中
Rolling*
原语的默认行为已更改。如果在未定义gap
值的情况下使用此原语,此版本返回的特征值将与先前版本返回的特征值不同。
v1.14.0 2022年9月1日#
感谢以下人员为本版本做出的贡献: @cp2boston, @gsheni, @ozzieD, @stefaniesmith, @thehomebrewnerd
v1.13.0 2022年8月18日#
修复
允许布尔列包含在 remove_highly_correlated_features 中 (GH#2231)
- 文档变更
在 IsFederalHoliday 基元文档字符串的各部分之间添加换行符 (GH#2235)
感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @sbadithe, @tamargrey
v1.12.1 2022年8月4日#
- 文档变更
添加将新用户添加到 featuretools feedstock 的说明 (GH#2215)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd
v1.12.0 2022年7月19日#
v1.11.1 2022年7月5日#
- 修复
从 PartOfDay 原语中移除第24小时,并添加第0小时 (GH#2167)
感谢以下人员为本版本做出的贡献: @tamargrey
v1.11.0 2022年6月30日#
感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @tamargrey, @thehomebrewnerd
v1.10.0 2022年6月23日#
感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @thehomebrewnerd
v1.9.2 2022年6月10日#
感谢以下人员为本版本做出的贡献: @gsheni, @ozzieD, @rwedge, @sbadithe, @thehomebrewnerd ``` @gsheni, @thehomebrewnerd
v1.9.1 2022年5月27日#
- 增强功能
更新
DateToHoliday
和DistanceToHoliday
原语以处理时区感知的输入 (GH#2056)
- 变更
删除 setup.py、MANIFEST.in 并将配置移动到 pyproject.toml (GH#2046)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @thehomebrewnerd
v1.9.0 2022年4月27日#
实体集创建期间规范化LatLong NaN值 (GH#1924)
传递原语字典到``check_primitive``以避免重复调用 (GH#2016)
从``MultiplyNumeric``原语输入中移除``Boolean``和``BooleanNullable`` (GH#2022)
更新序列化以兼容Woodwork版本0.16.1 (GH#2030)
感谢以下人员为本版本做出的贡献: @dvreed77, @gsheni, @ozzieD, @rwedge, @thehomebrewnerd
注意#
此版本中DFS算法的更新可能会导致在某些情况下``ft.dfs``返回的特征数量增加。
v1.8.0 2022年3月31日#
- 变更
移除``make_trans_primitive``和``make_agg_primitive``实用函数 (GH#1970)
感谢以下人员为本版本做出的贡献: @gsheni, @thehomebrewnerd
重大变更#
实用函数
make_trans_primitive
和make_agg_primitive
已被移除。要创建自定义原语,请直接定义原语类。
v1.7.0 2022年3月16日#
- 修复
更新 conda 安装命令以指定通道 (GH#1917)
感谢以下人员为本版本做出的贡献: @andriyor, @gsheni, @jeff-hernandez, @kushal-gopal, @mingdavidqi, @rwedge, @tamargrey, @thehomebrewnerd, @tvdboom
重大变更#
已弃用的工具
list_variable_types
已从 Featuretools 中移除。
v1.6.0 2022年2月17日#
- 增强功能
添加
IsFederalHoliday
转换原语 (GH#1912)
- 修复
修复捕捉
holidays
库为未知国家引发的新的NotImplementedError
(GH#1907)
- 变更
移除过时的 pandas 解决方法代码 (GH#1906)
- 文档变更
在文档中添加内联标签和复制粘贴功能 (GH#1905)
- 测试变更
修复 URL 反序列化文件 (GH#1909)
感谢以下人员为本版本做出的贡献: @jeff-hernandez, @rwedge, @thehomebrewnerd
v1.5.0 2022年2月14日#
Warning
Featuretools 可能在下一个非补丁版本中不再支持 Python 3.7。
- 修复
修复
featuretools_primitives
入口点 (GH#1891)
- 变更
感谢以下人员为此次发布做出的贡献: @dvreed77, @gsheni, @jacobboney, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999
重大变更#
当使用
normalize_dataframe
创建新数据框时,新数据框的索引将不包含空值。
v1.4.0 2022年1月10日#
v1.3.0 2021年12月2日#
感谢以下人员为本版本做出贡献: @gsheni, @HenryRocha, @tamargrey @thehomebrewnerd
v1.2.0 2021年11月15日#
v1.1.0 2021年11月2日#
- 文档变更
升级 Sphinx 并修复文档配置错误 (GH#1760)
感谢以下人员为本版本做出的贡献: @bchen1116, @gsheni, @HenryRocha, @jeff-hernandez, @ridicolos, @rwedge
v1.0.0 2021年10月12日#
- 变更
从
Entity
中移除add_interesting_values
(GH#1269)将
set_secondary_time_index
方法从Entity
移动到EntitySet
(GH#1280)重构关系创建过程 (GH#1370)
用
EntitySet.update_dataframe
替换Entity.update_data
(GH#1398)将统一时间索引的验证检查移动到
EntitySet
(GH#1400)在
EntitySet
中用 Woodwork 数据框替换Entity
对象 (GH#1405)重构
EntitySet.plot
以兼容 Woodwork 数据框 (GH#1468)将
last_time_index
移动到 DataFrame 的列中 (GH#1456)更新序列化/反序列化以兼容 Woodwork (GH#1452)
重构
EntitySet.query_by_values
以兼容 Woodwork 数据框 (GH#1467)用
list_logical_types
替换list_variable_types
(GH#1477)允许深度 EntitySet 相等性检查 (GH#1480)
更新
EntitySet.concat
以兼容 Woodwork DataFrame (GH#1490)添加列出语义标签的函数 (GH#1486)
在必要时在
remove_highly_correlated_features
中初始化 Woodwork 特征矩阵 (GH#1618)移除 categorical-encoding 作为附加库(稍后将重新添加) (GH#1632)
移除 autonormalize 作为附加库(稍后将重新添加) (GH#1636)
移除 tsfresh, nlp_primitives, sklearn_transformer 作为附加库(稍后将重新添加) (GH#1638)
更新
CumCount
原语的输入和返回类型 (GH#1651)标准化 Woodwork 的导入 (GH#1526)
将目标实体重命名为目标数据框 (GH#1506)
用
add_dataframe
替换entity_from_dataframe
(GH#1504)从 Woodwork 列创建特征 (GH#1582)
将默认变量描述逻辑移动到
generate_description
(GH#1403)更新 Woodwork 到 0.4.0 版本,包含
LogicalType.transform
和 LogicalType 实例 (GH#1451)更新 Woodwork 到 0.4.1 版本,包含 Ordinal 顺序值和空白序列化修复 (GH#1478)
使用
ColumnSchema
作为原语的输入和返回类型 (GH#1411)更新特征以使用 Woodwork 并移除
Entity
和Variable
类 (GH#1501)重新添加
make_index
功能到 EntitySet (GH#1507)
- ```rst
- 功能改进
在DFS原语匹配中使用``ColumnSchema`` (GH#1523)
来自Featuretools v0.26.0的更新 (GH#1539)
在``add_interesting_values``中更好地利用Woodwork (GH#1550)
更新``calculate_feature_matrix``以使用Woodwork (GH#1533)
将Woodwork更新至0.6.0版本,更改了分类推断 (GH#1597)
更新``nlp-primitives``要求以适应Featuretools 1.0 (GH#1609)
移除代码中剩余的``Entity``和``Variable``引用 (GH#1612)
将Woodwork更新至0.7.1版本,更改了初始化方式 (GH#1648)
移除与已解决的pandas问题相关的过时代码 (GH#1677)
移除未使用的``_dataframes_equal``和``camel_to_snake``函数 (GH#1683)
将Woodwork更新至0.8.0版本以提升性能 (GH#1689)
移除``encode_features``中的冗余类型转换 (GH#1694)
如果不在原地操作,加快``encode_features``的速度,但会占用一些空间 (GH#1699)
清理注释和被注释掉的代码 (GH#1701)
将Woodwork更新至0.8.1版本以提升性能 (GH#1702)
- 文档变更
添加Featuretools中的Woodwork类型指南 (GH#1589)
添加过渡到Featuretools 1.0的资源指南 (GH#1627)
更新``using_entitysets``页面以使用Woodwork (GH#1532)
更新FAQ页面以使用Woodwork集成 (GH#1649)
更新DFS页面为Jupyter笔记本并使用Woodwork集成 (GH#1557)
更新Feature Primitives页面为Jupyter笔记本并使用Woodwork集成 (GH#1556)
更新Handling Time页面为Jupyter笔记本并使用Woodwork集成 (GH#1552)
更新Advanced Custom Primitives页面为Jupyter笔记本并使用Woodwork集成 (GH#1587)
``` * 文档更新
更新部署页面以使用Woodwork集成(GH#1588)
更新使用Dask EntitySets页面为Jupyter笔记本并使用Woodwork集成(GH#1590)
更新指定原语选项页面为Jupyter笔记本并使用Woodwork集成(GH#1593)
更新API参考以匹配Featuretools 1.0 API(GH#1600)
更新索引页面为Jupyter笔记本并使用Woodwork集成(GH#1602)
更新特征描述页面为Jupyter笔记本并使用Woodwork集成(GH#1603)
更新使用Koalas EntitySets页面为Jupyter笔记本并使用Woodwork集成(GH#1604)
更新术语表以使用Woodwork集成(GH#1608)
更新调整DFS页面为Jupyter笔记本并使用Woodwork集成(GH#1610)
修复文档中的小格式问题(GH#1607)
移除变量页面及更多对变量的引用(GH#1629)
更新特征选择页面以使用Woodwork集成(GH#1618)
更新提升性能页面为Jupyter笔记本并使用Woodwork集成(GH#1591)
修复过渡指南中的拼写错误(GH#1672)
修复README.md中演示笔记本的损坏链接(GH#1728)
更新``contributing.md``以改进外部贡献者的说明(GH#1723)
手动还原由:pr:1677`和:pr:`1679`所做的更改。相关的pandas中的错误仍然存在。(:pr:`1731)
感谢以下人员为本版本做出的贡献: @bchen1116, @gsheni, @HenryRocha, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd, @VaishnaviNandakumar
重大变更#
Entity.add_interesting_values
已被移除。要为单个实体添加有趣值,请调用EntitySet.add_interesting_values
并传递dataframe_name
参数中要添加有趣值的数据框名称(GH#1405, GH#1370)。Entity.set_secondary_time_index
已被移除并替换为EntitySet.set_secondary_time_index
,增加了dataframe_name
参数以指定要设置次级时间索引的数据框(GH#1405, GH#1370)。Relationship
初始化已更新,接受父数据框、父列、子数据框和子列的四个名称值,而不是接受两个Variable
对象(GH#1405, GH#1370)。EntitySet.add_relationship
已更新,接受数据框和列名称值或Relationship
对象。从Relationship
对象添加关系现在需要将关系作为关键字参数传递(GH#1405, GH#1370)。Entity.update_data
已被移除。要更新数据框,请调用EntitySet.replace_dataframe
并使用dataframe_name
参数(GH#1630, GH#1522)。EntitySet
中的数据不再存储在Entity
对象中。相反,使用了带有 Woodwork 类型信息的数据框。因此,大多数提到“实体”的语言现在将指“数据框”,提到“变量”的语言现在将指“列”,并且
“变量类型”将使用 Woodwork 类型系统的“逻辑类型”和“语义标签”(GH#1405)。
传递给
EntitySet.__init__
的元组字典已将variable_types
元素替换为独立的logical_types
和semantic_tags
字典(GH#1405)。EntitySet.entity_from_dataframe
不再存在。要向实体集中添加新表,请使用 ``EntitySet.add_dataframe``(GH#1405)。EntitySet.normalize_entity
已重命名为 ``EntitySet.normalize_dataframe``(GH#1405)。在
EntitySet.add_relationship
时,如果父列和子列的 dtypes 不匹配,Featuretools 将不再引发错误。现在,Featuretools 会检查父列和子列的 Woodwork 逻辑类型是否匹配。如果不匹配,现在会发出警告,并且 Featuretools 将尝试更新子列的逻辑类型以匹配父列的(GH#1405)。如果在
EntitySet.add_dataframe
时未指定索引,只有在 DataFrame 上未初始化 Woodwork 时,才会使用第一列作为索引。当添加已经初始化 Woodwork 的 DataFrame 时,如果没有设置索引,将会引发错误(GH#1405)。Featuretools 将不再对 DataFrame 中的列进行重新排序,以使索引列成为 DataFrame 的第一列(GH#1405)。
现在可以在 Dask 和 Koalas DataFrame 上执行类型推断,但会发出警告,表明这可能是计算密集型的(GH#1405)。
EntitySet.time_type 不再存储为 Variable 对象。相反,使用 Woodwork 类型,数值时间类型将由
'numeric'
语义标签字符串指示,日期时间时间类型将由Datetime
逻辑类型指示(GH#1405)。last_time_index
、secondary_time_index
和interesting_values
不再是属性(GH#1405)。
可以直接访问的实体集表。现在必须通过Woodwork DataFrame的元数据来访问,这是一个字典(GH#1405)。
辅助函数
list_variable_types
将在未来的版本中被移除,并替换为list_logical_types
。在此期间,list_variable_types
将返回与list_logical_types
相同的输出(GH#1447)。
此版本的新增内容#
添加有趣的值
要为单个实体添加有趣的值,请调用 EntitySet.add_interesting_values
,传入要添加有趣值的数据框的ID。
>>> es.add_interesting_values(dataframe_name='log')
设置辅助时间索引
要为特定数据框设置辅助时间索引,请调用 EntitySet.set_secondary_time_index
,传入要设置辅助时间索引的数据框名称以及将辅助时间索引列映射到应用辅助时间索引的列的字典。
>>> customers_secondary_time_index = {'cancel_date': ['cancel_reason']}
>>> es.set_secondary_time_index(dataframe_name='customers', customers_secondary_time_index)
创建关系并添加到实体集
现在,关系是通过传递标识实体集的参数以及指定父数据框、父列、子数据框和子列的四个字符串值来创建的。指定参数名称是可选的。
>>> new_relationship = Relationship(
... entityset=es,
... parent_dataframe_name='customers',
... parent_column_name='id',
... child_dataframe_name='sessions',
... child_column_name='customer_id'
... )
现在可以通过两种方式将关系添加到实体集中。第一种方法是将关系对象传递给 EntitySet.add_relationship
方法。
>>> es.add_relationship(new_relationship)
第二种方法是将关系参数直接传递给 EntitySet.add_relationship
方法。
>>> es.add_relationship(
... parent_dataframe_name='customers',
... parent_column_name='id',
... child_dataframe_name='sessions',
... child_column_name='customer_id'
... )
父数据框、父列、子数据框和子列的名称值。使用这种方法时,指定参数名称是可选的。
>>> es.add_relationship(
... parent_dataframe_name='customers',
... parent_column_name='id',
... child_dataframe_name='sessions',
... child_column_name='customer_id'
... )
还可以通过传入先前创建的 Relationship
对象来添加关系。使用这种方法时,必须包含 relationship
参数名称。
>>> es.add_relationship(relationship=new_relationship)
替换数据框
要替换 EntitySet 中的数据框为新的数据框,请调用 EntitySet.replace_dataframe
并传入要替换的数据框名称以及新数据。
>>> es.replace_dataframe(dataframe_name='log', df=df)
列出逻辑类型和语义标签
逻辑类型和语义标签已取代变量类型来解析和解释列。您可以通过调用 featuretools.list_logical_types
列出所有可用的逻辑类型。
>>> ft.list_logical_types()
您可以通过调用 featuretools.list_semantic_tags
列出所有可用的语义标签。
>>> ft.list_semantic_tags()
v0.27.1 2021年9月2日#
- 文档更改
在文档中添加横幅,关于即将发布的 Featuretools 1.0 版本 (GH#1669)
感谢以下人员为本版本做出的贡献: @thehomebrewnerd
v0.27.0 2021年8月31日#
感谢以下人员为本版本做出的贡献: @davesque, @gsheni, @jeff-hernandez, @rwedge
v0.26.2 2021年8月17日#
v0.26.1 2021年7月23日#
v0.26.0 2021年7月15日#
- 修复
include_entities
在primitive_options
中正确覆盖exclude_entities
(GH#1518)
文档更改
``` * 防止在构建时记录日志 (GH#1498) * 测试变更
在pandas 1.3.0发布候选版本上测试featuretools并进行修复 (GH#1492)
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999
v0.25.0 2021年6月11日#
v0.24.1 2021年5月26日#
- 文档变更
更新nbsphinx版本以修复文档构建问题 (GH#1436)
感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @thehomebrewnerd
v0.24.0 2021年4月30日#
- 文档变更
改进发布说明的格式 (GH#1396)
测试变更
更新 Dask/Koalas 测试用例 (GH#1382)
如果一个 CI 作业失败,不要取消其他 CI 作业 (GH#1386)
更新 boto3 和 urllib3 版本要求 (GH#1394)
感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd
v0.23.3 2021年3月31日#
v0.23.2 2021年2月26日#
v0.23.1 2021年1月29日#
修复
EntitySet.__eq__
和Entity.__eq__
的错误并改进测试 (GH#1323)
- 文档变更
更新文档工具栏中的 Twitter 链接 (GH#1322)
感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @seriallazer, @thehomebrewnerd
v0.23.0 2020年12月31日#
感谢以下人员为本版本做出的贡献: @gsheni, @jeff-hernandez, @rwedge, @thehomebrewnerd
重大变更#
Entity.query_by_values
已被移除,并由EntitySet.query_by_values
替代,并带有 添加了entity_id
参数,用于指定实体集中应使用哪个实体进行查询。
v0.22.0 2020年11月30日#
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @jeff-hernandez, @kmax12, @rwedge, @thehomebrewnerd
v0.21.0 2020年10月30日#
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @jeff-hernandez, @rwedge, @tamargrey, @thehomebrewnerd
v0.20.0 2020年9月30日#
Warning
文本变量类型已被弃用,并被自然语言变量类型所取代。文本变量类型将在未来的版本中被移除。
- 变更
文本变量类型已被自然语言变量类型取代 (GH#1159)
感谢以下人员为本版本做出的贡献: @gsheni, @rwedge, @tamargrey, @tuethan1999
v0.19.0 2020年9月8日#
对传递给
dfs
的基元进行排序以获得特征的一致排序* (GH#1119)- 文档更改
为 dfs 和 calculate_feature_matrix 添加返回值 (GH#1125)
- 测试更改
更好地测试从无时间索引到有时间索引的归一化用例 (GH#1113)
* 当传递多个使用 make_trans_primitive
或 make_agg_primitive
构建的基元实例时,这些实例在传递给 dfs
时必须保持相同的相对顺序,以确保特征的一致排序。
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @rwedge, @tamargrey, @thehomebrewnerd, @tuethan1999
重大更改#
ft.dfs
将不再从转换基元构建特征,其中输入之一是转换特征、GroupByTransform 特征或转换/GroupByTransform 特征的直接特征。这将使得一些以前由ft.dfs
生成的特征只有在seed_features
中显式指定时才可能生成。
v0.18.1 2020年8月12日#
- 修复
修复在给定 dask entityset 时
EntitySet.plot()
的问题 (GH#1086)
- 更改
在
setup.py
中使用nlp-primitives[complete]
安装nlp_primitives
额外依赖 (GH#1103)
- 文档更改
修复 README.md 中损坏的下载徽章 (GH#1107)
- 测试更改
在配置中使用 CircleCI 矩阵作业以触发具有不同参数的相同作业的多次运行 (GH#1105)
感谢以下人员为本版本做出的贡献: @gsheni, @systemshift, @thehomebrewnerd
v0.18.0 2020年7月31日#
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @monti-python, @rwedge, @systemshift, @tamargrey, @thehomebrewnerd, @wsankey
v0.17.0 2020年6月30日#
增强功能
- 测试变更
在 CircleCI codecov 上传命令中添加
required
标志 (GH#1035)
感谢以下人员为本版本做出的贡献: @frances-h, @gsheni, @kmax12, @rwedge, @thehomebrewnerd, @tuethan1999
重大变更#
移除
Feature.get_names
,应改用Feature.get_feature_names
v0.16.0 2020年6月5日#
- 测试变更
更新测试以兼容numpy v1.19.0 (GH#1016)
感谢以下人员为本版本做出的贡献: @Alex-Monahan, @frances-h, @gsheni, @rwedge, @thehomebrewnerd
v0.15.0 2020年5月29日#
感谢以下人员为本版本做出的贡献: @ctduffy, @frances-h, @gsheni, @jeff-hernandez, @rightx2, @rwedge, @sebrahimi1988, @thehomebrewnerd, @tuethan1999
重大更改#
调用
featuretools.dfs
或featuretools.calculate_feature_matrix
时使用截止时间
数据框,但不要将时间列标记为目标实体时间索引变量名称或
作为 time
,现在将导致 AttributeError
。以前,时间列被选择为第一个
不是实例ID列的列。通过此更新,数据框中列的位置
不再用于确定时间列。现在,截止时间
数据框中的实例ID列和时间列可以按任何顺序排列,只要它们命名正确即可。
所有
Variable
子类的type_string
属性现在都是其类名的蛇形命名转换。这 更改了Unknown
、IPAddress
、EmailAddress
、SubRegionCode
、FilePath
、LatLong
和ZIPcode
类的type_string
。 使用这些变量的旧保存实体集可能无法正确加载。
v0.14.0 2020年4月30日#
- 增强功能
ft.encode_features - 使用更少的内存进行独热编码列 (GH#876)
感谢以下人员为本版本做出贡献: @frances-h, @gsheni, @jeff-hernandez, @rwedge
重大更改#
在特征计算中使用训练窗口可能会导致与之前版本不同的值。 这样做是为了防止连续的训练窗口通过排除最早时间点的数据来重叠。 例如,如果我们使用每小时的第一分钟作为截止时间,并且训练窗口为一个小时, 那么前一个小时的第一分钟将不再包含在特征计算中。
v0.13.4 2020年3月27日#
Warning
下一个非修复版本的Featuretools将不再支持Python 3.5
感谢以下人员为本版本做出的贡献: @frances-h, @FreshLeaf8865, @jeff-hernandez, @rwedge, @thehomebrewnerd
v0.13.3 2020年2月28日#
- 修复
修复使用n_jobs时连接关闭错误 (GH#853)
- 变更
为Python 3.5固定msgpack依赖;从Dask依赖中移除dataframe (GH#851)
- 文档变更
更新Github问题模板中帮助文档页面的链接 (GH#855)
感谢以下人员为本版本做出的贡献: @frances-h, @rwedge
v0.13.2 2020年1月31日#
感谢以下人员为本版本做出的贡献: @frances-h,@rwedge
v0.13.1 2019年12月28日#
v0.13.0 2019年11月30日#
感谢以下人员为本版本做出的贡献: @frances-h, @jeff-hernandez, @rwedge, @systemshift
重大变更#
用于从 S3 或 URL 下载或上传的库现在为可选,默认情况下不再安装。要使用此功能,需要单独安装这些库。
修复 Diff 原语的计算方式可能会减慢使用此原语的特征列表的整体计算时间。
v0.12.0 2019年10月31日#
感谢以下人员为本版本做出的贡献: @ablacke-ayx, @BoopBoopBeepBoop, @jeffzi, @kmax12, @rwedge, @thehomebrewnerd, @twdobson
v0.11.0 2019年9月30日#
Warning
下一个非修复版本的 Featuretools 将不再支持 Python 2
感谢以下人员为本版本做出的贡献: @angela97lin, @chidauri, @christopherbunn, @frances-h, @jeff-hernandez, @kmax12, @MarcoGorelli, @rwedge, @thehomebrewnerd
重大变更#
特征计算将按照提供的实例ID顺序返回,而不是按照实例计算的时间点顺序返回。
v0.10.1 2019年8月25日#
v0.10.0 2019年8月19日#
Warning
下一个非修复版本的Featuretools将不再支持Python 2
- 更改
移动dask, distributed导入 (GH#634)
文档更改
修改了编码中 top_n 的 doc_string (GH#648)
超链接 ComposeML (GH#653)
修复了带有多个问号的常见问题解答问题 (GH#673)
感谢以下人员为本版本做出的贡献: @alexjwang, @allisonportis, @ayushpatidar, @CJStadler, @ctduffy, @gsheni, @jeff-hernandez, @jeremyliweishih, @kmax12, @rwedge, @zhxt95,
v0.9.1 2019年7月3日#
感谢以下人员为本版本做出的贡献: @CJStadler, @kmax12, @rwedge, @gsheni, @kkleidal, @ctduffy
v0.9.0 2019年6月19日#
感谢以下人员为本版本做出的贡献: @alexjwang, @allisonportis, @CJStadler, @ctduffy, @gsheni, @kmax12, @rwedge v0.8.0 2019年5月17日 ===================
将NUnique重命名为NumUnique (GH#510)
将特征序列化为JSON (GH#532)
在normalize_entity中一次性删除所有变量 (GH#533)
从normalize_entity中移除不必要的排序 (GH#535)
特征缓存其名称 (GH#536)
仅计算截止时间之前的实例的特征 (GH#523)
移除所有相对导入 (GH#530)
添加了FullName变量类型 (GH#506)
当目标实体不存在时添加错误消息 (GH#520)
新的演示链接 (GH#542)
在DFS中移除重复特征检查 (GH#538)
featuretools_primitives入口点期望原始类列表 (GH#529)
更新ALL_VARIABLE_TYPES列表 (GH#526)
更多信息性的N Jobs打印和警告 (GH#511)
更新sklearn版本要求 (GH#541)
更新Makefile (GH#519)
在Entity._handle_time中移除未使用的参数 (GH#524)
从setup.py中移除build_ext代码 (GH#513)
文档更新 (GH#512, GH#514, GH#515, GH#521, GH#522, GH#527, GH#545)
感谢以下人员为本版本做出的贡献:@bphi, @CharlesBradshaw, @CJStadler, @glentennis, @gsheni, @kmax12, @rwedge
重大变更#
NUnique
已重命名为NumUnique
。之前的行为
from featuretools.primitives import NUnique
新的行为
from featuretools.primitives import NumUnique
v0.7.1 2019年4月24日#
自动为可控原始生成特征名称 (GH#481)
将返回字符串的原始函数更改为返回函数 (GH#499)
可通过入口点自定义CLI (GH#493)
改进对孙代进行聚合特征的计算 (GH#479)
重构入口点以使用装饰器 (GH#483)
在测试套件中包含doctests (GH#491)
文档更新 (GH#490)
更新内部标准原语的导入方式 (GH#482)
感谢以下人员为本版本做出的贡献:@bukosabino, @CharlesBradshaw, @glentennis, @gsheni, @jeff-hernandez, @kmax12, @minkvsky, @rwedge, @thehomebrewnerd
v0.7.0 2019年3月29日#
改进实体集序列化 (GH#361)
支持其他库通过入口点扩展featuretools功能 (GH#452)
移除featuretools安装命令 (GH#475)
为SubtractNumeric和DivideNumeric原语添加commutative参数 (GH#457)
添加FilePath变量类型 (GH#470)
添加PhoneNumber, DateOfBirth, URL变量类型 (GH#447)
泛化infer_variable_type, convert_variable_data和convert_all_variable_data方法 (GH#423)
感谢以下人员为本版本做出的贡献:@bukosabino, @CharlesBradshaw, @ColCarroll, @glentennis, @grayskripko, @gsheni, @jeff-hernandez, @jrkinley, @kmax12, @RogerTangos, @rwedge
重大变更#
ft.dfs
现在有一个groupby_trans_primitives
参数,DFS 使用它来自动构建按 ID 列分组并应用转换原语搜索组的功能。此更改适用于以下原语:CumSum
、CumCount
、CumMean
、CumMin
和CumMax
。以前的行为
ft.dfs(entityset=es, target_entity='customers', trans_primitives=["cum_mean"])
新的行为
ft.dfs(entityset=es, target_entity='customers', groupby_trans_primitives=["cum_mean"])
与上述更改相关,累积转换特征现在使用新的特征类
GroupByTransformFeature
定义。以前的行为
ft.Feature([base_feature, groupby_feature], primitive=CumulativePrimitive)
新的行为
ft.Feature(base_feature, groupby=groupby_feature, primitive=CumulativePrimitive)
v0.6.1 2019年2月15日#
累积原语 (GH#410)
Entity.query_by_values 现在保留底层数据的行顺序 (GH#428)
将国家代码和子区域代码实现为变量类型 (GH#430)
添加了 IPAddress 和 EmailAddress 变量类型 (GH#426)
安装数据和依赖项 (GH#403)
添加 TimeSinceFirst,修复 TimeSinceLast (GH#388)
允许用户传递所需的特征返回类型 (GH#372)
添加新的配置对象 (GH#401)
替换 NUnique get_function (GH#434)
_calculate_idenity_features 现在只返回请求的特征,而不是整个实体 (GH#429)
原语函数名称唯一性 (GH#424)
更新 NumCharacters 和 NumWords 原语 (GH#419)
更改邮政编码表示,pandas 使用字符串 (GH#418)
移除pandas版本上限 (GH#408)
使S3依赖项可选 (GH#404)
检查agg_primitives和trans_primitives是否为正确的原语类型 (GH#397)
均值原语更改 (GH#395)
修复多输出聚合上的变换堆叠 (GH#394)
修复list_primitives (GH#391)
文档更新 (GH#400, GH#409, GH#415, GH#417, GH#420, GH#421, GH#422, GH#431)
感谢以下人员为本版本做出的贡献: @CharlesBradshaw, @csala, @floscha, @gsheni, @jxwolstenholme, @kmax12, @RogerTangos, @rwedge
v0.6.0 2018年1月30日#
v0.5.1 2018年12月17日#
v0.5.0 2018年12月17日#
为normalize_entity中的重复additional/copy_variables添加特定错误 (GH#348)
移除 EntitySet._import_from_dataframe (GH#346)
移除 time_index_reduce 参数 (GH#344)
允许安装额外的原语 (GH#326)
修复 DatetimeIndex 变量转换 (GH#342)
更新 Sklearn DFS Transformer (GH#343)
清理实体创建逻辑 (GH#336)
在转换特征计算中移除列表转换 (GH#330)
修复 sklearn 包装器 (GH#335)
添加 readme 到 pypi
在迁移到 conda-forge 后更新 conda 文档 (GH#334)
为 scikit-learn Pipelines 添加包装器 (GH#323)
从 EntitySet._import_from_dataframe 中移除 parse_date_cols 参数 (GH#333)
感谢以下人员为本版本做出的贡献:@bukosabino, @georgewambold, @gsheni, @jeff-hernandez, @kmax12, 和 @rwedge。
v0.4.1 2018年11月29日#
解决默认使用第一列作为索引的错误 (GH#308)
处理从 Id 变量创建特征时的返回类型 (GH#318)
使 id 成为 EntitySet 构造函数的可选参数 (GH#324)
处理对同一列应用相同函数的原语 (GH#321)
更新需求 (GH#328)
清理 DFS 参数 (GH#319)
清理 Pandas 后端 (GH#302)
更新累积转换原语的属性 (GH#320)
版本间特征稳定性文档 (GH#316)
在 GitHub readme 中添加下载计数 (GH#310)
修复 #297 更新测试以检查错误字符串 (GH#303)
在 agg 原语测试中移除 fixtures 的使用 (GH#325)
v0.4.0 2018年10月31日#
v0.3.1 2018年9月28日#
处理时间重写 (GH#245)
更新 deep_feature_synthesis.py (GH#249)
处理从 DatetimeTimeIndex 创建特征时的返回类型 (GH#266)
更新 retail.py (GH#259)
提高转换原语的一致性 (GH#236)
更新演示文档字符串 (GH#268)
处理非字符串列名 (GH#255)
清理聚合原语的合并 (GH#250)
为 Entity 方法添加测试 (GH#262)
在计算多参数聚合特征时处理无子数据的情况 (GH#264)
添加 is_string 工具函数 (GH#260)
更新 Python 版本以匹配 Docker 容器 (GH#261)
处理无子数据时的 where 子句 (GH#258)
不再缓存演示 CSV,移除配置文件 (GH#257)
避免堆叠“扩展”原语 (GH#238)
在零售 CSV 中使用随机生成的名称 (GH#233)
更新 README.md (GH#243)
v0.3.0 2018年8月27日#
v0.2.2 2018年8月20日#
移除不必要的检查,与相关实例调用无关并重构 (GH#209)
通过支持 pandas 分类类型来改善内存使用 (GH#196)
将最小 pandas 版本从 0.20.3 提升到 0.23.0 (GH#216)
使原语查找不区分大小写 (GH#213)
使用大写名称 (GH#211)
为 Min 设置类名 (GH#206)
从 normalize entity 中移除
variable_types
(GH#205)处理带有最后时间索引的 parquet 序列化 (GH#204)
在 calculate feature matrix 中重置截止时间的索引 (GH#198)
检查 .normalize_entity 的参数类型 (GH#195)
类型检查忽略实体 (GH#193)
v0.2.1 2018年7月2日#
v0.2.0 2018年6月22日#
多进程 (GH#170)
在整个 Featuretools 中处理 repr 中的 unicode 编码 (GH#161)
清理 EntitySet 类 (GH#145)
添加构建和上传 conda 包的支持 (GH#167)
Parquet 序列化 (GH#152)
移除变量统计 (GH#171)
确保索引变量排在第一位 (GH#168)
在 normalize 时不更新最后时间索引 (GH#169)
在 calculate_feature_matrix 中移除 cutoff_time 的 list of times 选项 (GH#165)
配置进行错误检查以查看是否可以写入磁盘 (GH#162)
v0.1.21 2018年5月30日#
v0.1.20 2018年4月13日#
v0.1.19 2018年3月21日#
v0.1.18 2018年2月27日#
v0.1.17 2018年1月18日#
v0.1.16 2017年12月19日#
v0.1.15 2017年12月18日#
v0.1.14 2017年11月20日#
v0.1.13 2017年11月1日#
添加MANIFEST.in (GH#26)
v0.1.11 2017年10月31日#
v0.1.10 2017年10月12日#
v0.1.9 2017年9月8日#
- 文档改进
新增
featuretools.demo.load_mock_customer
函数
v0.1.8 2017年9月1日#
错误修复
添加
Percentile
转换原语
v0.1.7 2017年8月17日#
提升
calculate_feature_matrix
和dfs
中近似计算的性能添加
Week
转换原语
v0.1.6 2017年7月26日#
添加
load_features
和save_features
以持久化和重新加载特征为
calculate_feature_matrix
添加 save_progress 参数为
calculate_feature_matrix
和dfs
添加 approximate 参数为 ft.demo 添加
load_flight
v0.1.5 2017年7月11日#
支持 Windows
v0.1.3 2017年7月10日#
将特征子模块重命名为原语
将 prediction_entity 参数重命名为 target_entity
为
calculate_feature_matrix
添加 training_window 参数
v0.1.2 2017年7月3日#
初始发布