API 参考#
演示数据集#
|
返回零售实体集示例. |
|
返回模拟客户数据的数据帧 |
|
下载、清理并筛选2017年的航班数据. |
|
加载澳大利亚每日最低气温天气数据集. |
深度特征合成#
|
计算特征矩阵和特征,给定数据框字典和关系列表. |
|
返回两个基元列表(转换和聚合),这些基元可以应用于特定的目标数据框以创建特征.如果未使用可选的'selected_primitives'参数,将考虑所有可发现的基元. |
时间增量#
|
表示时间的差异. |
时间工具#
|
生成一组在输入截止时间和实例ID之前的等间隔截止时间. |
特征基元#
基元类型#
为数据框中的一个或多个其他特征创建的基于该数据框的特征. |
|
聚合基元#
|
计算列表中所有值是否都为"True”. |
|
确定列表中是否有值为 'True'. |
|
计算连续事件之间的平均秒数. |
|
确定总数值数量,排除`NaN`. |
|
计算高于均值的数值个数. |
|
确定低于均值的数值数量. |
|
确定大于可控阈值的数值数量. |
|
确定位于前N个标准差(含)内的观测值数量. |
|
确定落在某个范围内的数值数量. |
|
确定小于可控阈值的数值数量. |
|
确定位于前N个标准差之外的观测值数量. |
|
确定落在某个范围之外的值的数量. |
|
计算分类列的熵 |
|
确定列表中的第一个值. |
|
确定列表中的最后一个值. |
|
计算最大值,忽略 NaN 值. |
确定输入中连续False值的最大数量 |
|
|
确定输入中连续负值的最大数量 |
|
确定输入中连续正数值的最大数量 |
确定输入中连续True值的最大数量 |
|
|
确定输入中连续零值的最大数量 |
|
计算一组数值的平均值. |
|
确定一组数值中的中间值. |
|
计算忽略 NaN 值的最小值. |
|
确定最常重复的值. |
|
确定最常见的`n`个元素. |
|
确定最长的均值以上子序列的长度. |
|
确定低于均值的最长子序列的长度. |
|
统计`True`值的数量. |
|
确定不同值的数量,忽略 NaN 值. |
确定`True`值的百分比. |
|
|
计算一个分布与正态分布的差异程度. |
|
计算相对于均值的离散度,忽略 NaN. |
|
计算总和,忽略 NaN. |
|
计算自第一个日期时间以来的时间(以秒为单位). |
|
计算自上一个日期时间以来的时间(默认以秒为单位). |
计算自上次`False`值以来的时间. |
|
计算自最大值出现以来的时间. |
|
计算自最小值出现以来的时间. |
|
计算自上次`True`值以来的时间. |
|
|
计算某一列随时间变化的趋势. |
转换基元#
二元转换基元#
对两个列表进行元素逐项相加. |
|
|
将标量加到列表中的每个值上. |
|
将一个标量除以列表中的每个值. |
|
将列表中的每个元素除以一个标量. |
|
判断一个列表中的值是否等于另一个列表中的值. |
|
确定列表中的值是否等于给定的标量. |
判断一个列表中的值是否大于另一个列表中的值. |
|
确定一个列表中的值是否大于或等于另一个列表中的值. |
|
|
确定值是否大于或等于给定的标量. |
|
判断值是否大于给定的标量. |
|
判断一个列表中的值是否小于另一个列表中的值. |
确定一个列表中的值是否小于或等于另一个列表中的值. |
|
|
确定值是否小于或等于给定的标量. |
|
确定值是否小于给定的标量. |
|
计算标量对列表中每个元素的模. |
对两个列表进行逐元素取模运算. |
|
|
计算列表中每个元素对给定标量的模. |
对两个布尔值列表进行逐元素乘法运算. |
|
对数值列表与布尔值列表进行逐元素乘法运算. |
|
|
将列表中的每个元素乘以一个标量. |
|
确定一个列表中的值是否与另一个列表中的值不相等. |
|
确定列表中的值是否不等于给定的标量. |
|
从给定的标量中减去列表中的每个值. |
|
对两个列表进行逐元素相减操作. |
|
从列表中的每个元素减去一个标量. |
组合特征#
|
确定一个值是否存在于提供的列表中. |
|
Performs element-wise logical AND of two lists. |
|
对两个列表进行逐元素逻辑或运算. |
|
取反布尔值. |
累积变换原语#
|
计算列表中当前值与前一个值之间的差值. |
|
计算列表中一个日期时间与前一个日期时间之间的时间差. |
|
计算列表中自上一个条目以来的时间. |
|
计算累积计数. |
|
计算累积和. |
|
计算累积平均值. |
|
计算累积最小值. |
|
计算累积最大值. |
日期时间变换原语#
|
计算给定出生日期的年龄(以浮点数表示的年份). |
|
将实例的时间转换为对应的节假日名称(如果有). |
确定日期时间的时区. |
|
|
确定从日期时间对象中的月份日期. |
确定给定日期时间的一年中的第几天 |
|
确定给定日期时间所在月份的天数. |
|
|
计算距离指定假日的天数. |
|
确定一个datetime对象的小时值. |
|
确定给定日期时间是否为联邦假日. |
确定日期时间列的is_leap_year属性. |
|
|
判断一个日期时间是否在可配置的午餐时间内,基于24小时制. |
确定日期时间列的is_month_end属性. |
|
确定日期时间列的is_month_start属性. |
|
确定日期时间列的is_quarter_end属性. |
|
确定日期时间列的is_quarter_start属性. |
|
判断一个日期是否为周末. |
|
|
判断一个日期时间是否在24小时制的工作时间内.可以配置start_hour和end_hour. |
判断一个日期是否为年末. |
|
判断一个日期是否为一年的开始. |
|
|
确定一个datetime对象的分钟值. |
|
确定一个datetime对象的月份值. |
确定日期时间的一天中的时段. |
|
|
确定日期时间列所属的季度(1, 2, 3, 4) |
|
确定给定日期时间的季节. |
|
确定一个datetime对象的秒数值. |
|
确定从日期时间值中的年份周数. |
|
确定日期时间值的星期几. |
|
确定一个datetime对象的年份值. |
电子邮件和URL变换原语#
确定电子邮件的域名 |
|
确定电子邮件地址是否来自免费电子邮件域. |
|
确定URL的域名. |
|
确定一个URL的协议(http或https). |
|
|
确定一个URL的顶级域名. |
指数变换原语#
|
计算一系列数字的指数加权移动平均值 |
|
计算一系列数字的指数加权移动标准差 |
|
计算一系列数字的指数加权移动方差 |
通用变换原语#
|
计算列表中数字与前一个元素的绝对差值. |
|
计算一个数的绝对值. |
|
计算一个数的余弦值. |
|
判断一个值是否为空. |
计算一个数的自然对数. |
|
|
取反一个数值. |
确定列表中每个值的百分位排名. |
|
计算每秒的变化率. |
|
|
确定列表中的一个值是否等于前一个值. |
|
计算一个数的正弦值. |
计算一个数的平方根. |
|
|
计算一个数的正切值. |
|
计算一组数字的方差. |
位置变换原语#
|
计算城市道路网格中各点之间的距离. |
确定两个坐标的中心点. |
|
|
计算两个LatLong列之间的近似Haversine距离. |
|
确定坐标是否在由两个角点定义的矩形框内. |
|
返回LatLong元组列表中的第一个元组值. |
返回LatLong元组列表中的第二个元组值. |
自然语言转换原语#
|
确定给定字符串在文本字段中出现的次数. |
确定每个单词的平均字符数. |
|
|
确定中位单词长度. |
计算给定字符串中的字符数,包括空白字符和标点符号. |
|
|
计算唯一分隔符的数量. |
|
确定字符串中的单词数量.单词是由空白字符分隔的字符序列. |
|
确定字符串中常见单词的数量. |
确定字符串中的话题标签数量. |
|
确定字符串中的提及数量. |
|
|
确定字符串中唯一单词的数量. |
|
确定字符串中引号内单词的数量. |
确定字符串中的标点符号数量. |
|
确定字符串中标题词的数量. |
|
|
确定总字长. |
计算文本中大写字母的数量. |
|
确定字符串中完全大写的单词数量. |
|
计算字符串中的空格数量. |
邮政编码原语#
返回给定邮政编码的一位数前缀. |
|
返回给定邮政编码的前两位数字. |
时间序列转换原语#
|
计算给定窗口内事件的扩展计数. |
|
计算给定窗口内事件的扩展最大值. |
|
计算给定窗口内事件的扩展均值. |
|
计算给定窗口内事件的扩展最小值. |
|
计算给定窗口内事件的扩展标准差. |
|
计算给定窗口内事件的扩展趋势. |
|
将一组值按指定的周期数进行移位. |
|
确定在给定窗口上的事件滚动计数. |
|
确定给定窗口内条目的最大值. |
|
计算给定窗口内数值的均值. |
|
确定给定窗口内条目的最小值. |
|
确定在给定窗口内有多少值是异常值. |
|
计算给定窗口内数据的标准差. |
|
计算给定时间窗口内某一列数据的趋势. |
特征方法#
|
重命名特征,返回副本.将把任何自定义特征列名称重置为默认值. |
|
返回特征的深度 |
特征计算#
|
计算给定实例ID和计算时间的矩阵. |
特征描述#
|
生成一个特征的英文描述. |
特征可视化#
|
生成给定特征的血缘关系图 |
特征编码#
|
编码分类特征 |
特征选择#
|
选择至少有2个唯一值且不全为空的特征 |
移除高度相关特征 移除高度缺失特征 移除单一值特征
特征矩阵工具#
|
替换特征矩阵中所有 |
保存和加载特征#
|
将特征列表保存为JSON到指定的文件路径/S3路径,写入一个已打开的文件,或返回序列化的特征作为JSON字符串.如果没有提供文件,则返回一个字符串. |
|
Loads the features from a filepath, S3 path, URL, an open file, or a JSON formatted string. |
EntitySet, 关系#
构造函数#
|
存储实体集的所有实际数据和类型信息 |
|
表示数据框之间关系的类 |
EntitySet 加载和准备数据#
|
将带有 Woodwork 类型信息的 DataFrame 添加到 EntitySet 中. |
查找或设置分类列的有趣值,用于生成"where”子句 |
|
计算每个数据框的最后时间索引值(观察到该实例或其子实例的最后时间). |
|
|
在实体集中添加数据框之间的新关系.可以通过传递数据框和列名称或传递 |
|
向实体集中添加多个新关系 |
|
将实体集与另一个实体集合并,以创建一个包含两个实体集数据的新实体集. |
|
创建一个新的数据框和关系,基于现有列中的唯一值. |
设置实体集中数据框的辅助时间索引,使用其数据框名称. |
|
|
替换EntitySet表的内部数据框,保持Woodwork类型信息不变. |
EntitySet 序列化#
|
读取实体集从磁盘、S3路径或URL. |
|
将实体集以CSV格式写入磁盘,路径由`path`指定. |
|
将entityset以pickle格式写入,位置由`path`指定. |
|
将实体集以parquet格式写入磁盘,位置由`path`指定. |
EntitySet 查询方法#
|
获取实体集中数据框实例 |
生成器,生成从起点到目标数据框之间的所有反向路径.不包括包含循环的路径. |
|
生成器,用于生成从一个起点到目标数据框之间的所有前向路径.不包括包含循环的路径. |
|
|
获取与数据框具有前向关系的数据框 |
|
获取与数据框存在反向关系的数据框 |
|
查询具有给定值的列的实例 |
EntitySet 可视化#
|
创建一个类似于UML图的EntitySet图. |
关系属性#
父数据框中的列 |
|
子DataFrame中的列 |
|
父数据框对象 |
|
子数据框对象 |
数据类型工具方法#
Returns a dataframe describing all of the available Logical Types. |
|
Returns a dataframe describing all of the common semantic tags. |
原语工具方法#
|
获取给定实体集的推荐基元列表. |
返回一个DataFrame,用于列出和描述每个内置基元. |
|
返回一个包含 list_primitives 中所有基元的指标汇总 DataFrame. |