# 用EntitySets表示数据
一个``EntitySet``是数据帧及其之间关系的集合。它们对于为特征工程准备原始的结构化数据集非常有用。虽然Featuretools中的许多函数将``dataframes``和``relationships``作为单独的参数,但建议创建一个``EntitySet``,这样您可以更轻松地根据需要操作数据。

## 原始数据
下面我们有两个数据表(表示为Pandas DataFrames),涉及客户交易。第一个是交易、会话和客户的合并,使结果看起来像您可能在日志文件中看到的内容:


In [None]:
import featuretools as ft


data = ft.demo.load_mock_customer()

transactions_df = data["transactions"].merge(data["sessions"]).merge(data["customers"])


transactions_df.sample(10)


第二个数据框是涉及这些交易的产品列表。


In [None]:
products_df = data["products"]
products_df


## 创建一个实体集
首先,我们初始化一个``EntitySet``。如果您想为其命名,可以选择性地在构造函数中提供一个``id``。


In [None]:
es = ft.EntitySet(id="customer_data")


## 添加数据框
为了开始,我们将transactions数据框添加到`EntitySet`中。在调用`add_dataframe`时,我们指定了三个重要参数:
* `index`参数指定了在数据框中唯一标识行的列。
* `time_index`参数告诉Featuretools数据的创建时间。
* `logical_types`参数指示"product_id"应该被解释为一个分类列,即使在底层数据中它只是一个整数。


In [None]:
from woodwork.logical_types import Categorical, PostalCode

es = es.add_dataframe(
 dataframe_name="transactions",
 dataframe=transactions_df,
 index="transaction_id",
 time_index="transaction_time",
 logical_types={
 "product_id": Categorical,
 "zip_code": PostalCode,
 },
)

es


您还可以在``EntitySet``对象上使用setter来添加数据帧。


这个方法将数据框中的每一列与[Woodwork](https://woodwork.alteryx.com/)的逻辑类型关联起来。每种逻辑类型都可以有一个关联的标准语义标签,有助于定义列的数据类型。如果不为列指定逻辑类型,它将根据底层数据进行推断。逻辑类型和语义标签列在数据框的模式中列出。有关使用逻辑类型和语义标签的更多信息,请查看[Woodwork文档](https://woodwork.alteryx.com/)。


In [None]:
es["transactions"].ww.schema


现在,我们可以对我们的产品数据框执行相同的操作。


In [None]:
es = es.add_dataframe(
 dataframe_name="products", dataframe=products_df, index="product_id"
)

es


在我们的`EntitySet`中有两个数据框,我们可以在它们之间添加关系。

## 添加关系

我们希望通过每个数据框中名为“product_id”的列将这两个数据框关联起来。每个产品都有与之关联的多个交易,因此被称为**父数据框**,而交易数据框则被称为**子数据框**。在指定关系时,我们需要四个参数:父数据框名称、父列名称、子数据框名称和子列名称。请注意,每个关系必须表示一对多的关系,而不是一对一或多对多的关系。


In [None]:
es = es.add_relationship("products", "product_id", "transactions", "product_id")
es


现在,我们看到关系已经添加到我们的`EntitySet`中。 
## 从现有表创建数据框 
在处理原始数据时,通常会有足够的信息来证明需要创建新的数据框。为了为sessions创建一个新的数据框和关系,我们需要对交易数据框进行“规范化”。


In [None]:
es = es.normalize_dataframe(
 base_dataframe_name="transactions",
 new_dataframe_name="sessions",
 index="session_id",
 make_time_index="session_start",
 additional_columns=[
 "device",
 "customer_id",
 "zip_code",
 "session_start",
 "join_date",
 ],
)
es


从上面的输出中,我们可以看到这个方法执行了两个操作:1. 根据"transactions"中的"session_id"和"session_start"列创建了一个名为"sessions"的新数据框;2. 添加了一个连接"transactions"和"sessions"的关系。如果我们查看一下"transactions"数据框和新的"sessions"数据框的模式,我们会看到另外两个自动执行的操作:


In [None]:
es["transactions"].ww.schema


In [None]:
es["sessions"].ww.schema


1. 从“transactions”中删除了“device”、“customer_id”、“zip_code”和“join_date”,并在sessions数据框中创建了新的列。这样做可以减少冗余信息,因为会话的这些属性在交易之间不会改变。

2. 将“session_start”复制并标记为新sessions数据框中的时间索引列,以表示会话的开始。如果基础数据框具有时间索引且未设置``make_time_index``,``normalize_dataframe``将为新数据框创建一个时间索引。在这种情况下,它将使用每个会话的第一笔交易的时间创建一个名为“first_transactions_time”的新时间索引。如果不希望创建这个时间索引,可以设置``make_time_index=False``。如果我们查看数据框,就可以看到``normalize_dataframe``对实际数据所做的操作。


In [None]:
es["sessions"].head(5)


In [None]:
es["transactions"].head(5)


```markdown
完成准备数据集的工作,使用相同的方法调用创建一个名为"customers"的数据框。
```


In [None]:
es = es.normalize_dataframe(
 base_dataframe_name="sessions",
 new_dataframe_name="customers",
 index="customer_id",
 make_time_index="join_date",
 additional_columns=["zip_code", "join_date"],
)

es


## 使用EntitySet
最后,我们准备好在Featuretools中使用这个EntitySet的任何功能。例如,让我们为数据集中的每个产品构建一个特征矩阵。


In [None]:
feature_matrix, feature_defs = ft.dfs(entityset=es, target_dataframe_name="products")

feature_matrix
