shap.datasets.adult

shap.datasets.adult(display=False, n_points=None)[源代码]

以结构化格式返回成人人口普查数据。

参数:
显示bool, 可选

如果为真,返回原始数据,不包含目标列和冗余列。

n_pointsint, 可选

要采样的数据点数量。如果提供,将随机采样指定数量的点。

返回:
如果 display 为 True:

包含原始数据的 pandas DataFrame 元组,不包括 ‘Education’、’Target’ 和 ‘fnlwgt’ 列,以及表示 ‘Target’ 列的 numpy 数组。

如果 display 为 False:

包含处理后的数据的 pandas DataFrame 元组,去除了 ‘Target’ 和 ‘fnlwgt’ 列,以及表示 ‘Target’ 列的 numpy 数组。

数据包括以下列:
- ``年龄`` (浮点数)年龄(岁)。
- ``工作类别`` (类别)雇佣类型。
- ``fnlwgt`` (float)最终权重;记录所代表的目标人群中的单位数量。
- ``教育`` (类别)所达到的最高教育水平。
- ``Education-Num`` (float)教育水平的数字表示。
- ``婚姻状况`` (类别)个人的婚姻状况。
- ``职业`` (类别)职业类型。
- ``关系`` (类别)关系状态。
- ``Race`` (类别)个人的种族。
- ``性别`` (类别)个人的性别。
- ``资本收益`` (浮点数)已记录资本收益。
- ``资本损失`` (浮点数)已记录资本损失。
- ``每周小时数`` (浮点数)每周工作小时数。
- ``Country`` (类别)原产国。
- ``目标`` (类别)二元目标变量,指示个人是否收入超过50K。

注释

  • “Education”列与“Education-Num”列冗余,为了简化,将其删除。

  • “Target”列被转换为二进制(True/False),其中‘>50K’为True,‘<=50K’为False。

  • 某些分类列被编码为数值表示。

示例

要获取处理后的数据和目标标签:

data, target = shap.datasets.adult()

获取用于显示的原始数据:

raw_data, target = shap.datasets.adult(display=True)