shap.datasets.adult
- shap.datasets.adult(display=False, n_points=None)[源代码]
以结构化格式返回成人人口普查数据。
- 参数:
- 显示bool, 可选
如果为真,返回原始数据,不包含目标列和冗余列。
- n_pointsint, 可选
要采样的数据点数量。如果提供,将随机采样指定数量的点。
- 返回:
- 如果 display 为 True:
包含原始数据的 pandas DataFrame 元组,不包括 ‘Education’、’Target’ 和 ‘fnlwgt’ 列,以及表示 ‘Target’ 列的 numpy 数组。
- 如果 display 为 False:
包含处理后的数据的 pandas DataFrame 元组,去除了 ‘Target’ 和 ‘fnlwgt’ 列,以及表示 ‘Target’ 列的 numpy 数组。
- 数据包括以下列:
- - ``年龄`` (浮点数)年龄(岁)。
- - ``工作类别`` (类别)雇佣类型。
- - ``fnlwgt`` (float)最终权重;记录所代表的目标人群中的单位数量。
- - ``教育`` (类别)所达到的最高教育水平。
- - ``Education-Num`` (float)教育水平的数字表示。
- - ``婚姻状况`` (类别)个人的婚姻状况。
- - ``职业`` (类别)职业类型。
- - ``关系`` (类别)关系状态。
- - ``Race`` (类别)个人的种族。
- - ``性别`` (类别)个人的性别。
- - ``资本收益`` (浮点数)已记录资本收益。
- - ``资本损失`` (浮点数)已记录资本损失。
- - ``每周小时数`` (浮点数)每周工作小时数。
- - ``Country`` (类别)原产国。
- - ``目标`` (类别)二元目标变量,指示个人是否收入超过50K。
注释
“Education”列与“Education-Num”列冗余,为了简化,将其删除。
“Target”列被转换为二进制(True/False),其中‘>50K’为True,‘<=50K’为False。
某些分类列被编码为数值表示。
示例
要获取处理后的数据和目标标签:
data, target = shap.datasets.adult()
获取用于显示的原始数据:
raw_data, target = shap.datasets.adult(display=True)