sklift.datasets.fetch_hillstrom

sklift.datasets.datasets.fetch_hillstrom(target_col='visit', data_home=None, dest_subdir=None, download_if_missing=True, return_X_y_t=False)[source]

加载并返回Kevin Hillstrom数据集MineThatData（分类或回归）。

该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。

主要列：

visit (binary): 目标。1/0 指标，1 = 客户在接下来的两周内访问了网站。
conversion (binary): 目标。1/0 指标，1 = 客户在接下来的两周内购买了商品。
spend (float): 目标。在接下来的两周内实际花费的美元。
segment (str): 处理。客户收到的电子邮件活动

在文档中阅读更多内容。

Parameters

target_col (string, 'visit' 或 'conversion', 'spend' 或 'all', default='visit') – 选择数据集中的哪一列作为目标
data_home (str) – 存储数据集的文件夹路径。
dest_subdir (str) – 数据集存储的文件夹名称。
download_if_missing (bool) – 如果数据不存在，则下载数据。如果为False且数据缺失，则引发IOError。
return_X_y_t (bool, default=False) – 如果为True，返回(data, target, treatment)而不是Bunch对象。

Returns

数据集。

Bunch:

默认情况下是类似字典的对象，具有以下属性：

data (DataFrame 对象): 不包含目标和处理的数据集。

target (Series 或 DataFrame 对象): 按值排列的目标列。

treatment (Series 对象): 按值排列的处理列。

DESCR (str): Hillstrom 数据集的描述。

feature_names (list): 特征的名称。

target_name (str 或 list): 目标的名称。

treatment_name (str): 处理的名称。

Tuple:

如果 return_X_y 为 True，则返回元组 (data, target, treatment)

Return type

束或元组

参考文献

https://blog.minethatdata.com/2008/03/minethatdata-e-mail-analytics-and-data.html

示例：

from sklift.datasets import fetch_hillstrom


dataset = fetch_hillstrom(target_col='visit')
data, target, treatment = dataset.data, dataset.target, dataset.treatment

# alternative option
data, target, treatment = fetch_hillstrom(target_col='visit', return_X_y_t=True)

另请参阅

fetch_lenta(): 加载并返回Lenta数据集（分类）。

fetch_x5(): 加载并返回X5 RetailHero数据集（分类）。

fetch_criteo(): 加载并返回Criteo提升预测数据集（分类）。

fetch_megafon(): 加载并返回MegaFon Uplift Competition数据集（分类）

Kevin Hillstrom 数据集: MineThatData

数据描述

这是MineThatData电子邮件分析和数据挖掘挑战数据集的副本。

该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。

随机选择1/3的人接收以男士商品为特色的电子邮件活动。
1/3 被随机选择接收以女性商品为特色的电子邮件活动。
1/3 被随机选择不接收电子邮件营销活动。

在电子邮件营销活动后的两周内，结果被跟踪。你的工作是告诉世界，男性或女性的电子邮件营销活动是否成功。

字段

您可以使用的历史客户属性包括：

最近性：自上次购买以来的月数。
History_Segment: 过去一年花费金额的分类。
历史：过去一年实际花费的美元金额。
男士：1/0 指标，1 = 客户在过去一年购买了男士商品。
女性：1/0 指标，1 = 客户在过去一年中购买了女性商品。
Zip_Code: 将邮政编码分类为城市、郊区或农村。
新手：1/0 指标，1 = 过去十二个月内的新客户。
渠道：描述客户在过去一年中购买的渠道。

另一个变量描述了客户收到的电子邮件活动：

分段
- 男士电子邮件
- 女性电子邮件
- 没有电子邮件

最后，我们有一系列变量描述了电子邮件活动发送后两周内的活动情况：

访问：1/0 指标，1 = 客户在接下来的两周内访问了网站。
转化率：1/0 指标，1 = 客户在接下来的两周内购买了商品。
支出：在接下来的两周内实际花费的金额。

关键数据

格式: CSV
大小：433KB（压缩后） 4,935KB（未压缩）
行数: 64,000
响应比率：
- 平均访问率：.15，
- 平均转化率：.009，
- spend 列中的值从 0.0 到 499.0 分布不均匀
处理比例：零件在三个类别之间均匀分布

关于Hillstrom

该数据集由Kevin Hillstorm提供。 Kevin是MineThatData的总裁，这是一家帮助CEO理解客户、广告、产品、品牌和渠道之间复杂关系的咨询公司。

博客链接: https://blog.minethatdata.com/