sklift.datasets.fetch_hillstrom

sklift.datasets.datasets.fetch_hillstrom(target_col='visit', data_home=None, dest_subdir=None, download_if_missing=True, return_X_y_t=False)[source]

加载并返回Kevin Hillstrom数据集MineThatData(分类或回归)。

该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。

主要列:

  • visit (binary): 目标。1/0 指标,1 = 客户在接下来的两周内访问了网站。

  • conversion (binary): 目标。1/0 指标,1 = 客户在接下来的两周内购买了商品。

  • spend (float): 目标。在接下来的两周内实际花费的美元。

  • segment (str): 处理。客户收到的电子邮件活动

文档中阅读更多内容。

Parameters
  • target_col (string, 'visit''conversion', 'spend''all', default='visit') – 选择数据集中的哪一列作为目标

  • data_home (str) – 存储数据集的文件夹路径。

  • dest_subdir (str) – 数据集存储的文件夹名称。

  • download_if_missing (bool) – 如果数据不存在,则下载数据。如果为False且数据缺失,则引发IOError。

  • return_X_y_t (bool, default=False) – 如果为True,返回(data, target, treatment)而不是Bunch对象。

Returns

数据集。

Bunch:

默认情况下是类似字典的对象,具有以下属性:

  • data (DataFrame 对象): 不包含目标和处理的数据集。

  • target (Series 或 DataFrame 对象): 按值排列的目标列。

  • treatment (Series 对象): 按值排列的处理列。

  • DESCR (str): Hillstrom 数据集的描述。

  • feature_names (list): 特征的名称。

  • target_name (str 或 list): 目标的名称。

  • treatment_name (str): 处理的名称。

Tuple:

如果 return_X_y 为 True,则返回元组 (data, target, treatment)

Return type

束或元组

参考文献

https://blog.minethatdata.com/2008/03/minethatdata-e-mail-analytics-and-data.html

示例:

from sklift.datasets import fetch_hillstrom


dataset = fetch_hillstrom(target_col='visit')
data, target, treatment = dataset.data, dataset.target, dataset.treatment

# alternative option
data, target, treatment = fetch_hillstrom(target_col='visit', return_X_y_t=True)

另请参阅

fetch_lenta(): 加载并返回Lenta数据集(分类)。

fetch_x5(): 加载并返回X5 RetailHero数据集(分类)。

fetch_criteo(): 加载并返回Criteo提升预测数据集(分类)。

fetch_megafon(): 加载并返回MegaFon Uplift Competition数据集(分类)

Kevin Hillstrom 数据集: MineThatData

数据描述

这是MineThatData电子邮件分析和数据挖掘挑战数据集的副本。

该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。

  • 随机选择1/3的人接收以男士商品为特色的电子邮件活动。

  • 1/3 被随机选择接收以女性商品为特色的电子邮件活动。

  • 1/3 被随机选择不接收电子邮件营销活动。

在电子邮件营销活动后的两周内,结果被跟踪。 你的工作是告诉世界,男性或女性的电子邮件营销活动是否成功。

字段

您可以使用的历史客户属性包括:

  • 最近性:自上次购买以来的月数。

  • History_Segment: 过去一年花费金额的分类。

  • 历史:过去一年实际花费的美元金额。

  • 男士:1/0 指标,1 = 客户在过去一年购买了男士商品。

  • 女性:1/0 指标,1 = 客户在过去一年中购买了女性商品。

  • Zip_Code: 将邮政编码分类为城市、郊区或农村。

  • 新手:1/0 指标,1 = 过去十二个月内的新客户。

  • 渠道:描述客户在过去一年中购买的渠道。

另一个变量描述了客户收到的电子邮件活动:

  • 分段

    • 男士电子邮件

    • 女性电子邮件

    • 没有电子邮件

最后,我们有一系列变量描述了电子邮件活动发送后两周内的活动情况:

  • 访问:1/0 指标,1 = 客户在接下来的两周内访问了网站。

  • 转化率:1/0 指标,1 = 客户在接下来的两周内购买了商品。

  • 支出:在接下来的两周内实际花费的金额。

关键数据

  • 格式: CSV

  • 大小:433KB(压缩后) 4,935KB(未压缩)

  • 行数: 64,000

  • 响应比率:

    • 平均访问率:.15,

    • 平均转化率:.009,

    • spend 列中的值从 0.0 到 499.0 分布不均匀

  • 处理比例:零件在三个类别之间均匀分布

关于Hillstrom

该数据集由Kevin Hillstorm提供。 Kevin是MineThatData的总裁,这是一家帮助CEO理解客户、广告、产品、品牌和渠道之间复杂关系的咨询公司。

博客链接: https://blog.minethatdata.com/