sklift.datasets.fetch_hillstrom
- sklift.datasets.datasets.fetch_hillstrom(target_col='visit', data_home=None, dest_subdir=None, download_if_missing=True, return_X_y_t=False)[source]
加载并返回Kevin Hillstrom数据集MineThatData(分类或回归)。
该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。
主要列:
visit(binary): 目标。1/0 指标,1 = 客户在接下来的两周内访问了网站。conversion(binary): 目标。1/0 指标,1 = 客户在接下来的两周内购买了商品。spend(float): 目标。在接下来的两周内实际花费的美元。segment(str): 处理。客户收到的电子邮件活动
在文档中阅读更多内容。
- Parameters
target_col (string, 'visit' 或 'conversion', 'spend' 或 'all', default='visit') – 选择数据集中的哪一列作为目标
data_home (str) – 存储数据集的文件夹路径。
dest_subdir (str) – 数据集存储的文件夹名称。
download_if_missing (bool) – 如果数据不存在,则下载数据。如果为False且数据缺失,则引发IOError。
return_X_y_t (bool, default=False) – 如果为True,返回(data, target, treatment)而不是Bunch对象。
- Returns
数据集。
- Bunch:
默认情况下是类似字典的对象,具有以下属性:
data(DataFrame 对象): 不包含目标和处理的数据集。target(Series 或 DataFrame 对象): 按值排列的目标列。treatment(Series 对象): 按值排列的处理列。DESCR(str): Hillstrom 数据集的描述。feature_names(list): 特征的名称。target_name(str 或 list): 目标的名称。treatment_name(str): 处理的名称。
- Tuple:
如果 return_X_y 为 True,则返回元组 (data, target, treatment)
- Return type
束或元组
参考文献
https://blog.minethatdata.com/2008/03/minethatdata-e-mail-analytics-and-data.html
示例:
from sklift.datasets import fetch_hillstrom dataset = fetch_hillstrom(target_col='visit') data, target, treatment = dataset.data, dataset.target, dataset.treatment # alternative option data, target, treatment = fetch_hillstrom(target_col='visit', return_X_y_t=True)
另请参阅
fetch_lenta(): 加载并返回Lenta数据集(分类)。fetch_x5(): 加载并返回X5 RetailHero数据集(分类)。fetch_criteo(): 加载并返回Criteo提升预测数据集(分类)。fetch_megafon(): 加载并返回MegaFon Uplift Competition数据集(分类)
Kevin Hillstrom 数据集: MineThatData
数据描述
这是MineThatData电子邮件分析和数据挖掘挑战数据集的副本。
该数据集包含了过去十二个月内最后一次购买的64,000名客户。这些客户参与了一项电子邮件测试。
随机选择1/3的人接收以男士商品为特色的电子邮件活动。
1/3 被随机选择接收以女性商品为特色的电子邮件活动。
1/3 被随机选择不接收电子邮件营销活动。
在电子邮件营销活动后的两周内,结果被跟踪。 你的工作是告诉世界,男性或女性的电子邮件营销活动是否成功。
字段
您可以使用的历史客户属性包括:
最近性:自上次购买以来的月数。
History_Segment: 过去一年花费金额的分类。
历史:过去一年实际花费的美元金额。
男士:1/0 指标,1 = 客户在过去一年购买了男士商品。
女性:1/0 指标,1 = 客户在过去一年中购买了女性商品。
Zip_Code: 将邮政编码分类为城市、郊区或农村。
新手:1/0 指标,1 = 过去十二个月内的新客户。
渠道:描述客户在过去一年中购买的渠道。
另一个变量描述了客户收到的电子邮件活动:
分段
男士电子邮件
女性电子邮件
没有电子邮件
最后,我们有一系列变量描述了电子邮件活动发送后两周内的活动情况:
访问:1/0 指标,1 = 客户在接下来的两周内访问了网站。
转化率:1/0 指标,1 = 客户在接下来的两周内购买了商品。
支出:在接下来的两周内实际花费的金额。
关键数据
格式: CSV
大小:433KB(压缩后) 4,935KB(未压缩)
行数: 64,000
响应比率:
平均访问率:.15,
平均转化率:.009,
spend 列中的值从 0.0 到 499.0 分布不均匀
处理比例:零件在三个类别之间均匀分布
关于Hillstrom
该数据集由Kevin Hillstorm提供。 Kevin是MineThatData的总裁,这是一家帮助CEO理解客户、广告、产品、品牌和渠道之间复杂关系的咨询公司。