sklift.datasets.fetch_x5

sklift.datasets.datasets.fetch_x5(data_home=None, dest_subdir=None, download_if_missing=True)[source]

加载并返回X5 RetailHero数据集(分类)。

数据集包含原始零售客户购买记录、产品原始信息以及客户的一般信息。

主要列:

  • treatment_flg (二进制): 处理/对照组标志

  • target (二进制): 目标

  • customer_id (str): 客户ID - 用于连接的主键

文档中阅读更多内容。

Parameters
  • data_home (str, unicode) – 存储数据集的文件夹路径。

  • dest_subdir (str, unicode) – 数据集存储的文件夹名称。

  • download_if_missing (bool) – 如果数据不存在则下载数据。如果为False且数据缺失,则引发IOError

Returns

数据集。

类似字典的对象,具有以下属性。

  • data (Bunch 对象): 没有目标和处理的类似字典的对象:

    • clients (ndarray 或 DataFrame 对象): 关于客户的一般信息。

    • train (ndarray 或 DataFrame 对象): 用于训练的客户子集。

    • purchases (ndarray 或 DataFrame 对象): 客户在沟通前的购买历史。

  • target (Series 对象): 按值的目标列。

  • treatment (Series 对象): 按值的处理列。

  • DESCR (str): X5 数据集的描述。

  • feature_names (Bunch 对象): 特征的名称。

  • target_name (str): 目标的名称。

  • treatment_name (str): 处理的名称。

Return type

参考文献

https://ods.ai/competitions/x5-retailhero-uplift-modeling/data

示例:

from sklift.datasets import fetch_x5


dataset = fetch_x5()
data, target, treatment = dataset.data, dataset.target, dataset.treatment

# data - dictionary-like object
# data contains general info about clients:
clients = data.clients

# data contains a subset of clients for training:
train = data.train

# data contains a clients’ purchase history prior to communication.
purchases = data.purchases

另请参阅

fetch_lenta(): 加载并返回Lenta数据集(分类)。

fetch_criteo(): 加载并返回Criteo提升预测数据集(分类)。

fetch_hillstrom(): 加载并返回Kevin Hillstrom数据集MineThatData(分类或回归)。

fetch_megafon(): 加载并返回MegaFon Uplift Competition数据集(分类)。

X5 RetailHero 提升建模数据集

该数据集由X5零售集团在2019年冬季举办的RetailHero黑客松中提供。

数据集包含原始零售客户购买记录、产品原始信息以及客户的一般信息。

机器学习竞赛网站.

数据描述

数据包含几个部分:

  • train.csv: 用于训练的客户子集。列 treatment_flg 表示是否有过沟通。列 target 显示之后是否有购买行为;

  • clients.csv: 关于客户的一般信息;

  • purchases.csv: 客户在沟通前的购买历史。

X5 table schema

字段

  • treatment_flg (二进制): 关于执行的通信的信息

  • 目标(二进制):客户购买

关键数据

  • 格式: CSV

  • 大小:647M(压缩后) 4.17GB(解压后)

  • 行数:

    • 在‘clients.csv’中:400,162

    • 在‘purchases.csv’中:45,786,568

    • 在‘uplift_train.csv’中:200,039

  • 响应比率: .62

  • 治疗比例: .5

关于 X5

https://upload.wikimedia.org/wikipedia/en/8/83/X5_Retail_Group_logo_2015.png

X5 Group 是俄罗斯领先的食品零售商。 该公司经营多种零售形式:以Pyaterochka品牌经营的便利店, 以Perekrestok品牌经营的超市和以Karusel品牌经营的大型超市,以及Perekrestok.ru在线市场, 5Post包裹和Dostavka.Pyaterochka和Perekrestok.Bystro食品配送服务。

链接到公司网站:https://www.x5.ru/