获取数据集#

imblearn.datasets.fetch_datasets(*, data_home=None, filter_data=None, download_if_missing=True, random_state=None, shuffle=False, verbose=False)[source]#

从Zenodo加载基准数据集,必要时下载。

在版本0.3中添加。

Parameters:
data_homestr, default=None

为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据存储在‘~/scikit_learn_data’子文件夹中。

filter_datatuple of str/int, default=None

一个包含要返回的数据集的ID或名称的元组。 请参考上表以获取数据集的ID和名称。

download_if_missingbool, default=True

如果为False,当数据在本地不可用时,将引发IOError,而不是尝试从源站点下载数据。

random_stateint, RandomState instance or None, default=None

用于打乱数据集的随机状态。 如果是整数,random_state 是随机数生成器使用的种子; 如果是 RandomState 实例,random_state 是随机数生成器; 如果是 None,随机数生成器是 np.random 使用的 RandomState 实例。

shufflebool, default=False

是否打乱数据集。

verbosebool, default=False

显示有关获取的信息。

Returns:
datasetsOrderedDict of Bunch object,

顺序由 filter_data 定义。每个 Bunch 对象 —— 称为数据集 —— 具有以下属性:

dataset.data : 形状为 (n_samples, n_features) 的 ndarray

dataset.target : 形状为 (n_samples,) 的 ndarray

dataset.DESCRstr

每个数据集的描述。

注释

这组数据集已在[1]中提出。可用数据集的特征如下表所示。

ID

名称

仓库与目标

比率

#S

#F

1

大肠杆菌

UCI, 目标: imU

8.6:1

336

7

2

光学数字

UCI, 目标: 8

9.1:1

5,620

64

3

卫星图像

UCI, 目标: 4

9.3:1

6,435

36

4

pen_digits

UCI, 目标: 5

9.4:1

10,992

16

5

鲍鱼

UCI, 目标: 7

9.7:1

4,177

10

6

病态甲状腺功能正常

UCI, 目标: 病态甲状腺功能减退

9.8:1

3,163

42

7

光谱仪

UCI, 目标: >=44

11:1

531

93

8

car_eval_34

UCI, 目标: 好, 非常好

12:1

1,728

21

9

isolet

UCI, 目标: A, B

12:1

7,797

617

10

美国犯罪

UCI, 目标: >0.65

12:1

1,994

100

11

酵母_ml8

LIBSVM, 目标: 8

13:1

2,417

103

12

场景

LIBSVM, 目标: >一个标签

13:1

2,407

294

13

libras_move

UCI, 目标: 1

14:1

360

90

14

甲状腺疾病

UCI, 目标: sick

15:1

3,772

52

15

coil_2000

KDD, CoIL, 目标: 少数

16:1

9,822

85

16

心律失常

UCI, 目标: 06

17:1

452

278

17

太阳耀斑_m0

UCI, 目标: M->0

19:1

1,389

32

18

UCI, 目标: 少数群体

22:1

937

49

19

car_eval_4

UCI, 目标: vgood

26:1

1,728

21

20

葡萄酒质量

UCI, wine, 目标: <=4

26:1

4,898

11

21

字母图片

UCI, 目标: Z

26:1

20,000

16

22

yeast_me2

UCI, 目标: ME2

28:1

1,484

8

23

网页

LIBSVM, w7a, 目标: 少数类

33:1

34,780

300

24

臭氧水平

UCI, 臭氧, 数据

34:1

2,536

72

25

乳腺X光检查

UCI, 目标: 少数群体

42:1

11,183

6

26

蛋白质同源

KDD CUP 2004, 少数

111:1

145,751

74

27

鲍鱼_19

UCI, 目标: 19

130:1

4,177

10

参考文献

[1]

丁泽金,“用于高度不平衡数据学习的多样化集成分类器及其在生物信息学中的应用。” 论文,乔治亚州立大学,(2011)。

使用 imblearn.datasets.fetch_datasets 的示例#

使用重采样比较集成分类器

Compare ensemble classifiers using resampling