获取数据集#
- imblearn.datasets.fetch_datasets(*, data_home=None, filter_data=None, download_if_missing=True, random_state=None, shuffle=False, verbose=False)[source]#
从Zenodo加载基准数据集,必要时下载。
在版本0.3中添加。
- Parameters:
- data_homestr, default=None
为数据集指定另一个下载和缓存文件夹。默认情况下,所有scikit-learn数据存储在‘~/scikit_learn_data’子文件夹中。
- filter_datatuple of str/int, default=None
一个包含要返回的数据集的ID或名称的元组。 请参考上表以获取数据集的ID和名称。
- download_if_missingbool, default=True
如果为False,当数据在本地不可用时,将引发IOError,而不是尝试从源站点下载数据。
- random_stateint, RandomState instance or None, default=None
用于打乱数据集的随机状态。 如果是整数,random_state 是随机数生成器使用的种子; 如果是 RandomState 实例,random_state 是随机数生成器; 如果是 None,随机数生成器是
np.random
使用的 RandomState 实例。- shufflebool, default=False
是否打乱数据集。
- verbosebool, default=False
显示有关获取的信息。
- Returns:
- datasetsOrderedDict of Bunch object,
顺序由
filter_data
定义。每个 Bunch 对象 —— 称为数据集 —— 具有以下属性:dataset.data : 形状为 (n_samples, n_features) 的 ndarray
dataset.target : 形状为 (n_samples,) 的 ndarray
- dataset.DESCRstr
每个数据集的描述。
注释
这组数据集已在[1]中提出。可用数据集的特征如下表所示。
ID
名称
仓库与目标
比率
#S
#F
1
大肠杆菌
UCI, 目标: imU
8.6:1
336
7
2
光学数字
UCI, 目标: 8
9.1:1
5,620
64
3
卫星图像
UCI, 目标: 4
9.3:1
6,435
36
4
pen_digits
UCI, 目标: 5
9.4:1
10,992
16
5
鲍鱼
UCI, 目标: 7
9.7:1
4,177
10
6
病态甲状腺功能正常
UCI, 目标: 病态甲状腺功能减退
9.8:1
3,163
42
7
光谱仪
UCI, 目标: >=44
11:1
531
93
8
car_eval_34
UCI, 目标: 好, 非常好
12:1
1,728
21
9
isolet
UCI, 目标: A, B
12:1
7,797
617
10
美国犯罪
UCI, 目标: >0.65
12:1
1,994
100
11
酵母_ml8
LIBSVM, 目标: 8
13:1
2,417
103
12
场景
LIBSVM, 目标: >一个标签
13:1
2,407
294
13
libras_move
UCI, 目标: 1
14:1
360
90
14
甲状腺疾病
UCI, 目标: sick
15:1
3,772
52
15
coil_2000
KDD, CoIL, 目标: 少数
16:1
9,822
85
16
心律失常
UCI, 目标: 06
17:1
452
278
17
太阳耀斑_m0
UCI, 目标: M->0
19:1
1,389
32
18
油
UCI, 目标: 少数群体
22:1
937
49
19
car_eval_4
UCI, 目标: vgood
26:1
1,728
21
20
葡萄酒质量
UCI, wine, 目标: <=4
26:1
4,898
11
21
字母图片
UCI, 目标: Z
26:1
20,000
16
22
yeast_me2
UCI, 目标: ME2
28:1
1,484
8
23
网页
LIBSVM, w7a, 目标: 少数类
33:1
34,780
300
24
臭氧水平
UCI, 臭氧, 数据
34:1
2,536
72
25
乳腺X光检查
UCI, 目标: 少数群体
42:1
11,183
6
26
蛋白质同源
KDD CUP 2004, 少数
111:1
145,751
74
27
鲍鱼_19
UCI, 目标: 19
130:1
4,177
10
参考文献
[1]丁泽金,“用于高度不平衡数据学习的多样化集成分类器及其在生物信息学中的应用。” 论文,乔治亚州立大学,(2011)。