发布历史#

版本 0.12.4#

2024年10月4日

更新日志#

兼容性#

版本 0.12.3#

2024年5月28日

更新日志#

兼容性#

版本 0.12.2#

2024年3月31日

更新日志#

错误修复#

版本 0.12.1#

2024年3月31日

更新日志#

错误修复#

兼容性#

版本 0.12.0#

2024年1月24日

更新日志#

错误修复#

兼容性#

弃用#

增强功能#

  • 如果以稀疏格式提供输入,则允许输出数据框。 #1059ts2095.

版本 0.11.0#

2023年7月8日

更新日志#

错误修复#

兼容性#

弃用#

增强功能#

  • SMOTENC 现在接受一个参数 categorical_encoder,允许指定一个带有自定义参数的 OneHotEncoder#1000Guillaume Lemaitre 提供。

  • SMOTEN 现在接受一个参数 categorical_encoder,允许指定一个带有自定义参数的 OrdinalEncoder。一个新的拟合参数 categorical_encoder_ 被暴露出来,以访问拟合的编码器。 #1001Guillaume Lemaitre 提供。

  • RandomUnderSamplerRandomOverSampler(当 shrinkage is not None 时)现在接受任何数据类型,并且不会尝试任何数据转换。 #1004Guillaume Lemaitre 贡献。

  • SMOTENC 现在支持在传递 categorical_features 参数时传递类似数组的 str#1008 由 :user`Guillaume Lemaitre `。

  • SMOTENC 现在支持自动分类推断 当 categorical_features 设置为 "auto" 时。 #1009 由 :user`Guillaume Lemaitre `.

版本 0.10.1#

2022年12月28日

更新日志#

错误修复#

  • 修复了在过采样器中字符串minority被拒绝作为无效采样策略的回归问题。 #964Prakhyath Bhandary 提交。

版本 0.10.0#

2022年12月9日

更新日志#

错误修复#

  • 确保Substitution在使用python -OO时能够正常工作,该选项会将__doc__替换为None#953Guillaume Lemaitre

兼容性#

弃用#

增强功能#

  • 添加支持以仅通过鸭子类型接受兼容的NearestNeighbors对象。例如,它允许接受cuML实例。 #858NV-jptGuillaume Lemaitre

版本 0.9.1#

2022年5月16日

更新日志#

此版本提供了修复,使imbalanced-learn能够与最新发布的scikit-learn1.1.0)一起工作。

版本 0.9.0#

2022年1月11日

更新日志#

此版本主要提供了一些修复,使imbalanced-learn能够与最新版本的scikit-learn1.0.2)兼容。

版本 0.8.1#

2020年9月29日

更新日志#

维护#

版本 0.8.0#

2021年2月18日

更新日志#

新功能#

增强功能#

错误修复#

维护#

弃用#

  • 上下文管理器 imblearn.utils.testing.warns 在0.8版本中已被弃用,并将在1.0版本中移除。 #815Guillaume Lemaitre 提交。

版本 0.7.0#

2020年6月9日

更新日志#

维护#

更改的模型#

由于更改,以下模型可能会给出一些不同的结果:

错误修复#

增强功能#

弃用#

版本 0.6.2#

2020年2月16日

这是一个错误修复版本,旨在解决一些关于处理数组输入和输出格式的问题。

更新日志#

版本 0.6.1#

2019年12月7日

这是一个主要解决0.6.0版本中一些打包问题的错误修复版本。它还包括一些文档的改进和一些错误修复。

更新日志#

错误修复#

版本 0.6.0#

2019年12月5日

更新日志#

更改的模型#

由于scikit-learn的变化,以下模型可能会给出一些不同的采样结果:

由于与随机状态内部使用相关的更改,以下采样器将给出不同的结果:

错误修复#

维护#

  • 在scikit-learn中的一些模块被私有化后,更新了导入。 以下导入已被更改: sklearn.ensemble._base._set_random_states, sklearn.ensemble._forest._parallel_build_trees, sklearn.metrics._classification._check_targets, sklearn.metrics._classification._prf_divide, sklearn.utils.Bunch, sklearn.utils._safe_indexing, sklearn.utils._testing.assert_allclose, sklearn.utils._testing.assert_array_equal, sklearn.utils._testing.SkipTest. #617 by Guillaume Lemaitre.

  • 同步 imblearn.pipelinesklearn.pipeline#620Guillaume Lemaitre

  • 同步 imblearn.ensemble.BalancedRandomForestClassifier 并添加 参数 max_samplesccp_alpha#621Guillaume Lemaitre

增强功能#

弃用#

版本 0.5.0#

2019年6月28日

更新日志#

更改的模型#

即使相同的数据 Xy 相同,以下模型或函数可能会给出不同的结果。

  • imblearn.ensemble.RUSBoostClassifier 默认的估计器从具有完整深度的 sklearn.tree.DecisionTreeClassifier 更改为决策树桩(即,树的最大深度为 max_depth=1)。

文档#

增强功能#

维护#

错误#

版本 0.4.2#

2018年10月21日

更新日志#

错误修复#

版本 0.4#

2018年10月12日

警告

版本0.4是imbalanced-learn支持Python 2.7和Python 3.4的最后一个版本。Imbalanced-learn 0.5将需要Python 3.5或更高版本。

亮点#

此版本带来了一系列新功能以及一些API更改,以加强imbalanced-learn的基础。

作为新功能,新增了两个模块 imblearn.kerasimblearn.tensorflow,在这些模块中可以使用不平衡学习采样器来生成平衡的小批量数据。

模块 imblearn.ensemble 已经与新分类器整合: imblearn.ensemble.BalancedRandomForestClassifier, imblearn.ensemble.EasyEnsembleClassifier, imblearn.ensemble.RUSBoostClassifier.

imblearn.over_sampling.RandomOverSamplerimblearn.under_sampling.RandomUnderSampler 中添加了对字符串的支持。此外,一个新的类 imblearn.over_sampling.SMOTENC 允许生成包含连续和分类特征的数据集的样本。

imblearn.over_sampling.SMOTE 已经被简化并分解为两个额外的类: imblearn.over_sampling.SVMSMOTEimblearn.over_sampling.BorderlineSMOTE

关于API也有一些变化: 引入了参数sampling_strategy来替换ratio参数。此外,return_indices参数已被弃用,所有采样器在可能的情况下都会暴露一个sample_indices_

更新日志#

API#

  • 将参数 ratio 替换为 sampling_strategy#411Guillaume Lemaitre 提交。

  • 启用使用float进行二分类的sampling_strategy#411Guillaume Lemaitre

  • 启用使用list作为清理方法,以指定采样的类。#411Guillaume Lemaitre

  • fit_sample 替换为 fit_resample。为了向后兼容,仍然可以使用别名。此外,sample 已被移除,以避免在不同数据集上进行重采样。 #462Guillaume Lemaitre 提供。

新功能#

增强功能#

错误修复#

维护#

文档#

弃用#

版本 0.3#

2018年2月22日

更新日志#

版本 0.2#

2017年1月1日

更新日志#

版本 0.1#

2016年12月26日

更新日志#

  • Under-sampling
    1. 随机多数欠采样与替换

    2. 提取多数-少数Tomek链接

    3. 使用聚类中心进行欠采样

    4. NearMiss-(1 & 2 & 3)

    5. 浓缩最近邻

    6. 单边选择

    7. 邻域清理规则

    8. 编辑最近邻

    9. 实例硬度阈值

    10. 重复编辑最近邻

  • Over-sampling
    1. 随机少数类过采样替换

    2. SMOTE - 合成少数类过采样技术

    3. bSMOTE(1 & 2) - 类型1和2的边界SMOTE

    4. SVM SMOTE - 支持向量SMOTE

    5. ADASYN - 用于不平衡学习的自适应合成采样方法

  • Over-sampling followed by under-sampling
    1. SMOTE + Tomek 链接

    2. SMOTE + ENN

  • Ensemble sampling
    1. EasyEnsemble

    2. 平衡级联