用户指南# 1. 介绍 1.1. imbalanced-learn采样器的API 1.2. 关于不平衡数据集的问题陈述 2. 过采样 2.1. 实用指南 2.1.1. 朴素随机过采样 2.1.2. 从随机过采样到SMOTE和ADASYN 2.1.3. 不适定示例 2.1.4. SMOTE 变体 2.2. 数学公式 2.2.1. 样本生成 2.2.2. 多类管理 3. 欠采样 3.1. 原型生成 3.2. 原型选择 3.2.1. 受控欠采样技术 3.2.1.1. 随机欠采样 3.2.1.2. 数学公式 3.2.2. 清理欠采样技术 3.2.2.1. Tomek’s links 3.2.2.2. 使用最近邻编辑数据 3.2.2.2.1. 编辑最近邻 3.2.2.2.2. 重复编辑最近邻 3.2.2.2.3. All KNN 3.2.2.3. 压缩最近邻 3.2.2.3.1. 单边选择 3.2.3. 额外的欠采样技术 3.2.3.1. 实例硬度阈值 4. 过采样和欠采样的组合 5. 采样器集成 5.1. 包含内部平衡采样器的分类器 5.1.1. Bagging 分类器 5.1.2. 随机树的森林 5.1.3. Boosting 6. 其他采样器 6.1. 自定义采样器 6.2. 自定义生成器 6.2.1. TensorFlow 生成器 6.2.2. Keras 生成器 7. 指标 7.1. 分类指标 7.1.1. 敏感性和特异性指标 7.1.2. 针对不平衡数据集的额外指标 7.1.3. 宏平均绝对误差 (MA-MAE) 7.1.4. 重要指标总结 7.2. 成对度量 7.2.1. 值差异度量 8. 常见陷阱和推荐做法 8.1. 数据泄露 9. 数据集加载工具 9.1. 用于基准测试的不平衡数据集 9.2. 不平衡生成器 10. 开发者指南 10.1. 开发者工具 10.1.1. 验证工具 10.1.2. 弃用 10.2. 发布版本 10.2.1. 主要版本 10.2.2. Bug修复版本 11. 参考文献