版本 1.1.0¶
我们很高兴宣布AutoGluon 1.1版本的发布。
AutoGluon 1.1 对 TimeSeries 模块进行了重大改进,通过添加 Chronos(一个用于时间序列预测的预训练模型)以及许多其他增强功能,与 AutoGluon 1.0 相比,胜率提高了 60%。 其他模块也通过新功能得到了增强,例如支持 Conv-LORA 以及提高了 5 - 30 GB 大小的大型表格数据集的性能。 有关 AutoGluon 1.1 功能的完整分解,请参阅下面的功能亮点和详细增强列表。
Join the community:
Get the latest updates:
此版本支持 Python 3.8、3.9、3.10 和 3.11 版本。不支持加载在旧版 AutoGluon 上训练的模型。请使用 AutoGluon 1.1 重新训练模型。
This release contains 121 commits from 20 contributors!
完整贡献者列表(按提交次数排序):
@shchur @prateekdesai04 @Innixma @canerturkmen @zhiqiangdon @tonyhoo @AnirudhDagar @Harry-zzh @suzhoum @FANGAreNotGnu @nimasteryang @lostella @dassaswat @afmkt @npepin-hub @mglowacki100 @ddelange @LennartPurucker @taoyang1122 @gradientsky
特别感谢@ddelange在Python 3.11支持和Ray版本升级方面的持续帮助!
Spotlight¶
AutoGluon在机器学习竞赛中取得顶尖成绩!¶
AutoGluon has experienced wide-spread adoption on Kaggle since the AutoGluon 1.0 release. AutoGluon has been used in over 130 Kaggle notebooks and mentioned in over 100 discussion threads in the past 90 days! Most excitingly, AutoGluon has already been used to achieve top ranking placements in multiple competitions with thousands of competitors since the start of 2024:
放置 |
竞赛 |
作者 |
日期 |
AutoGluon 详情 |
注释 |
|---|---|---|---|---|---|
:3rd_place_medal: 排名 3/2303 (前 0.1%) |
2024年03月31日 |
v1.0, 表格 |
Kaggle 游乐场系列 S4E3 |
||
:2nd_place_medal: 排名 2/93 (前2%) |
2024年03月21日 |
v1.0, 表格 |
|||
:2nd_place_medal: 排名 2/1542 (前 0.1%) |
2024/03/01 |
v1.0, 表格 |
|||
:2nd_place_medal: 排名 2/3746 (前 0.1%) |
2024年02月29日 |
v1.0, 表格 |
Kaggle 游乐场系列 S4E2 |
||
:2nd_place_medal: 排名 2/3777 (前 0.1%) |
2024/01/31 |
v1.0, 表格 |
Kaggle 游乐场系列 S4E1 |
||
排名 4/1718(前 0.2%) |
2024/01/01 |
v1.0, 表格 |
Kaggle 游乐场系列 S3E26 |
我们非常高兴数据科学社区正在利用AutoGluon作为他们的首选方法,以快速有效地实现顶级机器学习解决方案! 有关使用AutoGluon的最新竞赛解决方案列表,请参阅我们的AWESOME.md, 如果您在竞赛中使用了AutoGluon,请毫不犹豫地告诉我们!
Chronos,一个用于时间序列预测的预训练模型¶
AutoGluon-TimeSeries 现在推出了 Chronos,这是一个在大量开源时间序列数据集上预训练的预测模型家族,可以为新的未见数据生成准确的零样本预测。查看 新教程,了解如何通过熟悉的 TimeSeriesPredictor API 使用 Chronos。
General¶
重构项目README和项目标语 @Innixma (#3861, #4066)
添加AWESOME.md竞赛结果和其他文档改进。@Innixma (#4023)
Pandas 版本升级。@shchur @Innixma (#4079, #4089)
PyTorch、CUDA、Lightning 版本升级。@prateekdesai04 @canerturkmen @zhiqiangdon (#3982, #3984, #3991, #4006)
Ray 版本升级。@ddelange @tonyhoo (#3774, #3956)
Scikit-learn 版本升级。@prateekdesai04 (#3872, #3881, #3947)
各种依赖项升级。@Innixma @tonyhoo (#4024, #4083)
TimeSeries¶
Highlights¶
AutoGluon 1.1 带来了许多新功能和时间序列模块的改进。这些包括高度要求的功能,如特征重要性、支持分类协变量、可视化预测的能力以及日志记录的增强。新版本还在预测准确性方面取得了显著改进,与之前的 AutoGluon 版本相比,实现了 60% 的胜率和 3% 的平均误差减少。这些改进主要归功于 Chronos 的加入、改进的预处理逻辑以及对缺失值的本地处理。
New Features¶
添加Chronos预训练预测模型(教程)。@canerturkmen @shchur @lostella (#3978, #4013, #4052, #4055, #4056, #4061, #4092, #4098)
使用
TimeSeriesPredictor.feature_importance()测量特征和协变量对预测准确性的重要性。@canerturkmen (#4033, #4087)原生支持缺失值(无需插补)。@shchur (#3995, #4068, #4091)
添加对分类协变量的支持。@shchur (#3874, #4037)
通过使用
TimeSeriesPredictor.persist()将模型持久化在内存中,提高推理速度。@canerturkmen (#4005)使用
TimeSeriesPredictor.plot()可视化预测。@shchur (#3889)添加
RMSLE评估指标。@canerturkmen (#3938)启用日志记录到文件。@canerturkmen (#3877)
添加选项以在训练后保留闪电日志,使用
keep_lightning_logs超参数。@shchur (#3937)
修复和改进¶
自动预处理实值协变量 @shchur (#4042, #4069)
添加选项以在仅训练一个模型时跳过模型选择。@shchur (#4002)
确保所有指标处理目标中的缺失值 @shchur (#3966)
修复在CPU机器上加载GPU训练模型时的错误 @shchur (#3979)
修复不一致的随机种子。@canerturkmen @shchur (#3934, #4099)
修复在加载后调用.info时崩溃的问题。@afmkt (#3900)
修复当没有模型训练时排行榜崩溃的问题。@shchur (#3849)
添加原型TabRepo模拟工件生成。@shchur (#3829)
修复 refit_full 错误。@shchur (#3820)
文档改进,隐藏已弃用的方法。@shchur (#3764, #4054, #4098)
小修复。@canerturkmen, @shchur, @AnirudhDagar (#4009, #4040, #4041, #4051, #4070, #4094)
AutoMM¶
Highlights¶
AutoMM 1.1 引入了创新的 Conv-LoRA, 这是一种参数高效微调(PEFT)方法,源自我们在 ICLR 2024 上发表的最新论文, 题为“卷积遇上 LoRA:Segment Anything Model 的参数高效微调”。 Conv-LoRA 旨在微调 Segment Anything Model, 与之前的 PEFT 方法(如 LoRA 和视觉提示微调)相比, 在包括自然图像、农业、遥感和医疗保健在内的各种语义分割任务中表现出卓越的性能。查看 我们的 Conv-LoRA 示例。
New Features¶
添加了Conv-LoRA,一种新的参数高效微调方法。@Harry-zzh @zhiqiangdon (#3933, #3999, #4007, #4022, #4025)
新增了对新列类型的支持:‘image_base64_str’。@Harry-zzh @zhiqiangdon (#3867)
增加了在FT-Transformer中加载预训练权重的支持。@taoyang1122 @zhiqiangdon (#3859)
Fixes and Improvements¶
修复了语义分割中的错误。@Harry-zzh (#3801, #3812)
修复了使用F1指标时的崩溃问题。@suzhoum (#3822)
修复了PEFT方法中的错误。@Harry-zzh (#3840)
高质量和最佳质量预设的加速对象检测训练提高了约30%。@FANGAreNotGnu (#3970)
已弃用的 Grounding-DINO @FANGAreNotGnu (#3974)
修复了闪电升级问题 @zhiqiangdon (#3991)
修复了在知识蒸馏中使用f1、f1_macro、f1_micro进行二元分类的问题。@nimasteryang (#3837)
由于许可证问题,已从安装中移除MyMuPDF。用户需要自行安装以进行文档分类。@zhiqiangdon (#4093)
Tabular¶
Highlights¶
AutoGluon-Tabular 1.1 主要专注于错误修复和稳定性改进。特别是,我们通过使用子采样进行决策阈值校准和加权集成拟合到100万行,大大提高了5-30 GB大小的大型数据集的运行时性能,在保持相同质量的同时,执行速度更快。我们还将默认的加权集成迭代次数从100次调整为25次,这将使所有加权集成拟合时间加快4倍。我们大幅重构了fit_pseudolabel逻辑,现在应该能够显著获得更强的结果。
Fixes and Improvements¶
修复
predictor.fit_weighted_ensemble(refit_full=True)中的返回值。@Innixma (#1956)通过子采样提高大数据集上的性能。@Innixma (#3977)
修复了在内存不足时refit_full崩溃的问题。@Innixma (#3977)
重构并增强
.fit_pseudolabel逻辑。@Innixma (#3930)修复了在LightGBM、CatBoost和XGBoost的HPO过程中内存检查导致的崩溃。@Innixma (#3931)
修复窗口上的动态堆叠。@Innixma (#3893)
LightGBM 版本升级。@mglowacki100, @Innixma (#3427)
修复了如果Ray未初始化时跳过内存安全的子拟合的问题。@LennartPurucker (#3868)
日志改进。@AnirudhDagar (#3873)
隐藏已弃用的方法。@Innixma (#3795)
文档改进。@Innixma @AnirudhDagar (#2024, #3975, #3976, #3996)
Docs and CI¶
添加自动基准测试报告生成。@prateekdesai04 (#4038, #4039)
修复Windows的表格测试。@tonyhoo (#4036)
修复挂起的表格单元测试。@prateekdesai04 (#4031)
修复CI评估。@suzhoum (#4019)
在CI运行之间添加包版本比较 @prateekdesai04 (#3962, #3968, #3972)
更新 conf.py 以反映当前年份。@dassaswat (#3932)
避免冗余的单元测试运行。@prateekdesai04 (#3942)
修复colab笔记本链接 @prateekdesai04 (#3926)