TabularPredictor.fit_extra¶
- TabularPredictor.fit_extra(hyperparameters: str | Dict[str, Any], time_limit: float = None, base_model_names: List[str] = None, fit_weighted_ensemble: bool = True, fit_full_last_level_weighted_ensemble: bool = True, full_weighted_ensemble_additionally: bool = False, num_cpus: str | int = 'auto', num_gpus: str | int = 'auto', fit_strategy: Literal['auto', 'sequential', 'parallel'] = 'auto', memory_limit: float | str = 'auto', **kwargs) TabularPredictor[source]¶
在原始的
TabularPredictor.fit()调用之后,拟合额外的模型。 原始的train_data和tuning_data将用于训练模型。- Parameters:
超参数 (str 或 dict) – 请参考
TabularPredictor.fit()中的参数文档。 如果指定了 base_model_names 并且超参数使用了基于级别的键表示法, 直接使用基础模型的级别的键应为 1。超参数字典中的级别是相对的,不是绝对的。time_limit (int, 默认 = None) – 请参考
TabularPredictor.fit()中的参数文档。base_model_names (List[str], default = None) – 用作此拟合调用的基础模型的名称。 基础模型将提供它们的袋外预测作为hyperparameters中模型的附加特征。 如果指定,所有训练的模型都将是堆叠集成模型。 如果为None,模型将像在
TabularPredictor.fit()中指定的一样进行训练,而不依赖于现有模型。 仅在启用袋装时有效。fit_weighted_ensemble (bool, default = True) – 如果为True,将在每个堆叠层中拟合一个WeightedEnsembleModel。 加权集成通常比单个模型更强大,同时训练速度非常快。 建议将此值设置为True以最大化预测质量。
fit_full_last_level_weighted_ensemble (bool, 默认值 = True) – 如果为True,则最后一个堆叠层的WeightedEnsembleModel将使用所有先前层的所有(成功的)模型作为基础模型进行拟合。 如果堆叠被禁用,将此设置为True或False没有区别,因为WeightedEnsembleModel L2始终使用L1中的所有模型。 建议将此值设置为True以最大化预测质量。
full_weighted_ensemble_additionally (bool, default = False) – 如果为True,AutoGluon将在训练所有堆叠级别后拟合两个WeightedEnsembleModels。将此设置为True,模拟在调用fit()后调用fit_weighted_ensemble()。如果fit_full_last_level_weighted_ensemble为False,则没有影响,并且如果堆叠被禁用,则不会拟合额外的WeightedEnsembleModel。
num_cpus (int, default = "auto") – 您希望AutoGluon预测器使用的CPU总数。 auto表示AutoGluon将根据可用CPU总数和模型需求来决定最佳性能。 用户通常不需要设置此值
num_gpus (int, default = "auto") – 您希望AutoGluon预测器使用的GPU总数。 auto表示AutoGluon将根据可用GPU总数和模型性能需求自动决定。 用户通常不需要设置此值
fit_strategy (Literal["auto", "sequential", "parallel"], default = "auto") –
用于拟合模型的策略。 如果选择“auto”,则使用与原始
TabularPredictor.fit()调用中相同的fit_strategy。 如果选择“sequential”,模型将按顺序拟合。这是最稳定的选项,日志记录最易读。 如果选择“parallel”,模型将使用ray并行拟合,并在它们之间分配可用的计算资源。注意:“parallel”是实验性的,可能会遇到问题。它首次在1.2.0版本中添加。
对于具有16个或更多CPU核心的机器,“parallel”可能会比“sequential”更快。
在1.2.0版本中添加。
memory_limit (float | str, default = "auto") – 您希望AutoGluon预测器使用的总内存量(以GB为单位)。“auto”表示AutoGluon将使用系统上所有可用的内存(可通过psutil检测)。 请注意,这只是一个软限制!AutoGluon使用此限制来跳过预计需要过多内存的模型训练,或停止训练可能超过内存限制的模型。AutoGluon目前不保证强制执行此限制。然而,我们预计AutoGluon在大多数情况下会遵守此限制,或者最多超过限制一小部分。 对于大多数虚拟化系统(例如,在云中)以及在服务器或笔记本电脑上的本地使用,“auto”是此参数的理想选择。我们建议在由操作系统控制的共享资源系统(例如,SLURM和cgroups)上手动设置内存限制(以及任何其他资源)。否则,AutoGluon可能会错误地假设有比操作系统允许的更多资源可用于拟合模型,这可能导致模型训练失败或效率非常低。
**kwargs –
请参考
TabularPredictor.fit()中的kwargs文档。 请注意,以下kwargs在fit_extra中不可用,因为它们无法从fit()中设置的值更改:[holdout_frac, num_bag_folds, auto_stack, feature_generator, unlabeled_data]
此外,dynamic_stacking在fit_extra中也不可用,因为堆叠过拟合的检测仅在第一次拟合时支持。 pseudo_data : pd.DataFrame, 默认值 = None
由Autogluon模型自我标记的数据,将在‘fit_extra’期间纳入训练