TabularPredictor.fit_extra¶

TabularPredictor.fit_extra(hyperparameters: str | Dict[str, Any], time_limit: float = None, base_model_names: List[str] = None, fit_weighted_ensemble: bool = True, fit_full_last_level_weighted_ensemble: bool = True, full_weighted_ensemble_additionally: bool = False, num_cpus: str | int = 'auto', num_gpus: str | int = 'auto', fit_strategy: Literal['auto', 'sequential', 'parallel'] = 'auto', memory_limit: float | str = 'auto', **kwargs) → TabularPredictor[source]¶

在原始的TabularPredictor.fit()调用之后，拟合额外的模型。原始的train_data和tuning_data将用于训练模型。

Parameters:

超参数 (str 或 dict) – 请参考 TabularPredictor.fit() 中的参数文档。如果指定了 base_model_names 并且超参数使用了基于级别的键表示法，直接使用基础模型的级别的键应为 1。超参数字典中的级别是相对的，不是绝对的。
time_limit (int, 默认 = None) – 请参考 TabularPredictor.fit() 中的参数文档。
base_model_names (List[str], default = None) – 用作此拟合调用的基础模型的名称。基础模型将提供它们的袋外预测作为hyperparameters中模型的附加特征。如果指定，所有训练的模型都将是堆叠集成模型。如果为None，模型将像在TabularPredictor.fit()中指定的一样进行训练，而不依赖于现有模型。仅在启用袋装时有效。
fit_weighted_ensemble (bool, default = True) – 如果为True，将在每个堆叠层中拟合一个WeightedEnsembleModel。加权集成通常比单个模型更强大，同时训练速度非常快。建议将此值设置为True以最大化预测质量。
fit_full_last_level_weighted_ensemble (bool, 默认值 = True) – 如果为True，则最后一个堆叠层的WeightedEnsembleModel将使用所有先前层的所有（成功的）模型作为基础模型进行拟合。如果堆叠被禁用，将此设置为True或False没有区别，因为WeightedEnsembleModel L2始终使用L1中的所有模型。建议将此值设置为True以最大化预测质量。
full_weighted_ensemble_additionally (bool, default = False) – 如果为True，AutoGluon将在训练所有堆叠级别后拟合两个WeightedEnsembleModels。将此设置为True，模拟在调用fit()后调用fit_weighted_ensemble()。如果fit_full_last_level_weighted_ensemble为False，则没有影响，并且如果堆叠被禁用，则不会拟合额外的WeightedEnsembleModel。
num_cpus (int, default = "auto") – 您希望AutoGluon预测器使用的CPU总数。 auto表示AutoGluon将根据可用CPU总数和模型需求来决定最佳性能。用户通常不需要设置此值
num_gpus (int, default = "auto") – 您希望AutoGluon预测器使用的GPU总数。 auto表示AutoGluon将根据可用GPU总数和模型性能需求自动决定。用户通常不需要设置此值
fit_strategy (Literal["auto", "sequential", "parallel"], default = "auto") –
用于拟合模型的策略。如果选择“auto”，则使用与原始TabularPredictor.fit()调用中相同的fit_strategy。如果选择“sequential”，模型将按顺序拟合。这是最稳定的选项，日志记录最易读。如果选择“parallel”，模型将使用ray并行拟合，并在它们之间分配可用的计算资源。

注意：“parallel”是实验性的，可能会遇到问题。它首次在1.2.0版本中添加。

对于具有16个或更多CPU核心的机器，“parallel”可能会比“sequential”更快。

在1.2.0版本中添加。
memory_limit (float | str, default = "auto") – 您希望AutoGluon预测器使用的总内存量（以GB为单位）。“auto”表示AutoGluon将使用系统上所有可用的内存（可通过psutil检测）。请注意，这只是一个软限制！AutoGluon使用此限制来跳过预计需要过多内存的模型训练，或停止训练可能超过内存限制的模型。AutoGluon目前不保证强制执行此限制。然而，我们预计AutoGluon在大多数情况下会遵守此限制，或者最多超过限制一小部分。对于大多数虚拟化系统（例如，在云中）以及在服务器或笔记本电脑上的本地使用，“auto”是此参数的理想选择。我们建议在由操作系统控制的共享资源系统（例如，SLURM和cgroups）上手动设置内存限制（以及任何其他资源）。否则，AutoGluon可能会错误地假设有比操作系统允许的更多资源可用于拟合模型，这可能导致模型训练失败或效率非常低。
**kwargs –
请参考TabularPredictor.fit()中的kwargs文档。请注意，以下kwargs在fit_extra中不可用，因为它们无法从fit()中设置的值更改：

[holdout_frac, num_bag_folds, auto_stack, feature_generator, unlabeled_data]

此外，dynamic_stacking在fit_extra中也不可用，因为堆叠过拟合的检测仅在第一次拟合时支持。 pseudo_data : pd.DataFrame, 默认值 = None

由Autogluon模型自我标记的数据，将在‘fit_extra’期间纳入训练