TabularPredictor.predict_proba_oof¶

TabularPredictor.predict_proba_oof(model: str = None, *, transformed=False, as_multiclass=True, train_data=None, internal_oof=False, can_infer=None) → DataFrame | Series[source]¶

注意：这是高级功能，不适用于常规使用。

返回训练数据中每一行的折叠外（OOF）预测类别概率。 OOF预测概率可能提供泛化准确性的无偏估计（反映预测在新数据上的表现）每一行的预测仅使用拟合到该行被排除的数据子集的模型进行。

有关类似方法，请参考TabularPredictor.predict_proba_multi()，其中data=None。

Warning: This method will raise an exception if called on a model that is not a bagged ensemble. Only bagged models (such a stacker models) can produce OOF predictions.: 这也意味着 refit_full 模型和蒸馏模型将引发异常。
Warning: If intending to join the output of this method with the original training data, be aware that a rare edge-case issue exists:: 多类问题中，如果存在稀有类别并且使用了‘log_loss’作为评估指标，可能会导致AutoGluon在训练数据中复制行以满足数据中的最小类别计数。如果发生了这种情况，那么返回的pd.Series的索引和行计数可能与训练数据不一致。在这种情况下，考虑使用predictor.load_data_internal()获取处理后的训练数据，而不是使用原始训练数据。当‘log_loss’未被指定为评估指标但稀有类别被AutoGluon丢弃时，会出现一个较为温和的版本。在这种情况下，并非所有原始训练数据行都会有OOF预测。建议在连接时丢弃这些行，或者通过TabularPredictor.predict_proba()获取缺失行的直接预测。

Parameters:

model (str (optional)) – 用于获取折叠外预测的模型名称。默认为 None，表示使用验证集上得分最高的模型。有效的模型可以通过调用 predictor.model_names() 在此 predictor 中列出。
transformed (bool, default = False) – 输出值是否应为原始标签表示（False）或内部标签表示（True）。对于二分类和多分类问题，内部表示是从0到k-1编号的整数，而原始表示与在fit期间提供的标签类别相同。通常，大多数用户会希望使用原始表示并保持transformed=False。
as_multiclass (bool, default = True) –

是否将二分类概率返回为多分类概率。
输出将包含两列，如果 transformed=False，列名将对应于二分类标签。列的顺序将与 predictor.class_labels 相同。

如果为 False，输出将仅包含一列，用于正类（通过 predictor.positive_class 获取正类名称）。仅影响二分类问题的输出。
train_data (pd.DataFrame, default = None) – 指定原始的train_data，以确保任何在内部被丢弃的训练行得到正确处理。如果为None，则在训练过程中如果内部丢弃了训练行，输出将不会包含所有行。如果指定了train_data并且model无法预测且内部丢弃了行，将会引发异常。
internal_oof (bool, default = False) – [高级选项] 返回内部的OOF预测值，而不是外部的OOF预测值。内部的OOF预测值可能比train_data中提供的行数多或少，并且与外部数据不兼容。如果你不知道这是什么意思，请保持为False。
can_infer (bool, default = None) – 仅在未指定model时使用。这用于确定最佳模型是否必须是能够对新数据进行预测的模型（True）。如果为None，则最佳模型不需要能够对新数据进行推断。

Return type:

pd.Series 或 pd.DataFrame 对象，表示模型的折叠外训练预测概率。