TabularPredictor.predict_proba_oof

TabularPredictor.predict_proba_oof(model: str = None, *, transformed=False, as_multiclass=True, train_data=None, internal_oof=False, can_infer=None) DataFrame | Series[source]

注意:这是高级功能,不适用于常规使用。

返回训练数据中每一行的折叠外(OOF)预测类别概率。 OOF预测概率可能提供泛化准确性的无偏估计(反映预测在新数据上的表现) 每一行的预测仅使用拟合到该行被排除的数据子集的模型进行。

有关类似方法,请参考TabularPredictor.predict_proba_multi(),其中data=None

Warning: This method will raise an exception if called on a model that is not a bagged ensemble. Only bagged models (such a stacker models) can produce OOF predictions.

这也意味着 refit_full 模型和蒸馏模型将引发异常。

Warning: If intending to join the output of this method with the original training data, be aware that a rare edge-case issue exists:

多类问题中,如果存在稀有类别并且使用了‘log_loss’作为评估指标,可能会导致AutoGluon在训练数据中复制行以满足数据中的最小类别计数。 如果发生了这种情况,那么返回的pd.Series的索引和行计数可能与训练数据不一致。 在这种情况下,考虑使用predictor.load_data_internal()获取处理后的训练数据,而不是使用原始训练数据。 当‘log_loss’未被指定为评估指标但稀有类别被AutoGluon丢弃时,会出现一个较为温和的版本。 在这种情况下,并非所有原始训练数据行都会有OOF预测。建议在连接时丢弃这些行,或者通过TabularPredictor.predict_proba()获取缺失行的直接预测。

Parameters:
  • model (str (optional)) – 用于获取折叠外预测的模型名称。默认为 None,表示使用验证集上得分最高的模型。 有效的模型可以通过调用 predictor.model_names() 在此 predictor 中列出。

  • transformed (bool, default = False) – 输出值是否应为原始标签表示(False)或内部标签表示(True)。 对于二分类和多分类问题,内部表示是从0到k-1编号的整数,而原始表示与在fit期间提供的标签类别相同。 通常,大多数用户会希望使用原始表示并保持transformed=False

  • as_multiclass (bool, default = True) –

    是否将二分类概率返回为多分类概率。

    输出将包含两列,如果 transformed=False,列名将对应于二分类标签。 列的顺序将与 predictor.class_labels 相同。

    如果为 False,输出将仅包含一列,用于正类(通过 predictor.positive_class 获取正类名称)。 仅影响二分类问题的输出。

  • train_data (pd.DataFrame, default = None) – 指定原始的train_data,以确保任何在内部被丢弃的训练行得到正确处理。 如果为None,则在训练过程中如果内部丢弃了训练行,输出将不会包含所有行。 如果指定了train_data并且model无法预测且内部丢弃了行,将会引发异常。

  • internal_oof (bool, default = False) – [高级选项] 返回内部的OOF预测值,而不是外部的OOF预测值。 内部的OOF预测值可能比train_data中提供的行数多或少,并且与外部数据不兼容。 如果你不知道这是什么意思,请保持为False。

  • can_infer (bool, default = None) – 仅在未指定model时使用。 这用于确定最佳模型是否必须是能够对新数据进行预测的模型(True)。 如果为None,则最佳模型不需要能够对新数据进行推断。

Return type:

pd.Seriespd.DataFrame 对象,表示模型的折叠外训练预测概率。