TabularPredictor.predict_proba

TabularPredictor.predict_proba(data: DataFrame | str, model: str | None = None, as_pandas: bool = True, as_multiclass: bool = True, transform_features: bool = True) DataFrame | Series | ndarray[source]

使用训练好的模型生成预测的类别概率,而不是类别标签(如果任务是分类)。 如果predictor.problem_type是回归或分位数,这将引发一个AssertionError。

Parameters:
  • data (pd.DataFrame 或 str) – 用于进行预测的数据。应包含与训练数据集相同的列名,并遵循相同的格式 (可能包含Predictor不会使用的额外列,包括标签列本身)。 如果传递的是str,data将使用str值作为文件路径加载。

  • model (str (optional)) – The name of the model to get prediction probabilities from. Defaults to None, which uses the highest scoring model on the validation set. Valid models are listed in this predictor by calling predictor.model_names().

  • as_pandas (bool, 默认 = True) – 是否将输出作为pandas对象(True)或numpy数组(False)返回。 如果这是一个多类问题或as_multiclass=True,则pandas对象是一个DataFrame,否则它是一个Series。 如果输出是DataFrame,列顺序将等同于predictor.class_labels

  • as_multiclass (bool, default = True) –

    是否将二分类概率返回为多分类概率。

    输出将包含两列,如果 as_pandas=True,列名将对应于二分类标签。 列的顺序将与 predictor.class_labels 相同。

    如果为 False,输出将仅包含一列,表示正类(通过 predictor.positive_class 获取正类名称)。 仅影响二分类问题的输出。

  • transform_features (bool, default = True) –

    If True, preprocesses data before predicting with models. If False, skips global feature preprocessing.

    This is useful to save on inference time if you have already called data = predictor.transform_features(data).

Returns:

  • 预测类概率的数组,对应于给定数据中的每一行。

  • 可能是 np.ndarraypd.DataFrame / pd.Series,具体取决于 as_pandasas_multiclass 参数以及预测问题的类型。

  • 对于二分类问题,输出包含每个数据点的负类和正类的预测概率,除非你指定 as_multiclass=False