时间序列预测器排行榜

TimeSeriesPredictor.leaderboard(data: TimeSeriesDataFrame | DataFrame | Path | str | None = None, extra_info: bool = False, extra_metrics: List[str | TimeSeriesScorer] | None = None, display: bool = False, use_cache: bool = True, **kwargs) DataFrame[source]

返回一个显示每个训练模型性能的排行榜,输出是一个带有列的pandas数据框:

  • model: 模型的名称。

  • score_test: 模型在data上的测试分数,如果提供了数据。根据eval_metric计算。

  • score_val: 使用内部验证数据的模型验证分数。根据eval_metric计算。

注意

指标分数始终以“越高越好”的格式显示。 这意味着诸如MASE或MAPE等指标将乘以-1,因此它们的值将为负数。 这是必要的,以避免用户在查看排行榜时需要了解指标才能理解是否越高越好。

  • pred_time_val: 模型在验证数据集上进行预测所花费的时间

  • fit_time_marginal: 训练模型所需的拟合时间(忽略集成模型的基础模型)。

  • fit_order: 模型拟合的顺序。第一个拟合的模型有 fit_order=1,第N个拟合的模型有 fit_order=N

Parameters:
  • data (Union[TimeSeriesDataFrame, pd.DataFrame, Path, str], optional) –

    用于额外评估的数据集。必须包括历史和未来数据(即,data 中所有时间序列的长度必须至少为 prediction_length + 1)。

    如果在创建预测器时指定了 known_covariates_names,则 data 必须包括 known_covariates_names 中列出的列,且协变量值与目标时间序列对齐。

    如果用于训练预测器的 train_data 包含过去的协变量或静态特征,则 data 也必须包含它们(具有相同的列名和数据类型)。

    如果提供的数据是路径或 pandas.DataFrame,AutoGluon 将尝试自动将其转换为 TimeSeriesDataFrame

  • extra_info (bool, default = False) – 如果为True,排行榜将包含一个额外的列hyperparameters,其中包含每个模型在训练期间使用的超参数。空字典{}表示模型是使用默认超参数训练的。

  • extra_metrics (List[Union[str, TimeSeriesScorer]], optional) –

    用于计算分数并包含在输出DataFrame中的指标列表。

    仅在指定data时有效。分数指的是data上的分数(与用于计算score_test列的数据相同)。

    此列表可以包含在创建TimeSeriesPredictor时对eval_metric也有效的任何值。

    对于每个提供的metric,将在排行榜中添加一个名为str(metric)的列,包含在data上计算的指标值。

  • display (bool, default = False) – 如果为True,将打印排行榜DataFrame。

  • use_cache (bool, default = True) – 如果为True,将尝试使用缓存的预测。如果为False,缓存的预测将被忽略。 如果在创建TimeSeriesPredictor时将cache_predictions设置为False,则此参数将被忽略。

Returns:

排行榜 – 包含所有模型信息的排行榜,按照测试性能从最佳到最差的顺序排列。

Return type:

pandas.DataFrame