自定义目标和评估指标

目录

概述

XGBoost 被设计为一个可扩展的库。扩展它的方法之一是提供我们自己的目标函数用于训练,以及相应的性能监控指标。本文档介绍了为 XGBoost 实现自定义的逐元素评估指标和目标函数。尽管演示使用 Python,但这些概念应易于应用于其他语言绑定。

备注

  • 排名任务不支持自定义功能。

  • 在 XGBoost 1.6 中进行了重大更改。

在接下来的两个部分中,我们将逐步介绍如何实现 平方对数误差 (SLE) 目标函数:

\[\frac{1}{2}[\log(pred + 1) - \log(label + 1)]^2\]

及其默认指标 均方根对数误差(RMSLE)

\[$\sqrt{\frac{1}{N}[\log(pred + 1) - \log(label + 1)]^2}$\]

尽管XGBoost原生支持这些功能,但使用它进行演示为我们提供了比较我们自己实现的结果与XGBoost内部结果的机会,以达到学习目的。完成本教程后,我们应该能够提供自己的函数进行快速实验。最后,我们将提供一些关于非恒等链接函数的注释,以及使用`scikit-learn`接口的自定义度量和目标的示例。

如果我们计算上述目标函数的梯度:

\[g = \frac{\partial{objective}}{\partial{pred}} = \frac{\log(pred + 1) - \log(label + 1)}{pred + 1}\]

以及黑塞矩阵(目标函数的二阶导数):

\[h = \frac{\partial^2{objective}}{\partial{pred}} = \frac{ - \log(pred + 1) + \log(label + 1) + 1}{(pred + 1)^2}\]

自定义目标函数

在模型训练过程中,目标函数起着重要作用:基于模型预测和观察到的数据标签(或目标)提供梯度信息,包括一阶和二阶梯度。因此,一个有效的目标函数应接受两个输入,即预测和标签。对于实现 SLE,我们定义:

import numpy as np
import xgboost as xgb
from typing import Tuple

def gradient(predt: np.ndarray, dtrain: xgb.DMatrix) -> np.ndarray:
    '''Compute the gradient squared log error.'''
    y = dtrain.get_label()
    return (np.log1p(predt) - np.log1p(y)) / (predt + 1)

def hessian(predt: np.ndarray, dtrain: xgb.DMatrix) -> np.ndarray:
    '''Compute the hessian for squared log error.'''
    y = dtrain.get_label()
    return ((-np.log1p(predt) + np.log1p(y) + 1) /
            np.power(predt + 1, 2))

def squared_log(predt: np.ndarray,
                dtrain: xgb.DMatrix) -> Tuple[np.ndarray, np.ndarray]:
    '''Squared Log Error objective. A simplified version for RMSLE used as
    objective function.
    '''
    predt[predt < -1] = -1 + 1e-6
    grad = gradient(predt, dtrain)
    hess = hessian(predt, dtrain)
    return grad, hess

在上面的代码片段中,squared_log 是我们想要的损失函数。它接受一个 numpy 数组 predt 作为模型预测,以及用于获取所需信息的训练 DMatrix,包括标签和权重(此处未使用)。然后,这个损失函数在训练过程中作为回调函数用于 XGBoost,通过将其作为参数传递给 xgb.train 来实现:

xgb.train({'tree_method': 'hist', 'seed': 1994},  # any other tree method is fine.
           dtrain=dtrain,
           num_boost_round=10,
           obj=squared_log)

请注意,在我们对目标的定义中,无论是从预测中减去标签,还是反过来,这都是重要的。如果你发现训练误差上升而不是下降,这可能是原因。

自定义指标函数

因此,在设定了一个自定义目标之后,我们可能还需要一个相应的指标来监控我们模型的性能。如上所述,SLE 的默认指标是 RMSLE。同样地,我们定义另一个类似回调函数的新指标:

def rmsle(predt: np.ndarray, dtrain: xgb.DMatrix) -> Tuple[str, float]:
    ''' Root mean squared log error metric.'''
    y = dtrain.get_label()
    predt[predt < -1] = -1 + 1e-6
    elements = np.power(np.log1p(y) - np.log1p(predt), 2)
    return 'PyRMSLE', float(np.sqrt(np.sum(elements) / len(y)))

由于我们是在Python中进行演示,因此度量标准或目标不需要是一个函数,任何可调用对象都应该足够。类似于目标函数,我们的度量标准也接受 predtdtrain 作为输入,但返回度量标准本身的名称和一个浮点数值作为结果。将其传递给XGBoost作为 custom_metric 参数的参数后:

xgb.train({'tree_method': 'hist', 'seed': 1994,
           'disable_default_eval_metric': 1},
          dtrain=dtrain,
          num_boost_round=10,
          obj=squared_log,
          custom_metric=rmsle,
          evals=[(dtrain, 'dtrain'), (dtest, 'dtest')],
          evals_result=results)

我们将能够看到 XGBoost 打印出类似的内容:

[0] dtrain-PyRMSLE:1.37153  dtest-PyRMSLE:1.31487
[1] dtrain-PyRMSLE:1.26619  dtest-PyRMSLE:1.20899
[2] dtrain-PyRMSLE:1.17508  dtest-PyRMSLE:1.11629
[3] dtrain-PyRMSLE:1.09836  dtest-PyRMSLE:1.03871
[4] dtrain-PyRMSLE:1.03557  dtest-PyRMSLE:0.977186
[5] dtrain-PyRMSLE:0.985783 dtest-PyRMSLE:0.93057
...

注意,参数 disable_default_eval_metric 用于在 XGBoost 中抑制默认的评估指标。

对于完全可复现的源代码和比较图,请参见 定义自定义回归目标和指标的演示

Scikit-Learn 接口

XGBoost 的 scikit-learn 接口有一些工具可以改进与标准 scikit-learn 函数的集成。例如,在 XGBoost 1.6.0 之后,用户可以直接使用 scikit-learn 的成本函数(非评分函数):

from sklearn.datasets import load_diabetes
from sklearn.metrics import mean_absolute_error
X, y = load_diabetes(return_X_y=True)
reg = xgb.XGBRegressor(
    tree_method="hist",
    eval_metric=mean_absolute_error,
)
reg.fit(X, y, eval_set=[(X, y)])

此外,对于自定义目标函数,用户可以定义目标函数而无需访问 DMatrix

def softprob_obj(labels: np.ndarray, predt: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
    rows = labels.shape[0]
    classes = predt.shape[1]
    grad = np.zeros((rows, classes), dtype=float)
    hess = np.zeros((rows, classes), dtype=float)
    eps = 1e-6
    for r in range(predt.shape[0]):
        target = labels[r]
        p = softmax(predt[r, :])
        for c in range(predt.shape[1]):
            g = p[c] - 1.0 if c == target else p[c]
            h = max((2.0 * p[c] * (1.0 - p[c])).item(), eps)
            grad[r, c] = g
            hess[r, c] = h

    grad = grad.reshape((rows * classes, 1))
    hess = hess.reshape((rows * classes, 1))
    return grad, hess

clf = xgb.XGBClassifier(tree_method="hist", objective=softprob_obj)