BCEWithLogitsLoss¶

class torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='mean', pos_weight=None)[源代码]¶

此损失函数将一个Sigmoid层和BCELoss结合在一个单独的类中。与使用普通的Sigmoid层后再接一个BCELoss相比，此版本在数值上更为稳定，因为通过将操作结合到一个层中，我们利用了log-sum-exp技巧来提高数值稳定性。

未减少的（即 reduction 设置为 'none'）损失可以描述为：

\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - w_n \left[ y_n \cdot \log \sigma(x_n) + (1 - y_n) \cdot \log (1 - \sigma(x_n)) \right],

其中 $N$ 是批次大小。如果 reduction 不是 'none' （默认 'mean'），则

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

这用于测量例如在自动编码器中的重建误差。请注意，目标值 t[i] 应在0到1之间。

可以通过为正例添加权重来权衡召回率和精确度。在多标签分类的情况下，损失可以描述为：

\ell_c(x, y) = L_c = \{l_{1,c},\dots,l_{N,c}\}^\top, \quad l_{n,c} = - w_{n,c} \left[ p_c y_{n,c} \cdot \log \sigma(x_{n,c}) + (1 - y_{n,c}) \cdot \log (1 - \sigma(x_{n,c})) \right],

其中 $c$ 是类别数量（对于多标签二分类， $c > 1$ ，对于单标签二分类， $c = 1$ ）， $n$ 是批次中的样本数量， $p_c$ 是类别 $c$ 的正答案权重。

$p_c > 1$ 增加召回率， $p_c < 1$ 增加精确度。

例如，如果一个数据集包含100个正例和300个负例的单一类别，那么该类别的pos_weight应该等于 $\frac{300}{100}=3$ 。损失将表现得好像数据集包含 $3\times 100=300$ 个正例。

示例：

>>> target = torch.ones([10, 64], dtype=torch.float32)  # 64个类别，批次大小 = 10
>>> output = torch.full([10, 64], 1.5)  # 一个预测（对数）
>>> pos_weight = torch.ones([64])  # 所有权重都等于1
>>> criterion = torch.nn.BCEWithLogitsLoss(pos_weight=pos_weight)
>>> criterion(output, target)  # -log(sigmoid(1.5))
tensor(0.20...)

在上面的示例中，pos_weight 张量的元素对应于多标签二分类场景中的64个不同类别。pos_weight 中的每个元素旨在根据各自类别的负样本和正样本之间的不平衡来调整损失函数。这种方法在具有不同类别不平衡程度的数据集中非常有用，确保损失计算能够准确地考虑每个类别的分布。

Parameters

权重 (张量, 可选) – 手动调整每个批次元素损失的权重。如果提供，必须是一个大小为 nbatch 的张量。
size_average (布尔值, 可选) – 已弃用（参见 reduction）。默认情况下，损失在批次中的每个损失元素上进行平均。请注意，对于某些损失，每个样本有多个元素。如果字段 size_average 设置为 False，则损失改为对每个小批次进行求和。当 reduce 为 False 时忽略。默认值：True
reduce (bool, 可选) – 已弃用（参见 reduction）。默认情况下，损失会根据 size_average 的设置在每个小批次中对观测值进行平均或求和。当 reduce 为 False 时，返回每个批次元素的损失，并忽略 size_average。默认值：True
reduction (str, 可选) – 指定应用于输出的reduction方式： 'none' | 'mean' | 'sum'。'none'：不进行reduction， 'mean'：输出的总和将除以输出中的元素数量，'sum'：输出将被求和。注意：size_average 和 reduce 正在被弃用，在此期间，指定这两个参数中的任何一个都将覆盖 reduction。默认值：'mean'
pos_weight (Tensor, 可选) – 正样本的权重，将与目标一起广播。必须是与类别数量沿类别维度相等大小的张量。请密切注意 PyTorch 的广播语义，以实现所需的操作。对于大小为 [B, C, H, W] 的目标（其中 B 是批次大小），大小为 [B, C, H, W] 的 pos_weight 将对批次中的每个元素应用不同的 pos_weights，或者对于大小为 [C, H, W] 的 pos_weight，将在整个批次中应用相同的 pos_weights。要在 2D 多类目标的所有空间维度上应用相同的正权重 [C, H, W]，请使用：[C, 1, 1]。默认值：None

Shape:

输入： $(*)$ ，其中 $*$ 表示任意数量的维度。

目标: $(*)$ , 与输入形状相同。

输出：标量。如果 reduction 是 'none'，则 $(*)$ ，与输入形状相同。

示例：

>>> loss = nn.BCEWithLogitsLoss()
>>> input = torch.randn(3, requires_grad=True)
>>> target = torch.empty(3).random_(2)
>>> output = loss(input, target)
>>> output.backward()