Shortcuts

torch.nn.functional.cross_entropy

torch.nn.functional.cross_entropy(input, target, weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean', label_smoothing=0.0)[源代码]

计算输入logits与目标之间的交叉熵损失。

详情请参见 CrossEntropyLoss

Parameters
  • 输入 (张量) – 预测的未归一化对数概率; 请参阅下面的形状部分以了解支持的形状。

  • 目标 (张量) – 真实类别索引或类别概率; 请参阅下面的形状部分以了解支持的形状。

  • 权重 (张量, 可选) – 手动调整每个类别的权重。如果提供,必须是一个大小为 C 的张量

  • size_average (布尔值, 可选) – 已弃用(参见 reduction)。默认情况下, 损失在批次中的每个损失元素上进行平均。请注意,对于某些损失,每个样本可能有多个元素。如果字段 size_average 设置为 False,则损失将改为对每个小批次进行求和。当 reduce 为 False 时忽略。默认值:True

  • ignore_index (int, 可选) – 指定一个目标值,该值将被忽略,并且不会对输入梯度产生贡献。当 size_averageTrue 时,损失将平均在非忽略的目标上。请注意, ignore_index 仅在目标包含类别索引时适用。 默认值:-100

  • reduce (bool, 可选) – 已弃用(参见 reduction)。默认情况下,损失会根据 size_average 的设置在每个小批次中对观测值进行平均或求和。当 reduceFalse 时,返回每个批次元素的损失,并忽略 size_average。默认值:True

  • reduction (str, 可选) – 指定应用于输出的reduction方式: 'none' | 'mean' | 'sum''none':不进行reduction, 'mean':输出的总和将除以输出中的元素数量,'sum':输出将被求和。注意:size_averagereduce 正在被弃用,在此期间, 指定这两个参数中的任何一个都将覆盖 reduction。默认值:'mean'

  • label_smoothing (float, 可选) – 一个在 [0.0, 1.0] 范围内的浮点数。指定计算损失时的平滑量,其中 0.0 表示没有平滑。目标变为原始真实标签和均匀分布的混合,如 《重新思考计算机视觉的初始架构》 中所述。默认值:0.00.0

Return type

张量

Shape:
  • 输入:形状 (C)(C)(N,C)(N, C)(N,C,d1,d2,...,dK)(N, C, d_1, d_2, ..., d_K),其中 K1K \geq 1K 维损失的情况下。

  • 目标:如果包含类别索引,形状 ()()(N)(N)(N,d1,d2,...,dK)(N, d_1, d_2, ..., d_K) 其中 K1K \geq 1 在 K 维损失的情况下,每个值应在 [0,C)[0, C) 之间。 如果包含类别概率,形状与输入相同,每个值应在 [0,1][0, 1] 之间。

其中:

C=number of classesN=batch size\begin{aligned} C ={} & \text{number of classes} \\ N ={} & \text{batch size} \\ \end{aligned}

示例:

>>> # 目标为类索引的示例
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randint(5, (3,), dtype=torch.int64)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()
>>>
>>> # 目标为类概率的示例
>>> input = torch.randn(3, 5, requires_grad=True)
>>> target = torch.randn(3, 5).softmax(dim=1)
>>> loss = F.cross_entropy(input, target)
>>> loss.backward()
优云智算