自适应对数Softmax与损失¶

class torch.nn.AdaptiveLogSoftmaxWithLoss(in_features, n_classes, cutoffs, div_value=4.0, head_bias=False, device=None, dtype=None)[源代码]¶

高效的softmax近似。

如在由Edouard Grave、Armand Joulin、Moustapha Cissé、David Grangier和Hervé Jégou撰写的关于GPU高效softmax近似的论文中所述。

自适应softmax是一种用于训练具有大输出空间的模型的近似策略。当标签分布高度不平衡时，它最为有效，例如在自然语言建模中，单词频率分布大致遵循齐夫定律。

自适应softmax根据标签的频率将它们分成几个簇。每个簇可能包含不同数量的目标。此外，包含较少频率标签的簇为这些标签分配较低维度的嵌入，从而加快了计算速度。对于每个小批次，仅评估至少存在一个目标的簇。

这个想法是，那些经常被访问的集群（比如第一个，包含最频繁标签的集群），也应该计算成本低廉——也就是说，包含少量分配的标签。

我们强烈建议查看原始论文以获取更多详细信息。

cutoffs 应该是一个按递增顺序排序的有序整数序列。它控制聚类的数量以及目标的分区到聚类中。例如，设置 cutoffs = [10, 100, 1000] 意味着前 10 个目标将被分配到自适应 softmax 的“头部”，目标 11, 12, …, 100 将被分配到第一个聚类，目标 101, 102, …, 1000 将被分配到第二个聚类，而目标 1001, 1002, …, n_classes - 1 将被分配到最后的第三个聚类。
div_value 用于计算每个额外簇的大小，其计算公式为 $\left\lfloor\frac{\texttt{in\_features}}{\texttt{div\_value}^{idx}}\right\rfloor$ , 其中 $idx$ 是簇的索引（对于不常见的词，簇的索引较大，索引从 $1$ 开始）。
head_bias 如果设置为 True，则在自适应 softmax 的“头部”添加一个偏置项。详情请参见论文。在官方实现中设置为 False。

警告

传递给此模块的标签应根据其频率进行排序。这意味着最频繁的标签应由索引 0 表示，而最不频繁的标签应由索引 n_classes - 1 表示。

注意

此模块返回一个包含output和loss字段的NamedTuple。详情请参阅进一步的文档。

注意

要计算所有类别的对数概率，可以使用 log_prob 方法。

Parameters

in_features (int) – 输入张量中的特征数量
n_classes (int) – 数据集中的类别数量
cutoffs (序列) – 用于将目标分配到其桶的截止值
div_value (float, 可选) – 用于计算集群大小的指数值。默认值：4.0
head_bias (bool, 可选) – 如果 True，则在自适应softmax的“head”部分添加一个偏置项。默认值：False

Returns

output 是一个大小为 N 的张量，包含每个样本计算的目标对数概率
loss 是一个标量，表示计算的负对数似然损失

Return type

NamedTuple 包含 output 和 loss 字段

Shape:

输入: $(N, \texttt{in\_features})$ 或 $(\texttt{in\_features})$
目标: $(N)$ 或 $()$ 其中每个值满足 $0 <= \texttt{target[i]} <= \texttt{n\_classes}$
输出1: $(N)$ 或 $()$
output2: 标量

log_prob(input)[源代码]¶

计算所有 $\texttt{n\_classes}$ 的对数概率。

Parameters: 输入 (张量) – 一个包含样本的小批次
Returns: 每个类别的对数概率 $c$ 在范围 $0 <= c <= \texttt{n\_classes}$ , 其中 $\texttt{n\_classes}$ 是传递给 AdaptiveLogSoftmaxWithLoss 构造函数的参数。
Return type: 张量

Shape:

输入: $(N, \texttt{in\_features})$
输出: $(N, \texttt{n\_classes})$

predict(input)[源代码]¶

返回输入小批次中每个样本的最高概率类别。

这等同于 self.log_prob(input).argmax(dim=1)，但在某些情况下效率更高。

Parameters: 输入 (张量) – 一个迷你批次样本
Returns: 每个样本中概率最高的类别
Return type: 输出 (Tensor)

Shape:

输入: $(N, \texttt{in\_features})$
输出: $(N)$