可解释的多头注意力机制#

class pytorch_forecasting.models.temporal_fusion_transformer.sub_modules.InterpretableMultiHeadAttention(n_head: int, d_model: int, dropout: float = 0.0)[来源]#

基础: Module

初始化内部模块状态,由 nn.Module 和 ScriptModule 共享。

方法

forward(q, k, v[, mask])

定义每次调用时执行的计算。

init_weights()

forward(q, k, v, mask=None) Tuple[Tensor, Tensor][来源]#

定义每次调用时执行的计算。

应该被所有子类重写。

注意

尽管前向传播的配方需要在此函数中定义,但之后应该调用 Module 实例而不是这个,因为前者负责运行注册的钩子,而后者则默默忽略它们。