可解释的多头注意力机制#

class pytorch_forecasting.models.temporal_fusion_transformer.sub_modules.InterpretableMultiHeadAttention(n_head: int, d_model: int, dropout: float = 0.0)[来源]#

基础： Module

初始化内部模块状态，由 nn.Module 和 ScriptModule 共享。

方法

`forward`(q, k, v[, mask])	定义每次调用时执行的计算。
`init_weights`()

forward(q, k, v, mask=None) → Tuple[Tensor, Tensor][来源]#

定义每次调用时执行的计算。

应该被所有子类重写。

注意

尽管前向传播的配方需要在此函数中定义，但之后应该调用 Module 实例而不是这个，因为前者负责运行注册的钩子，而后者则默默忽略它们。

可解释的多头注意力机制#

此页面