Shortcuts

TokenPositionalEmbedding

class torchtune.models.clip.TokenPositionalEmbedding(embed_dim: int, tile_size: int, patch_size: int)[source]

图像的令牌位置嵌入,对于图像中的每个令牌都是不同的。

请注意,tile 与 patch(token)不同。详情请查看 torchtune.modules.vision_transformer.VisionTransformer 的文档。

Parameters:
  • embed_dim (int) – 每个标记嵌入的维度。

  • tile_size (int) – 如果图像已经预先进行了瓦片裁剪,则为图像瓦片的大小。否则,为输入图像的大小。在这种情况下,函数会将您的图像视为单个瓦片。

  • patch_size (int) – 每个补丁的大小。用于将瓦片分割成补丁。 例如,对于patch_size=40,形状为(400, 400)的瓦片将有一个10x10的补丁网格, 每个补丁的形状为(40, 40)。

forward(x: Tensor, *args: Tuple[Any]) Tensor[source]
Parameters:
  • x (torch.Tensor) – 形状为 (…, n_tokens_per_tile, embed_dim) 的 torch.Tensor

  • *args (Tuple[Any]) – 可选的参数。

Returns:

添加了位置嵌入的输入张量。

Return type:

torch.Tensor