Table of Contents

Shortcuts

TilePositionalEmbedding¶

class torchtune.models.clip.TilePositionalEmbedding(max_num_tiles: int, embed_dim: int)[source]¶

用于图块的位置嵌入，每个图块不同，图块内的每个标记相同。

请注意，tile 与 patch（token）不同。详情请查看 torchtune.modules.vision_transformer.VisionTransformer 的文档。

Parameters:

max_num_tiles (int) – 图像可以被分割成的最大瓦片数。
embed_dim (int) – 每个瓦片嵌入的维度。

forward(x: Tensor, aspect_ratio: Tensor) → Tensor[source]¶

Parameters:

x (torch.Tensor) – 形状为 (bsz * n_imgs, n_tiles, n_tokens_per_tile, embed_dim) 的 torch.Tensor。
aspect_ratio (torch.Tensor) – 形状为 (bsz * n_imgs, 2) 的 torch.Tensor，表示在瓦片裁剪之前的图像的宽高比，例如 (2,1)。

Returns:

添加了位置嵌入的输入张量。

Return type: