Shortcuts

视频 MViT

MViT模型基于 MViTv2: Improved Multiscale Vision Transformers for Classification and DetectionMultiscale Vision Transformers 论文。

模型构建器

以下模型构建器可用于实例化带有或不带有预训练权重的MViT v1或v2模型。所有模型构建器内部都依赖于torchvision.models.video.MViT基类。请参阅源代码以获取有关此类的更多详细信息。

mvit_v1_b(*[, 权重, 进度])

多尺度视觉变换器构建基础MViTV1架构。

mvit_v2_s(*[, 权重, 进度])

Multiscale Vision TransformersMViTv2: Improved Multiscale Vision Transformers for Classification and Detection构建一个小型的MViTV2架构。