视频 MViT¶

模型构建器¶

以下模型构建器可用于实例化带有或不带有预训练权重的MViT v1或v2模型。所有模型构建器内部都依赖于torchvision.models.video.MViT基类。请参阅源代码以获取有关此类的更多详细信息。

`mvit_v1_b`(*[, 权重, 进度])	从多尺度视觉变换器构建基础MViTV1架构。
`mvit_v2_s`(*[, 权重, 进度])	从Multiscale Vision Transformers和MViTv2: Improved Multiscale Vision Transformers for Classification and Detection构建一个小型的MViTV2架构。