视频 MViT¶
MViT模型基于 MViTv2: Improved Multiscale Vision Transformers for Classification and Detection 和 Multiscale Vision Transformers 论文。
模型构建器¶
以下模型构建器可用于实例化带有或不带有预训练权重的MViT v1或v2模型。所有模型构建器内部都依赖于torchvision.models.video.MViT基类。请参阅源代码以获取有关此类的更多详细信息。
|
从多尺度视觉变换器构建基础MViTV1架构。 |
|
从Multiscale Vision Transformers和MViTv2: Improved Multiscale Vision Transformers for Classification and Detection构建一个小型的MViTV2架构。 |