Skip to content

我应该使用哪个模型?

由于有很多基础模型可以用于图像标注,您可能会想“我应该使用哪个模型进行标注?”

检测与分割

我们建议使用 Grounding DINO 作为检测的起点,以及 Grounded SAM 进行分割。

Grounding DINO是一个有效的零-shot物体检测器,能够识别从汽车到黑胶唱片封面的各种物体。

Grounded SAM将SAM与Grounding DINO结合起来,以根据Grounding DINO的预测生成分割掩码。

如果 Grounding DINO 没有识别出您想要标记的对象,请考虑尝试 DETIC,它可以识别超过 20,000 类对象。 DETIC 支持开放词汇,因此您可以为对象提供任意文本标签。

分类

我们建议使用 CLIP 作为分类的起点,它在分类各种物体方面效果显著。阅读来自 OpenAI 的 CLIP 摘要 以了解更多信息。

Roboflow 宇宙模型

您可以使用50,000+个在Roboflow Universe上预训练的模型来自动标记数据。Universe涵盖了广泛的模型,涵盖从物流到农业的各个领域。

有关更多信息,请参见autodistill-roboflow-universe基础模型。

理解其他模型

以上指导是一个起点,但还有许多其他模型可供选择。

以下是所有未在上面涵盖的支持模型的列表,以及有关它们使用的说明。

由于新的模型超越了它的性能,一些模型可能不再被推荐。

检测

  • LLaVA-1.5: LLaVA 1.5 与其他模型相比有显著的内存需求。由于其语言基础,它可能对各种物体具有良好的泛化能力,但需要更多的实验。
  • Kosmos-2: Kosmos-2,与LLaVA-1.5类似,相较于其他模型,具有较高的内存需求。
  • OWL-ViT:我们推荐使用 OWLv2 而不是 OWL-ViT。
  • CoDet: CoDet是一个有前景的零-shot检测模型,我们鼓励您试用,如果Grounding DINO没有识别出您想要标注的对象。
  • VLPart:VLPart是一种有前途的零样本检测模型,如果Grounding DINO无法识别您想要标记的对象,我们鼓励您尝试。

分类

  • FastViT:FastViT可以识别ImageNet 1k数据集中的类别。FastViT具有快速的推理时间,这使得在推理速度至关重要的应用中理想使用。
  • AltCLIP: AltCLIP在对ImageNet数据集进行评估时,显示出在英语和中文上的强大零-shot分类性能。该模型可能在您想要提供中文提示以自动标注图像时非常有用。
  • DINOv2:一种可能对零样本分类有用的嵌入模型。
  • MetaCLIP:MetaCLIP 是一个开源的 CLIP 模型。如果 OpenAI 的 CLIP 模型在您的数据集中表现不佳,值得进行尝试。
  • BLIP:BLIP是一种零样本分类器。它的内存需求比CLIP高,但在某些数据集上可能表现更好。
  • ALBEF: ALBEF 是一个零-shot 分类器。它的内存需求比 CLIP 更高,但在某些数据集上可能表现更好。