AutoGluon 多模态 (AutoMM):利用基础模型增强多模态自动机器学习¶
基础模型已经改变了计算机视觉和自然语言处理等领域的格局。这些模型在广泛的通用领域数据上进行了预训练,成为各种应用的强大工具。然而,将基础模型无缝集成到实际应用场景中仍然面临挑战。数据模态的多样性、可用基础模型的数量以及模型规模的庞大使得这种集成成为一项不平凡的任务。
AutoMM致力于通过大幅减少数据预处理、模型选择和微调所需的工程工作和手动干预来打破这些障碍。使用AutoMM,用户只需三行代码即可轻松将基础模型(来自流行的模型库如HuggingFace、TIMM、MMDetection)适应到他们的特定领域数据。我们的工具包支持各种数据类型,包括图像、文本、表格和文档数据,可以单独或组合使用。它提供了对一系列任务的支持,包括分类、回归、目标检测、命名实体识别、语义匹配和图像分割。AutoMM代表了一种先进且用户友好的解决方案,为基础模型的多模态AutoML提供了支持。更多详情,请参阅以下论文:
Zhiqiang, Tang, Haoyang Fang, Su Zhou, Taojiannan Yang, Zihan Zhong, Tony Hu, Katrin Kirchhoff, George Karypis . “AutoGluon-Multimodal (AutoMM): 使用基础模型增强多模态自动机器学习”, 国际自动机器学习会议 (AutoML), 2024.

在下面,我们将分解AutoMM的功能,并为每个功能准备逐步指南。
文本数据 – 分类 / 回归 / 命名实体识别¶
如何使用AutoMM训练高质量的文本预测模型。
如何使用AutoMM在非英语语言的数据集上构建模型。
如何使用AutoMM进行实体提取。
图像数据 – 分类 / 回归¶
如何使用AutoMM训练图像分类模型。
如何通过预训练的CLIP模型在AutoMM中启用零样本图像分类。
图像数据 – 对象检测¶
如何在COCO格式数据集上使用AutoMM在5分钟内训练高质量的物体检测模型。
如何为对象检测准备COCO2017数据集。
如何为对象检测准备Pascal VOC数据集。
如何为物体检测准备水彩数据集。
如何将数据集从VOC格式转换为COCO格式以进行目标检测。
如何使用 pd.DataFrame 格式进行目标检测
图像数据 – 分割¶
如何使用AutoMM训练语义分割模型。
文档数据 – 分类 / 回归¶
如何使用AutoMM构建扫描文档分类器。
如何使用AutoMM构建PDF文档分类器。
图像/文本数据 – 语义匹配¶
如何使用AutoMM进行文本到文本的语义匹配。
如何使用AutoMM进行图像到图像的语义匹配。
如何使用AutoMM进行图文语义匹配。
如何使用AutoMM进行零样本图像-文本语义匹配。
如何使用语义嵌入来提高搜索排名性能。
多模态数据 – 分类 / 回归 / 命名实体识别¶
AutoMM 如何应用于包含文本、数值和分类列的混合多模态数据表。
如何使用AutoMM在图像、文本、数值和分类数据上训练模型。
如何使用AutoMM训练一个用于多模态命名实体识别的模型。
高级主题¶
如何借助参数高效微调来利用更大的基础模型。 在本教程中,我们将结合使用 IA^3、BitFit 和梯度检查点来微调 FLAN-T5-XL。
如何在AutoMM中进行超参数优化。
如何在AutoMM中进行知识蒸馏。
如何在AutoMM中继续训练。
如何自定义AutoMM配置。
如何使用AutoMM预设。
如何使用基础模型 + SVM 进行少样本学习。
如何使用AutoMM处理类别不平衡。
如何使用TensorRT加速AutoMM模型推理。
AutoGluon支持的问题类型及其评估指标的全面指南。