数据集概览¶
torchtune 允许您使用在 Hugging Face Hub 上找到的任何数据集、本地下载的数据集或远程 URL 上的数据集来微调 LLMs 和 VLMs。我们提供内置的数据集构建器,帮助您快速启动微调项目,适用于包括指令微调、偏好对齐、继续预训练等工作流程。除此之外,torchtune 还支持对数据集管道的完全自定义,让您可以在任何数据格式或模式上进行训练。
支持以下任务:
- Multimodal supervised fine-tuning
- RLHF
- Continued pre-training
数据管道¶
从原始数据样本到训练配方中的模型输入,所有torchtune数据集都遵循相同的流程: