Shortcuts

数据集概览

torchtune 允许您使用在 Hugging Face Hub 上找到的任何数据集、本地下载的数据集或远程 URL 上的数据集来微调 LLMs 和 VLMs。我们提供内置的数据集构建器,帮助您快速启动微调项目,适用于包括指令微调、偏好对齐、继续预训练等工作流程。除此之外,torchtune 还支持对数据集管道的完全自定义,让您可以在任何数据格式或模式上进行训练。

支持以下任务:

数据管道

../_images/torchtune_datasets.svg

从原始数据样本到训练配方中的模型输入,所有torchtune数据集都遵循相同的流程:

  1. 原始数据每次从一个Hugging Face数据集、本地文件或远程文件中查询一个样本

  2. 消息转换将可以采取任何格式的原始样本转换为torchtune的消息列表。图像包含在它们关联的消息对象中。

  3. 多模态变换 对消息应用特定模型的转换,包括分词(参见 分词器)、 提示模板(参见 提示模板)、图像转换以及该特定模型所需的任何其他内容。

  4. collater 将处理后的样本打包成一个批次,并在训练期间将该批次传递到模型中。