torchtune.datasets¶
有关详细的一般使用指南,请参阅数据集概览。
文本数据集¶
torchtune 支持几种广泛使用的纯文本数据集,以帮助快速启动您的微调。
支持使用来自Hugging Face数据集的Alpaca风格数据集系列,使用原始alpaca代码库中的数据输入格式和提示模板,其中 |
|
用于构建Alpaca风格数据集变体的构建器,包含原始Alpaca数据集的清理版本,yahma/alpaca-cleaned。 |
|
支持来自Hugging Face数据集的语法校正数据集及其变体。 |
|
构建类似于Anthropic的有益/无害RLHF数据的偏好数据集。 |
|
支持来自Hugging Face Datasets的摘要数据集及其变体。 |
|
支持SlimOrca风格的对话数据集系列。 |
|
类似于Stack Exchange Paired dataset的偏好数据集家族。 |
|
支持类似于CNN / DailyMail的数据集家族,这是一个新闻文章语料库。 |
|
支持类似于wikitext的数据集家族,这是一个由维基百科全文组成的非结构化文本语料库。 |
图像 + 文本数据集¶
支持类似于来自Hugging Face数据集的LLaVA-Instruct-150K的图像+文本数据集系列。 |
|
支持类似于Hugging Face Datasets中的The Cauldron的图像+文本数据集系列。 |
|
配置一个自定义的视觉问答数据集,其中包含用户问题、图像和模型响应的单独列。 |
通用数据集构建器¶
torchtune 还支持通用数据集构建器,适用于常见格式,如聊天模型和指令模型。 这些特别适用于从 YAML 配置中指定。
配置一个包含用户指令提示和模型响应的自定义数据集。 |
|
配置一个自定义数据集,包含用户和模型助手之间的对话。 |
|
配置一个包含用户和模型助手之间交互的自定义偏好数据集。 |
|
从类似于预训练中使用的数据集的自由形式、非结构化文本语料库中构建一个可配置的数据集。 |
通用数据集类¶
上述数据集构建器的类表示。
适用于任何非结构化文本语料库的自由形式数据集。 |
|
一个用于将多个子数据集连接成单个数据集的数据集类。 |
|
对提供的数据集执行贪婪样本打包。 |
|
用于通过偏好建模技术(例如,为RLHF训练偏好模型,或通过DPO直接优化模型)在来自Hugging Face Hub、本地文件或远程文件的偏好数据集上进行微调的主要类。此类要求数据集具有“选定”和“拒绝”的模型响应。这些通常是用户和助手之间的完整对话,分别位于不同的列中:。 |
|
用于从Hugging Face Hub、本地文件或远程文件创建任何监督微调数据集的主要类。 |