torchtune.data¶

文本模板¶

用于指导提示和聊天提示的模板。包括针对不同数据集和模型的一些特定格式化。

`GrammarErrorCorrectionTemplate`	用于语法错误纠正任务的提示模板。
`SummarizeTemplate`	用于摘要任务的提示模板。
`QuestionAnswerTemplate`	用于问答任务的提示模板。
`PromptTemplate`	通过传入一个将角色映射到前置和后置标签的字典，快速定义一个自定义提示模板。例如，要实现以下提示模板::。
`PromptTemplateInterface`	提示模板的接口。
`ChatMLTemplate`	OpenAI的Chat Markup Language被他们的聊天模型使用。

`消息`	此类表示微调数据集中的单个消息。
`角色`	`Literal`['system', 'user', 'assistant', 'ipython'] 的别名

将数据从通用模式和对话JSON格式转换为torchtune 消息 的列表。

`InputOutputToMessages`	消息转换类，将具有“input”和“output”字段（或在column_map中指定的等效字段）的单个样本分别转换为用户和助手消息。这对于具有两列的数据集非常有用，一列包含用户提示字符串，另一列包含模型响应字符串::。
`ShareGPTToMessages`	将遵循ShareGPT JSON结构的单个聊天样本转换为torchtune的`消息`结构。
`OpenAIToMessages`	将遵循OpenAI聊天完成 JSON结构的单个聊天样本转换为torchtune的`消息`结构。
`ChosenRejectedToMessages`	转换函数，用于将包含“chosen”和“rejected”列的对话数据集中的单个样本转换为选定和拒绝消息的列表。例如：
`AlpacaToMessages`	用于具有“instruction”、“input”和“output”（或在column_map中指定的等效字段）列的Alpaca风格数据集的消息转换类。

用于将样本收集成批次并处理任何填充的Collaters。

`padded_collate`	一个通用的填充整理函数，它将从给定的`pad_direction`方向填充一批序列中的`keys_to_pad`条目，直到达到批次中每个条目的最大序列长度。
`padded_collate_tiled_images_and_mask`	填充一批文本序列、平铺的图像张量、宽高比和交叉注意力掩码。
`padded_collate_sft`	将一批序列填充到批次中最长序列的长度，并将整数列表转换为张量。
`padded_collate_dpo`	为直接偏好优化（DPO）填充一批序列。
`left_pad_sequence`	此函数与`torch.nn.utils.rnn.pad_sequence()`相同，但它是从左侧填充可变长度张量的列表，使其长度与最长序列相同。

用于修改数据的各种辅助函数。

`validate_messages`	给定一个消息列表，确保消息形成一个有效的来回对话。
`truncate`	将令牌列表截断到最大长度。
`load_image`	从本地文件路径或远程源加载PIL格式图像的便捷方法。
`format_content_with_images`	给定一个原始文本字符串，按指定的`image_tag`进行分割，并形成字典列表，用于`消息`内容字段。