Shortcuts

torchtune.data

文本模板

用于指导提示和聊天提示的模板。包括针对不同数据集和模型的一些特定格式化。

GrammarErrorCorrectionTemplate

用于语法错误纠正任务的提示模板。

SummarizeTemplate

用于摘要任务的提示模板。

QuestionAnswerTemplate

用于问答任务的提示模板。

PromptTemplate

通过传入一个将角色映射到前置和后置标签的字典,快速定义一个自定义提示模板。例如,要实现以下提示模板::。

PromptTemplateInterface

提示模板的接口。

ChatMLTemplate

OpenAI的Chat Markup Language被他们的聊天模型使用。

类型

消息

此类表示微调数据集中的单个消息。

角色

Literal['system', 'user', 'assistant', 'ipython'] 的别名

消息转换

将数据从通用模式和对话JSON格式转换为torchtune 消息 的列表。

InputOutputToMessages

消息转换类,将具有“input”和“output”字段(或在column_map中指定的等效字段)的单个样本分别转换为用户和助手消息。这对于具有两列的数据集非常有用,一列包含用户提示字符串,另一列包含模型响应字符串::。

ShareGPTToMessages

将遵循ShareGPT JSON结构的单个聊天样本转换为torchtune的消息结构。

OpenAIToMessages

将遵循OpenAI聊天完成 JSON结构的单个聊天样本转换为torchtune的消息结构。

ChosenRejectedToMessages

转换函数,用于将包含“chosen”和“rejected”列的对话数据集中的单个样本转换为选定和拒绝消息的列表。例如:

AlpacaToMessages

用于具有“instruction”、“input”和“output”(或在column_map中指定的等效字段)列的Alpaca风格数据集的消息转换类。

抵押者

用于将样本收集成批次并处理任何填充的Collaters。

padded_collate

一个通用的填充整理函数,它将从给定的pad_direction方向填充一批序列中的keys_to_pad条目,直到达到批次中每个条目的最大序列长度。

padded_collate_tiled_images_and_mask

填充一批文本序列、平铺的图像张量、宽高比和交叉注意力掩码。

padded_collate_sft

将一批序列填充到批次中最长序列的长度,并将整数列表转换为张量。

padded_collate_dpo

为直接偏好优化(DPO)填充一批序列。

left_pad_sequence

此函数与torch.nn.utils.rnn.pad_sequence()相同,但它是从左侧填充可变长度张量的列表,使其长度与最长序列相同。

辅助函数

用于修改数据的各种辅助函数。

validate_messages

给定一个消息列表,确保消息形成一个有效的来回对话。

truncate

将令牌列表截断到最大长度。

load_image

从本地文件路径或远程源加载PIL格式图像的便捷方法。

format_content_with_images

给定一个原始文本字符串,按指定的image_tag进行分割,并形成字典列表,用于消息内容字段。