torchtune.models¶

llama3.3¶

来自Llama3家族3.3版本的纯文本模型。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载 Llama-3.3-70B-Instruct 模型：

tune download meta-llama/Llama-3.3-70B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

`llama3_3.llama3_3_70b`	用于创建使用默认70B参数值初始化的Llama3.3模型的构建器。
`llama3_3.lora_llama3_3_70b`	用于创建启用LoRA的Llama3.3 70B模型的构建器。
`llama3_3.qlora_llama3_3_70b`	用于创建启用了QLoRA的Llama3.3 70B模型的构建器。

注意

Llama3.3 分词器重用了 llama3_tokenizer 类。

llama3.2¶

来自Llama3家族3.2版本的纯文本模型。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载 Llama-3.2-1B-Instruct 模型：

tune download meta-llama/Llama-3.2-1B-Instruct --output-dir /tmp/Llama-3.2-1B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

下载 Llama-3.2-3B-Instruct 模型：

tune download meta-llama/Llama-3.2-3B-Instruct --output-dir /tmp/Llama-3.2-3B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

`llama3_2.llama3_2_1b`	用于创建使用默认1b参数值初始化的Llama3.2模型的构建器。
`llama3_2.llama3_2_3b`	用于创建使用默认3b参数值初始化的Llama3.2模型的构建器。
`llama3_2.lora_llama3_2_1b`	用于创建启用LoRA的Llama3.2 1B模型的构建器。
`llama3_2.lora_llama3_2_3b`	用于创建启用LoRA的Llama3.2 3B模型的构建器。
`llama3_2.qlora_llama3_2_1b`	用于创建启用QLoRA的Llama3.2 1B模型的构建器。
`llama3_2.qlora_llama3_2_3b`	用于创建启用了QLoRA的Llama3.2 3B模型的构建器。

注意

Llama3.2 分词器重用了 llama3_tokenizer 类。

llama3.2 视觉¶

来自Llama3家族3.2版本的视觉-语言模型。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载 Llama-3.2-11B-Instruct 模型：

tune download meta-llama/Llama-3.2-11B-Vision-Instruct --output-dir /tmp/Llama-3.2-11B-Vision-Instruct --hf-token <HF_TOKEN>

`llama3_2_vision.llama3_2_vision_11b`	Llama 3.2 Vision 11B 模型
`llama3_2_vision.llama3_2_vision_transform`	Llama3 Vision 的数据转换（包括分词器）。
`llama3_2_vision.lora_llama3_2_vision_11b`	返回一个基于传入配置应用了LoRA的Llama3.2视觉版本（`DeepFusionModel()`的实例）。
`llama3_2_vision.qlora_llama3_2_vision_11b`	用于创建启用了QLoRA的Llama3.2 vision 11B模型的构建器。
`llama3_2_vision.llama3_2_vision_decoder`	构建与Llama3模型相关的解码器，并添加额外的融合交叉注意力层。
`llama3_2_vision.llama3_2_vision_encoder`	通过将CLIP图像模型与额外的投影头融合模块结合，构建Llama 3.2视觉编码器。
`llama3_2_vision.lora_llama3_2_vision_decoder`	构建与Llama3模型相关的解码器，并添加额外的融合交叉注意力层。
`llama3_2_vision.lora_llama3_2_vision_encoder`	通过将CLIP图像模型与额外的投影头融合模块结合，构建Llama 3.2视觉编码器。
`llama3_2_vision.Llama3VisionEncoder`	Llama 3.2 Vision 的视觉编码器模型。
`llama3_2_vision.Llama3VisionProjectionHead`	投影变换器用于将预训练冻结编码器（CLIP）的输出适配到预训练的解码器模型。
`llama3_2_vision.Llama3VisionTransform`	此转换结合了Llama 3.2 Vision不同模态的转换。

注意

Llama3.2 分词器重用了 llama3_tokenizer 类。

llama3 & llama3.1¶

来自Llama3家族的模型3和3.1。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载Llama3.1-8B-Instruct模型：

tune download meta-llama/Meta-Llama-3.1-8B-Instruct --output-dir /tmp/Meta-Llama-3.1-8B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

下载Llama3.1-70B-Instruct模型：

tune download meta-llama/Meta-Llama-3.1-70B-Instruct --output-dir /tmp/Meta-Llama-3.1-70B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

下载Llama3.1-405B-Instruct模型：

tune download meta-llama/Meta-Llama-3.1-405B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

要下载上述模型的Llama3权重，你可以从Meta-Llama-3-8B-Instruct和Meta-Llama-3-70B-Instruct下载，并移除忽略模式标志。

`llama3.llama3`	构建与Llama3模型相关的解码器。
`llama3.lora_llama3`	返回一个基于传入配置应用了LoRA的Llama3版本（`TransformerDecoder()`的实例）。
`llama3.llama3_8b`	用于创建使用默认8b参数值初始化的Llama3模型的构建器。
`llama3.lora_llama3_8b`	用于创建启用LoRA的Llama3 8B模型的构建器。
`llama3.qlora_llama3_8b`	用于创建启用QLoRA的Llama3 8B模型的构建器。
`llama3.llama3_70b`	用于创建使用默认70B参数值初始化的Llama3模型的构建器。
`llama3.lora_llama3_70b`	用于创建启用LoRA的Llama3 70B模型的构建器。
`llama3.qlora_llama3_70b`	用于创建启用了QLoRA的Llama3 70B模型的构建器。
`llama3.llama3_tokenizer`	Llama3的分词器。
`llama3_1.llama3_1`	构建与Llama3.1模型相关的解码器。
`llama3_1.lora_llama3_1`	返回一个基于传入配置应用了LoRA的Llama3.1版本（`TransformerDecoder()`的实例）。
`llama3_1.llama3_1_8b`	用于创建使用默认8b参数值初始化的Llama3.1模型的构建器。
`llama3_1.lora_llama3_1_8b`	用于创建启用LoRA的Llama3.1 8B模型的构建器。
`llama3_1.qlora_llama3_1_8b`	用于创建启用QLoRA的Llama3.1 8B模型的构建器。
`llama3_1.llama3_1_70b`	用于创建使用默认70B参数值初始化的Llama3.3模型的构建器。
`llama3_1.lora_llama3_1_70b`	用于创建启用LoRA的Llama3.3 70B模型的构建器。
`llama3_1.qlora_llama3_1_70b`	用于创建启用了QLoRA的Llama3.3 70B模型的构建器。
`llama3_1.llama3_1_405b`	用于创建使用默认405B参数值初始化的Llama3.1模型的构建器。
`llama3_1.lora_llama3_1_405b`	用于创建启用LoRA的Llama3.1 405B模型的构建器。
`llama3_1.qlora_llama3_1_405b`	用于创建启用了QLoRA的Llama3.1 405B模型的构建器。

注意

Llama3.1 分词器重用了 llama3.llama3_tokenizer 构建器类。

llama2¶

所有来自Llama2系列的模型。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载Llama2-7B模型：

tune download meta-llama/Llama-2-7b-hf --output-dir /tmp/Llama-2-7b-hf --hf-token <HF_TOKEN>

下载Llama2-13B模型：

tune download meta-llama/Llama-2-13b-hf --output-dir /tmp/Llama-2-13b-hf --hf-token <HF_TOKEN>

下载Llama2-70B模型：

tune download meta-llama/Llama-2-70b-hf --output-dir /tmp/Llama-2-70b-hf --hf-token <HF_TOKEN>

`llama2.llama2`	构建与Llama2模型相关的解码器。
`llama2.lora_llama2`	返回一个基于传入配置应用了LoRA的Llama2版本（`TransformerDecoder()`的实例）。
`llama2.llama2_7b`	用于创建Llama2模型的构建器，使用默认的7B参数值进行初始化，参数值来自https://arxiv.org/abs/2307.09288
`llama2.lora_llama2_7b`	用于创建启用LoRA的Llama2 7B模型的构建器。
`llama2.qlora_llama2_7b`	用于创建启用了QLoRA的Llama2 7B模型的构建器。
`llama2.llama2_13b`	用于创建Llama2模型的构建器，使用来自https://arxiv.org/abs/2307.09288的默认13B参数值进行初始化。
`llama2.lora_llama2_13b`	用于创建启用LoRA的Llama2 13B模型的构建器。
`llama2.qlora_llama2_13b`	用于创建启用了QLoRA的Llama2 13B模型的构建器。
`llama2.llama2_70b`	用于创建Llama2模型的构建器，使用来自https://arxiv.org/abs/2307.09288的默认70B参数值进行初始化
`llama2.lora_llama2_70b`	用于创建启用LoRA的Llama2 70B模型的构建器。
`llama2.qlora_llama2_70b`	用于创建启用QLoRA的Llama2 70B模型的构建器。
`llama2.llama2_tokenizer`	Llama2的分词器。
`llama2.llama2_reward_7b`	用于创建Llama2模型的构建器，该模型使用默认的7B参数值进行初始化，参数值来自https://arxiv.org/abs/2307.09288，其中输出层是一个分类层，用于奖励建模，投影到单个类别。
`llama2.lora_llama2_reward_7b`	用于创建启用LoRA的Llama2 7B奖励模型的构建器。
`llama2.qlora_llama2_reward_7b`	用于创建启用了QLoRA的Llama2奖励7b模型的构建器。
`llama2.Llama2ChatTemplate`	提示模板，用于格式化人类和系统提示的聊天数据，并使用在Llama2预训练中使用的适当标签。

代码骆驼¶

来自Code Llama家族的模型。

重要提示：在下载之前，您需要在Hugging Face上请求访问权限。

下载CodeLlama-7B模型：

tune download meta-llama/CodeLlama-7b-hf --output-dir /tmp/CodeLlama-7b-hf --hf-token <HF_TOKEN>

`code_llama2.code_llama2_7b`	用于创建Code-Llama2模型的构建器，使用默认的7B参数值进行初始化，参数值来自https://arxiv.org/pdf/2308.12950.pdf
`code_llama2.lora_code_llama2_7b`	用于创建启用LoRA的Code-Llama2 7B模型的构建器。
`code_llama2.qlora_code_llama2_7b`	用于创建启用了QLoRA的Code-Llama2 7B模型的构建器。
`code_llama2.code_llama2_13b`	用于创建Code-Llama2模型的构建器，使用默认的13B参数值初始化，参数值来自https://arxiv.org/pdf/2308.12950.pdf
`code_llama2.lora_code_llama2_13b`	用于创建启用LoRA的Code-Llama2 13B模型的构建器。
`code_llama2.qlora_code_llama2_13b`	用于创建启用了QLoRA的Code-Llama2 13B模型的构建器。
`code_llama2.code_llama2_70b`	用于创建Code-Llama2模型的构建器，使用默认的70B参数值进行初始化，参数值来自https://arxiv.org/pdf/2308.12950.pdf
`code_llama2.lora_code_llama2_70b`	用于创建启用LoRA的Code-Llama2 70B模型的构建器。
`code_llama2.qlora_code_llama2_70b`	用于创建启用了QLoRA的Code-Llama2 70B模型的构建器。

qwen-2.5¶

来自Qwen2.5家族的0.5B、1.5B、3B、7B、14B、32B、72B大小的模型。

要下载Qwen2.5 1.5B模型，例如：

tune download Qwen/Qwen2.5-1.5B-Instruct --output-dir /tmp/Qwen2_5-1_5B-Instruct

`qwen2_5.qwen2_5_0_5b`	用于创建Qwen2.5模型（基础版或指导版）的构建器，使用默认的0.5B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct
`qwen2_5.lora_qwen2_5_0_5b`	用于创建启用了LoRA的Qwen2.5 0.5B模型（基础版或指导版）的构建器。
`qwen2_5.qwen2_5_1_5b_base`	用于创建Qwen2.5基础模型的构建器，使用默认的1.5B参数值进行初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-1.5B
`qwen2_5.qwen2_5_1_5b_instruct`	用于创建Qwen2.5指令模型的构建器，使用默认的1.5B参数值初始化，来自https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct
`qwen2_5.lora_qwen2_5_1_5b_base`	用于创建启用了LoRA的Qwen2.5 1.5B基础模型的构建器。
`qwen2_5.lora_qwen2_5_1_5b_instruct`	用于创建启用了LoRA的Qwen2.5 1.5B指令模型的构建器。
`qwen2_5.qwen2_5_3b`	用于创建Qwen2.5模型（基础版或指导版）的构建器，使用默认的3B参数值进行初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-3B-Instruct
`qwen2_5.lora_qwen2_5_3b`	用于创建启用LoRA的Qwen2.5 3B模型（基础版或指导版）的构建器。
`qwen2_5.qwen2_5_7b_base`	用于创建Qwen2.5基础模型的构建器，使用默认的7B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-7B
`qwen2_5.qwen2_5_7b_instruct`	用于创建Qwen2.5指令模型的构建器，使用默认的7B参数值初始化，来自https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
`qwen2_5.lora_qwen2_5_7b_base`	用于创建启用了LoRA的Qwen2.5 7B基础模型的构建器。
`qwen2_5.lora_qwen2_5_7b_instruct`	用于创建启用LoRA的Qwen2.5 7B指令模型的构建器。
`qwen2_5.qwen2_5_14b_base`	用于创建Qwen2.5基础模型的构建器，使用默认的14B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-14B
`qwen2_5.qwen2_5_14b_instruct`	用于创建Qwen2.5指令模型的构建器，使用来自https://huggingface.co/Qwen/Qwen2.5-14B-Instruct的默认14B参数值进行初始化
`qwen2_5.lora_qwen2_5_14b_base`	用于创建启用了LoRA的Qwen2.5 14B基础模型的构建器。
`qwen2_5.lora_qwen2_5_14b_instruct`	用于创建启用LoRA的Qwen2.5 14B指令模型的构建器。
`qwen2_5.qwen2_5_32b_base`	用于创建Qwen2.5基础模型的构建器，使用默认的32B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-32B
`qwen2_5.qwen2_5_32b_instruct`	用于创建Qwen2.5指令模型的构建器，使用默认的32B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-32B-Instruct
`qwen2_5.lora_qwen2_5_32b_base`	用于创建启用LoRA的Qwen2.5 32B基础模型的构建器。
`qwen2_5.lora_qwen2_5_32b_instruct`	用于创建启用LoRA的Qwen2.5 32B指令模型的构建器。
`qwen2_5.qwen2_5_72b_base`	用于创建Qwen2.5基础模型的构建器，使用默认的72B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-72B
`qwen2_5.qwen2_5_72b_instruct`	用于创建Qwen2.5指令模型的构建器，使用默认的72B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2.5-72B-Instruct
`qwen2_5.lora_qwen2_5_72b_base`	用于创建启用LoRA的Qwen2.5 72B基础模型的构建器。
`qwen2_5.lora_qwen2_5_72b_instruct`	用于创建启用LoRA的Qwen2.5 72B指令模型的构建器。
`qwen2_5.qwen2_5_tokenizer`	Qwen2.5的分词器。

qwen-2¶

来自Qwen2系列的0.5B、1.5B和7B大小的模型。

要下载Qwen2 1.5B模型，例如：

tune download Qwen/Qwen2-1.5B-Instruct --output-dir /tmp/Qwen2-1.5B-Instruct

`qwen2.qwen2`	构建与Qwen2模型相关的解码器。
`qwen2.lora_qwen2`	返回一个基于传入配置应用了LoRA的Qwen2版本（`Qwen2TransformerDecoder()`的实例）。
`qwen2.qwen2_0_5b`	用于创建Qwen2模型的构建器，该模型使用默认的0.5B参数值初始化，参数值来自https://huggingface.co/Qwen/Qwen2-0.5B-Instruct
`qwen2.lora_qwen2_0_5b`	用于创建启用LoRA的Qwen2 0.5B模型的构建器。
`qwen2.qwen2_1_5b`	用于创建Qwen2模型的构建器，该模型使用默认的1.5B参数值进行初始化，参数值来自https://huggingface.co/Qwen/Qwen2-1.5B-Instruct
`qwen2.lora_qwen2_1_5b`	用于创建启用LoRA的Qwen2 1.5B模型的构建器。
`qwen2.qwen2_7b`	用于创建Qwen2模型的构建器，使用默认的7B参数值进行初始化，参数值来自https://huggingface.co/Qwen/Qwen2-7B-Instruct
`qwen2.lora_qwen2_7b`	用于创建启用LoRA的Qwen2 7B模型的构建器。
`qwen2.qwen2_tokenizer`	Qwen2的分词器。

phi-3¶

来自Phi-3 mini系列的模型。

下载Phi-3 Mini 4k指导模型：

tune download microsoft/Phi-3-mini-4k-instruct --output-dir /tmp/Phi-3-mini-4k-instruct --hf-token <HF_TOKEN>

`phi3.phi3`	param vocab_size: 词汇表中的标记数量。
`phi3.lora_phi3`	返回一个应用了LoRA的Phi3版本（`TransformerDecoder()`的实例），基于传入的配置。
`phi3.phi3_mini`	用于创建Phi3 Mini 4K Instruct模型的构建器。
`phi3.lora_phi3_mini`	用于创建启用LoRA的Phi3 Mini（3.8b）模型的构建器。
`phi3.qlora_phi3_mini`	用于创建启用QLoRA的Phi3迷你模型的构建器。
`phi3.phi3_mini_tokenizer`	Phi-3 小型分词器。

mistral¶

所有来自Mistral AI家族的模型。

重要提示：您需要在Hugging Face上请求访问权限以下载此模型。

下载Mistral 7B v0.1模型：

tune download mistralai/Mistral-7B-v0.1 --output-dir /tmp/Mistral-7B-v0.1 --ignore-patterns "*.safetensors" --hf-token <HF_TOKEN>

`mistral.mistral`	构建与mistral模型相关的解码器。
`mistral.lora_mistral`	返回一个基于传入配置应用了LoRA的Mistral版本（`TransformerDecoder()`的实例）。
`mistral.mistral_classifier`	构建一个基础mistral模型，并添加一个分类层。
`mistral.lora_mistral_classifier`	返回一个应用了LoRA的Mistral分类器版本（一个`TransformerDecoder()`的实例），LoRA应用于其自注意力模块中的一些线性层。
`mistral.mistral_7b`	用于创建Mistral 7B模型的构建器，使用默认的7b参数值进行初始化，参数值来自https://mistral.ai/news/announcing-mistral-7b/
`mistral.lora_mistral_7b`	用于创建启用LoRA的Mistral 7B模型的构建器。
`mistral.qlora_mistral_7b`	用于创建启用QLoRA的Mistral模型的构建器。
`mistral.mistral_reward_7b`	用于创建Mistral 7B模型的构建器，使用默认的7b参数值初始化，来源：https://huggingface.co/Ray2333/reward-model-Mistral-7B-instruct-Unified-Feedback，其中输出层是一个分类层，投影到单个类别以进行奖励建模。
`mistral.lora_mistral_reward_7b`	用于创建启用LoRA的Mistral奖励7B模型的构建器。
`mistral.qlora_mistral_reward_7b`	用于创建启用了QLoRA的Mistral奖励7B模型的构建器。
`mistral.mistral_tokenizer`	Mistral 模型的标记器。
`mistral.MistralChatTemplate`	根据Mistral的instruct模型进行格式化。

gemma¶

来自Gemma系列的2B和7B大小的模型。

重要提示：您需要在Hugging Face上请求访问权限才能使用此模型。

下载Gemma 2B模型（不是Gemma2）：

tune download google/gemma-2b --ignore-patterns "gemma-2b.gguf"  --hf-token <HF_TOKEN>

下载Gemma 7B模型：

tune download google/gemma-7b --ignore-patterns "gemma-7b.gguf"  --hf-token <HF_TOKEN>

`gemma.gemma`	构建与gemma模型相关的解码器。
`gemma.lora_gemma`	返回一个基于传入配置应用了LoRA的Gemma版本。
`gemma.gemma_2b`	用于创建Gemma 2B模型的构建器，使用默认的2b参数值初始化，来源：https://blog.google/technology/developers/gemma-open-models/
`gemma.lora_gemma_2b`	用于创建启用LoRA的Gemma 2B模型的构建器。
`gemma.qlora_gemma_2b`	用于创建启用QLoRA的Gemma模型的构建器。
`gemma.gemma_7b`	用于创建Gemma 7B模型的构建器，使用默认的7b参数值初始化，来源：https://blog.google/technology/developers/gemma-open-models/
`gemma.lora_gemma_7b`	用于创建启用LoRA的Gemma 7B模型的构建器。
`gemma.qlora_gemma_7b`	用于创建启用QLoRA的Gemma模型的构建器。
`gemma.gemma_tokenizer`	Gemma的分词器。

gemma2 :¶

来自Gemma家族的2B、9B、27B大小的模型。

重要提示：您需要在Hugging Face上请求访问权限才能使用此模型。

下载Gemma2 2B、9B、27B模型：

tune download google/gemma-2-<MODEL_SIZE>b --ignore-patterns "gemma-2-<MODEL_SIZE>b.gguf"  --hf-token <HF_TOKEN>

`gemma2.gemma2`	构建与gemma2模型相关的解码器。
`gemma2.lora_gemma2`	返回一个基于传入配置应用了LoRA的Gemma版本。
`gemma2.gemma2_2b`	用于创建Gemma2 2B模型的构建器，使用默认的2b参数值初始化，来源：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_2b`	用于创建启用LoRA的Gemma2 2B模型的构建器。
`gemma2.qlora_gemma2_2b`	用于创建启用QLoRA的Gemma2模型的构建器。
`gemma2.gemma2_9b`	用于创建Gemma2 9B模型的构建器，使用默认的9b参数值初始化，来源：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_9b`	用于创建启用LoRA的Gemma 9B模型的构建器。
`gemma2.qlora_gemma2_9b`	用于创建启用QLoRA的Gemma模型的构建器。
`gemma2.gemma2_27b`	用于创建Gemma2 27B模型的构建器，使用默认的27b参数值初始化，来源：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_27b`	用于创建启用LoRA的Gemma2 27B模型的构建器。
`gemma2.qlora_gemma2_27b`	用于创建启用QLoRA的Gemma模型的构建器。
`gemma.gemma_tokenizer`	Gemma的分词器。

剪辑¶

使用CLIP编码器支持多模态的视觉组件。

`clip.clip_vision_encoder`	构建与clip模型相关的视觉编码器。
`clip.TokenPositionalEmbedding`	图像的令牌位置嵌入，对于图像中的每个令牌都是不同的。
`clip.TiledTokenPositionalEmbedding`	用于平铺图像的标记位置嵌入，每个平铺图像不同，每个标记也不同。
`clip.TilePositionalEmbedding`	用于图块的位置嵌入，每个图块不同，图块内的每个标记相同。