torchtune.models¶

llama3.3¶

来自 Llama3 系列 3.3 版本的纯文本模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 Llama-3.3-70B-Instruct 模型

tune download meta-llama/Llama-3.3-70B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

`llama3_3.llama3_3_70b`	用于创建使用默认 70B 参数值初始化的 Llama3.3 模型的构建器。
`llama3_3.lora_llama3_3_70b`	用于创建启用 LoRA 的 Llama3.3 70B 模型的构建器。
`llama3_3.qlora_llama3_3_70b`	用于创建启用 QLoRA 的 Llama3.3 70B 模型的构建器。

注意

Llama3.3 分词器重用了 llama3_tokenizer 类。

llama3.2¶

来自 Llama3 系列 3.2 版本的纯文本模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 Llama-3.2-1B-Instruct 模型

tune download meta-llama/Llama-3.2-1B-Instruct --output-dir /tmp/Llama-3.2-1B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

下载 Llama-3.2-3B-Instruct 模型

tune download meta-llama/Llama-3.2-3B-Instruct --output-dir /tmp/Llama-3.2-3B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

`llama3_2.llama3_2_1b`	用于创建使用默认 1b 参数值初始化的 Llama3.2 模型的构建器。
`llama3_2.llama3_2_3b`	用于创建使用默认 3b 参数值初始化的 Llama3.2 模型的构建器。
`llama3_2.lora_llama3_2_1b`	用于创建启用 LoRA 的 Llama3.2 1B 模型的构建器。
`llama3_2.lora_llama3_2_3b`	用于创建启用 LoRA 的 Llama3.2 3B 模型的构建器。
`llama3_2.qlora_llama3_2_1b`	用于创建启用 QLoRA 的 Llama3.2 1B 模型的构建器。
`llama3_2.qlora_llama3_2_3b`	用于创建启用 QLoRA 的 Llama3.2 3B 模型的构建器。

注意

Llama3.2 分词器重用了 llama3_tokenizer 类。

llama3.2 Vision¶

来自 Llama3 系列 3.2 版本的视觉-语言模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 Llama-3.2-11B-Instruct 模型

tune download meta-llama/Llama-3.2-11B-Vision-Instruct --output-dir /tmp/Llama-3.2-11B-Vision-Instruct --hf-token <HF_TOKEN>

`llama3_2_vision.llama3_2_vision_11b`	Llama 3.2 Vision 11B 模型
`llama3_2_vision.llama3_2_vision_transform`	Llama3 Vision 的数据变换（包括分词器）。
`llama3_2_vision.lora_llama3_2_vision_11b`	返回 Llama3.2 vision 的一个版本（`DeepFusionModel()` 的一个实例），并根据传入的配置应用 LoRA。
`llama3_2_vision.qlora_llama3_2_vision_11b`	用于创建启用 QLoRA 的 Llama3.2 vision 11B 模型的构建器。
`llama3_2_vision.llama3_2_vision_decoder`	构建与 Llama3 模型相关的解码器，带有附加的融合交叉注意力层。
`llama3_2_vision.llama3_2_vision_encoder`	通过将 CLIP 图像模型与附加的投影头融合模块结合，构建 Llama 3.2 vision 编码器。
`llama3_2_vision.lora_llama3_2_vision_decoder`	构建与 Llama3 模型相关的解码器，带有附加的融合交叉注意力层。
`llama3_2_vision.lora_llama3_2_vision_encoder`	通过将 CLIP 图像模型与附加的投影头融合模块结合，构建 Llama 3.2 vision 编码器。
`llama3_2_vision.Llama3VisionEncoder`	Llama 3.2 Vision 的视觉编码器模型。
`llama3_2_vision.Llama3VisionProjectionHead`	用于将预训练的冻结编码器 (CLIP) 的输出适配到预训练解码器模型的投影变换器。
`llama3_2_vision.Llama3VisionTransform`	此变换结合了 Llama 3.2 Vision 不同模态的变换。

注意

Llama3.2 分词器重用了 llama3_tokenizer 类。

llama3 & llama3.1¶

来自 Llama3 系列的 3 和 3.1 模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 Llama3.1-8B-Instruct 模型

tune download meta-llama/Meta-Llama-3.1-8B-Instruct --output-dir /tmp/Meta-Llama-3.1-8B-Instruct --ignore-patterns "original/consolidated.00.pth" --hf-token <HF_TOKEN>

下载 Llama3.1-70B-Instruct 模型

tune download meta-llama/Meta-Llama-3.1-70B-Instruct --output-dir /tmp/Meta-Llama-3.1-70B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

下载 Llama3.1-405B-Instruct 模型

tune download meta-llama/Meta-Llama-3.1-405B-Instruct --ignore-patterns "original/consolidated*" --hf-token <HF_TOKEN>

要下载上述模型的 Llama3 权重，您可以改为从 Meta-Llama-3-8B-Instruct 和 Meta-Llama-3-70B-Instruct 下载，并移除忽略模式标志。

`llama3.llama3`	构建与 Llama3 模型相关的解码器。
`llama3.lora_llama3`	返回 Llama3 的一个版本（`TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`llama3.llama3_8b`	用于创建使用默认 8b 参数值初始化的 Llama3 模型的构建器。
`llama3.lora_llama3_8b`	用于创建启用 LoRA 的 Llama3 8B 模型的构建器。
`llama3.qlora_llama3_8b`	用于创建启用 QLoRA 的 Llama3 8B 模型的构建器。
`llama3.llama3_70b`	用于创建使用默认 70B 参数值初始化的 Llama3 模型的构建器。
`llama3.lora_llama3_70b`	用于创建启用 LoRA 的 Llama3 70B 模型的构建器。
`llama3.qlora_llama3_70b`	用于创建启用 QLoRA 的 Llama3 70B 模型的构建器。
`llama3.llama3_tokenizer`	Llama3 的分词器。
`llama3_1.llama3_1`	构建与 Llama3.1 模型相关的解码器。
`llama3_1.lora_llama3_1`	返回 Llama3.1 的一个版本（`TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`llama3_1.llama3_1_8b`	用于创建使用默认 8b 参数值初始化的 Llama3.1 模型的构建器。
`llama3_1.lora_llama3_1_8b`	用于创建启用 LoRA 的 Llama3.1 8B 模型的构建器。
`llama3_1.qlora_llama3_1_8b`	用于创建启用 QLoRA 的 Llama3.1 8B 模型的构建器。
`llama3_1.llama3_1_70b`	用于创建使用默认 70B 参数值初始化的 Llama3.3 模型的构建器。
`llama3_1.lora_llama3_1_70b`	用于创建启用 LoRA 的 Llama3.3 70B 模型的构建器。
`llama3_1.qlora_llama3_1_70b`	用于创建启用 QLoRA 的 Llama3.3 70B 模型的构建器。
`llama3_1.llama3_1_405b`	用于创建使用默认 405B 参数值初始化的 Llama3.1 模型的构建器。
`llama3_1.lora_llama3_1_405b`	用于创建启用 LoRA 的 Llama3.1 405B 模型的构建器。
`llama3_1.qlora_llama3_1_405b`	用于创建启用 QLoRA 的 Llama3.1 405B 模型的构建器。

注意

Llama3.1 分词器重用了 llama3.llama3_tokenizer 构建器类。

llama2¶

来自 Llama2 系列的所有模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 Llama2-7B 模型

tune download meta-llama/Llama-2-7b-hf --output-dir /tmp/Llama-2-7b-hf --hf-token <HF_TOKEN>

下载 Llama2-13B 模型

tune download meta-llama/Llama-2-13b-hf --output-dir /tmp/Llama-2-13b-hf --hf-token <HF_TOKEN>

下载 Llama2-70B 模型

tune download meta-llama/Llama-2-70b-hf --output-dir /tmp/Llama-2-70b-hf --hf-token <HF_TOKEN>

`llama2.llama2`	构建与 Llama2 模型相关的解码器。
`llama2.lora_llama2`	返回 Llama2 的一个版本（`TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`llama2.llama2_7b`	用于创建使用 https://arxiv.org/abs/2307.09288 中的默认 7B 参数值初始化的 Llama2 模型的构建器
`llama2.lora_llama2_7b`	用于创建启用 LoRA 的 Llama2 7B 模型的构建器。
`llama2.qlora_llama2_7b`	用于创建启用 QLoRA 的 Llama2 7B 模型的构建器。
`llama2.llama2_13b`	用于创建使用 https://arxiv.org/abs/2307.09288 中的默认 13B 参数值初始化的 Llama2 模型的构建器
`llama2.lora_llama2_13b`	用于创建启用 LoRA 的 Llama2 13B 模型的构建器。
`llama2.qlora_llama2_13b`	用于创建启用 QLoRA 的 Llama2 13B 模型的构建器。
`llama2.llama2_70b`	用于创建使用 https://arxiv.org/abs/2307.09288 中的默认 70B 参数值初始化的 Llama2 模型的构建器
`llama2.lora_llama2_70b`	用于创建启用 LoRA 的 Llama2 70B 模型的构建器。
`llama2.qlora_llama2_70b`	用于创建启用 QLoRA 的 Llama2 70B 模型的构建器。
`llama2.llama2_tokenizer`	Llama2 的分词器。
`llama2.llama2_reward_7b`	用于创建使用 https://arxiv.org/abs/2307.09288 中的默认 7B 参数值初始化的 Llama2 模型的构建器，其中输出层是投射到单个类别用于奖励建模的分类层。
`llama2.lora_llama2_reward_7b`	用于创建启用 LoRA 的 Llama2 7B 奖励模型的构建器。
`llama2.qlora_llama2_reward_7b`	用于创建启用 QLoRA 的 Llama2 reward 7b 模型的构建器。
`llama2.Llama2ChatTemplate`	Prompt 模板，用于使用 Llama2 预训练中使用的适当标签格式化人类和系统 Prompt 的聊天数据。

code llama¶

来自 Code Llama 系列的模型。

重要：在下载之前，您需要在 Hugging Face 上请求访问权限。

下载 CodeLlama-7B 模型

tune download meta-llama/CodeLlama-7b-hf --output-dir /tmp/CodeLlama-7b-hf --hf-token <HF_TOKEN>

`code_llama2.code_llama2_7b`	用于创建使用 https://arxiv.org/pdf/2308.12950.pdf 中的默认 7B 参数值初始化的 Code-Llama2 模型的构建器
`code_llama2.lora_code_llama2_7b`	用于创建启用 LoRA 的 Code-Llama2 7B 模型的构建器。
`code_llama2.qlora_code_llama2_7b`	用于创建启用 QLoRA 的 Code-Llama2 7B 模型的构建器。
`code_llama2.code_llama2_13b`	用于创建使用 https://arxiv.org/pdf/2308.12950.pdf 中的默认 13B 参数值初始化的 Code-Llama2 模型的构建器
`code_llama2.lora_code_llama2_13b`	用于创建启用 LoRA 的 Code-Llama2 13B 模型的构建器。
`code_llama2.qlora_code_llama2_13b`	用于创建启用 QLoRA 的 Code-Llama2 13B 模型的构建器。
`code_llama2.code_llama2_70b`	用于创建使用 https://arxiv.org/pdf/2308.12950.pdf 中的默认 70B 参数值初始化的 Code-Llama2 模型的构建器
`code_llama2.lora_code_llama2_70b`	用于创建启用 LoRA 的 Code-Llama2 70B 模型的构建器。
`code_llama2.qlora_code_llama2_70b`	用于创建启用 QLoRA 的 Code-Llama2 70B 模型的构建器。

qwen-2.5¶

来自 Qwen2.5 系列的 0.5B、1.5B、3B、7B、14B、32B、72B 模型。

例如，下载 Qwen2.5 1.5B 模型

tune download Qwen/Qwen2.5-1.5B-Instruct --output-dir /tmp/Qwen2_5-1_5B-Instruct

`qwen2_5.qwen2_5_0_5b`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-0.5B-Instruct 中的默认 0.5B 参数值初始化的 Qwen2.5 模型（base 或 instruct）的构建器
`qwen2_5.lora_qwen2_5_0_5b`	用于创建启用 LoRA 的 Qwen2.5 0.5B 模型（base 或 instruct）的构建器。
`qwen2_5.qwen2_5_1_5b_base`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-1.5B 中的默认 1.5B 参数值初始化的 Qwen2.5 base 模型的构建器
`qwen2_5.qwen2_5_1_5b_instruct`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-1.5B-Instruct 中的默认 1.5B 参数值初始化的 Qwen2.5 instruct 模型的构建器
`qwen2_5.lora_qwen2_5_1_5b_base`	用于创建启用 LoRA 的 Qwen2.5 1.5B base 模型的构建器。
`qwen2_5.lora_qwen2_5_1_5b_instruct`	用于创建启用 LoRA 的 Qwen2.5 1.5B instruct 模型的构建器。
`qwen2_5.qwen2_5_3b`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-3B-Instruct 中的默认 3B 参数值初始化的 Qwen2.5 模型（base 或 instruct）的构建器
`qwen2_5.lora_qwen2_5_3b`	用于创建启用 LoRA 的 Qwen2.5 3B 模型（base 或 instruct）的构建器。
`qwen2_5.qwen2_5_7b_base`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-7B 中的默认 7B 参数值初始化的 Qwen2.5 base 模型的构建器
`qwen2_5.qwen2_5_7b_instruct`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-7B-Instruct 中的默认 7B 参数值初始化的 Qwen2.5 instruct 模型的构建器
`qwen2_5.lora_qwen2_5_7b_base`	用于创建启用 LoRA 的 Qwen2.5 7B base 模型的构建器。
`qwen2_5.lora_qwen2_5_7b_instruct`	用于创建启用 LoRA 的 Qwen2.5 7B instruct 模型的构建器。
`qwen2_5.qwen2_5_14b_base`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-14B 中的默认 14B 参数值初始化的 Qwen2.5 base 模型的构建器
`qwen2_5.qwen2_5_14b_instruct`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-14B-Instruct 中的默认 14B 参数值初始化的 Qwen2.5 instruct 模型的构建器
`qwen2_5.lora_qwen2_5_14b_base`	用于创建启用 LoRA 的 Qwen2.5 14B base 模型的构建器。
`qwen2_5.lora_qwen2_5_14b_instruct`	用于创建启用 LoRA 的 Qwen2.5 14B instruct 模型的构建器。
`qwen2_5.qwen2_5_32b_base`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-32B 中的默认 32B 参数值初始化的 Qwen2.5 base 模型的构建器
`qwen2_5.qwen2_5_32b_instruct`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-32B-Instruct 中的默认 32B 参数值初始化的 Qwen2.5 instruct 模型的构建器
`qwen2_5.lora_qwen2_5_32b_base`	用于创建启用 LoRA 的 Qwen2.5 32B base 模型的构建器。
`qwen2_5.lora_qwen2_5_32b_instruct`	用于创建启用 LoRA 的 Qwen2.5 32B instruct 模型的构建器。
`qwen2_5.qwen2_5_72b_base`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-72B 中的默认 72B 参数值初始化的 Qwen2.5 base 模型的构建器
`qwen2_5.qwen2_5_72b_instruct`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2.5-72B-Instruct 中的默认 72B 参数值初始化的 Qwen2.5 instruct 模型的构建器
`qwen2_5.lora_qwen2_5_72b_base`	用于创建启用 LoRA 的 Qwen2.5 72B base 模型的构建器。
`qwen2_5.lora_qwen2_5_72b_instruct`	用于创建启用 LoRA 的 Qwen2.5 72B instruct 模型的构建器。
`qwen2_5.qwen2_5_tokenizer`	Qwen2.5 的分词器。

qwen-2¶

来自 Qwen2 系列的 0.5B、1.5B 和 7B 模型。

例如，下载 Qwen2 1.5B 模型

tune download Qwen/Qwen2-1.5B-Instruct --output-dir /tmp/Qwen2-1.5B-Instruct

`qwen2.qwen2`	构建与 Qwen2 模型相关的解码器。
`qwen2.lora_qwen2`	返回 Qwen2 的一个版本（`Qwen2TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`qwen2.qwen2_0_5b`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2-0.5B-Instruct 中的默认 0.5B 参数值初始化的 Qwen2 模型的构建器
`qwen2.lora_qwen2_0_5b`	用于创建启用 LoRA 的 Qwen2 0.5B 模型的构建器。
`qwen2.qwen2_1_5b`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2-1.5B-Instruct 中的默认 1.5B 参数值初始化的 Qwen2 模型的构建器
`qwen2.lora_qwen2_1_5b`	用于创建启用 LoRA 的 Qwen2 1.5B 模型的构建器。
`qwen2.qwen2_7b`	用于创建使用 https://hugging-face.cn/Qwen/Qwen2-7B-Instruct 中的默认 7B 参数值初始化的 Qwen2 模型的构建器
`qwen2.lora_qwen2_7b`	用于创建启用 LoRA 的 Qwen2 7B 模型的构建器。
`qwen2.qwen2_tokenizer`	Qwen2 的分词器。

phi-4¶

来自 Phi-4 系列的模型。

下载 Phi-4 instruct 模型

tune download microsoft/phi-4 --hf-token <HF_TOKEN>

`phi4.phi4_14b`	用于创建 Phi4 (14B) Instruct 模型的构建器。
`phi4.lora_phi4_14b`	用于创建启用 LoRA 的 Phi4 (14b) 模型的构建器。
`phi4.qlora_phi4_14b`	用于创建启用 QLoRA 的 Phi4 (14B) 模型的构建器。
`phi4.phi4_tokenizer`	Phi4 分词器。

phi-3¶

来自 Phi-3 mini 系列的模型。

下载 Phi-3 Mini 4k instruct 模型

tune download microsoft/Phi-3-mini-4k-instruct --output-dir /tmp/Phi-3-mini-4k-instruct --hf-token <HF_TOKEN>

`phi3.phi3`	参数 vocab_size: 词汇表中的 token 数量。
`phi3.lora_phi3`	返回 Phi3 的一个版本（`TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`phi3.phi3_mini`	用于创建 Phi3 Mini 4K Instruct 模型的构建器。
`phi3.lora_phi3_mini`	用于创建启用 LoRA 的 Phi3 Mini (3.8b) 模型的构建器。
`phi3.qlora_phi3_mini`	用于创建启用 QLoRA 的 Phi3 mini 模型的构建器。
`phi3.phi3_mini_tokenizer`	Phi-3 Mini 分词器。

mistral¶

来自 Mistral AI 系列的所有模型。

重要：您需要在 Hugging Face 上请求访问权限才能下载此模型。

下载 Mistral 7B v0.1 模型

tune download mistralai/Mistral-7B-v0.1 --output-dir /tmp/Mistral-7B-v0.1 --ignore-patterns "*.safetensors" --hf-token <HF_TOKEN>

`mistral.mistral`	构建与 mistral 模型相关的解码器。
`mistral.lora_mistral`	返回 Mistral 的一个版本（`TransformerDecoder()` 的一个实例），并根据传入的配置应用 LoRA。
`mistral.mistral_classifier`	构建带有附加分类层的基础 mistral 模型。
`mistral.lora_mistral_classifier`	返回 Mistral classifier 的一个版本（`TransformerDecoder()` 的一个实例），并对其自注意力模块中的一些线性层应用 LoRA。
`mistral.mistral_7b`	用于创建使用 https://mistral.org.cn/news/announcing-mistral-7b/ 中的默认 7b 参数值初始化的 Mistral 7B 模型的构建器
`mistral.lora_mistral_7b`	用于创建启用 LoRA 的 Mistral 7B 模型的构建器。
`mistral.qlora_mistral_7b`	用于创建启用 QLoRA 的 Mistral 模型的构建器。
`mistral.mistral_reward_7b`	用于创建使用以下地址的默认 7b 参数值初始化的 Mistral 7B 模型的构建器：https://hugging-face.cn/Ray2333/reward-model-Mistral-7B-instruct-Unified-Feedback，其中输出层是投射到单个类别用于奖励建模的分类层。
`mistral.lora_mistral_reward_7b`	用于创建启用 LoRA 的 Mistral reward 7B 模型的构建器。
`mistral.qlora_mistral_reward_7b`	用于创建启用 QLoRA 的 Mistral reward 7B 模型的构建器。
`mistral.mistral_tokenizer`	Mistral 模型的词分器。
`mistral.MistralChatTemplate`	根据 Mistral 的 instruct 模型格式化。

gemma¶

来自 Gemma 系列的 2B 和 7B 模型。

重要：您需要在 Hugging Face 上请求访问权限才能使用此模型。

下载 Gemma 2B 模型（非 Gemma2）

tune download google/gemma-2b --ignore-patterns "gemma-2b.gguf"  --hf-token <HF_TOKEN>

下载 Gemma 7B 模型

tune download google/gemma-7b --ignore-patterns "gemma-7b.gguf"  --hf-token <HF_TOKEN>

`gemma.gemma`	构建与 gemma 模型相关的解码器。
`gemma.lora_gemma`	返回 Gemma 的一个版本，并根据传入的配置应用 LoRA。
`gemma.gemma_2b`	用于创建使用以下地址的默认 2b 参数值初始化的 Gemma 2B 模型的构建器：https://blog.google/technology/developers/gemma-open-models/
`gemma.lora_gemma_2b`	用于创建启用 LoRA 的 Gemma 2B 模型的构建器。
`gemma.qlora_gemma_2b`	用于创建启用 QLoRA 的 Gemma 模型的构建器。
`gemma.gemma_7b`	用于创建使用以下地址的默认 7b 参数值初始化的 Gemma 7B 模型的构建器：https://blog.google/technology/developers/gemma-open-models/
`gemma.lora_gemma_7b`	用于创建启用 LoRA 的 Gemma 7B 模型的构建器。
`gemma.qlora_gemma_7b`	用于创建启用 QLoRA 的 Gemma 模型的构建器。
`gemma.gemma_tokenizer`	Gemma 的分词器。

gemma2 :¶

来自 Gemma 系列的 2B、9B、27B 模型。

重要：您需要在 Hugging Face 上请求访问权限才能使用此模型。

下载 Gemma2 2B、9B、27B 模型

tune download google/gemma-2-<MODEL_SIZE>b --ignore-patterns "gemma-2-<MODEL_SIZE>b.gguf"  --hf-token <HF_TOKEN>

`gemma2.gemma2`	构建与 gemma2 模型相关的解码器。
`gemma2.lora_gemma2`	返回 Gemma 的一个版本，并根据传入的配置应用 LoRA。
`gemma2.gemma2_2b`	用于创建使用以下地址的默认 2b 参数值初始化的 Gemma2 2B 模型的构建器：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_2b`	用于创建启用 LoRA 的 Gemma2 2B 模型的构建器。
`gemma2.qlora_gemma2_2b`	用于创建启用 QLoRA 的 Gemma2 模型的构建器。
`gemma2.gemma2_9b`	用于创建使用以下地址的默认 9b 参数值初始化的 Gemma2 9B 模型的构建器：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_9b`	用于创建启用 LoRA 的 Gemma 9B 模型的构建器。
`gemma2.qlora_gemma2_9b`	用于创建启用 QLoRA 的 Gemma 模型的构建器。
`gemma2.gemma2_27b`	用于创建使用以下地址的默认 27b 参数值初始化的 Gemma2 27B 模型的构建器：https://github.com/google/gemma_pytorch/blob/main/gemma/config.py
`gemma2.lora_gemma2_27b`	用于创建启用 LoRA 的 Gemma2 27B 模型的构建器。
`gemma2.qlora_gemma2_27b`	用于创建启用 QLoRA 的 Gemma 模型的构建器。
`gemma.gemma_tokenizer`	Gemma 的分词器。

clip¶

使用 CLIP 编码器支持多模态的视觉组件。

`clip.clip_vision_encoder`	构建与 clip 模型相关的视觉编码器。
`clip.TokenPositionalEmbedding`	图像的 Token 位置编码，图像中的每个 Token 都不同。
`clip.TiledTokenPositionalEmbedding`	瓦片图像的 Token 位置编码，每个瓦片不同，每个 Token 也不同。
`clip.TilePositionalEmbedding`	瓦片的位置编码，每个瓦片不同，瓦片内的每个 Token 相同。

torchtune.models¶

llama3.3¶

llama3.2¶

llama3.2 Vision¶

llama3 & llama3.1¶

llama2¶

code llama¶

qwen-2.5¶

qwen-2¶

phi-4¶

phi-3¶

mistral¶

gemma¶

gemma2 :¶

clip¶

文档

教程

资源