torchtune.modules¶

建模组件和构建块¶

`CausalSelfAttention`	在 https://arxiv.org/pdf/2305.13245v1.pdf 中介绍的多头分组查询自注意力 (GQA) 层。
`FeedForward`	此类实现从 Llama2 派生的前馈网络。
`KVCache`	包含 kv 缓存的独立 nn.Module，用于在推理期间缓存过去的键和值。
`get_cosine_schedule_with_warmup`	创建一个学习率调度程序，该调度程序将学习率从 0.0 线性增加到 lr，持续 num_warmup_steps 步，然后在余弦调度程序上持续 num_training_steps-num_warmup_steps 步（假设 num_cycles = 0.5）线性下降到 0.0。
`RotaryPositionalEmbeddings`	此类实现 https://arxiv.org/abs/2104.09864 中提出的旋转位置嵌入 (RoPE)。
`RMSNorm`	实施了在 https://arxiv.org/pdf/1910.07467.pdf 中介绍的均方根归一化。
`TransformerDecoderLayer`	源自 Llama2 模型的 Transformer 层。
`TransformerDecoder`	源自 Llama2 架构的 Transformer 解码器。

`tokenizers.SentencePieceTokenizer`	SentencePieceProcessor 的包装器。
`tokenizers.TikTokenTokenizer`	tiktoken 编码的包装器。

`peft.LoRALinear`	如 LoRA: 大型语言模型的低秩自适应中介绍的 LoRA 线性层。
`peft.AdapterModule`	包含适配器权重的 nn.Module 的接口。
`peft.get_adapter_params`	返回模型中对应于适配器的参数子集。
`peft.set_trainable_params`	根据适配器参数的状态字典设置 nn.Module 的可训练参数。

这些是所有模块共有的，并且可以被所有模块使用的实用程序。

一个 state_dict 钩子，它用恢复的更高精度权重替换 NF4 张量，并可以选择将恢复的权重卸载到 CPU。