FullModelMetaCheckpointer¶
- class torchtune.training.FullModelMetaCheckpointer(checkpoint_dir: str, checkpoint_files: List[str], model_type: str, output_dir: str, adapter_checkpoint: Optional[str] = None, recipe_checkpoint: Optional[str] = None, resume_from_checkpoint: bool = False)[source]¶
检查点器,用于读取和写入 Meta 格式的检查点。示例包括来自 meta-llama repo 的 Llama-2-7b 模型 (https://hugging-face.cn/meta-llama/Llama-2-7b)
目前我们仅支持从单个检查点文件读取。对从分片检查点读取的支持正在进行中(WIP)。
- 参数:
checkpoint_dir (str) – 包含检查点文件的目录
checkpoint_files (List[str]) – 要加载的检查点文件列表。目前,此检查点器仅支持加载单个检查点文件。
model_type (str) – 检查点器正在加载的模型的模型类型,例如 LLAMA3。
output_dir (str) – 用于保存检查点文件的目录
adapter_checkpoint (Optional[str]) – 适配器权重路径。如果为 None 且 resume_from_checkpoint=True,则在 output_dir/epoch_{largest_epoch} 中查找 adapter_model.pt。默认为 None。
recipe_checkpoint (Optional[str]) – 配方状态检查点文件的路径。如果为 None 且 resume_from_checkpoint=True,则在 output_dir/recipe_state.pt 中查找 recipe_state.pt。默认为 None。
resume_from_checkpoint (bool) – 如果为 True,检查点器将加载额外的检查点文件以从之前的运行恢复训练。默认为 False
- Raises:
ValueError – 如果
checkpoint_files
不是长度为 1 的列表ValueError – 如果
resume_from_checkpoint
为 True 但recipe_checkpoint
为 None
- save_checkpoint(state_dict: Dict[str, Any], epoch: int, intermediate_checkpoint: bool = False, adapter_only: bool = False) None [source]¶
将 Meta 检查点保存到文件。如果
intermediate_checkpoint
为 True,则会在_output_dir/RECIPE_STATE_DIRNAME
中创建一个额外的检查点文件recipe_state.pt
,其中包含配方状态。- 参数:
- Raises:
ValueError – 如果
adapter_only
为 True 且在 state_dict 中未找到适配器检查点。