自适应KL控制器¶
- class torchrl.data.AdaptiveKLController(*, init_kl_coef: float, target: float, horizon: int, model: nn.Module | None = None)[源代码]¶
如 Ziegler 等人“从人类偏好微调语言模型”中所述的自适应 KL 控制器。
- 关键字参数:
参考资料:第 2.2 节 https://arxiv.org/pdf/1909.08593.pdf#page=2 源码:https://github.com/openai/lm-human-preferences/blob/master/lm_human_preferences/train_policy.py