API 参考¶
- torchrl.collectors 包
- torchrl.data 包
- 回放缓冲区
- 可组合回放缓冲区
- TorchRL Episode Data Format (TED)
- 数据集
- TensorSpec
- TensorSpec
- 二进制
- 有界
- 分类
- 复合
- 多分类
- 多 One-Hot
- 非张量
- 堆叠
- 堆叠复合
- 无界
- 无界连续
- 无界离散
- BinaryDiscreteTensorSpec
- BoundedTensorSpec
- CompositeSpec
- DiscreteTensorSpec
- LazyStackedCompositeSpec
- LazyStackedTensorSpec
- MultiDiscreteTensorSpec
- MultiOneHotDiscreteTensorSpec
- NonTensorSpec
- OneHotDiscreteTensorSpec
- UnboundedContinuousTensorSpec
- UnboundedDiscreteTensorSpec
- 树和森林
- 基于人类反馈的强化学习 (RLHF)
- 实用工具
- torchrl.envs 包
- EnvBase
- GymLikeEnv
- EnvMetaData
- 向量化环境
- 自定义原生 TorchRL 环境
- 多智能体环境
- 自动重置环境
- 动态规格
- 转换
- 具有掩码动作的环境
- 记录器
- 助手
- 特定领域
- 库
- BraxEnv
- BraxWrapper
- DMControlEnv
- DMControlWrapper
- GymEnv
- GymWrapper
- HabitatEnv
- IsaacGymEnv
- IsaacGymWrapper
- JumanjiEnv
- JumanjiWrapper
- MeltingpotEnv
- MeltingpotWrapper
- MOGymEnv
- MOGymWrapper
- MultiThreadedEnv
- MultiThreadedEnvWrapper
- OpenMLEnv
- OpenSpielWrapper
- OpenSpielEnv
- PettingZooEnv
- PettingZooWrapper
- RoboHiveEnv
- SMACv2Env
- SMACv2Wrapper
- UnityMLAgentsEnv
- UnityMLAgentsWrapper
- VmasEnv
- VmasWrapper
- gym_backend
- set_gym_backend
- torchrl.modules 包
- torchrl.objectives 包
- torch.vmap 和随机性
- 训练价值函数
- DQN
- DDPG
- SAC
- REDQ
- CrossQ
- IQL
- CQL
- GAIL
- DT
- TD3
- TD3+BC
- PPO
- A2C
- Reinforce
- Dreamer
- 多智能体目标
- 回报
- ValueEstimatorBase
- TD0Estimator
- TD1Estimator
- TDLambdaEstimator
- GAE
- td0_return_estimate
- td0_advantage_estimate
- td1_return_estimate
- vec_td1_return_estimate
- td1_advantage_estimate
- vec_td1_advantage_estimate
- td_lambda_return_estimate
- vec_td_lambda_return_estimate
- td_lambda_advantage_estimate
- vec_td_lambda_advantage_estimate
- generalized_advantage_estimate
- vec_generalized_advantage_estimate
- reward2go
- 实用工具
- torchrl.trainers 包
- torchrl._utils 包