ReduceLROnPlateau¶
- class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08, verbose='deprecated')[源代码]¶
当指标停止改善时降低学习率。
模型通常从在学习停滞时将学习率降低 2-10 倍中获益。此调度器读取度量值,如果在“耐心”个时期内没有看到改进,则会降低学习率。
- 参数
optimizer (优化器) – 包装的优化器。
mode (字符串) – “min” 或“max”之一。在“min”模式下,当监控的数量停止下降时,lr 将会降低;在“max”模式下,当监控的数量停止上升时,lr 将会降低。默认值:‘min’。
factor (浮点数) – 学习率降低的倍数。new_lr = lr * factor。默认值:0.1。
patience (整数) – 允许的时期数量,在这些时期内没有改进,在此之后学习率将降低。例如,考虑没有耐心(patience = 0)的情况。在第一个时期,建立了基线,并且始终被认为是好的,因为没有之前的基线。在第二个时期,如果性能比基线差,我们认为这是一个不可接受的时期。由于不可接受的时期数(1)大于耐心级别(0),因此在本时期结束时学习率降低。从第三个时期开始,如果性能比基线差,则在本时期结束时学习率继续降低。如果性能提高或保持不变,则不会调整学习率。默认值:10。
threshold (浮点数) – 用于测量新最佳值的阈值,只关注重大变化。默认值:1e-4。
threshold_mode (字符串) – “rel” 或 “abs” 之一。在 “rel” 模式下,dynamic_threshold = best * ( 1 + threshold ) 在 “max” 模式下或 best * ( 1 - threshold ) 在 “min” 模式下。在 “abs” 模式下,dynamic_threshold = best + threshold 在 “max” 模式下或 best - threshold 在 “min” 模式下。默认值:‘rel’。
cooldown (整数) – 降低 lr 后等待的时期数量,之后恢复正常运行。默认值:0。
eps (浮点数) – 应用于 lr 的最小衰减。如果新旧 lr 之间的差值小于 eps,则忽略更新。默认值:1e-8。
如果
True
,则为每次更新打印一条消息到标准输出。默认值为False
。从 2.2 版开始弃用:
verbose
已弃用。请使用get_last_lr()
来访问学习率。
示例
>>> optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9) >>> scheduler = ReduceLROnPlateau(optimizer, 'min') >>> for epoch in range(10): >>> train(...) >>> val_loss = validate(...) >>> # Note that step should be called after validate() >>> scheduler.step(val_loss)
- print_lr(is_verbose, group, lr, epoch=None)¶
显示当前学习率。
从 2.4 版开始弃用:
print_lr()
已弃用。请使用get_last_lr()
来访问学习率。