PPOLoss¶
- class torchtune.rlhf.loss.PPOLoss(epsilon: float = 0.1, value_clip_range: float = 0.2, value_coeff: float = 0.1)[source]¶
近端策略优化(PPO)损失模块。 此实现使用了以下参考:
https://arxiv.org/abs/1707.06347 公式 7
- Parameters:
- forward(pi_old_logprobs: Tensor, pi_logprobs: Tensor, advantages: Tensor, phi_old_values: Tensor, phi_values: Tensor, returns: Tensor, padding_masks: Optional[Tensor] = None, value_padding_masks: Optional[Tensor] = None) Tuple[Tensor, Tensor, Tensor, Tensor, Tensor][source]¶
PPO损失模块的前向传递。
- Parameters:
pi_old_logprobs (torch.Tensor) – 旧策略的对数概率。
pi_logprobs (torch.Tensor) – 当前策略的对数概率。
优势 (torch.Tensor) – 优势值。
phi_old_values (torch.Tensor) – 旧值函数的值预测。
phi_values (torch.Tensor) – 当前值函数的值预测。
返回 (torch.Tensor) – 返回值。
padding_masks (可选[torch.Tensor]) – 与
pi_logprobs形状相同的填充标记掩码, 其中 True 表示相应的损失值应参与策略损失计算。value_padding_masks (可选[torch.Tensor]) – 与
pi_logprobs形状相同的填充标记掩码, 其中 True 表示相应的损失值应参与值损失计算。
- Returns:
- 一个包含五个张量的元组:
loss: 总的PPO损失。
policy_loss: 策略函数的损失。
value_loss: 价值函数的损失。
ratios: 当前策略与旧策略概率之间的比率。
clipfrac: 被剪裁的比率部分。
- Return type:
元组[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]