Shortcuts

estimate_advantages

torchtune.rlhf.estimate_advantages(values: Tensor, rewards: Tensor, gamma: float, lmbda: float, masks: Optional[Tensor] = None) Tuple[Tensor, Tensor][source]

使用广义优势估计来估计PPO算法的优势和回报 https://arxiv.org/pdf/1506.02438.pdf

Parameters:
  • values (torch.Tensor) – 每个状态的预测值。形状:(b, response_len)

  • 奖励 (torch.Tensor) – 在每个时间步收到的奖励。形状: (b, response_len)

  • gamma (float) – 折扣因子。

  • lmbda (float) – GAE-Lambda 参数。

  • masks (可选[torch.Tensor]) – 一个布尔掩码张量,其中True表示values中的相应值应参与均值计算。默认值为None。

Returns:

一个包含估计优势和回报的元组。
  • advantages (torch.Tensor): 估计的优势。形状: (b, response_len)

  • returns (torch.Tensor): 估计的回报。形状: (b, response_len)

Return type:

元组[torch.Tensor, torch.Tensor]

Notation:
  • b: 批量大小

  • response_len: 模型响应长度