torchtune.rlhf.loss.SimPOLoss¶
- torchtune.rlhf.loss.SimPOLoss = <function SimPOLoss>[source]¶
使用无参考奖励的简单偏好优化:https://arxiv.org/abs/2405.14734。 论文的直觉:
SimPO的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励。此外,我们在Bradley-Terry目标中引入了一个目标奖励边际,以鼓励获胜和失败响应之间的更大边际,从而进一步增强算法的性能。
SimPO 与 DPO 非常相似,但使用平均对数概率来消除在训练期间需要参考模型来规范策略的需求。它还使用目标奖励边际来引导策略生成更好的响应。这与
IPOLoss中的直觉类似,但我们不是针对参考策略和策略模型之间的边际进行优化,而是针对所选和拒绝响应之间的边际进行优化。