Transformers 强化学习¶
Transformers强化学习(TRL)是一个全栈库,提供了一套工具,用于通过监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)、奖励建模等方法训练Transformer语言模型。该库与🤗 transformers集成。
在线方法如GRPO或Online DPO需要模型生成补全内容。vLLM可用于生成这些补全结果!
更多信息请参阅TRL文档中的指南vLLM for fast generation in online methods。
信息
有关这些在线方法配置中可提供的use_vllm
标志的更多信息,请参阅:
- trl.GRPOConfig.use_vllm
- trl.OnlineDPOConfig.use_vllm