Transformer强化学习¶

Transformers强化学习(TRL)是一个全栈库，提供了一套工具来训练transformer语言模型，方法包括监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)、奖励建模等。该库与🤗 transformers集成。

在线方法如GRPO或Online DPO需要模型生成补全内容。vLLM可用于生成这些补全内容！

更多信息请参阅TRL文档中的指南vLLM for fast generation in online methods。

信息

有关这些在线方法配置中可提供的use_vllm标志的更多信息，请参阅： - trl.GRPOConfig.use_vllm - trl.OnlineDPOConfig.use_vllm