跳至内容

Transformers 强化学习

Transformers强化学习(TRL)是一个全栈库,提供了一套工具,用于通过监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)、奖励建模等方法训练Transformer语言模型。该库与🤗 transformers集成。

在线方法如GRPO或Online DPO需要模型生成补全内容。vLLM可用于生成这些补全结果!

更多信息请参阅TRL文档中的指南vLLM for fast generation in online methods

信息

有关这些在线方法配置中可提供的use_vllm标志的更多信息,请参阅: - trl.GRPOConfig.use_vllm - trl.OnlineDPOConfig.use_vllm