跳至内容

Transformer强化学习

Transformers强化学习(TRL)是一个全栈库,提供了一套工具来训练transformer语言模型,方法包括监督微调(SFT)、组相对策略优化(GRPO)、直接偏好优化(DPO)、奖励建模等。该库与🤗 transformers集成。

在线方法如GRPO或Online DPO需要模型生成补全内容。vLLM可用于生成这些补全内容!

更多信息请参阅TRL文档中的指南vLLM for fast generation in online methods

信息

有关这些在线方法配置中可提供的use_vllm标志的更多信息,请参阅: - trl.GRPOConfig.use_vllm - trl.OnlineDPOConfig.use_vllm

优云智算