基于人类反馈的强化学习¶ 基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与期望行为保持一致。 vLLM可用于生成RLHF的补全结果。实现方式包括使用TRL、OpenRLHF、verl和unsloth等库。 如果您不想使用现有库,请参阅以下基础示例开始: 训练和推理过程位于独立的GPU上(灵感来自OpenRLHF) 训练和推理过程通过Ray在同一GPU上协同运行 使用vLLM执行RLHF的实用工具 查看以下笔记本,了解如何使用vLLM进行GRPO: Qwen-3 4B GRPO 使用 Unsloth + vLLM