基于人类反馈的强化学习¶

基于人类反馈的强化学习（RLHF）是一种利用人类生成的偏好数据对语言模型进行微调的技术，旨在使模型输出与期望行为保持一致。

vLLM可用于为RLHF生成补全内容。最佳实现方式是使用TRL、OpenRLHF和verl等库。

如果您不想使用现有库，请参阅以下基础示例快速入门：