跳至内容

基于人类反馈的强化学习

基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与期望行为保持一致。

vLLM可用于为RLHF生成补全内容。最佳实现方式是使用TRLOpenRLHFverl等库。

如果您不想使用现有库,请参阅以下基础示例快速入门: