跳至内容

基于人类反馈的强化学习

基于人类反馈的强化学习(RLHF)是一种利用人类生成的偏好数据对语言模型进行微调的技术,旨在使模型输出与期望行为保持一致。

vLLM可用于生成RLHF的补全结果。实现方式包括使用TRLOpenRLHFverlunsloth等库。

如果您不想使用现有库,请参阅以下基础示例开始:

查看以下笔记本,了解如何使用vLLM进行GRPO:

优云智算