LLM 论文分享04:初探-如何用模型来做RLHF?

InstructGPT证明了,RLHF可以有效地使LLM与人类偏好一致,但是,收集人类偏好标签是一项耗时且昂贵的工作。

这篇发布于2023年9月1日的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

arxiv.org

,探讨了一种新型的强化学习方法——通过人工智能反馈进行强化学习(RLAIF),这种方法利用现成的大型语言模型(LLMs)来生成偏好标签,以替代人类标注者。

文章指出,尽管传统的基于人类反馈的强化学习(RLHF)在使大型语言模型与人类偏好对齐方面已经显示出有效性,但收集高质量的人类偏好标签既耗时又成本高昂。RLAIF提供了一种有希望的替代方案,它在文本摘要、有帮助的对话生成和无害对话生成等任务上,与RLHF相比,展现出了可比或更优越的性能,并且得到了人类评估者的认可。

文章还提到,即使在LLM偏好标签生成器与策略模型大小相同的情况下,RLAIF也能够超越监督式微调基线。此外,直接提示LLM给出奖励分数的方法,在性能上优于传统的RLAIF设置,后者首先将LLM偏好标签蒸馏到奖励模型中。最后,文章对生成对齐的AI偏好的技术进行了广泛研究,结果表明RLAIF可以实现人类水平的性能,为解决RLHF的可扩展性限制提供了潜在的解决方案。


接下来分享:Panda LLM 使用模型评价不同response的质量

论文地址: Panda LLM: Training Data and Evaluation for Open-Sourced Chinese Instruction-Following Large Language Models

arxiv.org

有感兴趣的可以先看起来~



另外:

读这篇论文,我用了之前[整理的李沐老师《如何读论文》

web.okjike.com

中的Part One。

LLM论文分享01:《D-CPT 定律:大型语言模型的特定领域持续预训练缩放定律》