RLAIF | Notion

LLM 论文分享04：初探-如何用模型来做RLHF？

InstructGPT证明了，RLHF可以有效地使LLM与人类偏好一致，但是，收集人类偏好标签是一项耗时且昂贵的工作。

这篇发布于2023年9月1日的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》

，探讨了一种新型的强化学习方法——通过人工智能反馈进行强化学习（RLAIF），这种方法利用现成的大型语言模型（LLMs）来生成偏好标签，以替代人类标注者。

文章指出，尽管传统的基于人类反馈的强化学习（RLHF）在使大型语言模型与人类偏好对齐方面已经显示出有效性，但收集高质量的人类偏好标签既耗时又成本高昂。RLAIF提供了一种有希望的替代方案，它在文本摘要、有帮助的对话生成和无害对话生成等任务上，与RLHF相比，展现出了可比或更优越的性能，并且得到了人类评估者的认可。

文章还提到，即使在LLM偏好标签生成器与策略模型大小相同的情况下，RLAIF也能够超越监督式微调基线。此外，直接提示LLM给出奖励分数的方法，在性能上优于传统的RLAIF设置，后者首先将LLM偏好标签蒸馏到奖励模型中。最后，文章对生成对齐的AI偏好的技术进行了广泛研究，结果表明RLAIF可以实现人类水平的性能，为解决RLHF的可扩展性限制提供了潜在的解决方案。

接下来分享：Panda LLM 使用模型评价不同response的质量

论文地址： Panda LLM: Training Data and Evaluation for Open-Sourced Chinese Instruction-Following Large Language Models

arxiv.org

有感兴趣的可以先看起来~

另外：

读这篇论文，我用了之前[整理的李沐老师《如何读论文》

web.okjike.com

中的Part One。

LLM论文分享01：《D-CPT 定律：大型语言模型的特定领域持续预训练缩放定律》