Reward rAnked FineTuning (RAFT)

 ✒️ @halomaster 📅 14 Apr 2023, 08:20 GMT⋮ 【AI】 

新框架Reward rAnked FineTuning(RAFT),用于对生成模型进行人工调节。主要思想和贡献如下: 1. 在大型无标注数据集上训练的生成基础模型会产生未预期的偏见,需要进行调节以确保在现实场景中的安全和公平使用。以前的工作主要依赖人工反馈的强化学习(RLHF)进行调节,但RLHF经常遭遇不稳定性和低效性。 2. RAFT框架旨在简化和加强调节流程。它根据奖励模型排名生成的样本并选择最佳样本来构建微调数据集。这避免直接使用RL与生成模型交互,导致更稳定和高效的调节。 3. RAFT框架适用于离线和在线设置。对于离线调节,它使用一组固定的样本构建微调数据集。对于在线调节,它不断生成新样本和更新数据集,实现与动态人工偏好的持续调节。 4. RAFT框架支持黑盒生成模型,因为它不需要样本生成的梯度信息。它将生成模型视为不透明的样本生成器,只需要其样本作为输入。这使得RAFT与各种生成模型兼容。 5. 在两个大型语言模型上进行的实验表明,RAFT框架可以有效地调整生成模型以匹配人工偏好和价值观,与RLHF方法相比,其稳定性更高,人力成本更低。 6. RAFT框架为解决生成基础模型调节的关键问题提供了一般解决方案。通过简化和稳定调节过程,它实现了更安全和更公平的强大生成模型的使用。这可以使许多依赖大型生成模型的应用受益。 这项工作提出了一种无梯度的新框架,以更稳定和更高效的方式将黑盒生成模型与人工偏好调节。它将生成模型视为不透明的样本生成器,并排名其样本来构建微调数据,避免直接使用RL与模型交互。实验表明,其在调节大型语言模型方面优于RLHF方法。该框架为安全使用生成基础模型提供了一种有promising的方向。


[1] @halomaster • 14 Apr 2023, 08:20 GMT 
https://optimalscale.github.io/LMFlow/examples/raft.html


[2] @halomaster • 14 Apr 2023, 10:58 GMT 
![image.png](https://s2.loli.net/2023/04/14/KW2VBuvbCeHl1Oh.png)


1 of 1 pages  2 replies