← 返回标签列表

#RL

2 篇文章

SFT, RL 与 离线蒸馏:从分布视角理解后训练

注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...