SFT, RL 与 离线蒸馏:从分布视角理解后训练
注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...
注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...
作者: Jiayi Weng(EnvPool 作者)原文: https://trinkle23897.github.io/learning-beyond-gradients/核心观点: 规则系统 + Coding Agent = 持续学习的 新范式 ...