SFT, RL 与 离线蒸馏:从分布视角理解后训练
这篇文章是对英文原文的翻译,原文地址:https://wanger-sjtu.github.io/2026-05-11-sft-rl-opd-distillation/ 原文关于灾难性遗忘、泛化以及 RL 与离线蒸馏之间联系的分析非常有洞见,作者提出了一个非常有用的心智模型:将后训练方法视为对模型...
这篇文章是对英文原文的翻译,原文地址:https://wanger-sjtu.github.io/2026-05-11-sft-rl-opd-distillation/ 原文关于灾难性遗忘、泛化以及 RL 与离线蒸馏之间联系的分析非常有洞见,作者提出了一个非常有用的心智模型:将后训练方法视为对模型...