SFT, RL 与 离线蒸馏:从分布视角理解后训练
这篇文章是对英文原文的翻译,原文地址:https://wanger-sjtu.github.io/2026-05-11-sft-rl-opd-distillation/ 原文关于灾难性遗忘、泛化以及 RL 与离线蒸馏之间联系的分析非常有洞见,作者提出了一个非常有用的心智模型:将后训练方法视为对模型...
钱塘江上潮信来,今日方知我是我
这篇文章是对英文原文的翻译,原文地址:https://wanger-sjtu.github.io/2026-05-11-sft-rl-opd-distillation/ 原文关于灾难性遗忘、泛化以及 RL 与离线蒸馏之间联系的分析非常有洞见,作者提出了一个非常有用的心智模型:将后训练方法视为对模型...
最近刷到一个很好玩的话题。 起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候,发现模型虽然认识马嘉祺,但就是绕来绕去,说不出”马嘉祺”这三个字,会来一个”佳琪”,或者”琪琪”。 这个问题传到知乎上,引发了一堆开发者跟进测试,但受限于没有训练层面的访问权限,最终还是停留在现象描述层面。...
本文覆盖推理场景的 7 种并行策略:TP、PP、DP、EP、DP Attention、SP、CP。 按切分维度分为四组: Weight(参数维度):TP、EP Batch(样本维度):DP、DP Attention Sequence / Context(序列维度):SP、CP Layer(深度维度)...
作者: Jiayi Weng(EnvPool 作者)原文: https://trinkle23897.github.io/learning-beyond-gradients/核心观点: 规则系统 + Coding Agent = 持续学习的 新范式 ...