王二的数字花园

2026年05月11日

SFT, RL 与离线蒸馏：从分布视角理解后训练

注：本文图片为 Mermaid 图表，原文使用 JavaScript 渲染，中文版暂不可用。详见英文原文。我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时，我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...

#LLM #RL #Post-training #SFT #Distillation

2026年05月09日

Learning Beyond Gradients（超越梯度的学习）

作者: Jiayi Weng（EnvPool 作者）原文: https://trinkle23897.github.io/learning-beyond-gradients/核心观点: 规则系统 + Coding Agent = 持续学习的新范式 ...

论文解读 #AI #RL #Heuristic Learning #Continual Learning

#RL

SFT, RL 与 离线蒸馏：从分布视角理解后训练

Learning Beyond Gradients（超越梯度的学习）

SFT, RL 与离线蒸馏：从分布视角理解后训练