Learning Beyond Gradients（超越梯度的学习）

作者: Jiayi Weng（EnvPool 作者）
原文: https://trinkle23897.github.io/learning-beyond-gradients/
核心观点: 规则系统 + Coding Agent = 持续学习的新范式

背景

作者在维护 EnvPool 时思考一个问题：能否用规则策略代替神经网络来测试游戏环境是否正确运行？

他用 Codex (gpt-5.4) 编写纯规则策略，结果远超预期：

关键发现：Codex 没有训练神经网络，而是维护一个可以持续增长的软件系统。

HL 的优势：

专家系统的问题是：维护成本太高。

今天加一条规则修 A，明天 B 坏了，后天再加一条 if-statement，大后天没人敢删任何东西了。

人类维护规则就像工业革命前纺纱——一个人能做，但规模一大，成本就爆炸了。Coding Agent 改变了这个维护曲线。

HL 也会遗忘，只是形式不同：

所以 HL 的持续学习需要两个操作：

一个只增长不压缩的 HS 最终会变成一个大泥球——记得很多，但没人敢碰，系统逐渐腐化。

这把 Continual Learning 从”怎么更新参数”变成了”怎么维护一个持续吸收反馈的软件系统”。

作者定义了耦合复杂度（coupling complexity）：一个 Coding Agent 为了支持 HL 能维护的策略复杂度。

当前范式演进：Pretraining → RLHF → 大规模 RL/RLVR。任何可以验证的东西都开始变得可解。

HL 的局限性：受限于代码能表达的东西，特别是复杂感知和长时泛化。

最有前景的方向：用 HL 快速处理在线数据，把在线经验转化为可训练、可回归测试、可过滤的数据，然后周期性更新神经网络。

机器人场景的 System 1 / System 2 分工：

实验代码和更多细节：https://github.com/Trinkle23897/learning-beyond-gradients