推理LLM的强化学习现状
原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客,系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法(REINFORCE、PPO)讲起,逐步深入到 GRPO 及后续改进方...
原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客,系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法(REINFORCE、PPO)讲起,逐步深入到 GRPO 及后续改进方...
随着大模型参数规模突破千亿,推理成本成为企业规模化落地的核心瓶颈。NVIDIA GB200 NVL72 机柜级系统凭借 72 张 B200 GPU 和 1.8TB/s NVLink 带宽,为 MoE(混合专家)模型提供了极致吞吐。本文将基于真实硬件和模型数据,一步步拆解部署 GLM-5-FP8 模型...
一场关于”8000片晶圆够不够用”的网络争论,引出的产业链深度验证 起因:一条微博引发的计算题几天前,一条关于华为芯片产能的微博引发了小范围讨论。原博提到一组预测数据:”去年中国使用的12nm以下先进工艺月产能仅为8000片(12英寸晶圆),到2027年将增至20000片,到2028年将达到4200...
前几天和一个朋友聊到什么叫”资产”。 他说标准答案啊,能带来现金流的叫资产,让你掏钱的是负债。我说对,但这只是钱的维度。还有一个维度被忽略了——时间。 我管它叫”时间流”视角。 什么意思呢?如果一个东西,它帮你省下了必须拿去换钱的时间,那它就是你的时间资产。反过来,如果一个东西逼着你卖掉更多时间去供...