DeepSeek-V4 论文逐页注解巡读
DeepSeek-V4 论文逐页注解巡读 作者: Igor Kotenkov 原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解,涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括:规模笔记、架构笔记、硬件笔记、训练笔记、...
DeepSeek-V4 论文逐页注解巡读 作者: Igor Kotenkov 原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解,涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括:规模笔记、架构笔记、硬件笔记、训练笔记、...
注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...
最近刷到一个很好玩的话题。 起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候,发现模型虽然认识马嘉祺,但就是绕来绕去,说不出”马嘉祺”这三个字,会来一个”佳琪”,或者”琪琪”。 这个问题传到知乎上,引发了一堆开发者跟进测试,但受限于没有训练层面的访问权限,最终还是停留在现象描述层面。...
本文覆盖推理场景的 7 种并行策略:TP、PP、DP、EP、DP Attention、SP、CP。 按切分维度分为四组: Weight(参数维度):TP、EP Batch(样本维度):DP、DP Attention Sequence / Context(序列维度):SP、CP Layer(深度维度)...
原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客,系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法(REINFORCE、PPO)讲起,逐步深入到 GRPO 及后续改进方...
当行动速度超过理解速度,我们正站在一个十字路口:一边是借助 LLM 实现能力飞跃的可能,一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们,单纯依赖经验的价值正在消退,真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制(Mechanism)。...
项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目,已被 MLSys 2026 接收。其核心思想是通过上下文复用(Context Reuse)来加速预填充(prefill)阶段,同时保持推理质量。 核心指标 指标 提升效果 缓存命中率 4–12× 提升 ...
Attention是时空力场(LLM只有时,Version存在空间力场),而FFN则是空间结构,并且代表了基于Knowledge的静态高纬字典,也有人用图书馆来比喻。 首先回顾一下transformer block的结构,Attention +FFN,前者中的 kvcache 随着序列的...
主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...
关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...