← 返回标签列表

#LLM

10 篇文章

DeepSeek-V4 论文逐页注解巡读

DeepSeek-V4 论文逐页注解巡读 作者: Igor Kotenkov 原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解,涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括:规模笔记、架构笔记、硬件笔记、训练笔记、...

SFT, RL 与 离线蒸馏:从分布视角理解后训练

注:本文图片为 Mermaid 图表,原文使用 JavaScript 渲染,中文版暂不可用。详见英文原文。 我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时,我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...

大模型为什么"知道但说不出来":从马嘉祺案例看 Token 切分与理解生成

最近刷到一个很好玩的话题。 起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候,发现模型虽然认识马嘉祺,但就是绕来绕去,说不出”马嘉祺”这三个字,会来一个”佳琪”,或者”琪琪”。 这个问题传到知乎上,引发了一堆开发者跟进测试,但受限于没有训练层面的访问权限,最终还是停留在现象描述层面。...

Heuristics 黄昏,Mechanism 迷途

当行动速度超过理解速度,我们正站在一个十字路口:一边是借助 LLM 实现能力飞跃的可能,一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们,单纯依赖经验的价值正在消退,真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制(Mechanism)。...

端侧 LLM 的PD分离技术之稀疏性

Attention是时空力场(LLM只有时,Version存在空间力场),而FFN则是空间结构,并且代表了基于Knowledge的静态高纬字典,也有人用图书馆来比喻。 首先回顾一下transformer block的结构,Attention +FFN,前者中的 kvcache 随着序列的...

Nvidia 的快速反量化操作

主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...