王二的数字花园

2026年05月12日

DeepSeek-V4 论文逐页注解巡读

DeepSeek-V4 论文逐页注解巡读作者: Igor Kotenkov 原文: DeepSeek-V4: Annotated Paper Walkthrough 本文档包含 50 条注解，涵盖 DeepSeek-V4 论文的核心技术要点。注解类型包括：规模笔记、架构笔记、硬件笔记、训练笔记、...

#LLM #论文解读 #DeepSeek #MoE

2026年05月11日

SFT, RL 与离线蒸馏：从分布视角理解后训练

注：本文图片为 Mermaid 图表，原文使用 JavaScript 渲染，中文版暂不可用。详见英文原文。我一直从分布的角度思考后训练方法。语言模型是序列上的一个分布。当我们对其进行后训练并试图教它一个任务时，我们实际上是在重塑这个分布。不同的后训练方法在如何重塑分布、什么是目标分布、以及如何...

#LLM #RL #Post-training #SFT #Distillation

2026年05月11日

大模型为什么"知道但说不出来"：从马嘉祺案例看 Token 切分与理解生成

最近刷到一个很好玩的话题。起因这是一个时代少年团的粉丝在测试 MiniMax 的模型的时候，发现模型虽然认识马嘉祺，但就是绕来绕去，说不出”马嘉祺”这三个字，会来一个”佳琪”，或者”琪琪”。这个问题传到知乎上，引发了一堆开发者跟进测试，但受限于没有训练层面的访问权限，最终还是停留在现象描述层面。...

技术 #LLM #Tokenization #理解层 #生成层 #词向量

2026年05月11日

大模型推理夯实：并行策略图解

本文覆盖推理场景的 7 种并行策略：TP、PP、DP、EP、DP Attention、SP、CP。按切分维度分为四组： Weight（参数维度）：TP、EP Batch（样本维度）：DP、DP Attention Sequence / Context（序列维度）：SP、CP Layer（深度维度）...

技术 #LLM #推理优化 #并行策略 #TP #PP #DP #EP

2026年03月18日

推理LLM的强化学习现状

原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客，系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法（REINFORCE、PPO）讲起，逐步深入到 GRPO 及后续改进方...

技术翻译 #AI生成 #LLM #强化学习 #深度学习 #AI研究

2026年03月14日

Heuristics 黄昏，Mechanism 迷途

当行动速度超过理解速度，我们正站在一个十字路口：一边是借助 LLM 实现能力飞跃的可能，一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们，单纯依赖经验的价值正在消退，真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制（Mechanism）。...

随笔 #AI生成 #思考 #LLM #AI

2026年03月10日

ContextPilot：基于上下文复用的长上下文推理加速方案

项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目，已被 MLSys 2026 接收。其核心思想是通过上下文复用（Context Reuse）来加速预填充（prefill）阶段，同时保持推理质量。核心指标指标提升效果缓存命中率 4–12× 提升 ...

技术分析论文解读 #LLM #推理优化 #KV Cache #长上下文 #MLSys 2026

2024年09月09日

端侧 LLM 的PD分离技术之稀疏性

Attention是时空力场（LLM只有时，Version存在空间力场），而FFN则是空间结构，并且代表了基于Knowledge的静态高纬字典，也有人用图书馆来比喻。首先回顾一下transformer block的结构，Attention +FFN，前者中的 kvcache 随着序列的...

技术 #LLM #模型优化

2024年08月16日

Nvidia 的快速反量化操作

主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。背景NN模型通常为了降低RAM、FLASH占用，提高计算吞吐率，会引入量化操作。比...

技术 #LLM #性能优化 #量化

2024年08月10日

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为： f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...

paper #LLM #模型优化 #稀疏计算