王二的数字花园

2026年03月18日

推理LLM的强化学习现状

原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客，系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法（REINFORCE、PPO）讲起，逐步深入到 GRPO 及后续改进方...

技术翻译 #LLM #强化学习 #深度学习 #AI研究

2026年03月14日

Heuristics 黄昏，Mechanism 迷途

当行动速度超过理解速度，我们正站在一个十字路口：一边是借助 LLM 实现能力飞跃的可能，一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们，单纯依赖经验的价值正在消退，真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制（Mechanism）。...

随笔 #思考 #LLM #AI

2026年03月10日

ContextPilot：基于上下文复用的长上下文推理加速方案

项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目，已被 MLSys 2026 接收。其核心思想是通过上下文复用（Context Reuse）来加速预填充（prefill）阶段，同时保持推理质量。核心指标指标提升效果缓存命中率 4–12× 提升 ...

技术分析论文解读 #LLM #推理优化 #KV Cache #开源项目分析 #MLSys 2026

2024年08月10日

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为： f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}123class FeedForward(nn.Module): def forward(self, x):...

paper #LLM

2024年06月02日

Bi-encoder vs Cross encoder? When to use which one?

Bi-encoder和Cross-encoder是在自然语言理解任务模型的两种不同方法，在信息检索和相似性搜索二者的使用更为广泛。在LLM大火的今天，RAG的pipe line中这两个模块作为提升检索精度的模块更是备受瞩目。 Bi-encoder Cross-encoder 架构...

技术 #LLM #RAG

2023年09月09日

了解LLM——LLM&& SD 基本概念

Causual LM这里以llama模型为例，通常在执行用户输入之前会有一个[[文章/LM basic知识#Prefill]]的过程。然后根据用户promts 得到输出。 Perfix LM这里以GLM为例介绍，展示了基本的流程。 prefix LM和causal LM的区别attention ...

技术 #LLM #SD

2023年09月09日

了解LLM —— LoRA

论文链接：link code: github 什么是LoRALoRA，英文全称Low-Rank Adaptation of Large Language Models，直译为大语言模型的低阶适应，是一种PEFT（参数高效性微调方法），这是微软的研究人员为了解决大语言模型微调而开发的一项技术。当然...

技术 #LLM #Deep Learning

2023年09月09日

TVM－MLC LLM 调优方案

LLM 等GPT大模型大火以后,TVM社区推出了自己的部署方案，支持Llama，Vicuna，Dolly等模型在iOS、Android、GPU、浏览器等平台上部署运行。 https://github.com/mlc-ai/mlc-llm 本文在之前作者介绍的基础上,简要介绍一下mlc的调优部署方案。...

技术 #LLM #TVM