Qwen3.5 核心架构解析:Gated DeltaNet 线性注意力机制
概述Qwen3.5 在线性注意力层中采用了 Gated DeltaNet 机制,替代传统的 Softmax Attention。该架构实现了推理时 O(1) 的复杂度,同时通过 Delta Rule 保持长期记忆的精确度。 架构全景graph TD classDef storage fill...
概述Qwen3.5 在线性注意力层中采用了 Gated DeltaNet 机制,替代传统的 Softmax Attention。该架构实现了推理时 O(1) 的复杂度,同时通过 Delta Rule 保持长期记忆的精确度。 架构全景graph TD classDef storage fill...
原文: State of RL for reasoning LLMs by aweers 翻译说明: 本文翻译自 aweers 的技术博客,系统梳理了 2024-2026 年间推理 LLM 强化学习领域的重大发展。文章从基础算法(REINFORCE、PPO)讲起,逐步深入到 GRPO 及后续改进方...
当行动速度超过理解速度,我们正站在一个十字路口:一边是借助 LLM 实现能力飞跃的可能,一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们,单纯依赖经验的价值正在消退,真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制(Mechanism)。...
项目概述ContextPilot 是一个专注于长上下文 LLM 推理加速的开源项目,已被 MLSys 2026 接收。其核心思想是通过上下文复用(Context Reuse)来加速预填充(prefill)阶段,同时保持推理质量。 核心指标 指标 提升效果 缓存命中率 4–12× 提升 ...
Attention是时空力场(LLM只有时,Version存在空间力场),而FFN则是空间结构,并且代表了基于Knowledge的静态高纬字典,也有人用图书馆来比喻。 首先回顾一下transformer block的结构,Attention +FFN,前者中的 kvcache 随着序列的...
主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...
关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...
Bi-encoder和Cross-encoder是在自然语言理解任务模型的两种不同方法,在信息检索和相似性搜索二者的使用更为广泛。在LLM大火的今天,RAG的pipe line中这两个模块作为提升检索精度的模块更是备受瞩目。 Bi-encoder Cross-encoder 架构...
Causual LM这里以llama模型为例,通常在执行用户输入之前会有一个[[文章/LM basic知识#Prefill]]的过程。然后根据用户promts 得到输出。 Perfix LM这里以GLM为例介绍,展示了基本的流程。 prefix LM和causal LM的区别attention ...
论文链接:link code: github 什么是LoRALoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是一种PEFT(参数高效性微调方法),这是微软的研究人员为了解决大语言模型微调而开发的一项技术。当然...