← 返回标签列表

#LLM

10 篇文章

Heuristics 黄昏,Mechanism 迷途

当行动速度超过理解速度,我们正站在一个十字路口:一边是借助 LLM 实现能力飞跃的可能,一边是被速度裹挟、沦为”感觉在做事”的傀儡。 Heuristics 的黄昏告诉我们,单纯依赖经验的价值正在消退,真正的竞争力转向了”知道该做什么”以及搭建让 LLM 持续发挥价值的底层机制(Mechanism)。...

端侧 LLM 的PD分离技术之稀疏性

Attention是时空力场(LLM只有时,Version存在空间力场),而FFN则是空间结构,并且代表了基于Knowledge的静态高纬字典,也有人用图书馆来比喻。 首先回顾一下transformer block的结构,Attention +FFN,前者中的 kvcache 随着序列的...

Nvidia 的快速反量化操作

主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...

Bi-encoder vs Cross encoder? When to use which one?

Bi-encoder和Cross-encoder是在自然语言理解任务模型的两种不同方法,在信息检索和相似性搜索二者的使用更为广泛。在LLM大火的今天,RAG的pipe line中这两个模块作为提升检索精度的模块更是备受瞩目。 Bi-encoder Cross-encoder 架构...

了解LLM——LLM&& SD 基本概念

Causual LM这里以llama模型为例,通常在执行用户输入之前会有一个[[文章/LM basic知识#Prefill]]的过程。然后根据用户promts 得到输出。 Perfix LM这里以GLM为例介绍,展示了基本的流程。 prefix LM和causal LM的区别attention ...

了解LLM —— LoRA

论文链接:link code: github 什么是LoRALoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,是一种PEFT(参数高效性微调方法),这是微软的研究人员为了解决大语言模型微调而开发的一项技术。当然...