#llm

2 篇文章

2024年09月09日

端侧 LLM 的PD分离技术之稀疏性

Attention是时空力场（LLM只有时，Version存在空间力场），而FFN则是空间结构，并且代表了基于Knowledge的静态高纬字典，也有人用图书馆来比喻。首先回顾一下transformer block的结构，Attention +FFN，前者中的 kvcache 随着序列的...

技术 #llm

2024年08月16日

Nvidia 的快速反量化操作

主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。背景NN模型通常为了降低RAM、FLASH占用，提高计算吞吐率，会引入量化操作。比...

技术 #llm