#模型优化

2 篇文章

2024年09月09日

Attention是时空力场（LLM只有时，Version存在空间力场），而FFN则是空间结构，并且代表了基于Knowledge的静态高纬字典，也有人用图书馆来比喻。首先回顾一下transformer block的结构，Attention +FFN，前者中的 kvcache 随着序列的...

技术 #LLM #模型优化

2024年08月10日

关于llama稀疏性的观察llama原始模型的FFN计算过程为： f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...

paper #LLM #模型优化 #稀疏计算