王二的数字花园

2024年08月10日

关于llama稀疏性的观察llama原始模型的FFN计算过程为： f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...

paper #LLM #模型优化 #稀疏计算