← 返回标签列表

#稀疏计算

1 篇文章

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}class FeedForward(nn.Module): def forward(self, x): ...