王二的数字花园

最新文章

cuda_mode_1

hello load inline这个是torch加载C++扩展的简单demo。代码比较简单 123456789101112131415161718import torchfrom torch.utils.cpp_extension import load_inlinecpp_source = &q...

端侧 LLM 的PD分离技术之稀疏性

Attention是时空力场(LLM只有时,Version存在空间力场),而FFN则是空间结构,并且代表了基于Knowledge的静态高纬字典,也有人用图书馆来比喻。 首先回顾一下transformer block的结构,Attention +FFN,前者中的 kvcache 随着序列的...

Nvidia 的快速反量化操作

主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...

Turbo Sparse

关于llama稀疏性的观察llama原始模型的FFN计算过程为: f(x) = \text{silu}(xW_{Gate}) \odot xW_{UP} \times W_{Down}123class FeedForward(nn.Module): def forward(self, x):...

废话

SSD 的 DRAM 缓存与 FTL 映射表

SSD的主控芯片必须搭配DRAM缓存来存储FTL闪存映射表,这是决定SSD随机读写性能、使用寿命的核心部件,企业级NVMe SSD对DRAM的需求更是刚性且海量...

#storage #ssd #flash-memory #ftl

江湖就到这里吧

江湖就到这里吧。 废话

#随笔 #废话

口语文化的复兴

按照麦克卢汉的媒介四定律来推演,AI带来的一个重要后果,就是口语文化的复兴。 凡是能够被写下来、存下来、格式化、标准化的东西,都会越来越容易被AI接管。到了这一...

#AI #麦克卢汉 #媒介理论 #思考

AI 压缩时间结构

AI 压缩的从来不只是生产成本,它压缩的还有时间结构本身。

#思考 #AI

破碎的指令构建虚伪的大厦

破碎的指令构建虚伪的大厦。

#随笔