王二的数字花园

钱塘江上潮信来,今日方知我是我

最新文章

RRAttention动态块稀疏注意力

RRAttention:基于逐头轮询移位的动态块稀疏注意力用于长上下文推理作者:Siran Liu¹’², Guoxia Wang¹, Sa Wang¹’²*, Jinle Zeng¹, HaoYang Xie¹, Siyu Lou¹, JiaBin Yang¹, DianHai Yu¹’², Ha...

废话

一步没赶上,步步赶不上

范伟最佳台词: 我这一生啊, 情窦初开的时候,父母不同意, 情窦再开的时候,老婆不同意, 情窦乱开的时候,子女不同意。 五官允许的时候,三观不允许, 现在三观允...

#废话 #人生

端侧AI的正确姿势

端侧AI的正确姿势端侧大模型时候未到,先进行智能化改造,打造脚手架。 Bottom-up 建立最小化 AI 场景,连点成线搭建端侧智能。

#废话 #端侧AI #脚手架

MoE预取与稀疏

MoE 预取考验的是体系结构认识,稀疏是对算法架构的洞察。

#废话 #MoE #体系结构 #稀疏

黑暗森林的游戏规则

只追求及格线,往往及格都过不了。 拼尽天赋追求满分极致,可能热情耗尽了,只想靠委屈妥协保住饭碗,往往不如你意。 AI附注:这是一个关于”度”的哲学思考。在目标设...

向量空间距离与FFN上限

向量空间距离度量方式限制了FFN大小的发展。所以MoE是当前的最优解。

#AI #MoE #FFN