← 返回标签列表

#AI生成

10 篇文章

RRAttention动态块稀疏注意力

RRAttention:基于逐头轮询移位的动态块稀疏注意力用于长上下文推理作者:Siran Liu¹’², Guoxia Wang¹, Sa Wang¹’²*, Jinle Zeng¹, HaoYang Xie¹, Siyu Lou¹, JiaBin Yang¹, DianHai Yu¹’², Ha...

时间扩展的混合专家模型

时间扩展的混合专家模型作者: Zeyu Shen, Peter Henderson(普林斯顿大学) 摘要混合专家(Mixture-of-Experts, MoE)模型目前在固定推理速度下扩展容量方面广受欢迎,但几乎在每个 token 都会切换专家。一旦模型超出可用 GPU 内存,这种频繁切换会使卸载...

翟东升 - 位置决定收入,天赋决定上限

翟东升:位置决定收入,天赋决定上限关于收入与阶层你知道你这辈子能挣到多少钱?这是一个残酷的世界——80亿人的金字塔,你处在这个金字塔的什么位置,就是你在整个社会残酷的分层中间在什么岗位。你能挣到的钱以及你能留住的钱,跟这个有关。 富人的消费与总需求今天整个世界面临的一个核心矛盾,就是富人他所有的欲望...