Nvidia 的快速反量化操作
主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...
主要记录了论文Who Says Elephants Can’t Run: Bringing Large Scale MoE Models into Cloud Scale Production中关于反量化的快速操作。 背景NN模型通常为了降低RAM、FLASH占用,提高计算吞吐率,会引入量化操作。比...
LLM的模型的爆火,意外带动了向量数据库的热度。之前名不见经传的一些初创公司也突然备受追捧。最近在分析端侧LLM场景的时候也分析了相关的一些向量数据库的相关知识。 GPT的缺陷chatgpt在对话过程中表现出的能力包括了一定的上下文检索能力。但这个能力是基于LLM本身的上下文理解能力完成的,但受限于...