#GPU

2 篇文章

2026年03月16日

GB200 NVL72 + GLM-5-FP8 成本深度拆解：从硬件折旧到每百万 Token 只需 38 元

随着大模型参数规模突破千亿，推理成本成为企业规模化落地的核心瓶颈。NVIDIA GB200 NVL72 机柜级系统凭借 72 张 B200 GPU 和 1.8TB/s NVLink 带宽，为 MoE（混合专家）模型提供了极致吞吐。本文将基于真实硬件和模型数据，一步步拆解部署 GLM-5-FP8 模型...

技术分析 #AI生成 #GPU #推理成本 #GB200 #NVIDIA #GLM

2024年06月16日

Nivdia向量数据库图检索最新标杆——CAGRA

CAGRA 是 N社在RAFT项目中最新的 ANN 向量索引。这是一种高性能的、 GPU 加速的、基于图的方法，尤其是针对小批量情况进行了优化，其中每次查找只包含一个或几个查询向量。与其他像HNSW、SONG等这类基于图的方法相似，CAGRA在索引训练阶段构建了一个经过优化的 k-最近邻（k-N...

技术 #GPU #ANN #向量检索 #RAFT