输入关键词开始搜索

GB200 NVL72 + GLM-5-FP8 成本深度拆解:从硬件折旧到每百万 Token 只需 38 元

随着大模型参数规模突破千亿,推理成本成为企业规模化落地的核心瓶颈。NVIDIA GB200 NVL72 机柜级系统凭借 72 张 B200 GPU 和 1.8TB/s NVLink 带宽,为 MoE(混合专家)模型提供了极致吞吐。本文将基于真实硬件和模型数据,一步步拆解部署 GLM-5-FP8 模型时,每百万 Token 的物理成本究竟是多少。

1. 硬件配置与模型选型

  • 硬件:GB200 NVL72(72×B200 GPU + 36×Grace CPU),配套液冷机柜
  • 模型:GLM-5-FP8(744B 参数,MoE 架构,激活 40B),采用 FP8 量化
  • 部署场景:24 小时满负荷运行,仅做文本生成(Decoding),目标用户体验 80 tokens/s

2. 成本构成拆解

总成本分为两大块:硬件折旧日常运行。我们按国内部署环境计算(汇率 7.2)。

2.1 硬件折旧(4 年,残值 0)

  • 单机柜硬件 + 配套总投资:$390 万(包含网络、存储、液冷基础设施等)
  • 人民币投资:$390 \times 10^4 \times 7.2 = 2808$ 万元
  • 折旧年限:4 年(1460 天),残值 0
  • 每日折旧额:$2808 \times 10^4 \div 1460 \approx 19,233$ 元/天

2.2 日常运行成本(国内)

项目 计算方式 每日成本(元)
电费 功耗 120kW × 24h = 2880 kWh,工业电价 0.6 元/kWh 1,728
液冷耗材 冷却液维护 + 季度检测(年约 3 万元) 82
人力分摊 液冷专家运维(年约 3.6 万元) 100
合计 1,910

注:电费按国内大工业电价中值估算,实际可通过峰谷电价降低。

2.3 每日总成本

$19,233\ (\text{折旧}) + 1,910\ (\text{运行}) = 21,143\ \text{元/天}$

3. 性能数据与日产量

基于官方基准(HGX B200 8 卡)推算 GB200 NVL72 72 卡的理论峰值:

  • 生成吞吐量:6,300 tokens/s(纯输出)
  • 日输出总量:$6,300 \times 3600 \times 24 = 544,320,000$ tokens ≈ 5.44 亿 tokens
  • 换算为百万单位:544 M tokens

4. 每百万 Token 成本

按当前汇率约合 5.4 美元/百万 token

5. 成本解读与对比

  • 纯能耗成本(不含折旧)仅为 3.36 元/百万 token,硬件折旧占了大头(约 92%)
  • 对比主流云厂商推理价格(通常 10-30 美元/百万 token),38 元(5.4 美元)的物理成本说明自建 GB200 NVL72 在极高并发下具备显著成本优势
  • 若按 4 年折旧计算,硬件摊销后每百万 token 仅增加约 35 元,而性能(吞吐量)是 H100 的数十倍,因此大模型推理的规模效应在此类超节点上体现得淋漓尽致

6. 重要说明

  • 理论峰值 vs 实际:上述吞吐量为理想满负荷值,实际生产中需考虑输入处理、请求间隔、波次效应等因素,日输出通常为峰值的 70%~85%
  • 未计入成本:机房租金、网络带宽、研发分摊、利润加成。商业推理价格通常会在物理成本基础上乘以 3~5 倍
  • 模型差异:GLM-5-FP8 为 MoE 模型,对通信带宽敏感,GB200 NVL72 的 NVLink 全域互联使其在 MoE 推理上优势巨大;若换用稠密模型,吞吐量会有所不同

7. 结论

在 GB200 NVL72 上部署 GLM-5-FP8,4 年折旧下的物理成本约为 38.8 元/百万 token。这一数据为企业和研究机构评估自建超节点推理成本提供了真实参考。随着软件栈持续优化(如更高效的并行策略、分离式推理服务),实际成本还有望进一步下降。

大模型推理正从”按需购买”走向”规模自建”,理解底层硬件成本和性能关系,将是未来决策的关键。