从芯片到数据中心的完整认知链
GPU · 大模型 · AIDC
知识手册
系统理解 GPU 硬件、大模型运行原理、AI 数据中心基础设施,以及三者之间的深层联系。
三者关系总图
点击任意条目跳转到对应章节。理解这张图,就理解了整本手册的逻辑。
🖥
第一章:GPU 硬件
决定能做什么、做多快
TFLOPS(算力)
→ 训练速度 / Prefill 速度
HBM 带宽
→ Decode 速度(TPOT)
HBM 容量
→ 模型大小 / KV Cache 上限
NVLink 带宽
→ 多卡 MFU / 并行效率
TDP(功耗)
→ 散热需求 / 机柜密度
算力精度(FP8/FP4)
→ 实际可用 TFLOPS / 量化加速
⟷
硬件
决定
上限
决定
上限
⟷
🧠
第二章:大模型
消耗资源、产出智能
参数量 × 精度
→ 显存需求 → GPU 数量
上下文长度
→ KV Cache → HBM 容量
训练(算力密集)
→ TFLOPS + NVLink 决定速度
推理 Decode(带宽密集)
→ HBM 带宽决定速度
MFU(利用率)
→ 实际训练效率 / 成本
量化(FP8/INT4)
→ 显存压缩 → 推理提速
⟷
负载
决定
规格
决定
规格
⟷
🏭
第三章:AIDC
装载和运行一切的容器
GPU 功耗 × 数量
→ 供电容量 → UPS/PDU 规格
TDP → 散热方案
风冷(≤400W) / 液冷(≤1400W+)
集群规模 → 网络拓扑
IB/RoCE → MFU → 训练效率
PUE(能效)
→ 实际电费 → 5 年 TCO
选址(东部 vs 西部)
电费幻觉:三笔隐形税
机房等级(Tier 1–4)
→ 可用性 → 冗余设计
阅读建议:三章可以独立阅读,但建议按顺序看一遍。第一章的 TFLOPS/HBM/NVLink/TDP 是理解后两章的基础;第二章的显存需求和 MFU 是第三章 AIDC 规格选型的输入;第三章的东数西算案例把所有概念串成一个真实决策场景。
第一章
GPU 硬件基础
在理解大模型和数据中心之前,先把 GPU 硬件吃透。这一章从"GPU 是什么"开始,到产品家族、关键参数、算力精度、Roofline 模型、设备形态,逐层展开。
1.1
GPU 卡 / GPU 模组 / GPU 服务器的区别
这三个是不同层次的概念,从小到大嵌套:GPU 卡是最基础的硬件单元,GPU 模组是集成了互联的加速单元,GPU 服务器是包含 CPU、内存、存储、网络的完整计算节点。
GPU 卡
最基础单元。PCIe 插卡形态,插在服务器主板上。
典型:H100 PCIe、A100 PCIe
特点:标准化接口,OEM 灵活集成
对比:SXM 形态不算"卡",是模组
典型:H100 PCIe、A100 PCIe
特点:标准化接口,OEM 灵活集成
对比:SXM 形态不算"卡",是模组
GPU 模组
集成单元,GPU 芯片 + 互联 + 散热一体。
典型:SXM 模组(H100/B200)、OAM 模组(开放标准)
特点:NVLink 直连,带宽远超 PCIe
使用:插入 HGX 底板(UBB)
典型:SXM 模组(H100/B200)、OAM 模组(开放标准)
特点:NVLink 直连,带宽远超 PCIe
使用:插入 HGX 底板(UBB)
GPU 服务器
完整计算节点:CPU + 主板 + 内存 + 存储 + 多块 GPU + 网卡 + 机箱。
典型:HGX H100(8卡 SXM 模组方案)、DGX B200(含完整软件栈)
OEM 厂商基于 HGX 平台集成,形成各自品牌的 GPU 服务器产品
典型:HGX H100(8卡 SXM 模组方案)、DGX B200(含完整软件栈)
OEM 厂商基于 HGX 平台集成,形成各自品牌的 GPU 服务器产品
类比:GPU 卡 = 发动机,GPU 模组 = 发动机组,GPU 服务器 = 整辆车,GPU 集群 = 车队。HGX(SXM 模组方案,模组直接连在底板上)和 PCIe 卡方案的区别,本质上就是"发动机组一体化"和"独立发动机插槽"的区别——互联带宽和持续性能差异显著。
1.2
NVIDIA 产品家族全对比
NVIDIA 数据中心 GPU 经历了三代架构:Ampere(A100)→ Hopper(H100/H200/H20)→ Blackwell(B100/B200/B300)。每代在算力、显存、互联、功耗上都有质的跳跃。GB200/GB300 是 GPU + ARM CPU 的超级芯片形态,只以 NVL72 整机柜交付。
A100
Ampere 2020 · TSMC 7nm
HBM80GB HBM2e
带宽2.0 TB/s
FP16312 TFLOPS
FP8不支持
TDP400 W
H100
Hopper 2022 · TSMC 4nm
HBM80GB HBM3
带宽3.35 TB/s
FP8 dense1,979 TFLOPS
NVLink4代/900GB/s
TDP700 W
H20 中国
Hopper CN 2024 · PCIe only
HBM96GB HBM3
带宽4.0 TB/s
FP8 dense148 TFLOPS
NVLink无(PCIe)
TDP400 W
H200
Hopper 2023 · TSMC 4nm
HBM141GB HBM3e
带宽4.8 TB/s
FP8 dense1,979 TFLOPS
NVLink4代/900GB/s
TDP700 W
B200
Blackwell 2024 · TSMC 4NP
HBM192GB HBM3e
带宽8.0 TB/s
FP8 dense9,000 TFLOPS
NVLink5代/1800GB/s
TDP1,000 W
B300
Blackwell Ultra 2025 H2
HBM288GB HBM3e
带宽8.0 TB/s
FP8 dense15,000 TFLOPS
NVLink5代/1800GB/s
TDP1,400 W
H100→H200:算力相同,带宽 +43%,显存 +76%,H200 主要用于大显存推理场景。H100→B200:算力约 4.5×,但需要液冷(1000W vs 700W)。GB200 NVL72 是整机柜方案,72 GPU 全互联,不单独销售,算力可达 ~576 PFLOPS FP8 dense。
| 芯片 | 架构 | HBM | 带宽 | FP16 dense | FP8 dense | FP4 dense | NVLink | TDP |
|---|---|---|---|---|---|---|---|---|
| ── Ampere ────────── | ||||||||
| A100 SXM4 | Ampere | 80GB HBM2e | 2.0 TB/s | 312 TFLOPS | — | — | NVLink 3 | 400 W |
| ── Hopper ────────── | ||||||||
| H100 SXM5 | Hopper | 80GB HBM3 | 3.35 TB/s | 1,979 TFLOPS | 1,979 TFLOPS | — | NVLink 4 | 700 W |
| H20 CN | Hopper CN | 96GB HBM3 | 4.0 TB/s | 148 TFLOPS | 148 TFLOPS | — | PCIe only | 400 W |
| H200 SXM | Hopper | 141GB HBM3e | 4.8 TB/s | 1,979 TFLOPS | 1,979 TFLOPS | — | NVLink 4 | 700 W |
| ── Blackwell ──────── | ||||||||
| B100 | Blackwell | 192GB HBM3e | 8.0 TB/s | 3,500 TFLOPS | 7,000 TFLOPS | 14,000 TFLOPS | NVLink 5 | 700 W |
| B200 | Blackwell | 192GB HBM3e | 8.0 TB/s | 4,500 TFLOPS | 9,000 TFLOPS | 18,000 TFLOPS | NVLink 5 | 1,000 W |
| ── Blackwell Ultra ── | ||||||||
| B300 | BW Ultra | 288GB HBM3e | 8.0 TB/s | 7,500 TFLOPS | 15,000 TFLOPS | 30,000 TFLOPS | NVLink 5 | 1,400 W |
统一口径:本表所有 TFLOPS 为 dense(稠密)算力。sparse(稀疏)= dense × 2,需要 2:4 结构化稀疏预处理才能实现。H20 为 PCIe-only,无节点内 NVLink,几乎不适合分布式训练。
| 系统 | GPU | GPU 数 | 总显存 | FP8 dense 整机 | 整机功耗 | 散热 |
|---|---|---|---|---|---|---|
| HGX A100 | A100 SXM4 | 8 | 640 GB | —(无FP8) | ~10 kW | 风冷 |
| HGX H100 | H100 SXM5 | 8 | 640 GB | 15.8 PFLOPS | ~10–11 kW | 风冷 |
| DGX H100 | H100 SXM5 | 8 | 640 GB | 15.8 PFLOPS | ~10.2 kW | 风冷 |
| HGX H20 CN | H20 | 8 | 768 GB | 1.18 PFLOPS | ~3.5 kW | 风冷 |
| HGX H200 | H200 SXM | 8 | 1,128 GB | 15.8 PFLOPS | ~10–11 kW | 风冷 |
| HGX B200 | B200 SXM | 8 | 1,440 GB | 72 PFLOPS | ~14.3 kW | 液冷建议 |
| DGX B200 | B200 SXM | 8 | 1,440 GB | 72 PFLOPS | ~14.3 kW | 液冷建议 |
| HGX B300 | B300 SXM | 8 | 2,304 GB | 120 PFLOPS | >14 kW | 液冷必须 |
| GB200 NVL72 | GB200 超芯 | 72+36CPU | 13.8 TB | ~576 PFLOPS | 120–140 kW | 液冷必须 |
| GB300 NVL72 | GB300 超芯 | 72+36CPU | 20.7 TB | ~1,080 PFLOPS | ~140 kW | 液冷必须 |
DGX vs HGX:DGX 含 NVIDIA 完整软件栈(DGX OS、AI Enterprise);HGX 是 OEM/ODM 自由集成平台,各品牌 GPU 服务器均基于 HGX 底板构建。NVL72 不是服务器,是整机柜系统。
1.3
五个关键硬件参数
这五个参数决定了 GPU 的能力边界,也是后续理解训练/推理瓶颈的基础。每个参数影响的场景完全不同,不能混为一谈。
TFLOPS(算力)
计算峰值
Tensor Core 每秒能完成多少次浮点乘加。
影响:训练速度、Prefill 速度。
注意:有 dense/sparse 之分,dense 才是真实基准。
影响:训练速度、Prefill 速度。
注意:有 dense/sparse 之分,dense 才是真实基准。
HBM 带宽
数据传输速度
HBM 显存每秒能向 Tensor Core 输送多少数据。
影响:推理 Decode 速度(TPOT)。
核心:Decode 时 GPU 在等数据,带宽是瓶颈。
影响:推理 Decode 速度(TPOT)。
核心:Decode 时 GPU 在等数据,带宽是瓶颈。
HBM 容量
仓库大小
能放多少模型权重和中间数据。
影响:最大模型大小、KV Cache 长度、并发数。
训练:推理显存需求的 6–8 倍。
影响:最大模型大小、KV Cache 长度、并发数。
训练:推理显存需求的 6–8 倍。
NVLink 带宽
GPU 间高速公路
节点内 GPU 之间的通信带宽。
影响:多卡训练 MFU、张量并行效率。
关键:H20 无 NVLink,分布式训练 MFU 极低。
影响:多卡训练 MFU、张量并行效率。
关键:H20 无 NVLink,分布式训练 MFU 极低。
TDP(热设计功耗)
功耗上限
GPU 满载时的设计散热功耗上限。
影响:散热需求、机柜密度、持续算力。
趋势:A100=400W → H100=700W → B300=1400W。
影响:散热需求、机柜密度、持续算力。
趋势:A100=400W → H100=700W → B300=1400W。
工厂类比帮助记忆:TFLOPS = 工人工作速度,HBM 带宽 = 传送带速度,HBM 容量 = 仓库大小,NVLink = 工厂间高速公路,TDP = 工厂最大用电功率。训练时工人很忙(算力瓶颈);推理 Decode 时工人在等传送带(带宽瓶颈)。
1.4
算力精度:FP64 → FP4
同一块 GPU,用不同精度跑出的 TFLOPS 差异悬殊。精度越低,单位时间能做的运算越多,但表示的数值范围和小数精度越低。选对精度,是高效使用 GPU 的关键。
符号位(正/负)
指数位(数量级范围)
尾数位(小数精度)
FP64
S
指数 11 位
尾数 52 位(科学计算、物理仿真标准)
64 bit
FP32
S
指数 8
尾数 23 位
32 bit
BF16
S
指数 8(同FP32,范围等价)
尾 7
16 bit
FP16
S
指 5
尾数 10 位
16 bit
FP8
S
指 4
尾 3
8 bit
FP4
S
指 2
尾
4 bit
稠密(Dense)
每个运算单元都参与计算时的理论峰值。
是更真实的基准,做性能对比时应统一用 dense。
是更真实的基准,做性能对比时应统一用 dense。
稀疏(Sparse / 2:4)
对权重做 2:4 结构化剪枝,每 4 个权重中强制 2 个为零,专用硬件只算非零部分,吞吐翻倍。
Sparse = Dense × 2,NVIDIA 对外首发数字通常是 sparse 口径。
Sparse = Dense × 2,NVIDIA 对外首发数字通常是 sparse 口径。
各精度用途速查:
| 精度 | 训练 | 推理 | 关键特点 | GPU 支持 |
|---|---|---|---|---|
| FP64 | 几乎不用 | 不用 | 科学计算标准,AI GPU 刻意削减 | 全部 |
| FP32 | 梯度累积 | 不用 | 存 Adam 优化器状态(FP32) | 全部 |
| BF16 | 训练主力 | 推理 | 范围同 FP32,训练稳定,PyTorch 默认 | A100+ |
| FP16 | 训练(需 loss scaling) | 推理 | 精度高但范围窄,易溢出 | 全部 |
| FP8 | 实验性 | 推理主力 | H100 引入,Transformer Engine 自动切换,吞吐翻倍 | H100+ |
| FP4 | 不用 | 量化推理 | Blackwell 引入,配合 MTS 微张量缩放,权重体积 ÷4 | B100+ |
1.5
Roofline 模型:算力受限 vs 带宽受限
Roofline 是理解"为什么训练看 TFLOPS、推理 Decode 看 HBM 带宽"的核心模型。它把任何计算任务的性能上限,用一条折线表示清楚。
H100 Roofline
H200 Roofline(带宽更高)
● 黄点 = Decode(带宽受限) ● 绿点 = Prefill/训练(算力受限)
算术强度(Arithmetic Intensity) = FLOP ÷ 访存字节数。
矩阵乘 [M,K]×[K,N]:强度 ≈ M×K×N / (M×K + K×N)。
当 M 很大(训练/prefill),强度高 → 算力受限。
当 M=1(decode 单 token),强度 ≈ 1 FLOP/B → 带宽受限。
矩阵乘 [M,K]×[K,N]:强度 ≈ M×K×N / (M×K + K×N)。
当 M 很大(训练/prefill),强度高 → 算力受限。
当 M=1(decode 单 token),强度 ≈ 1 FLOP/B → 带宽受限。
脊点(Ridge Point) = TFLOPS ÷ HBM 带宽。
H100:1979 TFLOPS ÷ 3.35 TB/s ≈ 65 FLOP/B。
算术强度 > 脊点 → 算力是瓶颈,提带宽没用。
算术强度 < 脊点 → 带宽是瓶颈,提 TFLOPS 没用。
Decode 的强度 ≈ 1,远低于 65,GPU 99% 时间空等数据。
H100:1979 TFLOPS ÷ 3.35 TB/s ≈ 65 FLOP/B。
算术强度 > 脊点 → 算力是瓶颈,提带宽没用。
算术强度 < 脊点 → 带宽是瓶颈,提 TFLOPS 没用。
Decode 的强度 ≈ 1,远低于 65,GPU 99% 时间空等数据。
1.6
设备形态分类
市场上的 GPU 服务器按来源和配置方式有多种形态,采购决策前需要明确各类型的保障程度和风险。
原厂新机(Brand New)
整机由 NVIDIA/Dell/HPE 等出厂,未使用过。
保障:完整原厂保修
价格:最高
保障:完整原厂保修
价格:最高
✓ 零风险
✗ 溢价高、交期长
OEM/ODM 整机
GPU 模组由 NVIDIA 供货,整机由 ODM(浪潮/白牌厂商)组装,基于 HGX 平台集成。
保障:正规渠道,有保修
价格:主流
保障:正规渠道,有保修
价格:主流
✓ 灵活定制
✗ 需验证渠道
翻新机(Refurbished)
经专业翻新商测试、更换磨损件后销售,有一定保修。A100/H100 二手市场常见。
价格:新卡的 60–80%
价格:新卡的 60–80%
✓ 性价比
✗ 寿命/隐患不确定
组装机(Custom-built)
买方自采 GPU 卡 + 服务器底座自行组装。灵活但需自己解决兼容性。初创公司早期常见。
价格:灵活
价格:灵活
✓ 灵活
✗ 兼容性风险
二手整机(Used Server)
使用过的完整 GPU 服务器,来源包括云厂商缩容、企业置换等。需核查使用时长、GPU 健康度和保修剩余。A100/H100 整机二手市场流通量较大。
价格:新机的 40–65%
风险:需专业验机
价格:新机的 40–65%
风险:需专业验机
✓ 价格低
✗ 状态不透明
★ 汇聚:GPU 代际 × 散热 × 机柜功率密度
这三者联动,是理解为什么 B200+ 必须液冷、AIDC 基础设施为何要升级换代的关键。
| GPU | 单卡 TDP | 8卡节点功耗 | 8节点/机柜 | 机柜总功率 | 散热要求 | 备注 |
|---|---|---|---|---|---|---|
| A100 SXM4 | 400 W | ~5 kW | 4–6 节点 | ~20–30 kW | 风冷 | 传统 IDC 可承载 |
| H100 SXM5 | 700 W | ~10 kW | 4 节点 | ~40 kW | 风冷(加强) | 需高密机柜 |
| H200 SXM | 700 W | ~10 kW | 4 节点 | ~40 kW | 风冷(加强) | 与 H100 同级 |
| B200 SXM | 1,000 W | ~14 kW | 3–4 节点 | ~50–60 kW | 液冷建议 | 风冷无法持续满载 |
| B300 SXM | 1,400 W | >14 kW | 3 节点 | >50 kW | 液冷必须 | 物理上不可风冷 |
| GB200 NVL72 | 整机柜 | 整机柜 | 1 机柜 | 120–140 kW | 液冷必须 | 需专用 CDU |
关键推论:机柜功率密度从 A100 时代的 20–30 kW 跳到 GB200 NVL72 的 140 kW,增加了 5–7 倍。这不是"同一个机房多装几台"能解决的,而是供电、散热、结构全部要重新设计。这是 AIDC 建设成本远超传统 IDC 的根本原因,也是第三章的起点。
本章依赖(来自)
GPU TDP 和 NVLink 基础知识(1.3)
产品家族代际关系(1.2)
本章影响(去往)
第三章 3.3 散热体系的选型依据
第三章 3.2 供电容量规划
第三章东数西算案例的硬件背景
第二章
大模型
GPU 是工具,大模型是使用这个工具完成的工作。这一章从模型本身的结构讲起,到训练和推理各自的性能瓶颈,再到如何把模型需求映射回第一章的 GPU 硬件参数。
2.1
Transformer 极简结构
现代大模型几乎都基于 Transformer 架构。不需要懂数学,但需要知道每个模块是什么,因为它们直接对应着显存和算力的消耗来源。
① Embedding 层
把文字(token)转成数字向量。词表大小 × 隐藏维度 = Embedding 矩阵大小。
显存:词表 × d_model × 2B(较小)
显存:词表 × d_model × 2B(较小)
② 注意力层(Attention)
每个 token 看其他所有 token,计算相关性权重。
Q / K / V 三个矩阵做线性变换。
KV Cache:推理时 K、V 矩阵要缓存,随上下文增长。
显存:权重 + KV Cache(可能很大)
Q / K / V 三个矩阵做线性变换。
KV Cache:推理时 K、V 矩阵要缓存,随上下文增长。
显存:权重 + KV Cache(可能很大)
③ FFN 层(前馈网络)
两个大矩阵乘法,先扩展维度再压缩。
FFN 参数量 ≈ 模型总参数的 2/3。
计算量:训练中最大的算力消耗来源。
FFN 参数量 ≈ 模型总参数的 2/3。
计算量:训练中最大的算力消耗来源。
④ 重复 N 层 + 输出层
上述①②③堆叠 N 层(如 80 层)即构成完整模型。
最后一层输出概率分布,决定下一个 token。
层数 × 每层参数 ≈ 总参数量
最后一层输出概率分布,决定下一个 token。
层数 × 每层参数 ≈ 总参数量
数据流向(单个 token)
输入文本 → Tokenizer → token ID
↓
Embedding:token ID → 向量 [1, d_model]
↓ × N 层
注意力层
Q = x·Wq K = x·Wk V = x·Wv
attn = softmax(QKᵀ/√d)·V
attn = softmax(QKᵀ/√d)·V
↓
FFN 层
h = GeLU(x·W₁) out = h·W₂
↓
输出层 → 词表概率 → 下一个 token
d_model = 隐藏维度(如 8192),N = 层数(如 80),这两个数字决定模型大小和显存需求。
| 架构参数 | 含义 | 典型值(70B) | 对显存的影响 | 对算力的影响 |
|---|---|---|---|---|
| 参数量 | 模型规模,最常引用的数字 | 70B | 权重 ≈ 140GB(FP16) | 训练总 FLOP ∝ 参数量 |
| 层数(N) | Transformer 堆叠的层数 | 80 层 | KV Cache ∝ 层数 | 计算量 ∝ 层数 |
| 隐藏维度(d) | 每层向量的宽度 | 8,192 | 权重大小 ∝ d² | 算术强度 ∝ d,影响 GPU 利用率 |
| 注意力头数(H) | 多头注意力的头数 | 64 头(MHA) 8 头(GQA) | KV Cache ∝ KV头数,GQA 节省 8× | 影响 attention 计算量 |
| 上下文长度 | 单次处理的最大 token 数 | 128k | KV Cache ∝ 上下文长度 | Prefill 时间 ∝ 上下文 |
| 词表大小 | Tokenizer 能识别的词元数 | 128k | Embedding 层 ≈ 词表×d×2B | 影响较小 |
MoE(混合专家):DeepSeek-V3 等模型是 671B 总参数,但每个 token 只激活约 37B 参数(路由到特定"专家"子网络)。计算量接近 37B 稠密模型,但推理时 HBM 里要装 671B 权重——省算力但费显存,对 NVLink 带宽要求也极高(专家并行需要跨卡通信)。
2.2
模型规格指标体系
评估一个模型可以从四个维度入手:模型自身属性、能力评测、推理效率、扩展能力。这四个维度对应的关注方不同:产品团队看能力,工程团队看效率,运维团队看成本。
① 模型自身属性
参数量:7B / 13B / 70B / MoE
上下文长度:训练支持 vs RoPE 外推可扩展
架构细节:层数、隐藏维度、GQA vs MHA
训练数据:多少 tokens、数据配比
训练算力:GPU·小时 / PetaFLOP-days
上下文长度:训练支持 vs RoPE 外推可扩展
架构细节:层数、隐藏维度、GQA vs MHA
训练数据:多少 tokens、数据配比
训练算力:GPU·小时 / PetaFLOP-days
② 能力评测(Benchmark)
综合知识:MMLU、CEval(中文)
数学推理:GSM8K、MATH、AIME
代码:HumanEval、SWE-bench
对话:MT-Bench、Arena Elo
工具使用:BFCL(函数调用)
数学推理:GSM8K、MATH、AIME
代码:HumanEval、SWE-bench
对话:MT-Bench、Arena Elo
工具使用:BFCL(函数调用)
③ 推理效率指标
TTFT:首 token 延迟(prefill 决定)
TPOT:每 token 生成延迟(带宽决定)
TPS:每秒生成 token 数(吞吐量)
显存占用:权重 + KV Cache + 运行时
量化损失:INT4/FP8 精度与体积权衡
TPOT:每 token 生成延迟(带宽决定)
TPS:每秒生成 token 数(吞吐量)
显存占用:权重 + KV Cache + 运行时
量化损失:INT4/FP8 精度与体积权衡
④ 扩展与部署能力
多模态:视觉/语音/视频支持
最大输出长度:单次回复上限(≠ 上下文)
并发支持:显存 + KV Cache 共同决定
API 成本:$/百万 token(输入/输出不同价)
硬件成本:需要几张什么卡
最大输出长度:单次回复上限(≠ 上下文)
并发支持:显存 + KV Cache 共同决定
API 成本:$/百万 token(输入/输出不同价)
硬件成本:需要几张什么卡
选模型的快速路径:先看基础规格(参数量、上下文长度、多模态)→ 再看目标场景的 benchmark 分(代码/数学/中文)→ 最后算成本(显存需求决定 GPU 数,决定价格)。不要只看 benchmark 总分,要看跟业务场景最相关的子分。
2.3
能力评测:常见 Benchmark 速查
Benchmark 是衡量模型能力的标准化考试,但每套考试考的侧重点不同。看跑分前先搞清楚这套题考的是不是你需要的能力。
| 名称 | 类型 | 考查内容 | 适合判断 | 注意 |
|---|---|---|---|---|
| MMLU | 综合知识 | 57 个学科选择题(高中到专业级) | 通用知识广度 | 选择题,不考生成能力 |
| CEval / CMMLU | 中文综合 | 中文各学科知识理解 | 中文场景选型 | 中文模型重要参考 |
| GSM8K | 数学推理 | 小学数学应用题,需多步推理 | 基础推理能力 | 已趋近饱和,区分度低 |
| MATH / AIME | 竞赛数学 | 高中竞赛 / 美国数学邀请赛 | 深度推理能力 | o3/R1 类模型优势显著 |
| HumanEval | 代码 | 根据注释写函数,看通过率(pass@1) | 代码生成能力 | 题目已泄露,参考 LiveCodeBench |
| SWE-bench | 代码 Agent | 自动修复真实 GitHub Issue | 工程实战能力 | 最接近真实工程场景 |
| MT-Bench | 多轮对话 | GPT-4 当裁判给多轮对话打分 | 对话/指令跟随 | 受裁判模型偏好影响 |
| Arena Elo | 人类偏好 | 用户盲测两个模型投票 | 实际使用体验 | 最接近真实用户感受 |
| BFCL | 工具调用 | 函数调用准确率 | Agent / 工具链 | 企业应用场景关键 |
数据污染问题:很多 benchmark 题目已经出现在训练数据中,导致分数虚高。选型时优先参考:① 最近发布的 benchmark(题目未泄露)② 与业务场景高度相关的专项测试 ③ 自己构建的内部评测集。
2.4
训练深入:为什么算力密集,如何衡量效率
训练是算力密集型的,核心原因是矩阵乘法的算术强度远超 GPU 的带宽脊点——读一次权重能做几千次乘加运算,计算才是瓶颈。但实际训练速度还受通信、显存、调度共同约束。
训练速度计算器(拖动滑块感受各因素影响)
模型参数量70 B
训练数据量2,000 GT
GPU FP16 dense TFLOPS1,979 T
GPU 数量128 张
MFU(实际利用率)40 %
总计算量
—
参数×tokens×6
有效算力
—
TFLOPS×N×MFU
预估训练时长
—
总量÷有效算力
TFLOPS×2 后
—
带宽/卡数无变化
公式:训练天数 = 参数量(B)×数据量(GT)×10⁹×6 ÷ (TFLOPS×10¹²×GPU数×MFU) ÷ 86400。系数6 = 前向×1 + 反向×2,再×2(乘加各算1次)。
MFU 为什么上不去——一个 step 的时间拆解
H100 集群训练 70B,典型 step 时间分解(通信无法隐藏时):
梯度通信是最大的算力黑洞:all-reduce 时 Tensor Core 空转等待网络。NVLink 5(B200,1800 GB/s)比 NVLink 4(H100,900 GB/s)快一倍,通信时间减半,MFU 可从 40% 提升到 ~55%。H20 无节点内 NVLink,通信走 PCIe(64 GB/s),通信占比可超 70%,MFU 可能低于 15%。
三种并行策略 × NVLink 的对应关系
数据并行(DP)
每卡有完整模型,处理不同 batch。
通信:每步做一次梯度 all-reduce。
通信量:参数量×4B×2
NVLink 依赖:中
时机:可与反向传播重叠
通信:每步做一次梯度 all-reduce。
通信量:参数量×4B×2
NVLink 依赖:中
时机:可与反向传播重叠
张量并行(TP)
把单层矩阵切分到多卡,每层都要 all-reduce 同步激活值,无法隐藏。
通信量:每层激活值×2
NVLink 依赖:极高
必须节点内:跨节点效率崩溃
通信量:每层激活值×2
NVLink 依赖:极高
必须节点内:跨节点效率崩溃
流水线并行(PP)
把模型层切分到多卡,像流水线一样传递激活值。
通信量:激活值(相对小)
NVLink 依赖:低–中
适合跨节点:走 InfiniBand
通信量:激活值(相对小)
NVLink 依赖:低–中
适合跨节点:走 InfiniBand
实际大模型训练 = 3D 并行:节点内 8 卡用 NVLink 跑张量并行(TP=8)→ 节点间用 InfiniBand 跑流水线并行(PP)→ 全局用数据并行(DP)同步梯度。ZeRO-3 在 DP 基础上把优化器状态、梯度、权重都分片,使单卡显存需求降低 N 倍。
训练显存分解计算器
模型参数量70 B
序列长度4,096
Batch size4
梯度检查点关闭
权重 BF16
梯度 FP32
Adam 优化器
激活值
权重(BF16)
—
梯度(FP32)
—
Adam 优化器
—
激活值
—
合计
—
—
Adam 是最大的隐形黑洞:一阶动量 + 二阶动量各需一份 FP32 参数副本,合计 = 参数量 × 8B。70B 模型优化器状态就是 560GB,比权重本身大 4 倍。ZeRO-3 把这部分分片到所有 GPU,每张卡只存 1/N。
2.5
推理深入:带宽决定 Decode,容量决定上下文
推理分两个截然不同的子阶段:Prefill 是算力密集型,Decode 是带宽密集型。理解这个区别,是理解"为什么 H200 在推理上比 H100 更有优势"的关键。
Prefill(处理 prompt)
输入:S 个 token 并行处理
矩阵乘形状:[S, d] × [d, d]
算术强度:≈ S/2 × d FLOP/B
S=4096 时:~4096 FLOP/B(远超脊点)
瓶颈:TFLOPS(算力受限)
影响指标:TTFT(首 token 延迟)
矩阵乘形状:[S, d] × [d, d]
算术强度:≈ S/2 × d FLOP/B
S=4096 时:~4096 FLOP/B(远超脊点)
瓶颈:TFLOPS(算力受限)
影响指标:TTFT(首 token 延迟)
Decode(逐 token 生成)
输入:1 个 token(串行)
矩阵乘形状:[1, d] × [d, d]
算术强度:≈ 1 FLOP/B
H100 脊点 ~65,decode 只有 1/65
瓶颈:HBM 带宽(带宽受限)
影响指标:TPOT(每 token 延迟)
矩阵乘形状:[1, d] × [d, d]
算术强度:≈ 1 FLOP/B
H100 脊点 ~65,decode 只有 1/65
瓶颈:HBM 带宽(带宽受限)
影响指标:TPOT(每 token 延迟)
Decode 速度计算器
模型参数量70 B
HBM 带宽3,350 GB/s
推理精度FP16 (2B)
Batch size1
权重大小
140 GB
算术强度
1 F/B
带宽受限
TPOT(每token)
—
= 权重÷带宽÷batch
最大 TPS
—
主流 GPU 理论 TPOT(70B FP16,batch=1):
量化提速的物理机制:FP16→FP8 把权重体积减半 → 相同带宽下搬运时间减半 → TPOT 减半。不是因为运算更快,而是需要搬运的数据更少。H200 比 H100 带宽提升 43%,decode 速度直接提升 43%,TFLOPS 完全相同。
KV Cache:上下文长度的代价
上下文长度(tokens)8,192
并发请求数8
模型层数80 层
KV Cache(单请求)
—
KV Cache(全部)
—
全部并发
模型权重
140 GB
70B FP16
总显存需求
—
—
KV Cache 公式:2(K+V)× 层数 × KV头数 × 头维度 × 上下文长度 × 并发数 × 精度字节。GQA 把 KV 头数从 64 减到 8,KV Cache 缩小 8×,是支持长上下文的关键架构优化。PagedAttention 解决 KV Cache 碎片,让同样显存服务更多并发。
吞吐量 vs 延迟:永恒的权衡
在线服务(低延迟优先)
Batch size 小 → TPOT 低 → 用户响应快
但 TPS 低,GPU 利用率不高
适合:ChatGPT 类实时对话
Batch size 小 → TPOT 低 → 用户响应快
但 TPS 低,GPU 利用率不高
适合:ChatGPT 类实时对话
离线批处理(高吞吐优先)
Batch size 大 → 算术强度提升 → TPS 高
但每个请求的 TPOT 增加
适合:批量文档处理、数据标注
Batch size 大 → 算术强度提升 → TPS 高
但每个请求的 TPOT 增加
适合:批量文档处理、数据标注
连续批处理(Continuous Batching)是现在提升 QPS 最主要的工程手段:请求完成就把空位填入新请求,而不是等一批全部完成。vLLM 的 PagedAttention 让 KV Cache 碎片化管理,与连续批处理配合,可以将 GPU 利用率从 30% 提升到 70%+。
2.6
GPU 硬件参数 ↔ 模型指标 映射表
把第一章的五个硬件参数和第二章的模型指标对应起来,搞清楚"优化哪个硬件参数能改善哪个模型指标"。点击每行展开详细说明。
| 模型指标 | 阶段 | 最相关 GPU 参数 | 次要因素 | 典型瓶颈 |
|---|
★ 汇聚:从模型选型到 GPU 配置推导链
输入模型参数和使用场景,推导出 GPU 型号和最少卡数。
输入:模型参数
参数量
70B
推理精度
FP16
上下文长度
8K
并发请求数
16
推导:显存需求
■ 权重■ KV Cache■ 运行时
结论:GPU 配置
本章依赖(来自第一章)
TFLOPS → 训练速度 / Prefill(1.3)
HBM 带宽 → Decode 速度(1.3)
HBM 容量 → 模型 + KV Cache 上限(1.3)
NVLink → 并行训练 MFU(1.3)
TDP → 散热 → 持续算力(1.3)
本章影响(去往第三章)
GPU 数量 × 功耗 → AIDC 供电规划(3.2)
集群规模 → 网络拓扑选型(3.4)
训练 vs 推理选址逻辑差异(东数西算案例)
TCO 计算器的硬件成本输入(3.7)
第三章
AIDC 数据中心
GPU 需要运行在某个地方,这个"地方"就是 AI 数据中心(AIDC)。它是连接 GPU 硬件和大模型的物理容器,供电、散热、网络三者共同决定了 GPU 能跑多快、跑多久、跑多便宜。第二章的显存需求和集群规模,在这里变成机柜、电缆、CDU 和真实的电费账单。
3.1
从 IDC 到 AIDC:功率密度的代际跳跃
传统 IDC(互联网数据中心)托管通用服务器,AI 时代催生了专门为 GPU 集群优化的 AIDC。两者不是量的差别,是质的不同——从设计标准到建设成本全面升级。
传统 IDC
功率密度:3–10 kW / 机柜
散热:精密空调(CRAC)风冷
计费:按 U 数和带宽
网络:1–10 Gbps 以太网
PUE:1.4–1.8
典型客户:电商、SaaS、游戏
散热:精密空调(CRAC)风冷
计费:按 U 数和带宽
网络:1–10 Gbps 以太网
PUE:1.4–1.8
典型客户:电商、SaaS、游戏
AIDC(AI 数据中心)
功率密度:30–140 kW / 机柜
散热:直接液冷(DLC)/ 浸没式
计费:按 GPU 卡数 / 算力
网络:200–400 Gbps InfiniBand / RoCE
PUE:1.1–1.3
典型客户:AI 训练、大模型推理
散热:直接液冷(DLC)/ 浸没式
计费:按 GPU 卡数 / 算力
网络:200–400 Gbps InfiniBand / RoCE
PUE:1.1–1.3
典型客户:AI 训练、大模型推理
机柜功率密度代际演进
从 A100 到 NVL72,机柜功率密度提升了 3–4 倍。这不是"加几台服务器"能解决的,而是供电主回路、散热管路、结构承重、消防系统全部要重新设计。这也是 AIDC 建设成本远超传统 IDC 改造成本的根本原因。
3.2
供电链路与冗余设计
电从电网到 GPU 要经过多级转换,每级都有损耗和冗余设计。AI 集群对供电稳定性要求极高——瞬间掉电会导致训练任务全部重跑,checkpoint 之前的计算全部作废。
供电链路(从电网到 GPU)
市电(10–35kV)
→
从电网引入,高压输送减少线路损耗
变压器
→
降压至 400V/220V,效率 98%+,双路冗余
UPS(不间断电源)
→
AI 集群的命脉:市电断电后继续供电 5–30 分钟(蓄电池),等待发电机启动。冗余配置 2N(两套完整系统互备)
发电机
→
30–60 秒内启动,长期备用(柴油储备 12–72h),配合 UPS 无缝切换
PDU(配电单元)
→
机柜级分配,精密计量每路功耗,智能 PDU 可远程断路保护
GPU 服务器
→
冗余电源(2+1),自动切换,每张 B200 消耗 1000W,8 卡节点约 11–14 kW
N 冗余
刚好够用,没有备份。单点故障 = 宕机。传统 IDC 常见。
N+1 冗余
一台备用。单点故障可继续运行。AIDC 标准配置。
2N 冗余
完整双套系统。任意一套全部宕机仍可运行。大型 AI 集群要求。
AIDC 验收时的 UPS 和发电机检测,核心就是验证这条链路在各种故障场景下能否无缝切换,保证训练任务不因供电闪断而中断。假负载测试(fake-load test)的目的是在不跑真实 GPU 负载的情况下,模拟最大功耗场景验证供电和散热的稳定性。
3.3
散热体系:与 GPU 代际严格对应
散热方案不是自由选择的,而是由 GPU 的 TDP 决定的物理约束。B200 的 1000W 和 B300 的 1400W 已经超出风冷的物理极限,液冷不是选项而是必须。
风冷(Air Cooling)
散热上限:~350W / GPU
持续系数:75–88%
适用 GPU:A100、H100、H200
机柜密度:10–50 kW
原理:冷空气从前门进、热空气从后门出,精密空调(CRAC)维持机房温度
持续系数:75–88%
适用 GPU:A100、H100、H200
机柜密度:10–50 kW
原理:冷空气从前门进、热空气从后门出,精密空调(CRAC)维持机房温度
✓ 成本低,部署简单
✗ B200+ 物理上做不到
直接液冷(DLC)
散热上限:700–1400W+ / GPU
持续系数:90–98%
适用 GPU:B200、B300、NVL72
机柜密度:40–140 kW
原理:冷却液通过 CDU(冷却分配单元)→ 机架管路 → 服务器冷板 → 直接带走芯片热量
持续系数:90–98%
适用 GPU:B200、B300、NVL72
机柜密度:40–140 kW
原理:冷却液通过 CDU(冷却分配单元)→ 机架管路 → 服务器冷板 → 直接带走芯片热量
✓ 持续算力高、PUE 低
✗ 改造成本高
浸没式冷却
散热上限:理论无上限
持续系数:~100%
适用场景:超高密度部署
机柜密度:200 kW+
原理:服务器整体浸泡在绝缘冷却液中,热量通过液体自然对流带走
持续系数:~100%
适用场景:超高密度部署
机柜密度:200 kW+
原理:服务器整体浸泡在绝缘冷却液中,热量通过液体自然对流带走
✓ 效率最高
✗ 维护复杂,成本极高
CDU(冷却分配单元)是液冷系统的核心
CDU 负责把冷水从楼层冷却水管引入,经过热交换器降温后分配到各机架的服务器冷板,再把吸热后的热水送回制冷系统。关键参数:
冷却容量(kW):CDU 能带走的最大热量,要覆盖机柜实际功率
进出水温差(ΔT):典型 5–15°C,影响散热效率
流量(L/min):与温差和功率直接相关,Q = ṁ × Cp × ΔT
冗余配置:A+B 双路,任意一路故障不影响运行
冷却容量(kW):CDU 能带走的最大热量,要覆盖机柜实际功率
进出水温差(ΔT):典型 5–15°C,影响散热效率
流量(L/min):与温差和功率直接相关,Q = ṁ × Cp × ΔT
冗余配置:A+B 双路,任意一路故障不影响运行
液冷 AIDC 验收中,CDU 性能测试的本质是在满功率情况下,验证进出水温差在设计范围内、流量稳定、无泄漏,且 A/B 路切换无中断。压力测试检查管路密封性,防止漏液导致服务器短路。
3.4
网络架构:计算网 vs 存储网
AIDC 里有两张完全独立的网络,新手最容易混淆。计算网决定 GPU 之间通信多快(影响 MFU),存储网决定训练数据读取多快(影响 GPU 等待磁盘的时间)。
计算网络(GPU 间通信)
协议:InfiniBand(IB)或 RoCE(RDMA over Converged Ethernet)
带宽:400 Gbps(HDR)/ 800 Gbps(NDR)单端口
延迟:亚微秒到微秒级(IB 端到端约 1–2 μs)
拓扑:Fat-tree 或 Rail-Optimized
用途:梯度 all-reduce、张量并行 all-reduce
影响:直接决定多机训练的 MFU
这张网买差了,再贵的 GPU 也发挥不出来。
带宽:400 Gbps(HDR)/ 800 Gbps(NDR)单端口
延迟:亚微秒到微秒级(IB 端到端约 1–2 μs)
拓扑:Fat-tree 或 Rail-Optimized
用途:梯度 all-reduce、张量并行 all-reduce
影响:直接决定多机训练的 MFU
这张网买差了,再贵的 GPU 也发挥不出来。
存储网络(数据读取)
协议:以太网(25/100 Gbps)
存储系统:分布式文件系统(GPFS/Lustre/NFS)
用途:读取训练数据集、写入 checkpoint
带宽需求:确保 GPU 不因等数据而空转
典型规模:训练数据 PB 级,checkpoint 单次几 TB
GPU 读数据的速度 > 训练消耗数据的速度,才不会出现 I/O bottleneck。
存储系统:分布式文件系统(GPFS/Lustre/NFS)
用途:读取训练数据集、写入 checkpoint
带宽需求:确保 GPU 不因等数据而空转
典型规模:训练数据 PB 级,checkpoint 单次几 TB
GPU 读数据的速度 > 训练消耗数据的速度,才不会出现 I/O bottleneck。
Fat-tree 拓扑:为什么 AI 集群用这个
Fat-tree 是多层交换机构成的无阻塞网络,任意两台服务器之间的带宽相等,没有"热点"瓶颈。典型三层结构:
接入层(ToR):服务器连接的第一级交换机,每台连 32–64 台服务器
汇聚层:连接多台 ToR,上行带宽 = 下行带宽(无收敛)
核心层:最顶层,连接所有汇聚层,实现跨机架全互联
Rail-Optimized 是针对 GPU all-reduce 优化的变体:同一 GPU 编号(如所有节点的 GPU0)接入同一台 ToR,all-reduce 时同类 GPU 通信尽量留在同一交换机域内,减少跨层流量。
接入层(ToR):服务器连接的第一级交换机,每台连 32–64 台服务器
汇聚层:连接多台 ToR,上行带宽 = 下行带宽(无收敛)
核心层:最顶层,连接所有汇聚层,实现跨机架全互联
Rail-Optimized 是针对 GPU all-reduce 优化的变体:同一 GPU 编号(如所有节点的 GPU0)接入同一台 ToR,all-reduce 时同类 GPU 通信尽量留在同一交换机域内,减少跨层流量。
3.5
PUE 与能效成本
PUE(Power Usage Effectiveness)是数据中心能效的核心指标,直接影响每度算力的电费成本。液冷是改善 PUE 最有效的手段。
PUE = 数据中心总用电 ÷ IT 设备用电
理想值 = 1.0(100% 电力用在 IT 上,散热和配电零损耗)
理想值 = 1.0(100% 电力用在 IT 上,散热和配电零损耗)
电费计算器(年度运营成本估算)
GPU 数量1,024 张
GPU 型号 TDP700 W
PUE1.30
工业电价(元/kWh)0.70 元
IT 设备功耗
—
GPU + 服务器其他
实际总功耗
—
× PUE
年电费
—
万元/年
PUE→1.1 节省
—
万元/年
液冷的投资回报:PUE 从 1.3 降到 1.1 意味着每度算力电费降低约 15%。对于千卡规模集群,年节省通常在数百万元,2–3 年即可回收液冷改造成本。这是 AIDC 投资液冷基础设施的经济逻辑。
3.6
机房等级(Tier 1–4)与可用性
TIA-942 标准定义了四个机房等级,从基本到容错,可用性和建设成本逐级提升。AI 训练集群通常要求 Tier 3 及以上。
| 等级 | 年可用性 | 年允许停机 | 冗余设计 | 适用场景 | 建设成本 |
|---|---|---|---|---|---|
| Tier 1 | 99.671% | 28.8 小时 | 无冗余,单路供电和散热 | 小型企业机房 | 基准 |
| Tier 2 | 99.741% | 22 小时 | 部分冗余,N+1 | 中型 IDC | 1.5× |
| Tier 3 ★ | 99.982% | 1.6 小时 | N+1,可在线维护(不停机维护) | AI 集群主流 | 2–3× |
| Tier 4 | 99.995% | 26 分钟 | 2N 完全容错,任意组件故障不影响 | 金融/核心系统 | 4–5× |
AI 训练集群通常选 Tier 3:可用性 99.982% 足以保证年度不超过 1.6 小时计划外停机,配合 checkpoint 机制(定期保存训练状态),即使短暂断电也可以从最近 checkpoint 恢复,不会完全丢失训练进度。Tier 4 的额外成本通常难以被 AI 训练业务的 ROI 支撑。
★ 实战案例
东数西算:电费幻觉与三笔隐形税
千万不要把 H100 训练集群放到西部。同样的显卡放在乌兰察布,比放在廊坊总成本反而更贵。为什么东数西算账面上的电费省了一半,但实际总账你可能倒贴?
账面逻辑(看起来西部更划算)
西部(乌兰察布 / 贵州)
⚡ 电价:0.25–0.35 元/kWh
🏭 地价:低
🌿 绿电指标:充裕
📊 账面算力成本:低 ~50%
🏭 地价:低
🌿 绿电指标:充裕
📊 账面算力成本:低 ~50%
东部(廊坊 / 张家口 / 嘉兴)
⚡ 电价:0.65–0.80 元/kWh
🏭 地价:高
🌿 绿电指标:紧张
📊 账面算力成本:高
🏭 地价:高
🌿 绿电指标:紧张
📊 账面算力成本:高
反常识现象:字节、阿里、月之暗面、DeepSeek 的核心训练集群全部在廊坊、张家口、嘉兴这些东部卫星城——没有一家把训练放到 1000km 外的西部。他们不是不知道西部电便宜,而是算清楚了这笔账。
三笔隐形税,加起来远超省下的电费
①
网络税——跨省延迟让 GPU 闲置等待
万卡集群要求节点间亚微秒到微秒级延迟、400G InfiniBand 内部带宽,这只能在同一园区内实现。
北京到内蒙专线单程约 5–10ms,all-reduce 一次约 10–20ms。而正常节点内 all-reduce 只需 <1ms。
结果:梯度通信时间膨胀 10–20 倍,MFU 从 40% 暴跌到 10% 以下。
同样的卡放西部,多跑 1–2 个月才能训练完——这 1–2 个月的 GPU 折旧 + 电费,省下的电费远不够填这个坑。
北京到内蒙专线单程约 5–10ms,all-reduce 一次约 10–20ms。而正常节点内 all-reduce 只需 <1ms。
结果:梯度通信时间膨胀 10–20 倍,MFU 从 40% 暴跌到 10% 以下。
同样的卡放西部,多跑 1–2 个月才能训练完——这 1–2 个月的 GPU 折旧 + 电费,省下的电费远不够填这个坑。
②
工程师税——现场调集群是日常
AI 训练不是"跑起来就放着",工程师每天都要蹲在现场处理:GPU 故障替换、通信拥塞调优、训练抖动排查、节点掉线重启……
跨省了:要么远程协作效率打折(网络问题、时差、沟通损耗),要么飞过去——机票 + 酒店 + 路上时间,一个月出差成本可能就是省下电费的好几倍。
结果:一个千卡集群的常驻工程师团队 3–5 人,跨省驻场成本每年轻松超过百万。
跨省了:要么远程协作效率打折(网络问题、时差、沟通损耗),要么飞过去——机票 + 酒店 + 路上时间,一个月出差成本可能就是省下电费的好几倍。
结果:一个千卡集群的常驻工程师团队 3–5 人,跨省驻场成本每年轻松超过百万。
③
数据传输税——每周都要交的过路费
千亿参数模型的单个 checkpoint(训练状态文件)= 5–15 TB。每隔几百步存一次,跨省专线传一次要十几小时。
每周迭代一次,这笔过路费每周都要交,一年 50 次 × 10–20 小时/次 = 500–1000 小时等待。
训练数据 PB 级从生产环境搬到西部,光带宽费就够呛;模型训练完还得传回来部署,每次往返都是真金白银。
结果:数据传输成本 + 时延损失,每年轻松数百万。
每周迭代一次,这笔过路费每周都要交,一年 50 次 × 10–20 小时/次 = 500–1000 小时等待。
训练数据 PB 级从生产环境搬到西部,光带宽费就够呛;模型训练完还得传回来部署,每次往返都是真金白银。
结果:数据传输成本 + 时延损失,每年轻松数百万。
正确的算法:算力总成本五项
⚡
电费
GPU×TDP×PUE×电价
🌐
网络
专线+带宽+MFU损失
👨💻
工程师
驻场/出差/效率损耗
⏱
时间
训练延长×GPU折旧
⚠️
风险
故障响应/数据安全
算力总成本 = 电费 + 网络 + 工程师 + 时间 + 风险
单看电费便宜就拍板,那是 80 年代工厂选址的思路。那时候产品是钢铁、水泥,跑几千公里不会变质。AI 训练不是钢铁,它每分钟都在贬值。
训练集群选址优先级:
1. 与工程师据点距离(<2小时车程)
2. 与核心网络节点延迟(<2ms)
3. 与数据源的距离
4. 电价和绿电指标(最后才看)
5. 用电容量和扩展性
1. 与工程师据点距离(<2小时车程)
2. 与核心网络节点延迟(<2ms)
3. 与数据源的距离
4. 电价和绿电指标(最后才看)
5. 用电容量和扩展性
推理集群可以西部:
推理不需要频繁工程师介入
checkpoint 传输极少
延迟面向用户(100ms 级),而非 GPU 间(μs 级)
∴ 西部算力用于推理部署是合理的
推理不需要频繁工程师介入
checkpoint 传输极少
延迟面向用户(100ms 级),而非 GPU 间(μs 级)
∴ 西部算力用于推理部署是合理的
★ 汇聚:AIDC 总拥有成本(TCO)计算器
5 年 TCO = 硬件成本 + 年电费 × 5 + 年网络 × 5 + 年运维 × 5
输入参数
GPU 数量
1,024张
GPU 单价(万元)
80万
GPU TDP(W)
700W
PUE
1.25
电价(元/kWh)
¥0.70
网络+运维(万元/年/百卡)
20万
5 年 TCO 分解
■ 硬件
■ 5年电费
■ 5年网络+运维
本章依赖(来自前两章)
GPU TDP → 机柜功率密度(第一章汇聚页A)
显存需求 → GPU 数量 → 集群规模(第二章汇聚页B)
MFU → 对网络延迟的敏感度(第二章2.4)
Checkpoint 大小 → 跨省传输成本(第二章2.4)
本章核心结论
训练集群:算力总成本 = 电+网络+工程师+时间+风险
推理集群:延迟面向用户,西部部署可行
液冷是 B200+ 的物理必须,不是选项
PUE 每降 0.1,千卡集群年省约数百万元
附录
速查参考
B. GPU 全规格速查表
| 芯片 | 架构 | HBM | 带宽 | FP8 dense | FP4 dense | NVLink | TDP | 整机(×8) FP8 |
|---|---|---|---|---|---|---|---|---|
| A100 | Ampere | 80G HBM2e | 2.0 TB/s | — | — | NVLink 3 | 400W | — |
| H100 | Hopper | 80G HBM3 | 3.35 TB/s | 1,979T | — | NVLink 4 | 700W | 15.8P |
| H20 CN | Hopper CN | 96G HBM3 | 4.0 TB/s | 148T | — | PCIe | 400W | 1.18P |
| H200 | Hopper | 141G HBM3e | 4.8 TB/s | 1,979T | — | NVLink 4 | 700W | 15.8P |
| B100 | Blackwell | 192G HBM3e | 8.0 TB/s | 7,000T | 14,000T | NVLink 5 | 700W | 56P |
| B200 | Blackwell | 192G HBM3e | 8.0 TB/s | 9,000T | 18,000T | NVLink 5 | 1,000W | 72P |
| B300 | BW Ultra | 288G HBM3e | 8.0 TB/s | 15,000T | 30,000T | NVLink 5 | 1,400W | 120P |
| GB200 NVL72 | Grace+B200 | 13.8TB 合计 | 全互联 | ~576P | ~1152P | NVLink 5 | 120–140kW | 整机柜 |
C. 中国市场 GPU 可用性
| 全球版 | 中国版 | 状态 | 主要削减 | 适用场景 |
|---|---|---|---|---|
| A100 | A800 | 已禁(2022.10) | NVLink 带宽削减 | 训练通用 |
| H100 | H800 | 已禁(2023.10) | NVLink 带宽削减 | 训练+推理 |
| H100 | H20 | 已禁(2025.04) | 核心−41%,算力−85%+,无SXM | 大batch推理 |
| B100 | B20(传闻) | 待确认 | 规格削减中 | TBD |
| B200/B300 | — | 禁止出口 | N/A | N/A |
2025年4月特朗普政府对H20实施出口许可证要求,英伟达计提约55亿美元损失,随后夏季部分恢复。国产替代主要有:华为昇腾910B/910C(训练为主)、摩尔线程、燧原科技(推理为主)。