从芯片到数据中心的完整认知链

GPU · 大模型 · AIDC
知识手册

系统理解 GPU 硬件、大模型运行原理、AI 数据中心基础设施，以及三者之间的深层联系。

Ampere → Blackwell Ultra 训练 & 推理 TFLOPS / HBM / NVLink AIDC 供电散热网络东数西算真实账单

三者关系总图

点击任意条目跳转到对应章节。理解这张图，就理解了整本手册的逻辑。

🖥

第一章：GPU 硬件

决定能做什么、做多快

TFLOPS（算力）

→ 训练速度 / Prefill 速度

HBM 带宽

→ Decode 速度（TPOT）

HBM 容量

→ 模型大小 / KV Cache 上限

NVLink 带宽

→ 多卡 MFU / 并行效率

TDP（功耗）

→ 散热需求 / 机柜密度

算力精度（FP8/FP4）

→ 实际可用 TFLOPS / 量化加速

⟷

硬件
决定
上限

⟷

🧠

第二章：大模型

消耗资源、产出智能

参数量 × 精度

→ 显存需求 → GPU 数量

上下文长度

→ KV Cache → HBM 容量

训练（算力密集）

→ TFLOPS + NVLink 决定速度

推理 Decode（带宽密集）

→ HBM 带宽决定速度

MFU（利用率）

→ 实际训练效率 / 成本

量化（FP8/INT4）

→ 显存压缩 → 推理提速

⟷

负载
决定
规格

⟷

🏭

第三章：AIDC

装载和运行一切的容器

GPU 功耗 × 数量

→ 供电容量 → UPS/PDU 规格

TDP → 散热方案

风冷(≤400W) / 液冷(≤1400W+)

集群规模 → 网络拓扑

IB/RoCE → MFU → 训练效率

PUE（能效）

→ 实际电费 → 5 年 TCO

选址（东部 vs 西部）

电费幻觉：三笔隐形税

机房等级（Tier 1–4）

→ 可用性 → 冗余设计

阅读建议：三章可以独立阅读，但建议按顺序看一遍。第一章的 TFLOPS/HBM/NVLink/TDP 是理解后两章的基础；第二章的显存需求和 MFU 是第三章 AIDC 规格选型的输入；第三章的东数西算案例把所有概念串成一个真实决策场景。

第一章

GPU 硬件基础

在理解大模型和数据中心之前，先把 GPU 硬件吃透。这一章从"GPU 是什么"开始，到产品家族、关键参数、算力精度、Roofline 模型、设备形态，逐层展开。

1.1

GPU 卡 / GPU 模组 / GPU 服务器的区别

这三个是不同层次的概念，从小到大嵌套：GPU 卡是最基础的硬件单元，GPU 模组是集成了互联的加速单元，GPU 服务器是包含 CPU、内存、存储、网络的完整计算节点。

GPU 卡

最基础单元。PCIe 插卡形态，插在服务器主板上。

典型：H100 PCIe、A100 PCIe
特点：标准化接口，OEM 灵活集成
对比：SXM 形态不算"卡"，是模组

GPU 模组

集成单元，GPU 芯片 + 互联 + 散热一体。

典型：SXM 模组（H100/B200）、OAM 模组（开放标准）
特点：NVLink 直连，带宽远超 PCIe
使用：插入 HGX 底板（UBB）

GPU 服务器

完整计算节点：CPU + 主板 + 内存 + 存储 + 多块 GPU + 网卡 + 机箱。

典型：HGX H100（8卡 SXM 模组方案）、DGX B200（含完整软件栈）
OEM 厂商基于 HGX 平台集成，形成各自品牌的 GPU 服务器产品

类比：GPU 卡 = 发动机，GPU 模组 = 发动机组，GPU 服务器 = 整辆车，GPU 集群 = 车队。HGX（SXM 模组方案，模组直接连在底板上）和 PCIe 卡方案的区别，本质上就是"发动机组一体化"和"独立发动机插槽"的区别——互联带宽和持续性能差异显著。

1.2

NVIDIA 产品家族全对比

NVIDIA 数据中心 GPU 经历了三代架构：Ampere（A100）→ Hopper（H100/H200/H20）→ Blackwell（B100/B200/B300）。每代在算力、显存、互联、功耗上都有质的跳跃。GB200/GB300 是 GPU + ARM CPU 的超级芯片形态，只以 NVL72 整机柜交付。

A100

Ampere 2020 · TSMC 7nm

HBM80GB HBM2e

带宽2.0 TB/s

FP16312 TFLOPS

FP8不支持

TDP400 W

H100

Hopper 2022 · TSMC 4nm

HBM80GB HBM3

带宽3.35 TB/s

FP8 dense1,979 TFLOPS

NVLink4代/900GB/s

TDP700 W

H20 中国

Hopper CN 2024 · PCIe only

HBM96GB HBM3

带宽4.0 TB/s

FP8 dense148 TFLOPS

NVLink无（PCIe）

TDP400 W

H200

Hopper 2023 · TSMC 4nm

HBM141GB HBM3e

带宽4.8 TB/s

FP8 dense1,979 TFLOPS

NVLink4代/900GB/s

TDP700 W

B200

Blackwell 2024 · TSMC 4NP

HBM192GB HBM3e

带宽8.0 TB/s

FP8 dense9,000 TFLOPS

NVLink5代/1800GB/s

TDP1,000 W

B300

Blackwell Ultra 2025 H2

HBM288GB HBM3e

带宽8.0 TB/s

FP8 dense15,000 TFLOPS

NVLink5代/1800GB/s

TDP1,400 W

H100→H200：算力相同，带宽 +43%，显存 +76%，H200 主要用于大显存推理场景。H100→B200：算力约 4.5×，但需要液冷（1000W vs 700W）。GB200 NVL72 是整机柜方案，72 GPU 全互联，不单独销售，算力可达 ~576 PFLOPS FP8 dense。

芯片	架构	HBM	带宽	FP16 dense	FP8 dense	FP4 dense	NVLink	TDP
── Ampere ──────────
A100 SXM4	Ampere	80GB HBM2e	2.0 TB/s	312 TFLOPS	—	—	NVLink 3	400 W
── Hopper ──────────
H100 SXM5	Hopper	80GB HBM3	3.35 TB/s	1,979 TFLOPS	1,979 TFLOPS	—	NVLink 4	700 W
H20 CN	Hopper CN	96GB HBM3	4.0 TB/s	148 TFLOPS	148 TFLOPS	—	PCIe only	400 W
H200 SXM	Hopper	141GB HBM3e	4.8 TB/s	1,979 TFLOPS	1,979 TFLOPS	—	NVLink 4	700 W
── Blackwell ────────
B100	Blackwell	192GB HBM3e	8.0 TB/s	3,500 TFLOPS	7,000 TFLOPS	14,000 TFLOPS	NVLink 5	700 W
B200	Blackwell	192GB HBM3e	8.0 TB/s	4,500 TFLOPS	9,000 TFLOPS	18,000 TFLOPS	NVLink 5	1,000 W
── Blackwell Ultra ──
B300	BW Ultra	288GB HBM3e	8.0 TB/s	7,500 TFLOPS	15,000 TFLOPS	30,000 TFLOPS	NVLink 5	1,400 W

统一口径：本表所有 TFLOPS 为 dense（稠密）算力。sparse（稀疏）= dense × 2，需要 2:4 结构化稀疏预处理才能实现。H20 为 PCIe-only，无节点内 NVLink，几乎不适合分布式训练。

系统	GPU	GPU 数	总显存	FP8 dense 整机	整机功耗	散热
HGX A100	A100 SXM4	8	640 GB	—（无FP8）	~10 kW	风冷
HGX H100	H100 SXM5	8	640 GB	15.8 PFLOPS	~10–11 kW	风冷
DGX H100	H100 SXM5	8	640 GB	15.8 PFLOPS	~10.2 kW	风冷
HGX H20 CN	H20	8	768 GB	1.18 PFLOPS	~3.5 kW	风冷
HGX H200	H200 SXM	8	1,128 GB	15.8 PFLOPS	~10–11 kW	风冷
HGX B200	B200 SXM	8	1,440 GB	72 PFLOPS	~14.3 kW	液冷建议
DGX B200	B200 SXM	8	1,440 GB	72 PFLOPS	~14.3 kW	液冷建议
HGX B300	B300 SXM	8	2,304 GB	120 PFLOPS	>14 kW	液冷必须
GB200 NVL72	GB200 超芯	72+36CPU	13.8 TB	~576 PFLOPS	120–140 kW	液冷必须
GB300 NVL72	GB300 超芯	72+36CPU	20.7 TB	~1,080 PFLOPS	~140 kW	液冷必须

DGX vs HGX：DGX 含 NVIDIA 完整软件栈（DGX OS、AI Enterprise）；HGX 是 OEM/ODM 自由集成平台，各品牌 GPU 服务器均基于 HGX 底板构建。NVL72 不是服务器，是整机柜系统。

1.3

五个关键硬件参数

这五个参数决定了 GPU 的能力边界，也是后续理解训练/推理瓶颈的基础。每个参数影响的场景完全不同，不能混为一谈。

TFLOPS（算力）

计算峰值

Tensor Core 每秒能完成多少次浮点乘加。
影响：训练速度、Prefill 速度。
注意：有 dense/sparse 之分，dense 才是真实基准。

HBM 带宽

数据传输速度

HBM 显存每秒能向 Tensor Core 输送多少数据。
影响：推理 Decode 速度（TPOT）。
核心：Decode 时 GPU 在等数据，带宽是瓶颈。

HBM 容量

仓库大小

能放多少模型权重和中间数据。
影响：最大模型大小、KV Cache 长度、并发数。
训练：推理显存需求的 6–8 倍。

NVLink 带宽

GPU 间高速公路

节点内 GPU 之间的通信带宽。
影响：多卡训练 MFU、张量并行效率。
关键：H20 无 NVLink，分布式训练 MFU 极低。

TDP（热设计功耗）

功耗上限

GPU 满载时的设计散热功耗上限。
影响：散热需求、机柜密度、持续算力。
趋势：A100=400W → H100=700W → B300=1400W。

工厂类比帮助记忆：TFLOPS = 工人工作速度，HBM 带宽 = 传送带速度，HBM 容量 = 仓库大小，NVLink = 工厂间高速公路，TDP = 工厂最大用电功率。训练时工人很忙（算力瓶颈）；推理 Decode 时工人在等传送带（带宽瓶颈）。

1.4

算力精度：FP64 → FP4

同一块 GPU，用不同精度跑出的 TFLOPS 差异悬殊。精度越低，单位时间能做的运算越多，但表示的数值范围和小数精度越低。选对精度，是高效使用 GPU 的关键。

符号位（正/负）指数位（数量级范围）尾数位（小数精度）

FP64

指数 11 位

尾数 52 位（科学计算、物理仿真标准）

64 bit

FP32

指数 8

尾数 23 位

32 bit

BF16

指数 8（同FP32，范围等价）

尾 7

16 bit

FP16

指 5

尾数 10 位

16 bit

FP8

指 4

尾 3

8 bit

FP4

指 2

尾

4 bit

稠密（Dense）

每个运算单元都参与计算时的理论峰值。
是更真实的基准，做性能对比时应统一用 dense。

稀疏（Sparse / 2:4）

对权重做 2:4 结构化剪枝，每 4 个权重中强制 2 个为零，专用硬件只算非零部分，吞吐翻倍。
Sparse = Dense × 2，NVIDIA 对外首发数字通常是 sparse 口径。

各精度用途速查：

精度	训练	推理	关键特点	GPU 支持
FP64	几乎不用	不用	科学计算标准，AI GPU 刻意削减	全部
FP32	梯度累积	不用	存 Adam 优化器状态（FP32）	全部
BF16	训练主力	推理	范围同 FP32，训练稳定，PyTorch 默认	A100+
FP16	训练（需 loss scaling）	推理	精度高但范围窄，易溢出	全部
FP8	实验性	推理主力	H100 引入，Transformer Engine 自动切换，吞吐翻倍	H100+
FP4	不用	量化推理	Blackwell 引入，配合 MTS 微张量缩放，权重体积 ÷4	B100+

1.5

Roofline 模型：算力受限 vs 带宽受限

Roofline 是理解"为什么训练看 TFLOPS、推理 Decode 看 HBM 带宽"的核心模型。它把任何计算任务的性能上限，用一条折线表示清楚。

H100 Roofline H200 Roofline（带宽更高） ● 黄点 = Decode（带宽受限） ● 绿点 = Prefill/训练（算力受限）

算术强度（Arithmetic Intensity） = FLOP ÷ 访存字节数。
矩阵乘 [M,K]×[K,N]：强度 ≈ M×K×N / (M×K + K×N)。
当 M 很大（训练/prefill），强度高 → 算力受限。
当 M=1（decode 单 token），强度 ≈ 1 FLOP/B → 带宽受限。

脊点（Ridge Point） = TFLOPS ÷ HBM 带宽。
H100：1979 TFLOPS ÷ 3.35 TB/s ≈ 65 FLOP/B。
算术强度 > 脊点 → 算力是瓶颈，提带宽没用。
算术强度 < 脊点 → 带宽是瓶颈，提 TFLOPS 没用。
Decode 的强度 ≈ 1，远低于 65，GPU 99% 时间空等数据。

1.6

设备形态分类

市场上的 GPU 服务器按来源和配置方式有多种形态，采购决策前需要明确各类型的保障程度和风险。

原厂新机（Brand New）

整机由 NVIDIA/Dell/HPE 等出厂，未使用过。
保障：完整原厂保修
价格：最高

✓ 零风险

✗ 溢价高、交期长

OEM/ODM 整机

GPU 模组由 NVIDIA 供货，整机由 ODM（浪潮/白牌厂商）组装，基于 HGX 平台集成。
保障：正规渠道，有保修
价格：主流

✓ 灵活定制

✗ 需验证渠道

翻新机（Refurbished）

经专业翻新商测试、更换磨损件后销售，有一定保修。A100/H100 二手市场常见。
价格：新卡的 60–80%

✓ 性价比

✗ 寿命/隐患不确定

组装机（Custom-built）

买方自采 GPU 卡 + 服务器底座自行组装。灵活但需自己解决兼容性。初创公司早期常见。
价格：灵活

✓ 灵活

✗ 兼容性风险

二手整机（Used Server）

使用过的完整 GPU 服务器，来源包括云厂商缩容、企业置换等。需核查使用时长、GPU 健康度和保修剩余。A100/H100 整机二手市场流通量较大。
价格：新机的 40–65%
风险：需专业验机

✓ 价格低

✗ 状态不透明

★ 汇聚：GPU 代际 × 散热 × 机柜功率密度

这三者联动，是理解为什么 B200+ 必须液冷、AIDC 基础设施为何要升级换代的关键。

GPU	单卡 TDP	8卡节点功耗	8节点/机柜	机柜总功率	散热要求	备注
A100 SXM4	400 W	~5 kW	4–6 节点	~20–30 kW	风冷	传统 IDC 可承载
H100 SXM5	700 W	~10 kW	4 节点	~40 kW	风冷（加强）	需高密机柜
H200 SXM	700 W	~10 kW	4 节点	~40 kW	风冷（加强）	与 H100 同级
B200 SXM	1,000 W	~14 kW	3–4 节点	~50–60 kW	液冷建议	风冷无法持续满载
B300 SXM	1,400 W	>14 kW	3 节点	>50 kW	液冷必须	物理上不可风冷
GB200 NVL72	整机柜	整机柜	1 机柜	120–140 kW	液冷必须	需专用 CDU

关键推论：机柜功率密度从 A100 时代的 20–30 kW 跳到 GB200 NVL72 的 140 kW，增加了 5–7 倍。这不是"同一个机房多装几台"能解决的，而是供电、散热、结构全部要重新设计。这是 AIDC 建设成本远超传统 IDC 的根本原因，也是第三章的起点。

本章依赖（来自）

GPU TDP 和 NVLink 基础知识（1.3）

产品家族代际关系（1.2）

本章影响（去往）

第三章 3.3 散热体系的选型依据

第三章 3.2 供电容量规划

第三章东数西算案例的硬件背景

第二章

大模型

GPU 是工具，大模型是使用这个工具完成的工作。这一章从模型本身的结构讲起，到训练和推理各自的性能瓶颈，再到如何把模型需求映射回第一章的 GPU 硬件参数。

2.1

Transformer 极简结构

现代大模型几乎都基于 Transformer 架构。不需要懂数学，但需要知道每个模块是什么，因为它们直接对应着显存和算力的消耗来源。

① Embedding 层

把文字（token）转成数字向量。词表大小 × 隐藏维度 = Embedding 矩阵大小。
显存：词表 × d_model × 2B（较小）

② 注意力层（Attention）

每个 token 看其他所有 token，计算相关性权重。
Q / K / V 三个矩阵做线性变换。
KV Cache：推理时 K、V 矩阵要缓存，随上下文增长。
显存：权重 + KV Cache（可能很大）

③ FFN 层（前馈网络）

两个大矩阵乘法，先扩展维度再压缩。
FFN 参数量 ≈ 模型总参数的 2/3。
计算量：训练中最大的算力消耗来源。

④ 重复 N 层 + 输出层

上述①②③堆叠 N 层（如 80 层）即构成完整模型。
最后一层输出概率分布，决定下一个 token。
层数 × 每层参数 ≈ 总参数量

数据流向（单个 token）

输入文本 → Tokenizer → token ID

↓

Embedding：token ID → 向量 [1, d_model]

↓ × N 层

注意力层

Q = x·Wq K = x·Wk V = x·Wv
attn = softmax(QKᵀ/√d)·V

↓

FFN 层

h = GeLU(x·W₁) out = h·W₂

↓

输出层 → 词表概率 → 下一个 token

d_model = 隐藏维度（如 8192），N = 层数（如 80），这两个数字决定模型大小和显存需求。

架构参数	含义	典型值（70B）	对显存的影响	对算力的影响
参数量	模型规模，最常引用的数字	70B	权重 ≈ 140GB（FP16）	训练总 FLOP ∝ 参数量
层数（N）	Transformer 堆叠的层数	80 层	KV Cache ∝ 层数	计算量 ∝ 层数
隐藏维度（d）	每层向量的宽度	8,192	权重大小 ∝ d²	算术强度 ∝ d，影响 GPU 利用率
注意力头数（H）	多头注意力的头数	64 头（MHA） 8 头（GQA）	KV Cache ∝ KV头数，GQA 节省 8×	影响 attention 计算量
上下文长度	单次处理的最大 token 数	128k	KV Cache ∝ 上下文长度	Prefill 时间 ∝ 上下文
词表大小	Tokenizer 能识别的词元数	128k	Embedding 层 ≈ 词表×d×2B	影响较小

MoE（混合专家）：DeepSeek-V3 等模型是 671B 总参数，但每个 token 只激活约 37B 参数（路由到特定"专家"子网络）。计算量接近 37B 稠密模型，但推理时 HBM 里要装 671B 权重——省算力但费显存，对 NVLink 带宽要求也极高（专家并行需要跨卡通信）。

2.2

模型规格指标体系

评估一个模型可以从四个维度入手：模型自身属性、能力评测、推理效率、扩展能力。这四个维度对应的关注方不同：产品团队看能力，工程团队看效率，运维团队看成本。

① 模型自身属性

参数量：7B / 13B / 70B / MoE
上下文长度：训练支持 vs RoPE 外推可扩展
架构细节：层数、隐藏维度、GQA vs MHA
训练数据：多少 tokens、数据配比
训练算力：GPU·小时 / PetaFLOP-days

② 能力评测（Benchmark）

综合知识：MMLU、CEval（中文）
数学推理：GSM8K、MATH、AIME
代码：HumanEval、SWE-bench
对话：MT-Bench、Arena Elo
工具使用：BFCL（函数调用）

③ 推理效率指标

TTFT：首 token 延迟（prefill 决定）
TPOT：每 token 生成延迟（带宽决定）
TPS：每秒生成 token 数（吞吐量）
显存占用：权重 + KV Cache + 运行时
量化损失：INT4/FP8 精度与体积权衡

④ 扩展与部署能力

多模态：视觉/语音/视频支持
最大输出长度：单次回复上限（≠ 上下文）
并发支持：显存 + KV Cache 共同决定
API 成本：$/百万 token（输入/输出不同价）
硬件成本：需要几张什么卡

选模型的快速路径：先看基础规格（参数量、上下文长度、多模态）→ 再看目标场景的 benchmark 分（代码/数学/中文）→ 最后算成本（显存需求决定 GPU 数，决定价格）。不要只看 benchmark 总分，要看跟业务场景最相关的子分。

2.3

能力评测：常见 Benchmark 速查

Benchmark 是衡量模型能力的标准化考试，但每套考试考的侧重点不同。看跑分前先搞清楚这套题考的是不是你需要的能力。

名称	类型	考查内容	适合判断	注意
MMLU	综合知识	57 个学科选择题（高中到专业级）	通用知识广度	选择题，不考生成能力
CEval / CMMLU	中文综合	中文各学科知识理解	中文场景选型	中文模型重要参考
GSM8K	数学推理	小学数学应用题，需多步推理	基础推理能力	已趋近饱和，区分度低
MATH / AIME	竞赛数学	高中竞赛 / 美国数学邀请赛	深度推理能力	o3/R1 类模型优势显著
HumanEval	代码	根据注释写函数，看通过率（pass@1）	代码生成能力	题目已泄露，参考 LiveCodeBench
SWE-bench	代码 Agent	自动修复真实 GitHub Issue	工程实战能力	最接近真实工程场景
MT-Bench	多轮对话	GPT-4 当裁判给多轮对话打分	对话/指令跟随	受裁判模型偏好影响
Arena Elo	人类偏好	用户盲测两个模型投票	实际使用体验	最接近真实用户感受
BFCL	工具调用	函数调用准确率	Agent / 工具链	企业应用场景关键

数据污染问题：很多 benchmark 题目已经出现在训练数据中，导致分数虚高。选型时优先参考：① 最近发布的 benchmark（题目未泄露）② 与业务场景高度相关的专项测试 ③ 自己构建的内部评测集。

2.4

训练深入：为什么算力密集，如何衡量效率

训练是算力密集型的，核心原因是矩阵乘法的算术强度远超 GPU 的带宽脊点——读一次权重能做几千次乘加运算，计算才是瓶颈。但实际训练速度还受通信、显存、调度共同约束。

训练速度计算器（拖动滑块感受各因素影响）

模型参数量70 B

训练数据量2,000 GT

GPU FP16 dense TFLOPS1,979 T

GPU 数量128 张

MFU（实际利用率）40 %

总计算量

—

参数×tokens×6

有效算力

—

TFLOPS×N×MFU

预估训练时长

—

总量÷有效算力

TFLOPS×2 后

—

带宽/卡数无变化

公式：训练天数 = 参数量(B)×数据量(GT)×10⁹×6 ÷ (TFLOPS×10¹²×GPU数×MFU) ÷ 86400。系数6 = 前向×1 + 反向×2，再×2（乘加各算1次）。

MFU 为什么上不去——一个 step 的时间拆解

H100 集群训练 70B，典型 step 时间分解（通信无法隐藏时）：

矩阵乘法（有效计算）

~55%

梯度通信 all-reduce

~28%

显存访问开销

~12%

调度/其他

~5%

梯度通信是最大的算力黑洞：all-reduce 时 Tensor Core 空转等待网络。NVLink 5（B200，1800 GB/s）比 NVLink 4（H100，900 GB/s）快一倍，通信时间减半，MFU 可从 40% 提升到 ~55%。H20 无节点内 NVLink，通信走 PCIe（64 GB/s），通信占比可超 70%，MFU 可能低于 15%。

三种并行策略 × NVLink 的对应关系

数据并行（DP）

每卡有完整模型，处理不同 batch。
通信：每步做一次梯度 all-reduce。

通信量：参数量×4B×2
NVLink 依赖：中
时机：可与反向传播重叠

张量并行（TP）

把单层矩阵切分到多卡，每层都要 all-reduce 同步激活值，无法隐藏。

通信量：每层激活值×2
NVLink 依赖：极高
必须节点内：跨节点效率崩溃

流水线并行（PP）

把模型层切分到多卡，像流水线一样传递激活值。

通信量：激活值（相对小）
NVLink 依赖：低–中
适合跨节点：走 InfiniBand

实际大模型训练 = 3D 并行：节点内 8 卡用 NVLink 跑张量并行（TP=8）→ 节点间用 InfiniBand 跑流水线并行（PP）→ 全局用数据并行（DP）同步梯度。ZeRO-3 在 DP 基础上把优化器状态、梯度、权重都分片，使单卡显存需求降低 N 倍。

训练显存分解计算器

模型参数量70 B

序列长度4,096

Batch size4

梯度检查点关闭

权重 BF16 梯度 FP32 Adam 优化器激活值

权重（BF16）

—

梯度（FP32）

—

Adam 优化器

—

激活值

—

合计

—

Adam 是最大的隐形黑洞：一阶动量 + 二阶动量各需一份 FP32 参数副本，合计 = 参数量 × 8B。70B 模型优化器状态就是 560GB，比权重本身大 4 倍。ZeRO-3 把这部分分片到所有 GPU，每张卡只存 1/N。

2.5

推理深入：带宽决定 Decode，容量决定上下文

推理分两个截然不同的子阶段：Prefill 是算力密集型，Decode 是带宽密集型。理解这个区别，是理解"为什么 H200 在推理上比 H100 更有优势"的关键。

Prefill（处理 prompt）

输入：S 个 token 并行处理
矩阵乘形状：[S, d] × [d, d]
算术强度：≈ S/2 × d FLOP/B
S=4096 时：~4096 FLOP/B（远超脊点）

瓶颈：TFLOPS（算力受限）
影响指标：TTFT（首 token 延迟）

Decode（逐 token 生成）

输入：1 个 token（串行）
矩阵乘形状：[1, d] × [d, d]
算术强度：≈ 1 FLOP/B
H100 脊点 ~65，decode 只有 1/65

瓶颈：HBM 带宽（带宽受限）
影响指标：TPOT（每 token 延迟）

Decode 速度计算器

模型参数量70 B

HBM 带宽3,350 GB/s

推理精度FP16 (2B)

Batch size1

权重大小

140 GB

算术强度

1 F/B

带宽受限

TPOT（每token）

—

= 权重÷带宽÷batch

最大 TPS

—

主流 GPU 理论 TPOT（70B FP16，batch=1）：

量化提速的物理机制：FP16→FP8 把权重体积减半 → 相同带宽下搬运时间减半 → TPOT 减半。不是因为运算更快，而是需要搬运的数据更少。H200 比 H100 带宽提升 43%，decode 速度直接提升 43%，TFLOPS 完全相同。

KV Cache：上下文长度的代价

上下文长度（tokens）8,192

并发请求数8

模型层数80 层

KV Cache（单请求）

—

KV Cache（全部）

—

全部并发

模型权重

140 GB

70B FP16

总显存需求

—

KV Cache 公式：2（K+V）× 层数 × KV头数 × 头维度 × 上下文长度 × 并发数 × 精度字节。GQA 把 KV 头数从 64 减到 8，KV Cache 缩小 8×，是支持长上下文的关键架构优化。PagedAttention 解决 KV Cache 碎片，让同样显存服务更多并发。

吞吐量 vs 延迟：永恒的权衡

在线服务（低延迟优先）
Batch size 小 → TPOT 低 → 用户响应快
但 TPS 低，GPU 利用率不高
适合：ChatGPT 类实时对话

离线批处理（高吞吐优先）
Batch size 大 → 算术强度提升 → TPS 高
但每个请求的 TPOT 增加
适合：批量文档处理、数据标注

连续批处理（Continuous Batching）是现在提升 QPS 最主要的工程手段：请求完成就把空位填入新请求，而不是等一批全部完成。vLLM 的 PagedAttention 让 KV Cache 碎片化管理，与连续批处理配合，可以将 GPU 利用率从 30% 提升到 70%+。

2.6

GPU 硬件参数 ↔ 模型指标映射表

把第一章的五个硬件参数和第二章的模型指标对应起来，搞清楚"优化哪个硬件参数能改善哪个模型指标"。点击每行展开详细说明。

模型指标	阶段	最相关 GPU 参数	次要因素	典型瓶颈

★ 汇聚：从模型选型到 GPU 配置推导链

输入模型参数和使用场景，推导出 GPU 型号和最少卡数。

输入：模型参数

参数量

70B

推理精度

FP16

上下文长度

并发请求数

推导：显存需求

■ 权重■ KV Cache■ 运行时

结论：GPU 配置

本章依赖（来自第一章）

TFLOPS → 训练速度 / Prefill（1.3）

HBM 带宽 → Decode 速度（1.3）

HBM 容量 → 模型 + KV Cache 上限（1.3）

NVLink → 并行训练 MFU（1.3）

TDP → 散热 → 持续算力（1.3）

本章影响（去往第三章）

GPU 数量 × 功耗 → AIDC 供电规划（3.2）

集群规模 → 网络拓扑选型（3.4）

训练 vs 推理选址逻辑差异（东数西算案例）

TCO 计算器的硬件成本输入（3.7）

第三章

AIDC 数据中心

GPU 需要运行在某个地方，这个"地方"就是 AI 数据中心（AIDC）。它是连接 GPU 硬件和大模型的物理容器，供电、散热、网络三者共同决定了 GPU 能跑多快、跑多久、跑多便宜。第二章的显存需求和集群规模，在这里变成机柜、电缆、CDU 和真实的电费账单。

3.1

从 IDC 到 AIDC：功率密度的代际跳跃

传统 IDC（互联网数据中心）托管通用服务器，AI 时代催生了专门为 GPU 集群优化的 AIDC。两者不是量的差别，是质的不同——从设计标准到建设成本全面升级。

传统 IDC

功率密度：3–10 kW / 机柜
散热：精密空调（CRAC）风冷
计费：按 U 数和带宽
网络：1–10 Gbps 以太网
PUE：1.4–1.8
典型客户：电商、SaaS、游戏

AIDC（AI 数据中心）

功率密度：30–140 kW / 机柜
散热：直接液冷（DLC）/ 浸没式
计费：按 GPU 卡数 / 算力
网络：200–400 Gbps InfiniBand / RoCE
PUE：1.1–1.3
典型客户：AI 训练、大模型推理

机柜功率密度代际演进

传统 IDC（通用服务器）

3–10 kW

A100 节点（4节点/柜）

~40 kW

H100 节点（4节点/柜）

~40–50 kW

B200 节点（4节点/柜）

~60 kW

GB200 NVL72（整机柜）

120–140 kW

从 A100 到 NVL72，机柜功率密度提升了 3–4 倍。这不是"加几台服务器"能解决的，而是供电主回路、散热管路、结构承重、消防系统全部要重新设计。这也是 AIDC 建设成本远超传统 IDC 改造成本的根本原因。

3.2

供电链路与冗余设计

电从电网到 GPU 要经过多级转换，每级都有损耗和冗余设计。AI 集群对供电稳定性要求极高——瞬间掉电会导致训练任务全部重跑，checkpoint 之前的计算全部作废。

供电链路（从电网到 GPU）

市电（10–35kV）

→

从电网引入，高压输送减少线路损耗

变压器

→

降压至 400V/220V，效率 98%+，双路冗余

UPS（不间断电源）

→

AI 集群的命脉：市电断电后继续供电 5–30 分钟（蓄电池），等待发电机启动。冗余配置 2N（两套完整系统互备）

发电机

→

30–60 秒内启动，长期备用（柴油储备 12–72h），配合 UPS 无缝切换

PDU（配电单元）

→

机柜级分配，精密计量每路功耗，智能 PDU 可远程断路保护

GPU 服务器

→

冗余电源（2+1），自动切换，每张 B200 消耗 1000W，8 卡节点约 11–14 kW

N 冗余

刚好够用，没有备份。单点故障 = 宕机。传统 IDC 常见。

N+1 冗余

一台备用。单点故障可继续运行。AIDC 标准配置。

2N 冗余

完整双套系统。任意一套全部宕机仍可运行。大型 AI 集群要求。

AIDC 验收时的 UPS 和发电机检测，核心就是验证这条链路在各种故障场景下能否无缝切换，保证训练任务不因供电闪断而中断。假负载测试（fake-load test）的目的是在不跑真实 GPU 负载的情况下，模拟最大功耗场景验证供电和散热的稳定性。

3.3

散热体系：与 GPU 代际严格对应

散热方案不是自由选择的，而是由 GPU 的 TDP 决定的物理约束。B200 的 1000W 和 B300 的 1400W 已经超出风冷的物理极限，液冷不是选项而是必须。

风冷（Air Cooling）

散热上限：~350W / GPU
持续系数：75–88%
适用 GPU：A100、H100、H200
机柜密度：10–50 kW
原理：冷空气从前门进、热空气从后门出，精密空调（CRAC）维持机房温度

✓ 成本低，部署简单

✗ B200+ 物理上做不到

直接液冷（DLC）

散热上限：700–1400W+ / GPU
持续系数：90–98%
适用 GPU：B200、B300、NVL72
机柜密度：40–140 kW
原理：冷却液通过 CDU（冷却分配单元）→ 机架管路 → 服务器冷板 → 直接带走芯片热量

✓ 持续算力高、PUE 低

✗ 改造成本高

浸没式冷却

散热上限：理论无上限
持续系数：~100%
适用场景：超高密度部署
机柜密度：200 kW+
原理：服务器整体浸泡在绝缘冷却液中，热量通过液体自然对流带走

✓ 效率最高

✗ 维护复杂，成本极高

CDU（冷却分配单元）是液冷系统的核心

CDU 负责把冷水从楼层冷却水管引入，经过热交换器降温后分配到各机架的服务器冷板，再把吸热后的热水送回制冷系统。关键参数：
冷却容量（kW）：CDU 能带走的最大热量，要覆盖机柜实际功率
进出水温差（ΔT）：典型 5–15°C，影响散热效率
流量（L/min）：与温差和功率直接相关，Q = ṁ × Cp × ΔT
冗余配置：A+B 双路，任意一路故障不影响运行

液冷 AIDC 验收中，CDU 性能测试的本质是在满功率情况下，验证进出水温差在设计范围内、流量稳定、无泄漏，且 A/B 路切换无中断。压力测试检查管路密封性，防止漏液导致服务器短路。

3.4

网络架构：计算网 vs 存储网

AIDC 里有两张完全独立的网络，新手最容易混淆。计算网决定 GPU 之间通信多快（影响 MFU），存储网决定训练数据读取多快（影响 GPU 等待磁盘的时间）。

计算网络（GPU 间通信）

协议：InfiniBand（IB）或 RoCE（RDMA over Converged Ethernet）
带宽：400 Gbps（HDR）/ 800 Gbps（NDR）单端口
延迟：亚微秒到微秒级（IB 端到端约 1–2 μs）
拓扑：Fat-tree 或 Rail-Optimized
用途：梯度 all-reduce、张量并行 all-reduce
影响：直接决定多机训练的 MFU

这张网买差了，再贵的 GPU 也发挥不出来。

存储网络（数据读取）

协议：以太网（25/100 Gbps）
存储系统：分布式文件系统（GPFS/Lustre/NFS）
用途：读取训练数据集、写入 checkpoint
带宽需求：确保 GPU 不因等数据而空转
典型规模：训练数据 PB 级，checkpoint 单次几 TB

GPU 读数据的速度 > 训练消耗数据的速度，才不会出现 I/O bottleneck。

Fat-tree 拓扑：为什么 AI 集群用这个

Fat-tree 是多层交换机构成的无阻塞网络，任意两台服务器之间的带宽相等，没有"热点"瓶颈。典型三层结构：
接入层（ToR）：服务器连接的第一级交换机，每台连 32–64 台服务器
汇聚层：连接多台 ToR，上行带宽 = 下行带宽（无收敛）
核心层：最顶层，连接所有汇聚层，实现跨机架全互联

Rail-Optimized 是针对 GPU all-reduce 优化的变体：同一 GPU 编号（如所有节点的 GPU0）接入同一台 ToR，all-reduce 时同类 GPU 通信尽量留在同一交换机域内，减少跨层流量。

3.5

PUE 与能效成本

PUE（Power Usage Effectiveness）是数据中心能效的核心指标，直接影响每度算力的电费成本。液冷是改善 PUE 最有效的手段。

PUE = 数据中心总用电 ÷ IT 设备用电
理想值 = 1.0（100% 电力用在 IT 上，散热和配电零损耗）

传统风冷 IDC

PUE 1.4–1.8

优化风冷 AIDC

PUE 1.2–1.4

直接液冷 AIDC

PUE 1.1–1.2

浸没冷却

PUE ~1.03

电费计算器（年度运营成本估算）

GPU 数量1,024 张

GPU 型号 TDP700 W

PUE1.30

工业电价（元/kWh）0.70 元

IT 设备功耗

—

GPU + 服务器其他

实际总功耗

—

× PUE

年电费

—

万元/年

PUE→1.1 节省

—

万元/年

液冷的投资回报：PUE 从 1.3 降到 1.1 意味着每度算力电费降低约 15%。对于千卡规模集群，年节省通常在数百万元，2–3 年即可回收液冷改造成本。这是 AIDC 投资液冷基础设施的经济逻辑。

3.6

机房等级（Tier 1–4）与可用性

TIA-942 标准定义了四个机房等级，从基本到容错，可用性和建设成本逐级提升。AI 训练集群通常要求 Tier 3 及以上。

等级	年可用性	年允许停机	冗余设计	适用场景	建设成本
Tier 1	99.671%	28.8 小时	无冗余，单路供电和散热	小型企业机房	基准
Tier 2	99.741%	22 小时	部分冗余，N+1	中型 IDC	1.5×
Tier 3 ★	99.982%	1.6 小时	N+1，可在线维护（不停机维护）	AI 集群主流	2–3×
Tier 4	99.995%	26 分钟	2N 完全容错，任意组件故障不影响	金融/核心系统	4–5×

AI 训练集群通常选 Tier 3：可用性 99.982% 足以保证年度不超过 1.6 小时计划外停机，配合 checkpoint 机制（定期保存训练状态），即使短暂断电也可以从最近 checkpoint 恢复，不会完全丢失训练进度。Tier 4 的额外成本通常难以被 AI 训练业务的 ROI 支撑。

★ 实战案例

东数西算：电费幻觉与三笔隐形税

千万不要把 H100 训练集群放到西部。同样的显卡放在乌兰察布，比放在廊坊总成本反而更贵。为什么东数西算账面上的电费省了一半，但实际总账你可能倒贴？

账面逻辑（看起来西部更划算）

西部（乌兰察布 / 贵州）

⚡ 电价：0.25–0.35 元/kWh
🏭 地价：低
🌿 绿电指标：充裕
📊 账面算力成本：低 ~50%

东部（廊坊 / 张家口 / 嘉兴）

⚡ 电价：0.65–0.80 元/kWh
🏭 地价：高
🌿 绿电指标：紧张
📊 账面算力成本：高

反常识现象：字节、阿里、月之暗面、DeepSeek 的核心训练集群全部在廊坊、张家口、嘉兴这些东部卫星城——没有一家把训练放到 1000km 外的西部。他们不是不知道西部电便宜，而是算清楚了这笔账。

三笔隐形税，加起来远超省下的电费

①

网络税——跨省延迟让 GPU 闲置等待

万卡集群要求节点间亚微秒到微秒级延迟、400G InfiniBand 内部带宽，这只能在同一园区内实现。
北京到内蒙专线单程约 5–10ms，all-reduce 一次约 10–20ms。而正常节点内 all-reduce 只需 <1ms。
结果：梯度通信时间膨胀 10–20 倍，MFU 从 40% 暴跌到 10% 以下。
同样的卡放西部，多跑 1–2 个月才能训练完——这 1–2 个月的 GPU 折旧 + 电费，省下的电费远不够填这个坑。

②

工程师税——现场调集群是日常

AI 训练不是"跑起来就放着"，工程师每天都要蹲在现场处理：GPU 故障替换、通信拥塞调优、训练抖动排查、节点掉线重启……
跨省了：要么远程协作效率打折（网络问题、时差、沟通损耗），要么飞过去——机票 + 酒店 + 路上时间，一个月出差成本可能就是省下电费的好几倍。
结果：一个千卡集群的常驻工程师团队 3–5 人，跨省驻场成本每年轻松超过百万。

③

数据传输税——每周都要交的过路费

千亿参数模型的单个 checkpoint（训练状态文件）= 5–15 TB。每隔几百步存一次，跨省专线传一次要十几小时。
每周迭代一次，这笔过路费每周都要交，一年 50 次 × 10–20 小时/次 = 500–1000 小时等待。
训练数据 PB 级从生产环境搬到西部，光带宽费就够呛；模型训练完还得传回来部署，每次往返都是真金白银。
结果：数据传输成本 + 时延损失，每年轻松数百万。

正确的算法：算力总成本五项

⚡

电费

GPU×TDP×PUE×电价

🌐

网络

专线+带宽+MFU损失

👨‍💻

工程师

驻场/出差/效率损耗

⏱

时间

训练延长×GPU折旧

⚠️

风险

故障响应/数据安全

算力总成本 = 电费 + 网络 + 工程师 + 时间 + 风险

单看电费便宜就拍板，那是 80 年代工厂选址的思路。那时候产品是钢铁、水泥，跑几千公里不会变质。AI 训练不是钢铁，它每分钟都在贬值。

训练集群选址优先级：
1. 与工程师据点距离（<2小时车程）
2. 与核心网络节点延迟（<2ms）
3. 与数据源的距离
4. 电价和绿电指标（最后才看）
5. 用电容量和扩展性

推理集群可以西部：
推理不需要频繁工程师介入
checkpoint 传输极少
延迟面向用户（100ms 级），而非 GPU 间（μs 级）
∴ 西部算力用于推理部署是合理的

★ 汇聚：AIDC 总拥有成本（TCO）计算器

5 年 TCO = 硬件成本 + 年电费 × 5 + 年网络 × 5 + 年运维 × 5

输入参数

GPU 数量

1,024张

GPU 单价（万元）

80万

GPU TDP（W）

700W

PUE

1.25

电价（元/kWh）

¥0.70

网络+运维（万元/年/百卡）

20万

5 年 TCO 分解

■ 硬件 ■ 5年电费 ■ 5年网络+运维

本章依赖（来自前两章）

GPU TDP → 机柜功率密度（第一章汇聚页A）

显存需求 → GPU 数量 → 集群规模（第二章汇聚页B）

MFU → 对网络延迟的敏感度（第二章2.4）

Checkpoint 大小 → 跨省传输成本（第二章2.4）

本章核心结论

训练集群：算力总成本 = 电+网络+工程师+时间+风险

推理集群：延迟面向用户，西部部署可行

液冷是 B200+ 的物理必须，不是选项

PUE 每降 0.1，千卡集群年省约数百万元

附录

速查参考

A. 术语表 / Glossary

B. GPU 全规格速查表

芯片	架构	HBM	带宽	FP8 dense	FP4 dense	NVLink	TDP	整机(×8) FP8
A100	Ampere	80G HBM2e	2.0 TB/s	—	—	NVLink 3	400W	—
H100	Hopper	80G HBM3	3.35 TB/s	1,979T	—	NVLink 4	700W	15.8P
H20 CN	Hopper CN	96G HBM3	4.0 TB/s	148T	—	PCIe	400W	1.18P
H200	Hopper	141G HBM3e	4.8 TB/s	1,979T	—	NVLink 4	700W	15.8P
B100	Blackwell	192G HBM3e	8.0 TB/s	7,000T	14,000T	NVLink 5	700W	56P
B200	Blackwell	192G HBM3e	8.0 TB/s	9,000T	18,000T	NVLink 5	1,000W	72P
B300	BW Ultra	288G HBM3e	8.0 TB/s	15,000T	30,000T	NVLink 5	1,400W	120P
GB200 NVL72	Grace+B200	13.8TB 合计	全互联	~576P	~1152P	NVLink 5	120–140kW	整机柜

C. 中国市场 GPU 可用性

全球版	中国版	状态	主要削减	适用场景
A100	A800	已禁（2022.10）	NVLink 带宽削减	训练通用
H100	H800	已禁（2023.10）	NVLink 带宽削减	训练+推理
H100	H20	已禁（2025.04）	核心−41%，算力−85%+，无SXM	大batch推理
B100	B20（传闻）	待确认	规格削减中	TBD
B200/B300	—	禁止出口	N/A	N/A

2025年4月特朗普政府对H20实施出口许可证要求，英伟达计提约55亿美元损失，随后夏季部分恢复。国产替代主要有：华为昇腾910B/910C（训练为主）、摩尔线程、燧原科技（推理为主）。

D. 选型 Checklist

GPU 选型流程

AIDC 选址流程

GPU · 大模型 · AIDC知识手册

GPU · 大模型 · AIDC
知识手册