从芯片到数据中心的完整认知链

GPU · 大模型 · AIDC
知识手册

系统理解 GPU 硬件、大模型运行原理、AI 数据中心基础设施,以及三者之间的深层联系。
Ampere → Blackwell Ultra 训练 & 推理 TFLOPS / HBM / NVLink AIDC 供电散热网络 东数西算真实账单
三者关系总图
点击任意条目跳转到对应章节。理解这张图,就理解了整本手册的逻辑。
🖥
第一章:GPU 硬件
决定能做什么、做多快
TFLOPS(算力)
→ 训练速度 / Prefill 速度
HBM 带宽
→ Decode 速度(TPOT)
HBM 容量
→ 模型大小 / KV Cache 上限
NVLink 带宽
→ 多卡 MFU / 并行效率
TDP(功耗)
→ 散热需求 / 机柜密度
算力精度(FP8/FP4)
→ 实际可用 TFLOPS / 量化加速
硬件
决定
上限
🧠
第二章:大模型
消耗资源、产出智能
参数量 × 精度
→ 显存需求 → GPU 数量
上下文长度
→ KV Cache → HBM 容量
训练(算力密集)
→ TFLOPS + NVLink 决定速度
推理 Decode(带宽密集)
→ HBM 带宽决定速度
MFU(利用率)
→ 实际训练效率 / 成本
量化(FP8/INT4)
→ 显存压缩 → 推理提速
负载
决定
规格
🏭
第三章:AIDC
装载和运行一切的容器
GPU 功耗 × 数量
→ 供电容量 → UPS/PDU 规格
TDP → 散热方案
风冷(≤400W) / 液冷(≤1400W+)
集群规模 → 网络拓扑
IB/RoCE → MFU → 训练效率
PUE(能效)
→ 实际电费 → 5 年 TCO
选址(东部 vs 西部)
电费幻觉:三笔隐形税
机房等级(Tier 1–4)
→ 可用性 → 冗余设计
阅读建议:三章可以独立阅读,但建议按顺序看一遍。第一章的 TFLOPS/HBM/NVLink/TDP 是理解后两章的基础;第二章的显存需求和 MFU 是第三章 AIDC 规格选型的输入;第三章的东数西算案例把所有概念串成一个真实决策场景。
第一章
GPU 硬件基础
在理解大模型和数据中心之前,先把 GPU 硬件吃透。这一章从"GPU 是什么"开始,到产品家族、关键参数、算力精度、Roofline 模型、设备形态,逐层展开。
GPU 卡 / GPU 模组 / GPU 服务器的区别
这三个是不同层次的概念,从小到大嵌套:GPU 卡是最基础的硬件单元,GPU 模组是集成了互联的加速单元,GPU 服务器是包含 CPU、内存、存储、网络的完整计算节点。
GPU 卡
最基础单元。PCIe 插卡形态,插在服务器主板上。

典型:H100 PCIe、A100 PCIe
特点:标准化接口,OEM 灵活集成
对比:SXM 形态不算"卡",是模组
GPU 模组
集成单元,GPU 芯片 + 互联 + 散热一体。

典型:SXM 模组(H100/B200)、OAM 模组(开放标准)
特点:NVLink 直连,带宽远超 PCIe
使用:插入 HGX 底板(UBB)
GPU 服务器
完整计算节点:CPU + 主板 + 内存 + 存储 + 多块 GPU + 网卡 + 机箱。

典型:HGX H100(8卡 SXM 模组方案)、DGX B200(含完整软件栈)
OEM 厂商基于 HGX 平台集成,形成各自品牌的 GPU 服务器产品
类比:GPU 卡 = 发动机,GPU 模组 = 发动机组,GPU 服务器 = 整辆车,GPU 集群 = 车队。HGX(SXM 模组方案,模组直接连在底板上)和 PCIe 卡方案的区别,本质上就是"发动机组一体化"和"独立发动机插槽"的区别——互联带宽和持续性能差异显著。

NVIDIA 产品家族全对比
NVIDIA 数据中心 GPU 经历了三代架构:Ampere(A100)→ Hopper(H100/H200/H20)→ Blackwell(B100/B200/B300)。每代在算力、显存、互联、功耗上都有质的跳跃。GB200/GB300 是 GPU + ARM CPU 的超级芯片形态,只以 NVL72 整机柜交付。
A100
Ampere 2020 · TSMC 7nm
HBM80GB HBM2e
带宽2.0 TB/s
FP16312 TFLOPS
FP8不支持
TDP400 W
H100
Hopper 2022 · TSMC 4nm
HBM80GB HBM3
带宽3.35 TB/s
FP8 dense1,979 TFLOPS
NVLink4代/900GB/s
TDP700 W
H20 中国
Hopper CN 2024 · PCIe only
HBM96GB HBM3
带宽4.0 TB/s
FP8 dense148 TFLOPS
NVLink无(PCIe)
TDP400 W
H200
Hopper 2023 · TSMC 4nm
HBM141GB HBM3e
带宽4.8 TB/s
FP8 dense1,979 TFLOPS
NVLink4代/900GB/s
TDP700 W
B200
Blackwell 2024 · TSMC 4NP
HBM192GB HBM3e
带宽8.0 TB/s
FP8 dense9,000 TFLOPS
NVLink5代/1800GB/s
TDP1,000 W
B300
Blackwell Ultra 2025 H2
HBM288GB HBM3e
带宽8.0 TB/s
FP8 dense15,000 TFLOPS
NVLink5代/1800GB/s
TDP1,400 W
H100→H200:算力相同,带宽 +43%,显存 +76%,H200 主要用于大显存推理场景。H100→B200:算力约 4.5×,但需要液冷(1000W vs 700W)。GB200 NVL72 是整机柜方案,72 GPU 全互联,不单独销售,算力可达 ~576 PFLOPS FP8 dense。
芯片架构HBM带宽 FP16 denseFP8 denseFP4 dense NVLinkTDP
── Ampere ──────────
A100 SXM4 Ampere 80GB HBM2e2.0 TB/s 312 TFLOPS NVLink 3400 W
── Hopper ──────────
H100 SXM5 Hopper 80GB HBM33.35 TB/s 1,979 TFLOPS1,979 TFLOPS NVLink 4700 W
H20 CN Hopper CN 96GB HBM34.0 TB/s 148 TFLOPS148 TFLOPS PCIe only400 W
H200 SXM Hopper 141GB HBM3e4.8 TB/s 1,979 TFLOPS1,979 TFLOPS NVLink 4700 W
── Blackwell ────────
B100 Blackwell 192GB HBM3e8.0 TB/s 3,500 TFLOPS7,000 TFLOPS14,000 TFLOPS NVLink 5700 W
B200 Blackwell 192GB HBM3e8.0 TB/s 4,500 TFLOPS9,000 TFLOPS18,000 TFLOPS NVLink 51,000 W
── Blackwell Ultra ──
B300 BW Ultra 288GB HBM3e8.0 TB/s 7,500 TFLOPS15,000 TFLOPS30,000 TFLOPS NVLink 51,400 W
统一口径:本表所有 TFLOPS 为 dense(稠密)算力。sparse(稀疏)= dense × 2,需要 2:4 结构化稀疏预处理才能实现。H20 为 PCIe-only,无节点内 NVLink,几乎不适合分布式训练。
系统GPUGPU 数总显存 FP8 dense 整机整机功耗散热
HGX A100A100 SXM48640 GB—(无FP8)~10 kW风冷
HGX H100H100 SXM58640 GB15.8 PFLOPS~10–11 kW风冷
DGX H100H100 SXM58640 GB15.8 PFLOPS~10.2 kW风冷
HGX H20 CNH208768 GB1.18 PFLOPS~3.5 kW风冷
HGX H200H200 SXM81,128 GB15.8 PFLOPS~10–11 kW风冷
HGX B200B200 SXM81,440 GB72 PFLOPS~14.3 kW液冷建议
DGX B200B200 SXM81,440 GB72 PFLOPS~14.3 kW液冷建议
HGX B300B300 SXM82,304 GB120 PFLOPS>14 kW液冷必须
GB200 NVL72GB200 超芯72+36CPU13.8 TB~576 PFLOPS120–140 kW液冷必须
GB300 NVL72GB300 超芯72+36CPU20.7 TB~1,080 PFLOPS~140 kW液冷必须
DGX vs HGX:DGX 含 NVIDIA 完整软件栈(DGX OS、AI Enterprise);HGX 是 OEM/ODM 自由集成平台,各品牌 GPU 服务器均基于 HGX 底板构建。NVL72 不是服务器,是整机柜系统。

五个关键硬件参数
这五个参数决定了 GPU 的能力边界,也是后续理解训练/推理瓶颈的基础。每个参数影响的场景完全不同,不能混为一谈。
TFLOPS(算力)
计算峰值
Tensor Core 每秒能完成多少次浮点乘加。
影响:训练速度、Prefill 速度。
注意:有 dense/sparse 之分,dense 才是真实基准。
HBM 带宽
数据传输速度
HBM 显存每秒能向 Tensor Core 输送多少数据。
影响:推理 Decode 速度(TPOT)。
核心:Decode 时 GPU 在等数据,带宽是瓶颈。
HBM 容量
仓库大小
能放多少模型权重和中间数据。
影响:最大模型大小、KV Cache 长度、并发数。
训练:推理显存需求的 6–8 倍。
NVLink 带宽
GPU 间高速公路
节点内 GPU 之间的通信带宽。
影响:多卡训练 MFU、张量并行效率。
关键:H20 无 NVLink,分布式训练 MFU 极低。
TDP(热设计功耗)
功耗上限
GPU 满载时的设计散热功耗上限。
影响:散热需求、机柜密度、持续算力。
趋势:A100=400W → H100=700W → B300=1400W。
工厂类比帮助记忆:TFLOPS = 工人工作速度,HBM 带宽 = 传送带速度,HBM 容量 = 仓库大小,NVLink = 工厂间高速公路,TDP = 工厂最大用电功率。训练时工人很忙(算力瓶颈);推理 Decode 时工人在等传送带(带宽瓶颈)。

算力精度:FP64 → FP4
同一块 GPU,用不同精度跑出的 TFLOPS 差异悬殊。精度越低,单位时间能做的运算越多,但表示的数值范围和小数精度越低。选对精度,是高效使用 GPU 的关键。
符号位(正/负) 指数位(数量级范围) 尾数位(小数精度)
FP64
S
指数 11 位
尾数 52 位(科学计算、物理仿真标准)
64 bit
FP32
S
指数 8
尾数 23 位
32 bit
BF16
S
指数 8(同FP32,范围等价)
尾 7
16 bit
FP16
S
指 5
尾数 10 位
16 bit
FP8
S
指 4
尾 3
8 bit
FP4
S
指 2
4 bit
稠密(Dense)
每个运算单元都参与计算时的理论峰值。
是更真实的基准,做性能对比时应统一用 dense。
稀疏(Sparse / 2:4)
对权重做 2:4 结构化剪枝,每 4 个权重中强制 2 个为零,专用硬件只算非零部分,吞吐翻倍。
Sparse = Dense × 2,NVIDIA 对外首发数字通常是 sparse 口径。
各精度用途速查:
精度训练推理关键特点GPU 支持
FP64几乎不用不用科学计算标准,AI GPU 刻意削减全部
FP32梯度累积不用存 Adam 优化器状态(FP32)全部
BF16训练主力推理范围同 FP32,训练稳定,PyTorch 默认A100+
FP16训练(需 loss scaling)推理精度高但范围窄,易溢出全部
FP8实验性推理主力H100 引入,Transformer Engine 自动切换,吞吐翻倍H100+
FP4不用量化推理Blackwell 引入,配合 MTS 微张量缩放,权重体积 ÷4B100+

Roofline 模型:算力受限 vs 带宽受限
Roofline 是理解"为什么训练看 TFLOPS、推理 Decode 看 HBM 带宽"的核心模型。它把任何计算任务的性能上限,用一条折线表示清楚。
H100 Roofline H200 Roofline(带宽更高) ● 黄点 = Decode(带宽受限)  ● 绿点 = Prefill/训练(算力受限)
算术强度(Arithmetic Intensity) = FLOP ÷ 访存字节数。
矩阵乘 [M,K]×[K,N]:强度 ≈ M×K×N / (M×K + K×N)。
当 M 很大(训练/prefill),强度高 → 算力受限。
当 M=1(decode 单 token),强度 ≈ 1 FLOP/B → 带宽受限。
脊点(Ridge Point) = TFLOPS ÷ HBM 带宽。
H100:1979 TFLOPS ÷ 3.35 TB/s ≈ 65 FLOP/B
算术强度 > 脊点 → 算力是瓶颈,提带宽没用。
算术强度 < 脊点 → 带宽是瓶颈,提 TFLOPS 没用。
Decode 的强度 ≈ 1,远低于 65,GPU 99% 时间空等数据

设备形态分类
市场上的 GPU 服务器按来源和配置方式有多种形态,采购决策前需要明确各类型的保障程度和风险。
原厂新机(Brand New)
整机由 NVIDIA/Dell/HPE 等出厂,未使用过。
保障:完整原厂保修
价格:最高
✓ 零风险
✗ 溢价高、交期长
OEM/ODM 整机
GPU 模组由 NVIDIA 供货,整机由 ODM(浪潮/白牌厂商)组装,基于 HGX 平台集成。
保障:正规渠道,有保修
价格:主流
✓ 灵活定制
✗ 需验证渠道
翻新机(Refurbished)
经专业翻新商测试、更换磨损件后销售,有一定保修。A100/H100 二手市场常见。
价格:新卡的 60–80%
✓ 性价比
✗ 寿命/隐患不确定
组装机(Custom-built)
买方自采 GPU 卡 + 服务器底座自行组装。灵活但需自己解决兼容性。初创公司早期常见。
价格:灵活
✓ 灵活
✗ 兼容性风险
二手整机(Used Server)
使用过的完整 GPU 服务器,来源包括云厂商缩容、企业置换等。需核查使用时长、GPU 健康度和保修剩余。A100/H100 整机二手市场流通量较大。
价格:新机的 40–65%
风险:需专业验机
✓ 价格低
✗ 状态不透明

★ 汇聚:GPU 代际 × 散热 × 机柜功率密度
这三者联动,是理解为什么 B200+ 必须液冷、AIDC 基础设施为何要升级换代的关键。
GPU单卡 TDP8卡节点功耗8节点/机柜机柜总功率散热要求备注
A100 SXM4400 W~5 kW4–6 节点~20–30 kW风冷传统 IDC 可承载
H100 SXM5700 W~10 kW4 节点~40 kW风冷(加强)需高密机柜
H200 SXM700 W~10 kW4 节点~40 kW风冷(加强)与 H100 同级
B200 SXM1,000 W~14 kW3–4 节点~50–60 kW液冷建议风冷无法持续满载
B300 SXM1,400 W>14 kW3 节点>50 kW液冷必须物理上不可风冷
GB200 NVL72整机柜整机柜1 机柜120–140 kW液冷必须需专用 CDU
关键推论:机柜功率密度从 A100 时代的 20–30 kW 跳到 GB200 NVL72 的 140 kW,增加了 5–7 倍。这不是"同一个机房多装几台"能解决的,而是供电、散热、结构全部要重新设计。这是 AIDC 建设成本远超传统 IDC 的根本原因,也是第三章的起点。
本章依赖(来自)
GPU TDP 和 NVLink 基础知识(1.3)
产品家族代际关系(1.2)
本章影响(去往)
第三章 3.3 散热体系的选型依据
第三章 3.2 供电容量规划
第三章东数西算案例的硬件背景
第二章
大模型
GPU 是工具,大模型是使用这个工具完成的工作。这一章从模型本身的结构讲起,到训练和推理各自的性能瓶颈,再到如何把模型需求映射回第一章的 GPU 硬件参数。
Transformer 极简结构
现代大模型几乎都基于 Transformer 架构。不需要懂数学,但需要知道每个模块是什么,因为它们直接对应着显存和算力的消耗来源。
① Embedding 层
把文字(token)转成数字向量。词表大小 × 隐藏维度 = Embedding 矩阵大小。
显存:词表 × d_model × 2B(较小)
② 注意力层(Attention)
每个 token 看其他所有 token,计算相关性权重。
Q / K / V 三个矩阵做线性变换。
KV Cache:推理时 K、V 矩阵要缓存,随上下文增长。
显存:权重 + KV Cache(可能很大)
③ FFN 层(前馈网络)
两个大矩阵乘法,先扩展维度再压缩。
FFN 参数量 ≈ 模型总参数的 2/3
计算量:训练中最大的算力消耗来源。
④ 重复 N 层 + 输出层
上述①②③堆叠 N 层(如 80 层)即构成完整模型。
最后一层输出概率分布,决定下一个 token。
层数 × 每层参数 ≈ 总参数量
数据流向(单个 token)
输入文本 → Tokenizer → token ID
Embedding:token ID → 向量 [1, d_model]
↓ × N 层
注意力层
Q = x·Wq  K = x·Wk  V = x·Wv
attn = softmax(QKᵀ/√d)·V
FFN 层
h = GeLU(x·W₁)  out = h·W₂
输出层 → 词表概率 → 下一个 token
d_model = 隐藏维度(如 8192),N = 层数(如 80),这两个数字决定模型大小和显存需求。
架构参数含义典型值(70B)对显存的影响对算力的影响
参数量模型规模,最常引用的数字70B权重 ≈ 140GB(FP16)训练总 FLOP ∝ 参数量
层数(N)Transformer 堆叠的层数80 层KV Cache ∝ 层数计算量 ∝ 层数
隐藏维度(d)每层向量的宽度8,192权重大小 ∝ d²算术强度 ∝ d,影响 GPU 利用率
注意力头数(H)多头注意力的头数64 头(MHA)
8 头(GQA)
KV Cache ∝ KV头数,GQA 节省 8×影响 attention 计算量
上下文长度单次处理的最大 token 数128kKV Cache ∝ 上下文长度Prefill 时间 ∝ 上下文
词表大小Tokenizer 能识别的词元数128kEmbedding 层 ≈ 词表×d×2B影响较小
MoE(混合专家):DeepSeek-V3 等模型是 671B 总参数,但每个 token 只激活约 37B 参数(路由到特定"专家"子网络)。计算量接近 37B 稠密模型,但推理时 HBM 里要装 671B 权重——省算力但费显存,对 NVLink 带宽要求也极高(专家并行需要跨卡通信)。

模型规格指标体系
评估一个模型可以从四个维度入手:模型自身属性、能力评测、推理效率、扩展能力。这四个维度对应的关注方不同:产品团队看能力,工程团队看效率,运维团队看成本。
① 模型自身属性
参数量:7B / 13B / 70B / MoE
上下文长度:训练支持 vs RoPE 外推可扩展
架构细节:层数、隐藏维度、GQA vs MHA
训练数据:多少 tokens、数据配比
训练算力:GPU·小时 / PetaFLOP-days
② 能力评测(Benchmark)
综合知识:MMLU、CEval(中文)
数学推理:GSM8K、MATH、AIME
代码:HumanEval、SWE-bench
对话:MT-Bench、Arena Elo
工具使用:BFCL(函数调用)
③ 推理效率指标
TTFT:首 token 延迟(prefill 决定)
TPOT:每 token 生成延迟(带宽决定)
TPS:每秒生成 token 数(吞吐量)
显存占用:权重 + KV Cache + 运行时
量化损失:INT4/FP8 精度与体积权衡
④ 扩展与部署能力
多模态:视觉/语音/视频支持
最大输出长度:单次回复上限(≠ 上下文)
并发支持:显存 + KV Cache 共同决定
API 成本:$/百万 token(输入/输出不同价)
硬件成本:需要几张什么卡
选模型的快速路径:先看基础规格(参数量、上下文长度、多模态)→ 再看目标场景的 benchmark 分(代码/数学/中文)→ 最后算成本(显存需求决定 GPU 数,决定价格)。不要只看 benchmark 总分,要看跟业务场景最相关的子分。

能力评测:常见 Benchmark 速查
Benchmark 是衡量模型能力的标准化考试,但每套考试考的侧重点不同。看跑分前先搞清楚这套题考的是不是你需要的能力。
名称类型考查内容适合判断注意
MMLU综合知识57 个学科选择题(高中到专业级)通用知识广度选择题,不考生成能力
CEval / CMMLU中文综合中文各学科知识理解中文场景选型中文模型重要参考
GSM8K数学推理小学数学应用题,需多步推理基础推理能力已趋近饱和,区分度低
MATH / AIME竞赛数学高中竞赛 / 美国数学邀请赛深度推理能力o3/R1 类模型优势显著
HumanEval代码根据注释写函数,看通过率(pass@1)代码生成能力题目已泄露,参考 LiveCodeBench
SWE-bench代码 Agent自动修复真实 GitHub Issue工程实战能力最接近真实工程场景
MT-Bench多轮对话GPT-4 当裁判给多轮对话打分对话/指令跟随受裁判模型偏好影响
Arena Elo人类偏好用户盲测两个模型投票实际使用体验最接近真实用户感受
BFCL工具调用函数调用准确率Agent / 工具链企业应用场景关键
数据污染问题:很多 benchmark 题目已经出现在训练数据中,导致分数虚高。选型时优先参考:① 最近发布的 benchmark(题目未泄露)② 与业务场景高度相关的专项测试 ③ 自己构建的内部评测集。

训练深入:为什么算力密集,如何衡量效率
训练是算力密集型的,核心原因是矩阵乘法的算术强度远超 GPU 的带宽脊点——读一次权重能做几千次乘加运算,计算才是瓶颈。但实际训练速度还受通信、显存、调度共同约束。
训练速度计算器(拖动滑块感受各因素影响)
模型参数量70 B
训练数据量2,000 GT
GPU FP16 dense TFLOPS1,979 T
GPU 数量128
MFU(实际利用率)40 %
总计算量
参数×tokens×6
有效算力
TFLOPS×N×MFU
预估训练时长
总量÷有效算力
TFLOPS×2 后
带宽/卡数无变化
公式:训练天数 = 参数量(B)×数据量(GT)×10⁹×6 ÷ (TFLOPS×10¹²×GPU数×MFU) ÷ 86400。系数6 = 前向×1 + 反向×2,再×2(乘加各算1次)。
MFU 为什么上不去——一个 step 的时间拆解
H100 集群训练 70B,典型 step 时间分解(通信无法隐藏时):
矩阵乘法(有效计算)
~55%
梯度通信 all-reduce
~28%
显存访问开销
~12%
调度/其他
~5%
梯度通信是最大的算力黑洞:all-reduce 时 Tensor Core 空转等待网络。NVLink 5(B200,1800 GB/s)比 NVLink 4(H100,900 GB/s)快一倍,通信时间减半,MFU 可从 40% 提升到 ~55%。H20 无节点内 NVLink,通信走 PCIe(64 GB/s),通信占比可超 70%,MFU 可能低于 15%。
三种并行策略 × NVLink 的对应关系
数据并行(DP)
每卡有完整模型,处理不同 batch。
通信:每步做一次梯度 all-reduce。

通信量:参数量×4B×2
NVLink 依赖:中
时机:可与反向传播重叠
张量并行(TP)
把单层矩阵切分到多卡,每层都要 all-reduce 同步激活值,无法隐藏

通信量:每层激活值×2
NVLink 依赖:极高
必须节点内:跨节点效率崩溃
流水线并行(PP)
把模型层切分到多卡,像流水线一样传递激活值。

通信量:激活值(相对小)
NVLink 依赖:低–中
适合跨节点:走 InfiniBand
实际大模型训练 = 3D 并行:节点内 8 卡用 NVLink 跑张量并行(TP=8)→ 节点间用 InfiniBand 跑流水线并行(PP)→ 全局用数据并行(DP)同步梯度。ZeRO-3 在 DP 基础上把优化器状态、梯度、权重都分片,使单卡显存需求降低 N 倍。
训练显存分解计算器
模型参数量70 B
序列长度4,096
Batch size4
梯度检查点关闭
权重 BF16 梯度 FP32 Adam 优化器 激活值
权重(BF16)
梯度(FP32)
Adam 优化器
激活值
合计
Adam 是最大的隐形黑洞:一阶动量 + 二阶动量各需一份 FP32 参数副本,合计 = 参数量 × 8B。70B 模型优化器状态就是 560GB,比权重本身大 4 倍。ZeRO-3 把这部分分片到所有 GPU,每张卡只存 1/N。

推理深入:带宽决定 Decode,容量决定上下文
推理分两个截然不同的子阶段:Prefill 是算力密集型,Decode 是带宽密集型。理解这个区别,是理解"为什么 H200 在推理上比 H100 更有优势"的关键。
Prefill(处理 prompt)
输入:S 个 token 并行处理
矩阵乘形状:[S, d] × [d, d]
算术强度:≈ S/2 × d FLOP/B
S=4096 时:~4096 FLOP/B(远超脊点)

瓶颈:TFLOPS(算力受限)
影响指标:TTFT(首 token 延迟)
Decode(逐 token 生成)
输入:1 个 token(串行)
矩阵乘形状:[1, d] × [d, d]
算术强度:≈ 1 FLOP/B
H100 脊点 ~65,decode 只有 1/65

瓶颈:HBM 带宽(带宽受限)
影响指标:TPOT(每 token 延迟)
Decode 速度计算器
模型参数量70 B
HBM 带宽3,350 GB/s
推理精度FP16 (2B)
Batch size1
权重大小
140 GB
算术强度
1 F/B
带宽受限
TPOT(每token)
= 权重÷带宽÷batch
最大 TPS
主流 GPU 理论 TPOT(70B FP16,batch=1):
量化提速的物理机制:FP16→FP8 把权重体积减半 → 相同带宽下搬运时间减半 → TPOT 减半。不是因为运算更快,而是需要搬运的数据更少。H200 比 H100 带宽提升 43%,decode 速度直接提升 43%,TFLOPS 完全相同。
KV Cache:上下文长度的代价
上下文长度(tokens)8,192
并发请求数8
模型层数80
KV Cache(单请求)
KV Cache(全部)
全部并发
模型权重
140 GB
70B FP16
总显存需求
KV Cache 公式:2(K+V)× 层数 × KV头数 × 头维度 × 上下文长度 × 并发数 × 精度字节。GQA 把 KV 头数从 64 减到 8,KV Cache 缩小 8×,是支持长上下文的关键架构优化。PagedAttention 解决 KV Cache 碎片,让同样显存服务更多并发。
吞吐量 vs 延迟:永恒的权衡
在线服务(低延迟优先)
Batch size 小 → TPOT 低 → 用户响应快
但 TPS 低,GPU 利用率不高
适合:ChatGPT 类实时对话
离线批处理(高吞吐优先)
Batch size 大 → 算术强度提升 → TPS 高
但每个请求的 TPOT 增加
适合:批量文档处理、数据标注
连续批处理(Continuous Batching)是现在提升 QPS 最主要的工程手段:请求完成就把空位填入新请求,而不是等一批全部完成。vLLM 的 PagedAttention 让 KV Cache 碎片化管理,与连续批处理配合,可以将 GPU 利用率从 30% 提升到 70%+。

GPU 硬件参数 ↔ 模型指标 映射表
把第一章的五个硬件参数和第二章的模型指标对应起来,搞清楚"优化哪个硬件参数能改善哪个模型指标"。点击每行展开详细说明。
模型指标阶段最相关 GPU 参数次要因素典型瓶颈

★ 汇聚:从模型选型到 GPU 配置推导链
输入模型参数和使用场景,推导出 GPU 型号和最少卡数。
输入:模型参数
参数量
70B
推理精度
FP16
上下文长度
8K
并发请求数
16
推导:显存需求
■ 权重■ KV Cache■ 运行时
结论:GPU 配置
本章依赖(来自第一章)
TFLOPS → 训练速度 / Prefill(1.3)
HBM 带宽 → Decode 速度(1.3)
HBM 容量 → 模型 + KV Cache 上限(1.3)
NVLink → 并行训练 MFU(1.3)
TDP → 散热 → 持续算力(1.3)
本章影响(去往第三章)
GPU 数量 × 功耗 → AIDC 供电规划(3.2)
集群规模 → 网络拓扑选型(3.4)
训练 vs 推理选址逻辑差异(东数西算案例)
TCO 计算器的硬件成本输入(3.7)
第三章
AIDC 数据中心
GPU 需要运行在某个地方,这个"地方"就是 AI 数据中心(AIDC)。它是连接 GPU 硬件和大模型的物理容器,供电、散热、网络三者共同决定了 GPU 能跑多快、跑多久、跑多便宜。第二章的显存需求和集群规模,在这里变成机柜、电缆、CDU 和真实的电费账单。
从 IDC 到 AIDC:功率密度的代际跳跃
传统 IDC(互联网数据中心)托管通用服务器,AI 时代催生了专门为 GPU 集群优化的 AIDC。两者不是量的差别,是质的不同——从设计标准到建设成本全面升级。
传统 IDC
功率密度:3–10 kW / 机柜
散热:精密空调(CRAC)风冷
计费:按 U 数和带宽
网络:1–10 Gbps 以太网
PUE:1.4–1.8
典型客户:电商、SaaS、游戏
AIDC(AI 数据中心)
功率密度:30–140 kW / 机柜
散热:直接液冷(DLC)/ 浸没式
计费:按 GPU 卡数 / 算力
网络:200–400 Gbps InfiniBand / RoCE
PUE:1.1–1.3
典型客户:AI 训练、大模型推理
机柜功率密度代际演进
传统 IDC(通用服务器)
3–10 kW
A100 节点(4节点/柜)
~40 kW
H100 节点(4节点/柜)
~40–50 kW
B200 节点(4节点/柜)
~60 kW
GB200 NVL72(整机柜)
120–140 kW
从 A100 到 NVL72,机柜功率密度提升了 3–4 倍。这不是"加几台服务器"能解决的,而是供电主回路、散热管路、结构承重、消防系统全部要重新设计。这也是 AIDC 建设成本远超传统 IDC 改造成本的根本原因。

供电链路与冗余设计
电从电网到 GPU 要经过多级转换,每级都有损耗和冗余设计。AI 集群对供电稳定性要求极高——瞬间掉电会导致训练任务全部重跑,checkpoint 之前的计算全部作废。
供电链路(从电网到 GPU)
市电(10–35kV)
从电网引入,高压输送减少线路损耗
变压器
降压至 400V/220V,效率 98%+,双路冗余
UPS(不间断电源)
AI 集群的命脉:市电断电后继续供电 5–30 分钟(蓄电池),等待发电机启动。冗余配置 2N(两套完整系统互备)
发电机
30–60 秒内启动,长期备用(柴油储备 12–72h),配合 UPS 无缝切换
PDU(配电单元)
机柜级分配,精密计量每路功耗,智能 PDU 可远程断路保护
GPU 服务器
冗余电源(2+1),自动切换,每张 B200 消耗 1000W,8 卡节点约 11–14 kW
N 冗余
刚好够用,没有备份。单点故障 = 宕机。传统 IDC 常见。
N+1 冗余
一台备用。单点故障可继续运行。AIDC 标准配置。
2N 冗余
完整双套系统。任意一套全部宕机仍可运行。大型 AI 集群要求。
AIDC 验收时的 UPS 和发电机检测,核心就是验证这条链路在各种故障场景下能否无缝切换,保证训练任务不因供电闪断而中断。假负载测试(fake-load test)的目的是在不跑真实 GPU 负载的情况下,模拟最大功耗场景验证供电和散热的稳定性。

散热体系:与 GPU 代际严格对应
散热方案不是自由选择的,而是由 GPU 的 TDP 决定的物理约束。B200 的 1000W 和 B300 的 1400W 已经超出风冷的物理极限,液冷不是选项而是必须。
风冷(Air Cooling)
散热上限:~350W / GPU
持续系数:75–88%
适用 GPU:A100、H100、H200
机柜密度:10–50 kW
原理:冷空气从前门进、热空气从后门出,精密空调(CRAC)维持机房温度
✓ 成本低,部署简单
✗ B200+ 物理上做不到
直接液冷(DLC)
散热上限:700–1400W+ / GPU
持续系数:90–98%
适用 GPU:B200、B300、NVL72
机柜密度:40–140 kW
原理:冷却液通过 CDU(冷却分配单元)→ 机架管路 → 服务器冷板 → 直接带走芯片热量
✓ 持续算力高、PUE 低
✗ 改造成本高
浸没式冷却
散热上限:理论无上限
持续系数:~100%
适用场景:超高密度部署
机柜密度:200 kW+
原理:服务器整体浸泡在绝缘冷却液中,热量通过液体自然对流带走
✓ 效率最高
✗ 维护复杂,成本极高
CDU(冷却分配单元)是液冷系统的核心
CDU 负责把冷水从楼层冷却水管引入,经过热交换器降温后分配到各机架的服务器冷板,再把吸热后的热水送回制冷系统。关键参数:
冷却容量(kW):CDU 能带走的最大热量,要覆盖机柜实际功率
进出水温差(ΔT):典型 5–15°C,影响散热效率
流量(L/min):与温差和功率直接相关,Q = ṁ × Cp × ΔT
冗余配置:A+B 双路,任意一路故障不影响运行
液冷 AIDC 验收中,CDU 性能测试的本质是在满功率情况下,验证进出水温差在设计范围内、流量稳定、无泄漏,且 A/B 路切换无中断。压力测试检查管路密封性,防止漏液导致服务器短路。

网络架构:计算网 vs 存储网
AIDC 里有两张完全独立的网络,新手最容易混淆。计算网决定 GPU 之间通信多快(影响 MFU),存储网决定训练数据读取多快(影响 GPU 等待磁盘的时间)。
计算网络(GPU 间通信)
协议:InfiniBand(IB)或 RoCE(RDMA over Converged Ethernet)
带宽:400 Gbps(HDR)/ 800 Gbps(NDR)单端口
延迟:亚微秒到微秒级(IB 端到端约 1–2 μs)
拓扑:Fat-tree 或 Rail-Optimized
用途:梯度 all-reduce、张量并行 all-reduce
影响:直接决定多机训练的 MFU

这张网买差了,再贵的 GPU 也发挥不出来。
存储网络(数据读取)
协议:以太网(25/100 Gbps)
存储系统:分布式文件系统(GPFS/Lustre/NFS)
用途:读取训练数据集、写入 checkpoint
带宽需求:确保 GPU 不因等数据而空转
典型规模:训练数据 PB 级,checkpoint 单次几 TB

GPU 读数据的速度 > 训练消耗数据的速度,才不会出现 I/O bottleneck。
Fat-tree 拓扑:为什么 AI 集群用这个
Fat-tree 是多层交换机构成的无阻塞网络,任意两台服务器之间的带宽相等,没有"热点"瓶颈。典型三层结构:
接入层(ToR):服务器连接的第一级交换机,每台连 32–64 台服务器
汇聚层:连接多台 ToR,上行带宽 = 下行带宽(无收敛)
核心层:最顶层,连接所有汇聚层,实现跨机架全互联

Rail-Optimized 是针对 GPU all-reduce 优化的变体:同一 GPU 编号(如所有节点的 GPU0)接入同一台 ToR,all-reduce 时同类 GPU 通信尽量留在同一交换机域内,减少跨层流量。

PUE 与能效成本
PUE(Power Usage Effectiveness)是数据中心能效的核心指标,直接影响每度算力的电费成本。液冷是改善 PUE 最有效的手段。
PUE = 数据中心总用电 ÷ IT 设备用电
理想值 = 1.0(100% 电力用在 IT 上,散热和配电零损耗)
传统风冷 IDC
PUE 1.4–1.8
优化风冷 AIDC
PUE 1.2–1.4
直接液冷 AIDC
PUE 1.1–1.2
浸没冷却
PUE ~1.03
电费计算器(年度运营成本估算)
GPU 数量1,024
GPU 型号 TDP700 W
PUE1.30
工业电价(元/kWh)0.70
IT 设备功耗
GPU + 服务器其他
实际总功耗
× PUE
年电费
万元/年
PUE→1.1 节省
万元/年
液冷的投资回报:PUE 从 1.3 降到 1.1 意味着每度算力电费降低约 15%。对于千卡规模集群,年节省通常在数百万元,2–3 年即可回收液冷改造成本。这是 AIDC 投资液冷基础设施的经济逻辑。

机房等级(Tier 1–4)与可用性
TIA-942 标准定义了四个机房等级,从基本到容错,可用性和建设成本逐级提升。AI 训练集群通常要求 Tier 3 及以上。
等级年可用性年允许停机冗余设计适用场景建设成本
Tier 199.671%28.8 小时无冗余,单路供电和散热小型企业机房基准
Tier 299.741%22 小时部分冗余,N+1中型 IDC1.5×
Tier 3 ★99.982%1.6 小时N+1,可在线维护(不停机维护)AI 集群主流2–3×
Tier 499.995%26 分钟2N 完全容错,任意组件故障不影响金融/核心系统4–5×
AI 训练集群通常选 Tier 3:可用性 99.982% 足以保证年度不超过 1.6 小时计划外停机,配合 checkpoint 机制(定期保存训练状态),即使短暂断电也可以从最近 checkpoint 恢复,不会完全丢失训练进度。Tier 4 的额外成本通常难以被 AI 训练业务的 ROI 支撑。

东数西算:电费幻觉与三笔隐形税
千万不要把 H100 训练集群放到西部。同样的显卡放在乌兰察布,比放在廊坊总成本反而更贵。为什么东数西算账面上的电费省了一半,但实际总账你可能倒贴?
账面逻辑(看起来西部更划算)
西部(乌兰察布 / 贵州)
⚡ 电价:0.25–0.35 元/kWh
🏭 地价:
🌿 绿电指标:充裕
📊 账面算力成本:低 ~50%
东部(廊坊 / 张家口 / 嘉兴)
⚡ 电价:0.65–0.80 元/kWh
🏭 地价:
🌿 绿电指标:紧张
📊 账面算力成本:
反常识现象:字节、阿里、月之暗面、DeepSeek 的核心训练集群全部在廊坊、张家口、嘉兴这些东部卫星城——没有一家把训练放到 1000km 外的西部。他们不是不知道西部电便宜,而是算清楚了这笔账。
三笔隐形税,加起来远超省下的电费
网络税——跨省延迟让 GPU 闲置等待
万卡集群要求节点间亚微秒到微秒级延迟、400G InfiniBand 内部带宽,这只能在同一园区内实现。
北京到内蒙专线单程约 5–10ms,all-reduce 一次约 10–20ms。而正常节点内 all-reduce 只需 <1ms。
结果:梯度通信时间膨胀 10–20 倍,MFU 从 40% 暴跌到 10% 以下。
同样的卡放西部,多跑 1–2 个月才能训练完——这 1–2 个月的 GPU 折旧 + 电费,省下的电费远不够填这个坑。
工程师税——现场调集群是日常
AI 训练不是"跑起来就放着",工程师每天都要蹲在现场处理:GPU 故障替换、通信拥塞调优、训练抖动排查、节点掉线重启……
跨省了:要么远程协作效率打折(网络问题、时差、沟通损耗),要么飞过去——机票 + 酒店 + 路上时间,一个月出差成本可能就是省下电费的好几倍。
结果:一个千卡集群的常驻工程师团队 3–5 人,跨省驻场成本每年轻松超过百万。
数据传输税——每周都要交的过路费
千亿参数模型的单个 checkpoint(训练状态文件)= 5–15 TB。每隔几百步存一次,跨省专线传一次要十几小时。
每周迭代一次,这笔过路费每周都要交,一年 50 次 × 10–20 小时/次 = 500–1000 小时等待。
训练数据 PB 级从生产环境搬到西部,光带宽费就够呛;模型训练完还得传回来部署,每次往返都是真金白银。
结果:数据传输成本 + 时延损失,每年轻松数百万。
正确的算法:算力总成本五项
电费
GPU×TDP×PUE×电价
🌐
网络
专线+带宽+MFU损失
👨‍💻
工程师
驻场/出差/效率损耗
时间
训练延长×GPU折旧
⚠️
风险
故障响应/数据安全
算力总成本 = 电费 + 网络 + 工程师 + 时间 + 风险
单看电费便宜就拍板,那是 80 年代工厂选址的思路。那时候产品是钢铁、水泥,跑几千公里不会变质。AI 训练不是钢铁,它每分钟都在贬值。
训练集群选址优先级:
1. 与工程师据点距离(<2小时车程)
2. 与核心网络节点延迟(<2ms)
3. 与数据源的距离
4. 电价和绿电指标(最后才看
5. 用电容量和扩展性
推理集群可以西部:
推理不需要频繁工程师介入
checkpoint 传输极少
延迟面向用户(100ms 级),而非 GPU 间(μs 级)
∴ 西部算力用于推理部署是合理的

★ 汇聚:AIDC 总拥有成本(TCO)计算器
5 年 TCO = 硬件成本 + 年电费 × 5 + 年网络 × 5 + 年运维 × 5
输入参数
GPU 数量
1,024
GPU 单价(万元)
80
GPU TDP(W)
700W
PUE
1.25
电价(元/kWh)
¥0.70
网络+运维(万元/年/百卡)
20
5 年 TCO 分解
■ 硬件 ■ 5年电费 ■ 5年网络+运维
本章依赖(来自前两章)
GPU TDP → 机柜功率密度(第一章汇聚页A)
显存需求 → GPU 数量 → 集群规模(第二章汇聚页B)
MFU → 对网络延迟的敏感度(第二章2.4)
Checkpoint 大小 → 跨省传输成本(第二章2.4)
本章核心结论
训练集群:算力总成本 = 电+网络+工程师+时间+风险
推理集群:延迟面向用户,西部部署可行
液冷是 B200+ 的物理必须,不是选项
PUE 每降 0.1,千卡集群年省约数百万元
附录
速查参考

芯片架构HBM带宽FP8 denseFP4 denseNVLinkTDP整机(×8) FP8
A100Ampere80G HBM2e2.0 TB/sNVLink 3400W
H100Hopper80G HBM33.35 TB/s1,979TNVLink 4700W15.8P
H20 CNHopper CN96G HBM34.0 TB/s148TPCIe400W1.18P
H200Hopper141G HBM3e4.8 TB/s1,979TNVLink 4700W15.8P
B100Blackwell192G HBM3e8.0 TB/s7,000T14,000TNVLink 5700W56P
B200Blackwell192G HBM3e8.0 TB/s9,000T18,000TNVLink 51,000W72P
B300BW Ultra288G HBM3e8.0 TB/s15,000T30,000TNVLink 51,400W120P
GB200 NVL72Grace+B20013.8TB 合计全互联~576P~1152PNVLink 5120–140kW整机柜

全球版中国版状态主要削减适用场景
A100A800已禁(2022.10)NVLink 带宽削减训练通用
H100H800已禁(2023.10)NVLink 带宽削减训练+推理
H100H20已禁(2025.04)核心−41%,算力−85%+,无SXM大batch推理
B100B20(传闻)待确认规格削减中TBD
B200/B300禁止出口N/AN/A
2025年4月特朗普政府对H20实施出口许可证要求,英伟达计提约55亿美元损失,随后夏季部分恢复。国产替代主要有:华为昇腾910B/910C(训练为主)、摩尔线程、燧原科技(推理为主)。

GPU 选型流程
AIDC 选址流程