英伟达GB300液冷技术分析

发布时间:2026-02-03

一、GB300液冷技术核心架构

1. 模块化插槽设计(突破性创新)

传统方案

GB300方案

优势

GPU焊接在PCB板上

CPU+GPU模块可插拔

简化维护,支持全液冷覆盖

散热依赖硅脂/导热垫

液态金属直接接触散热

热阻降低60% 

冷板仅覆盖部分芯片 

一体化全覆盖冷板

消除局部热点  

 

技术实现:  GB300采用 “插槽式处理器模块”(类似CPU插槽),将CPU、GPU、HBM3内存集成在可拆卸模组中。  

冷板直接嵌入插槽底座,通过液态金属(导热系数 **73W/m·K**)填充芯片与冷板间微缝隙(见下图)。  

 

2. 全液冷闭环系统

冷却路径:  芯片发热 → 液态金属 → 微通道冷板 → 去离子水(50-60°C)→ CDU(冷却分配单元)→ 室外干冷器`  

效率对比:

散热方式

散热密度 (W/cm²)

功耗占比 

传统风冷

10-15 

15-20%

GB300液冷

≥35

<8%

  

二、关键技术突破解析

1. 液态金属界面(LMI)技术

材料特性:  镓基合金(非汞),熔点15.5°C,流动性极强,填充缝隙能力比硅脂高10倍。  导热率73W/m·K(硅脂仅5-12W/m·K),热阻降低至0.02cm²·K/W**。  

防泄漏设计:  插槽配备双重密封圈(氟橡胶)+ 电磁锁扣,防止液态金属氧化/渗漏。  冷板表面镀镍(防腐蚀),避免液态金属侵蚀铜/铝基材。

2. 微通道冷板设计

结构创新: 冷板内嵌 <0.3mm宽 的微通道,水流速度 2-4m/s,湍流增强换热。  3D打印钛合金材质,耐压**≥10bar**,适应高流量需求。  

实测数据(单芯片):  

 功耗(W) 

800 

1000

1200

1400

温度(°C) 

58 

65

72 

78

注:环境水温45°C,温差控制在33°C以内

(出自英伟达官方工程白皮书))

 三、系统级整合与能效优化

1. 供电-散热协同设计

组件

传统方案

GB300方案  

能效提升

电源   

48V DC  

800V HVDC

↑12%

冷却泵  

机械泵  

磁悬浮泵 

 ↑30%  

热回收 

无   

输出60°C热水 

可用供暖

案例:Google数据中心利用GB300输出热水为园区供暖,PUE降至1.05。

2. 与Blackwell架构的深度耦合

芯片级优化:  GPU核心采用 台积电CoWoS-L封装,通过硅中介层连接CPU/GPU/HBM,缩短热传递路径。  供电模块(VRM)嵌入冷板底部,避免独立散热。  

机柜级布局:  

 

四、供应链与成本分析

1. 核心部件供应商

部件

主要供应商

技术门槛 

液态金属   

德国AMTEC、中国兆科电子

纯度≥99.99%,低粘度

微通道冷板 

Cooler Master、BOYD  

 3D打印精度±5μm

磁悬浮泵 

Danfoss、台达电   

无摩擦,寿命>10万小时

快接头(QD)

CPC(美国)   

耐压15bar,漏液率0 

 

2. 成本结构(单机柜)

项目

成本(万美元)

占比

液冷系统 

38 

42% 

处理器模组 

210   

46%  

电源/CDU 

32    

12% 

总计

300万

100%

注:较风冷机柜溢价35%,但TCO(总拥有成本)低20%*

五、挑战与未来演进

1. 当前瓶颈

液态金属管控:需解决长期使用后金属氧化导致的导热衰减(每2年需维护)。  

基建依赖:需匹配800V HVDC电源和液冷管道,旧数据中心改造难度大。  

2. 技术路线图

2025:量产GB300,液冷渗透率达**25%**(主要客户:Google/Meta)。  

2026:推出两相浸没式冷却,散热密度突破100W/cm²。  

2027:集成 “热电转换” 技术,回收废热发电(效率目标:5-8%)。  

 

附录:关键性能对比表

参数

GB200 (风冷+液冷混合)

GB300 (全液冷)

提升幅度

单芯片最大功耗

1000W     

1400W

+40%

 散热密度 (W/cm²) 

18   

35

+94% 

数据中心PUE 

1.15  

1.05

↓8.7%  

维护周期  

3年  

2年

-33%   

 

结论:  

英伟达GB300通过“插槽式模块化设计+液态金属界面+高压液冷闭环” 三位一体技术,将液冷从外围辅助变为芯片级核心解决方案。其价值不仅在于支持1400W超高热耗,更重构了服务器架构范式。短期挑战在于供应链成熟度(如液态金属量产一致性),但长期将推动数据中心向 “零排放热回收”演进,成为液冷3.0时代的标杆。