跳转至

Nvidia

导言

Nvidia 的系列产品的基本参数

各系列定位

中国特供版

GPU 型号 形态 FP16 算力 (TFLOPS)
(Dense, Tensor Core)
显存容量 (GB) 显存类型 显存带宽 (GB/s) NVLink
H100 SXM5 989 80 HBM3 3,350 900 GB/s (18 links)
PCIe 756 80 HBM3 2,000 无(仅 PCIe)
H800 SXM5 989 80 HBM3 3,350 450 GB/s(降规 NVLink)
H20 SXM/PCIe 148 96 HBM3e 4,096 无 NVLink(仅 PCIe 5.0 x16)
A100 SXM4 312 40 / 80 HBM2e 1,555 / 2,039* 600 GB/s (12 links)
PCIe 312 40 / 80 HBM2e 1,555 / 2,039* 通常无板载 NVLink 连接器
A800 SXM4 312 40 / 80 HBM2e 1,555 / 2,039* 300 GB/s(降规 NVLink)
  1. A800 对标 A100。H800 对标 H100。但是带宽有阉割
  2. 2023年10月17日,美国商务部工业和安全局(BIS)发布了针对芯片的出口管制新规,对包括英伟达高性能AI芯片在内的半导体产品施加新的出口管制;限制条款已经于10月23日生效。英伟达给美国SEC的备案文件显示,立即生效的禁售产品包括A800、H800和L40S这些功能最强大的AI芯片。5
  3. 对此NV推出新的HGX H20、L20、L2三款 AI 芯片产品,分别基于英伟达的Hopper和Ada架构,适用于云端训练、云端推理以及边缘推理。
    1. H20是H100 GPU缩小版,运算能力为296 TFLOPs,使用GH100芯片,性能密度(TFLOPs/Die size)仅为2.9。相比之下,H100运算能力是1979 TFLOP,性能密度高达19.4。据此计算,H100 SXM 将比H20 SXM 快6.68倍。“中国特供版”H20综合算力比H100降80%5
    2. L2,L20 也可以对标 RTX40903

集群要求(估计)

据评估,H100/H800是目前算力集群的主流实践方案:

  • H100理论极限在5万张卡集群,最多达到10万P算力;
  • H800最大实践集群在2万-3万张卡,共计4万P算力;
  • A100最大实践集群为1.6万张卡,最多为9600P算力。5
  • 新的H20芯片,理论极限在5万张卡集群,但每张卡算力为0.148P,共计近为7400P算力,低于H100/H800、A100。因此,H20集群规模远达不到H100的理论规模,基于算力与通信均衡度预估,合理的整体算力中位数为3000P左右,需增加更多成本、扩展更多算力才能完成千亿级参数模型训练。

商业考虑

  1. 中国是NV最大的市场之一,历来占其收入的五分之一左右。4
  2. 中国云计算公司目前约有80%的高端人工智能芯片来自英伟达,而这一比例在未来五年可能会下降到50%至60%。

集群超算 DGX,HGX,EGX,MGX

  • NVIDIA DGX SYSTEMS:Purpose-Built for the AI Enterprise
  • NVIDIA HGX AI 超级计算机:专为 AI 和 HPC 而打造
  • NVIDIA EGX 平台: 从数据中心到边缘端强大安全的加速能力
  • NVIDIA MGX: 通过模块化服务器设计将加速计算引入任何数据中心。
感觉GPT4的解释大差不差

NVIDIA的HGX、DGX和EGX是三个不同的产品系列,它们分别针对不同的市场和应用场景设计。下面是每个缩写的含义和它们的主要用途:

  1. HGX (Hyper-scale GPU Accelerator)

    • HGX是面向超大规模、高性能计算(HPC)和人工智能(AI)的数据中心设计的GPU加速平台。
    • 它通常包含多个GPU,用于处理大规模并行计算任务,如深度学习训练、科学模拟等。
    • HGX平台旨在提供最高的计算密度和效率,适用于构建超级计算机和大型数据中心。
  2. DGX (Data-center Grade GPU Accelerator)

    • DGX是NVIDIA设计的用于深度学习和AI应用的高端计算系统。
    • 它通常是一种集成解决方案,包括GPU、CPU、内存和存储,以及用于深度学习和AI的软件和工具。
    • DGX系统被设计为即插即用,适用于研究机构、大学和企业,用于加速AI研究和商业AI应用的部署。
  3. EGX (Edge GPU Accelerator)

    • EGX是针对边缘计算环境设计的GPU加速平台。
    • 它旨在将AI的能力带到网络边缘,例如在零售、制造、物流、智慧城市等场景中进行实时数据处理和分析。
    • EGX平台通常更小巧、能效更高,适合安装在距离数据源更近的位置,以减少延迟并提高响应速度。

这些平台代表了NVIDIA在不同计算领域的战略布局,旨在提供专门针对各种计算需求的优化解决方案。由于我的最后更新是在2023年4月,这些平台的最新细节可能有所变化。

GeForce 提供家庭娱乐

PC,与AMD(原ATi)的Radeon系列显卡竞争

GTX

  • 从2004年的Geforce 6800系列开始就有“GT”的代号,GT:频率提升版本"GeForce Technology"的缩写,代表着中高端显卡或者是加强版显卡,比如6600GT和6800GT,
  • 到了2005年的7800系列之后便引入了“GTX”的代号,直接代表着高端或者顶级显卡。
  • 进入GTX400系列(2010年)以后,当时还有象征中低端的“GTS”命名,后来就连“GTS”也没有了,全部的独立显卡统称为“GTX”,仅用后面的数字大小来区分性能等级,至今GTX1000系列显卡一直延续着这样的命名方式。

RTX

  • 对于已经沿用了多年的GTX前缀,NVIDIA终于在最新的GTX20系列(2018年)有所改变了,高端的2080和2080TI统称为“RTX”,这里的“RT”就代表着光线追踪(ray tracing的缩写),象征着RTX2080显卡拥有非常强大的光线追踪性能。其实光线追踪技术本身并不新鲜,但是由于计算量需求庞大,往往为了渲染一帧图片都需要传统电脑消耗数个小时乃至数天的时间,但是RTX20显卡采用的“图灵”架构引入了RT计算单元,使其光线追踪性能超越上一代显卡的六倍,拥有了即时处理游戏光追的条件,NVIDIA认为这是一个划时代的进化,于是果断把沿用多年的“GTX”改名为“RTX”。
  • NVIDIA RTX显卡是首个包含RT Core的图形卡。这种专用光线追踪硬件每秒可以投射超过10 gigarays的光线,从而可以在游戏中提供类似电影的实时照明。RTX显卡的光线追踪性能最高可提高6倍,因而可以实现实时光线追踪效果。
  • RTX显卡也是首个提供Tensor Core的设备,这些Tensor Core能够提供超过100 teraflop的AI处理,以利用NVIDIA DLSS提高游戏性能。

Tesla用于大规模的并联电脑运算

  1. NVIDIA推出了CUDA。开发者利用C语言,再通过CUDA编译器,就能利用显核运算。开发者可忽略图形处理技术,而直接利用熟悉的C语言。开发者和科学家,就可以利用显示核心,研究物理、生化和勘探等领域。
  2. 可实现极高精度
  3. 最大的差别是特斯拉计算卡(Tesla )属于运算卡,没有图形输出功能

Tegra 移动端 SOC system on chip

  1. 基于ARM架构的通用处理器(CPU)。Tegra是一种采用单片机系统设计(system-on-a-chip)芯片,它集成了ARM架构处理器和NVIDIA的GeforceGPU,并内置了其它功能,产品主要面向小型设备。和Intel以PC为起点的x86架构相比,ARM架构的Tegra更像是以手机处理器为起点做出的发展。它不能运行x86 PC上的Windows XP等操作系统,但在手机上应用多年的ARM架构轻量级操作系统更能适应它高速低功耗的需求
  2. 2008年2月11日,NVIDIA发布了用于智能手机与PDA平台的Tegra APX 2500 65 nm 600 MHz

1

  1. Tegra X1的分数几乎是Tegra K1,再之前是Tegra 1/2/3/4
    1. Switch采用了Nvidia Tegra T210处理器,属于Tegra X1系列。目前各类主机以及手机、平板都是将CPU与GPU整合在一块芯片上,并不像电脑还需有个独显。而Tegra系列便是Nvidia专门为手持设备开发的系统芯片,Tegra为Nvidia自产主机SHIELD以及Google手机Nexus、小米平板等设备提供过技术支持,图像处理性能介于A8X与A9X之间,是的,Tegra常拿来与移动端处理器对比,感情Switch就是用的一手机CPU啊,还是三年前的!
    2. Tegra X1整合了四颗Cortex-A57核心和四颗Cortex-A53核心,和骁龙810以及三星Exynos 7系列相同。而GPU部分则采用了Maxwell架构,共计256个流处理器,堪比入门独显了
    3. Super Switch有望搭载一块1080P OLED/mini LED显示屏,处理器升级为Tegra X1+/Xavier,配备64GB存储空间。

ION 低端上网本,集成

Quadro (视觉计算平台)

架构+产品+参数

2

Older

1

Maxwell 2014年

  1. GTX 980
  2. GeForce GTX TITAN X 28nm Maxwell架构 GM200

Pascal 2016年

  1. Pascal的GPC有6个SM,每个SM只含有64个CUDA Core,但是拥有64个FP32单元32个FP64单元,FP64与FP32比例达到了1:2,双精度性能大幅度提高,而Pascal的FP32单元可以同时执行2个FP16半精度运算,因此FP16浮点性能也同样获得极大提升
产品名 架构 核心 cuda核心数 单双浮点性能 内存大小 内存带宽 TDP
GTX1080 Pascal GP104
GTX1080Ti Pascal 16nm GP102 3584 11GB GDDR5X 484GB/s显存带宽 250W
P100 Pascal GP104 3584 5/10 Tflops 12/16GB 250W
P40 Pascal GP100 3840 6/12 Tflops 24GB GDDR5 250W

Volta 2017年

产品名 架构 核心 cuda核心数 (Double/Single/Tensor)浮点性能 内存大小 内存带宽 TDP
V100-PCIe Volta GP100 5120(640Tensor core) 7/14/112 Tflops 16/32GB HBM2 250W

Turing 2018年

  1. RT core 硬件光追
  2. Tensor core 加速深度学习 DLSS
  3. VR + 采样 光栅性能
产品名 架构 核心 cuda核心数 单双浮点性能 内存大小 内存带宽 TDP
GTX1650 Turing 896 4GB 128位 128GB/s 75W
RTX2060 Turing 1920 6GB 192位 336GB/s 160W
RTX2080Ti Turing 4352 11GB 352位 260W

Ampere 2020年

  1. Ampere被看作是Turing的平稳升级
  2. 7nm + NVIDIA第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身
  3. 新的Turing RT核心和Tensor核心
产品名 架构 核心 cuda核心数 (Double/Single/Single Tensor/FP16 Tensor)浮点性能 内存大小 内存带宽 TDP
RTX3070 Ampere 5888 8GB GDDR6X 256位 220W
RTX3090 Ampere GA102 10496 24GB GDDR6X 384位 350W
A100-SXM Ampere GA100-883AA-A1 6912 9.7/19.5/152/312 Tflops 40/80GB HBM2e 2,039 GB/s 400W
A800 Ampere

Ada Lovelace 2022年9月

  1. 继承了2020年发布的Ampere架构
  2. 采用台积电新的5 nm“4N”工艺
产品名 架构 核心 cuda核心数 (Double/Single/Single+Tensor/FP16+Tensor)浮点性能 内存大小 内存带宽 TDP
RTX 4090 Ada Lovelace AD102 16384 24GB GDDR6X 384-bit 21 Gbps 1TB/s 450W
RTX 4090 D Ada Lovelace
L2 Ada Lovelace 24GB GDDR6X 300GB/s TBD
L20 Ada Lovelace xx/60/60/119 Tflops 48GB GDDR6X 864GB/s 275W

Hopper

5

SXM (Server PCI Express Module)

产品名 架构 核心 cuda核心数 (Double/Single/Single+Tensor/FP16+Tensor)浮点性能 内存大小 内存带宽 TDP
H100-SXM Hopper 34/67/989/1979 Tflops 80GB HBM3 3TB/s 700W
H20 Hopper xx/44/74/148 Tflops 96GB HBM3 4TB/s 400W

或者

核心指标 数据类型 H100 SXM5 (满血版) H100 PCIe (插卡版) 典型应用场景
FP64 双精度 34 TFLOPS 26 TFLOPS 传统超算、科学模拟
FP64 Tensor Core 双精度 (Tensor) 67 TFLOPS 51 TFLOPS 加速的科学计算
FP32 单精度 67 TFLOPS 51 TFLOPS 图形、通用计算
TF32 Tensor Float 32 494 TFLOPS 378 TFLOPS 主流 AI 训练 (PyTorch 默认)
FP16 / BF16 半精度 989 TFLOPS 756 TFLOPS 高性能 AI 训练 & 推理
FP8 8位浮点 1,979 TFLOPS 1,513 TFLOPS 大模型训练 & 推理 (H100 杀手锏)
INT8 8位整数 3,958 TOPS 3,026 TOPS 极致 AI 推理

fp16暴涨3倍

AI 训练速度暴增 (FP8 & FP16)

  • A100 (FP16): 312 TFLOPS
  • H100 (FP16): 989 TFLOPS

Next

明年英伟达B100 GPU产品很有可能不再向中国市场销售。5

AMD(原ATi) PS4 PS5

  1. PS4 PRO与Xbox One X两大主机皆是采用了AMD公司的捷豹(Jaguar)处理器
  2. PS4Pro 的APU GPU部分大概是RX470D?(或者1050Ti)

参考文献