2024年,数据中心市场,英伟达显卡依然一卡难求,已发布的A100、H100,L40S,还有即将发布的H200都是市场上的香饽饽。
2020年,英伟达发布了基于Ampere架构的A100。2022年,英伟达发布了基于Hopper架构的H100,2023年,英伟达又发布了L40S。
2024年,英伟达即将发布H200,虽然还没正式发布,但部分规格已经公开。于是,就有了这样一张表格。
项目 |
A100 |
H100 |
L40S |
H200 |
架构 |
Ampere |
Hopper |
Ada Lovelace |
Hopper |
发布时间 |
2020 |
2022 |
2023 |
2024 |
FP64 |
9.7 TFLOPS |
34 TFLOPS |
暂无 |
34 TFLOPS |
FP64 向量核心 |
19.5 TFLOPS |
67 TFLOPS |
暂无 |
67 TFLOPS |
FP32 |
19.5 TFLOPS |
67 TFLOPS |
91.6 TFLOPS |
67 TFLOPS |
TF32 向量核心 |
312 TFLOPS |
989 TFLOPS |
183 | 366* TFLOPS |
989 TFLOPS* |
BFLOAT16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP8 向量核心 |
不适用 |
3,958 TFLOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT8 向量核心 |
1248 TOPS |
3,958 TOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT4 向量核心 |
暂无 |
暂无 |
733 | 1,466* TFLOPS |
Data not available |
GPU 内存 |
80 GB HBM2e |
80 GB |
48GB GDDR6 ,带有ECC |
141GB HBM3e |
GPU 内存带宽 |
2,039 Gbps |
3.35 Tbps |
864 Gbps |
4.8 Tbps |
解码器 |
Not applicable |
7 NVDEC 7 JPEG |
Not applicable |
7 NVDEC 7 JPEG |
TDP |
400W |
700W |
350W |
700W |
多实例GPU |
7 MIGs @ 10 GB |
7 MIGs @ 10 GB each |
无 |
7 MIGs @16.5 GB each |
外形尺寸 |
SXM |
SXM |
4.4“ (H) x 10.5” (L), dual slot |
SXM** |
互联技术 |
NVLink: 600 GB/s PCIe Gen4: 64 GB/s |
NVLink: 900GB/s PCIe Gen5: 128GB/s |
PCIe Gen4 x16: 64GB/s bidirectional |
NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s |
服务器平台选项 |
NVIDIA HGX™ A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX™ A100 with 8 GPUs |
NVIDIA HGX H100 Partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs |
暂无 |
NVIDIA HGX™ H200 partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs |
NVIDIA AI Enterprise |
Included |
Add-on |
暂无 |
Add-on |
CUDA 核心数 |
6,912 |
16,896 |
18,176 |
暂无 |
A100支持多实例GPU功能,允许单个A100 GPU分割成多个独立的小GPU,这大大提升了云和数据中心的资源分配效率。
尽管H100和A100在使用场景和性能特点上有相似之处,但H100在处理大型AI模型和更复杂的科学模拟方面表现更佳。H100是高级对话式AI和实时翻译等实时响应型AI应用的更优选择。
在高性能计算方面,与CPU相比,H200能实现高达110倍的加速,从而更快地得到结果。
在处理Llama2 70B推理任务时,H200的推理速度是H100 GPU的两倍。
H200将在边缘计算和物联网(IoT)应用中的人工智能物联网(AIoT)方面发挥关键作用。
在包括最大型模型(超过1750亿参数)的LLP训练和推理、生成式AI和高性能计算应用中,可以期待H200提供的GPU性能。
总之,H200将在AI和高性能计算领域提供的性能,特别是在处理大型模型和复杂任务时。它的高内存容量和带宽,以及优异的推理速度,使其成为处理AI任务的理想选择。