:loudspeaker: 注意:以下数据使用的是TensorRT-LLM v0.5。在v0.6及以后的版本中有了显著的改进。请查看更新的Llama性能 这里。
H200在Llama2-13B上使用TensorRT-LLM实现了近12,000个令牌/秒
TensorRT-LLM 对 新 H200 GPU 的评估显示,在单个 GPU 上,Llama2-13B 的吞吐量达到 每秒 11,819 个 token。H200 比 H100 快 1.9 倍。这一性能得益于 H200 更大、更快的 HBM3e 内存。
H200 FP8 最大吞吐量
模型 |
批量大小(1) |
TP(2) |
输入长度 |
输出长度 |
吞吐量(输出令牌/秒/GPU) |
|---|---|---|---|---|---|
llama_13b |
1024 |
1 |
128 |
128 |
11,819 |
llama_13b |
128 |
1 |
128 |
2048 |
4,750 |
llama_13b |
64 |
1 |
2048 |
128 |
1,349 |
llama_70b |
512 |
1 |
128 |
128 |
3,014 |
llama_70b |
512 |
2 |
128 |
2048 |
1,654 |
llama_70b |
64 |
1 |
2048 |
128 |
341 |
llama_70b |
32 |
1 |
2048 |
128 |
303 |
初步测量的性能,可能会有变化。TensorRT-LLM v0.5.0, TensorRT v9.1.0.4 | H200, H100 FP8。
(1) 在给定的TP配置下,支持的最大批次大小为2的幂。 (2) TP = 张量并行
额外的性能数据可在NVIDIA数据中心深度学习产品性能页面上获取,并且很快将在TensorRT-LLM的性能文档中提供。
H200 对比 H100
H200的HBM3e更大容量和更快的内存使得在LLMs上的性能相比H100提高了1.9倍。最大吞吐量的提升得益于其对内存容量和带宽的依赖,受益于新的HBM3e。对于大多数ISLs来说,第一个令牌的延迟是计算限制的,这意味着H200在第一个令牌的时间上与H100保持相似。
关于H200性能的实际示例:
最大吞吐量 TP1: 在单个 H200 上使用 Llama-70B 的离线摘要场景(ISL/OSL=2048/128)比 H100 性能高出 1.9 倍。
最大吞吐量 TP8: 在完整的 HGX (TP8) H200 上使用 GPT3-175B 的在线聊天代理场景(ISL/OSL=80/200)比 H100 性能高出 1.6 倍。
初步测量的性能,可能会有所变化。 TensorRT-LLM v0.5.0, TensorRT v9.1.0.4. | Llama-70B: H100 FP8 BS 8, H200 FP8 BS 32 | GPT3-175B: H100 FP8 BS 64, H200 FP8 BS 128
跨TP/BS的最大吞吐量: H200与H100的最大吞吐量(3)因模型、序列长度、BS和TP而异。以下结果显示了在所有变量中每个GPU的最大吞吐量。
初步测量的性能,可能会有所变化。 TensorRT-LLM v0.5.0, TensorRT v9.1.0.4 | H200, H100 FP8.
(3) 每个GPU的最大吞吐量定义为每个GPU的最高tok/s,通过TP配置和BS的2的幂次方进行扫描。
最新HBM内存
H200是NVIDIA数据中心GPU产品线的最新成员。为了最大化计算性能,H200是首款配备HBM3e内存的GPU,内存带宽达到4.8TB/s,比H100提高了1.4倍。H200还将GPU内存容量扩大了近2倍,达到141GB。更快更大的HBM内存组合加速了LLM模型推理性能,提高了吞吐量和每秒处理的令牌数。这些结果是初步测量的,随着TensorRT-LLM对H200的优化继续进行,预计会有更多更新。