:bangbang: :new: NVIDIA H200 已发布,并在 TensorRT-LLM 上进行了优化。了解更多关于 H200 和 H100 的对比,请点击这里: H200 在 Llama2-13B 上使用 TensorRT-LLM 实现了近 12,000 tokens/秒
H100在TensorRT-LLM中的性能是A100的4.6倍,在100毫秒内达到10,000 tok/s的首个令牌
在Hopper和Ampere上评估的TensorRT-LLM显示,H100 FP8的最大吞吐量比A100高出4.6倍,首次令牌延迟快4.4倍。H100 FP8在64个并发请求的峰值吞吐量下能够实现超过10,000个输出令牌/秒,同时保持首次令牌延迟为100毫秒。对于最小延迟应用,TRT-LLM H100可以实现首次令牌延迟小于10毫秒。
TensorRT-LLM 在 H100 和 A100 上的吞吐量和首个令牌延迟。H100 FP8,A100 FP16,SXM 80GB GPU,提供 ISL/OSL,TP=1,BS=32/64 最大吞吐量,BS=1 首个令牌延迟。TensorRT-LLM v0.5.0,TensorRT 9.1。 通过扫描 BS 1,2,…,64 计算最大吞吐量。吞吐量取自最大成功值。
最大吞吐量与最小延迟
模型 |
批量大小 |
输入长度 |
输出长度 |
吞吐量(输出 tok/s) |
第一个令牌延迟(毫秒) |
|---|---|---|---|---|---|
H100 |
|||||
GPT-J 6B |
64 |
128 |
128 |
10,907 |
102 |
GPT-J 6B |
1 |
128 |
- |
185 |
7.1 |
A100 |
|||||
GPT-J 6B |
64 |
128 |
128 |
3,679 |
481 |
GPT-J 6B |
1 |
128 |
- |
111 |
12.5 |
加速 |
|||||
GPT-J 6B |
64 |
128 |
128 |
3.0倍 |
4.7x |
GPT-J 6B |
1 |
128 |
- |
2.4倍 |
1.7倍 |
FP8 H100, FP16 A100, SXM 80GB GPUs, TP1, ISL/OSL’s 提供, TensorRT-LLM v0.5.0., TensorRT 9.1
这些图表和表格背后的完整数据,包括具有更高TP值的更大模型,可以在TensorRT-LLM的性能文档中找到。
敬请期待即将推出的Llama亮点!
在H100上使用FP8的MLPerf
在最近的MLPerf结果中,NVIDIA展示了在NVIDIA H100上的模型推理性能比之前在NVIDIA A100 Tensor Core GPU上的结果快了最多4.5倍。使用相同的数据类型,H100比A100快了2倍。切换到FP8后,速度又提高了2倍。
什么是H100 FP8?
H100是NVIDIA的下一代、性能最高的数据中心GPU。基于NVIDIA Hopper GPU架构,H100加速了云数据中心、服务器、边缘系统和工作站中的AI训练和推理、高性能计算(HPC)以及数据分析应用。H100提供对FP8数据类型的原生支持,与H100上的16位浮点选项相比,可以将性能提高一倍,并将内存消耗减半。
论文FP8 Formats for Deep Learning中引入的FP8规范可用于加速训练以及使用16位格式训练的模型的后训练量化进行推理。该规范包括两种编码 - E4M3(4位指数和3位尾数)和E5M2(5位指数和2位尾数)。推荐的FP8编码使用方式是E4M3用于权重和激活张量,E5M2用于梯度张量。
在实践中,FP8可以将H100(FP8与FP16相比)的感知性能提高超过2倍。FP8是一种W8A8格式,意味着权重和激活值或计算都以8位存储。8位权重减少了GPU内存消耗和带宽,这意味着可以在相同的GPU中容纳更大的模型、序列长度或批量大小。这可以启用新的用例,更大的最大批量大小可以将最大吞吐量提高到FP16 H100的2倍以上。