为NVIDIA Ada GPU架构优化CUDA应用程序
基于NVIDIA Ada GPU架构的CUDA应用程序调优编程指南。
1. NVIDIA Ada GPU架构调优指南
1.1. NVIDIA Ada GPU架构
NVIDIA® Ada GPU架构是NVIDIA为CUDA®计算应用推出的最新架构。NVIDIA Ada GPU架构保留并扩展了由前代NVIDIA GPU架构(如NVIDIA Ampere和Turing)提供的相同CUDA编程模型,遵循这些架构最佳实践的应用程序通常无需更改代码即可在NVIDIA Ada架构上获得加速。本指南总结了如何通过利用NVIDIA Ada GPU架构的特性来微调应用程序以获得额外的加速。1
如需了解本指南中讨论的编程功能的更多详细信息,请参阅CUDA C++ Programming Guide。
1.2. CUDA最佳实践
《CUDA C++编程指南》和《CUDA C++最佳实践指南》中描述的性能准则和最佳实践适用于所有支持CUDA的GPU架构。程序员主要需要遵循这些建议以获得最佳性能。
这些指南中的高优先级建议如下:
寻找并行化顺序代码的方法。
最小化主机与设备之间的数据传输。
调整内核启动配置以最大化设备利用率。
确保全局内存访问是合并的。
尽可能减少对全局内存的冗余访问。
避免同一warp内的线程执行过长的分支序列。
1.3. 应用兼容性
在解决本指南涵盖的具体性能调优问题之前,请参阅NVIDIA Ada GPU架构的CUDA应用程序兼容性指南,以确保您的应用程序以兼容NVIDIA Ada GPU架构的方式进行编译。
1.4. NVIDIA Ada GPU架构调优
1.4.1. 流式多处理器
NVIDIA Ada GPU架构的流式多处理器(SM)相比Turing和NVIDIA Ampere GPU架构提供了以下改进。
1.4.1.1. 占用率
每个SM的最大并发warp数量为48,与计算能力8.6的GPU相比保持不变,其他影响warp占用率的因素包括:
每个SM的寄存器文件大小为64K个32位寄存器。
每个线程的最大寄存器数量为255。
每个SM的最大线程块数量为24。
每个SM的共享内存容量为100 KB。
每个线程块的最大共享内存为99 KB。
总体而言,开发者无需修改应用程序,即可获得与计算能力8.6 GPU相当的占用率。
1.4.1.2. 增强的张量核心运算
NVIDIA Ada GPU架构包含新型Ada第四代Tensor Core,搭载Hopper FP8 Transformer引擎。
1.4.1.3. 提升FP32吞吐量
计算能力8.9的设备每个SM每个周期的FP32运算量是计算能力8.0设备的两倍。虽然为8.0编译的二进制文件可以直接在8.9上运行,但建议显式地为8.9进行编译以获得更高的FP32吞吐量优势。
1.4.2. 内存系统
1.4.2.1. 增加的L2缓存容量
NVIDIA Ada GPU架构将AD102中的L2缓存容量提升至98304 KB,比GA102大16倍。该架构允许CUDA用户控制数据在L2缓存中的持久性。有关L2缓存数据持久性的更多信息,请参阅CUDA C++编程指南中关于管理L2缓存的部分。
2. 版本历史
版本 1.0
首次公开发布
新增对计算能力8.9的支持
- 1
-
在本指南中,Volta指计算能力7.0的设备,Turing指计算能力7.5的设备,NVIDIA Ampere GPU架构指计算能力8.0和8.6的设备,NVIDIA Ada指计算能力8.9的设备。
3. 通知
3.1. 注意事项
本文档仅供信息参考之用,不应视为对产品功能、状态或质量的保证。NVIDIA公司(“NVIDIA”)对本文件所含信息的准确性或完整性不作任何明示或暗示的陈述或保证,并对其中可能存在的错误不承担任何责任。NVIDIA对于因使用此类信息而产生的后果、或因使用该信息导致的第三方专利或其他权利侵权概不负责。本文件不构成对开发、发布或交付任何材料(定义见下文)、代码或功能的承诺。
NVIDIA保留随时对本文件进行更正、修改、增强、改进以及任何其他变更的权利,恕不另行通知。
客户在下单前应获取最新的相关信息,并确认这些信息是最新且完整的。
除非NVIDIA与客户授权代表签署的单独销售协议中另有约定,否则NVIDIA产品的销售均以订单确认时提供的NVIDIA标准销售条款和条件为准(以下简称"销售条款")。NVIDIA特此明确反对将任何客户通用条款适用于本文件所述NVIDIA产品的采购。本文件不直接或间接构成任何合同义务。
NVIDIA产品并非设计、授权或保证适用于医疗、军事、航空、航天或生命支持设备,也不适用于那些可以合理预期NVIDIA产品故障或失灵会导致人身伤害、死亡、财产或环境损害的应用场景。NVIDIA对于在此类设备或应用中使用和/或包含NVIDIA产品不承担任何责任,因此客户需自行承担相关风险。
NVIDIA不声明或保证基于本文档的产品适用于任何特定用途。NVIDIA未必会对每个产品的所有参数进行测试。客户应全权负责评估和确定本文档所含信息的适用性,确保产品适合并满足客户计划的应用需求,并执行必要的应用测试以避免应用或产品出现故障。客户产品设计中的缺陷可能会影响NVIDIA产品的质量和可靠性,并可能导致超出本文档范围的其他或不同的条件和/或要求。对于任何因以下原因导致的故障、损坏、成本或问题,NVIDIA不承担任何责任:(i) 以违反本文档的任何方式使用NVIDIA产品或(ii) 客户产品设计。
本文档不授予任何NVIDIA专利权、版权或其他NVIDIA知识产权的明示或暗示许可。NVIDIA发布的关于第三方产品或服务的信息,不构成NVIDIA对这些产品或服务的使用许可或担保认可。使用此类信息可能需要获得第三方基于其专利或其他知识产权的许可,或需要获得NVIDIA基于其专利或其他知识产权的许可。
本文件中的信息仅可在获得NVIDIA事先书面批准、未经改动完整复制且完全符合所有适用的出口法律法规,并附带所有相关条件、限制和声明的情况下进行复制。
本文件及所有NVIDIA设计规格、参考板、文件、图纸、诊断工具、清单和其他文档(统称及单独称为"材料")均以"现状"提供。NVIDIA不对材料作出任何明示或默示的保证,包括但不限于对不侵权、适销性和特定用途适用性的默示保证免责。在法律允许的最大范围内,NVIDIA不就因使用本文件导致的任何损害承担责任,包括但不限于任何直接、间接、特殊、附带、惩罚性或后果性损害,无论损害成因如何,也无论责任理论为何,即使NVIDIA已被告知发生此类损害的可能性。不论客户因任何原因可能遭受的任何损害,NVIDIA对客户就本文所述产品的全部及累计责任应受产品销售条款的限制。
3.2. OpenCL
OpenCL是苹果公司的商标,经Khronos Group Inc.授权使用。
3.3. 商标
NVIDIA和NVIDIA标识是美国及其他国家NVIDIA公司的商标或注册商标。其他公司及产品名称可能是其各自关联公司的商标。