概述
关于 TensorRT-LLM
TensorRT-LLM 加速并优化了在 NVIDIA GPU 上最新大型语言模型(LLMs)的推理性能。这个开源库可以在 TensorRT-LLM GitHub 仓库 免费获取,并且是 NVIDIA NeMo 框架 的一部分。
大型语言模型(LLMs)已经彻底改变了人工智能领域,并创造了与数字世界互动的新方式。但是,随着全球各地的组织和应用程序开发者希望将LLMs融入他们的工作中,运行这些模型的一些挑战变得显而易见。简而言之,LLMs是庞大的。这一事实可能使它们在缺乏适当技术的情况下运行起来既昂贵又缓慢。
TensorRT-LLM 提供了一个全面的库,用于编译和优化用于推理的LLMs。TensorRT-LLM 包含了所有的优化(即内核融合和量化,运行时优化如C++实现、KV缓存、连续飞行批处理和分页注意力)以及更多,同时提供了一个直观的模型定义API,用于定义和构建新模型。
TensorRT-LLM 提供的一些主要优势包括:
常见的LLM支持
TensorRT-LLM 支持最新的 LLMs。请参阅 软件 获取完整列表。
飞行中的批处理和分页注意力
飞行中的批处理 利用了LLM的整体文本生成过程可以被分解为模型的多次迭代执行。TensorRT-LLM运行时不会等待整个批次完成后再继续下一组请求,而是立即从批次中移除已完成的序列。然后,它开始执行新的请求,而其他请求仍在进行中。这是一个Executor API,旨在减少队列中的等待时间,消除填充请求的需求,并允许更高的GPU利用率。
多GPU多节点推理
TensorRT-LLM 包含预处理和后处理步骤以及多GPU多节点通信原语,通过一个简单、开源的模型定义API,实现了在GPU上突破性的大型语言模型推理性能。更多信息请参考多GPU和多节点支持部分。
FP8 支持
NVIDIA H100 GPUs 与 TensorRT-LLM 结合,使您能够轻松将模型权重转换为新的 FP8 格式,并自动编译模型以利用优化的 FP8 内核。这是通过 NVIDIA Hopper 实现的,且无需更改任何模型代码。
最新的GPU支持
TensorRT-LLM 支持基于 NVIDIA Hopper、NVIDIA Ada Lovelace 和 NVIDIA Ampere 架构的 GPU。 可能存在某些限制。更多信息请参考 支持矩阵。
原生Windows支持
应用程序开发者和AI爱好者现在可以受益于在由NVIDIA RTX和NVIDIA GeForce RTX GPU驱动的PC和工作站上本地运行的加速LLMs。更多信息请参考在Windows上安装部分。
你可以用TensorRT-LLM做什么?
让TensorRT-LLM在最新的LLMs上加速NVIDIA GPU的推理性能。在NVIDIA NeMo中使用TensorRT-LLM作为LLM推理的优化骨干,NeMo是一个端到端的框架,用于构建、定制并将生成式AI应用程序部署到生产环境中。NeMo提供了完整的容器,包括TensorRT-LLM和NVIDIA Triton,用于生成式AI的部署。
TensorRT-LLM通过一个开源的模块化模型定义API提高了易用性和可扩展性,用于定义、优化和执行随着LLMs发展而出现的新架构和增强功能,并且可以轻松定制。
如果您渴望深入了解LLM的世界,现在是开始使用TensorRT-LLM的最佳时机。探索其功能,尝试不同的模型和优化方法,并开始您的旅程,以解锁AI驱动语言模型的惊人力量。要开始,请参考快速入门指南。