tensorrt_llm
入门指南
概述
快速入门指南
主要特点
发布说明
安装
在Linux上安装
在Linux上从源代码构建
在Windows上安装
在Windows上从源代码构建
在Grace Hopper上安装
LLM API
API 介绍
API参考
LLM API 示例
LLM 示例介绍
常见自定义
示例
模型定义API
图层
函数式编程
模型
Plugin
量化
运行时
C++ API
Executor
运行时
命令行参考
trtllm-build
trtllm-serve
架构
TensorRT-LLM 架构
模型定义
编译
运行时
多GPU和多节点支持
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型
高级
多头、多查询和组查询注意力
C++ GPT Runtime
Executor API
图重写模块
推理请求
响应
使用GptManager / cpp运行时运行gpt-2b + LoRA
TensorRT-LLM中的专家并行
KV缓存重用
推测性采样
Disaggregated-Service (实验性)
性能
概述
基准测试
最佳实践
性能分析
参考
故障排除
支持矩阵
数值精度
TensorRT-LLM的内存使用情况
博客
H100在TensorRT-LLM中的性能是A100的4.6倍,在100毫秒内达到10,000 tok/s的首个令牌
H200在Llama2-13B上使用TensorRT-LLM实现了近12,000个令牌/秒
Falcon-180B 在单个 H200 GPU 上使用 INT4 AWQ,比 A100 上的 Llama-70B 快 6.7 倍
使用TRT-LLM中的SOTA量化技术加速推理
新的XQA内核在相同的延迟预算内提供了2.4倍的Llama-70B吞吐量
tensorrt_llm
Welcome to TensorRT-LLM’s Documentation!
View page source
欢迎来到 TensorRT-LLM 的文档!
入门指南
概述
关于 TensorRT-LLM
你能用TensorRT-LLM做什么?
快速入门指南
先决条件
LLM API
将模型编译为TensorRT引擎
运行模型
使用 Triton 推理服务器部署
下一步
相关信息
主要特点
发布说明
TensorRT-LLM 发布 0.16.0
TensorRT-LLM 发布 0.15.0
TensorRT-LLM 发布 0.14.0
TensorRT-LLM 发布 0.13.0
TensorRT-LLM 发布 0.12.0
TensorRT-LLM 发布 0.11.0
TensorRT-LLM 发布 0.10.0
TensorRT-LLM 发布 0.9.0
TensorRT-LLM 发布 0.8.0
TensorRT-LLM 发布 0.7.1
安装
在Linux上安装
在Linux上从源代码构建
先决条件
构建TensorRT-LLM Docker镜像
为C++运行时构建Python绑定
与TensorRT-LLM C++运行时的链接
在Windows上安装
在Windows上从源代码构建
先决条件
构建TensorRT-LLM Docker镜像
在裸金属上构建TensorRT-LLM
与TensorRT-LLM C++运行时的链接
在Grace Hopper上安装
架构
TensorRT-LLM 架构
模型权重
模型定义
编译
TensorRT 编译器
模型引擎
权重绑定
模式匹配与融合
插件
运行时
多GPU和多节点支持
示例
TensorRT-LLM 检查点
概述
准备 TensorRT-LLM 检查点
将检查点构建到TensorRT引擎中
进行评估
TensorRT-LLM 构建工作流程
概述
Conversion APIs
量化API
构建API
CLI工具
添加模型
第一步:编写建模部分
第二步:实现重量转换
第三步:注册新模型
步骤4. 验证新模型
参考
高级
多头、多查询和组查询注意力
重要提示
填充和打包的张量
上下文和生成阶段
飞行中的批处理
分块上下文
KV Cache
INT8/FP8 KV Caches
滑动窗口注意力,循环(滚动缓冲区)KV缓存
StreamingLLM
Beam-Search
输入QKV张量
C++ GPT Runtime
概述
The Session
飞行中批处理支持
已知问题和未来变更
Executor API
API
C++ Executor API 示例
Python Bindings for the Executor API
使用Triton推理服务器进行飞行批处理
图重写模块
何时使用图重写?
图重写API
经典工作流程
推理请求
响应
使用GptManager / cpp运行时运行gpt-2b + LoRA
LoRA 张量格式详情
TensorRT-LLM中的专家并行
专家混合模型 (MoE)
Tensor Parallel vs Expert Parallel
如何启用
KV缓存重用
如何启用kv缓存重用
性能预期
可能阻止kv缓存重用的情境
卸载到主机内存
推测性采样
关于推测采样
性能改进
Draft-Target-Model
Prompt-Lookup-Decoding
Medusa
ReDrafter
EAGLE
Lookahead Decoding
Disaggregated-Service (实验性)
用法
基准测试
故障排除和常见问题解答
性能
概述
已知问题
吞吐量测量
复现基准测试结果
在线服务测量
基准测试
支持的基准测试网络
支持量化模式
使用数据集进行飞行基准测试
准备数据集
构建基准测试引擎
最大吞吐量基准测试
低延迟基准测试
摘要
最佳实践
如何衡量性能?
构建选项以优化TensorRT-LLM模型的性能
优化TensorRT-LLM模型性能的运行时选项
性能分析
特征描述
用法
与NVIDIA Nsight Systems启动协调
示例
在多GPU模型的单个等级上执行的单个IFB迭代的性能分析
参考
故障排除
安装错误
Debug on Unit Tests
端到端模型调试
调试执行错误
提示
支持矩阵
模型
硬件
Software
数值精度
FP32, FP16 和 BF16
量化和反量化 (Q/DQ)
INT8 SmoothQuant (W8A8)
INT4 和 INT8 仅权重(W4A16 和 W8A16)
GPTQ 和 AWQ (W4A16)
FP8 (Hopper)
支持矩阵
技术细节:
QuantMode
标志
TensorRT-LLM的内存使用情况
了解推理时GPU内存使用情况
内存池
已知问题
FAQ
索引和表格
索引
模块索引
搜索页面