tensorrt_llm
入门指南
概述
快速入门指南
主要特点
发布说明
安装
在Linux上安装
在Linux上从源代码构建
在Windows上安装
在Windows上从源代码构建
在Grace Hopper上安装
LLM API
API 介绍
API参考
LLM API 示例
LLM 示例介绍
常见自定义
示例
模型定义API
图层
函数式编程
模型
Plugin
量化
运行时
C++ API
Executor
运行时
命令行参考
trtllm-build
trtllm-serve
架构
TensorRT-LLM 架构
模型定义
编译
运行时
多GPU和多节点支持
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型
高级
多头、多查询和组查询注意力
C++ GPT Runtime
Executor API
图重写模块
推理请求
响应
使用GptManager / cpp运行时运行gpt-2b + LoRA
TensorRT-LLM中的专家并行
KV缓存重用
推测性采样
Disaggregated-Service (实验性)
性能
概述
基准测试
最佳实践
性能分析
参考
故障排除
支持矩阵
数值精度
TensorRT-LLM的内存使用情况
博客
H100在TensorRT-LLM中的性能是A100的4.6倍,在100毫秒内达到10,000 tok/s的首个令牌
H200在Llama2-13B上使用TensorRT-LLM实现了近12,000个tokens/秒
Falcon-180B 在单个 H200 GPU 上使用 INT4 AWQ,比 A100 上的 Llama-70B 快 6.7 倍
使用TRT-LLM中的SOTA量化技术加速推理
新的XQA内核在相同的延迟预算内提供了2.4倍的Llama-70B吞吐量
tensorrt_llm
Quantization
View page source
量化