入门指南

概述
快速入门指南
主要特点
发布说明

安装

在Linux上安装
在Linux上从源代码构建
在Windows上安装
在Windows上从源代码构建
在Grace Hopper上安装

LLM API

API 介绍
API参考

LLM API 示例

LLM 示例介绍
常见自定义
示例

模型定义API

图层
函数式编程
模型
Plugin
量化
运行时

C++ API

Executor
运行时

命令行参考

trtllm-build
trtllm-serve

架构

TensorRT-LLM 架构
模型定义
编译
运行时
多GPU和多节点支持
TensorRT-LLM 检查点
TensorRT-LLM 构建工作流程
添加模型

高级

多头、多查询和组查询注意力
C++ GPT Runtime
Executor API
图重写模块
推理请求
响应
使用GptManager / cpp运行时运行gpt-2b + LoRA
TensorRT-LLM中的专家并行
KV缓存重用
推测性采样
Disaggregated-Service (实验性)

性能

概述
基准测试
最佳实践
性能分析

参考

故障排除
支持矩阵
数值精度
TensorRT-LLM的内存使用情况

博客

H100在TensorRT-LLM中的性能是A100的4.6倍，在100毫秒内达到10,000 tok/s的首个令牌
H200在Llama2-13B上使用TensorRT-LLM实现了近12,000个tokens/秒
Falcon-180B 在单个 H200 GPU 上使用 INT4 AWQ，比 A100 上的 Llama-70B 快 6.7 倍
使用TRT-LLM中的SOTA量化技术加速推理
新的XQA内核在相同的延迟预算内提供了2.4倍的Llama-70B吞吐量

Examples
View page source

示例

脚本

使用引导解码生成文本
生成文本
异步生成文本
生成流式文本
生成文本
分布式LLM生成
使用logits后处理器控制生成的文本
使用前瞻解码生成文本
使用Medusa解码生成文本
使用多个LoRA适配器生成文本
量化生成
使用LLM实现自动并行