tensorrt_llm

入门指南

  • 概述
  • 快速入门指南
  • 主要特点
  • 发布说明

安装

  • 在Linux上安装
  • 在Linux上从源代码构建
  • 在Windows上安装
  • 在Windows上从源代码构建
  • 在Grace Hopper上安装

LLM API

  • API 介绍
  • API参考

LLM API 示例

  • LLM 示例介绍
  • 常见自定义
  • 示例
    • 使用引导解码生成文本
    • 生成文本
    • 异步生成文本
    • 生成流式文本
    • 生成文本
    • 分布式LLM生成
    • 使用logits后处理器控制生成的文本
    • 使用前瞻解码生成文本
    • 使用Medusa解码生成文本
    • 使用多个LoRA适配器生成文本
    • 量化生成
    • 使用LLM实现自动并行

模型定义API

  • 图层
  • 函数式编程
  • 模型
  • Plugin
  • 量化
  • 运行时

C++ API

  • Executor
  • 运行时

命令行参考

  • trtllm-build
  • trtllm-serve

架构

  • TensorRT-LLM 架构
  • 模型定义
  • 编译
  • 运行时
  • 多GPU和多节点支持
  • TensorRT-LLM 检查点
  • TensorRT-LLM 构建工作流程
  • 添加模型

高级

  • 多头、多查询和组查询注意力
  • C++ GPT Runtime
  • Executor API
  • 图重写模块
  • 推理请求
  • 响应
  • 使用GptManager / cpp运行时运行gpt-2b + LoRA
  • TensorRT-LLM中的专家并行
  • KV缓存重用
  • 推测性采样
  • Disaggregated-Service (实验性)

性能

  • 概述
  • 基准测试
  • 最佳实践
  • 性能分析

参考

  • 故障排除
  • 支持矩阵
  • 数值精度
  • TensorRT-LLM的内存使用情况

博客

  • H100在TensorRT-LLM中的性能是A100的4.6倍,在100毫秒内达到10,000 tok/s的首个令牌
  • H200在Llama2-13B上使用TensorRT-LLM实现了近12,000个tokens/秒
  • Falcon-180B 在单个 H200 GPU 上使用 INT4 AWQ,比 A100 上的 Llama-70B 快 6.7 倍
  • 使用TRT-LLM中的SOTA量化技术加速推理
  • 新的XQA内核在相同的延迟预算内提供了2.4倍的Llama-70B吞吐量
tensorrt_llm
  • Examples
  • View page source

示例

脚本

  • 使用引导解码生成文本
  • 生成文本
  • 异步生成文本
  • 生成流式文本
  • 生成文本
  • 分布式LLM生成
  • 使用logits后处理器控制生成的文本
  • 使用前瞻解码生成文本
  • 使用Medusa解码生成文本
  • 使用多个LoRA适配器生成文本
  • 量化生成
  • 使用LLM实现自动并行
Previous Next