在Windows上安装

注意

TensorRT-LLM 的 Windows 版本目前处于测试阶段。 我们建议查看 v0.16.0 标签 以获得最稳定的体验。

注意

TensorRT-LLM 在 Windows 上仅支持单 GPU 执行。

先决条件

  1. 使用Git for Windows克隆此仓库。

  2. 安装依赖项的两种方式之一:

    1. 安装所有依赖项。

      1. 运行提供的PowerShell脚本setup_env.ps1,该脚本位于/windows/文件夹下,它会自动安装Python和CUDA 12.6.3,并使用默认设置。要以管理员身份运行PowerShell来使用该脚本。

      ./setup_env.ps1 [-skipCUDA] [-skipPython]
      
      1. 关闭并重新打开任何现有的PowerShell或Git Bash窗口,以便它们能够获取由上述setup_env.ps1脚本修改的新Path

    2. 逐个安装依赖项。

      1. 安装 Python 3.10

        1. 在安装开始时选择将python.exe添加到PATH。安装可能只会添加python命令,而不会添加python3命令。

        2. 导航到安装路径 %USERPROFILE%\AppData\Local\Programs\Python\Python310 (AppData 是一个隐藏文件夹) 并将 python.exe 复制为 python3.exe

      2. 安装 CUDA 12.6.3 Toolkit。使用快速安装选项。安装可能需要重启。

  3. 如果使用conda环境,在安装TensorRT-LLM之前运行以下命令。

    conda install -c conda-forge pyarrow
    

步骤

  1. 安装 TensorRT-LLM。

如果您已经安装了TensorRT(来自旧版本的tensorrt_llm),请执行

pip uninstall -y tensorrt tensorrt_libs tensorrt_bindings
pip uninstall -y nvidia-cublas-cu12 nvidia-cuda-nvrtc-cu12 nvidia-cuda-runtime-cu12 nvidia-cudnn-cu12

在安装TensorRT-LLM之前,请使用以下命令。

pip install tensorrt_llm==0.16.0 --extra-index-url https://download.pytorch.org/whl/

运行以下命令以验证您的TensorRT-LLM安装是否正常工作。

python -c "import tensorrt_llm; print(tensorrt_llm._utils.trt_version())"
  1. 构建模型。

  2. 部署模型。

已知问题

  1. OSError: exception: access violation reading 0x0000000000000000import tensorrt_llmtrtllm-build 期间。

这可能是由于过时的Microsoft Visual C++ Redistributable版本引起的。请安装 最新的MSVC 并重试。检查系统路径以确保首先搜索到安装在System32中的最新版本。检查依赖项以确保没有其他包正在使用过时的版本(例如,包pyarrow可能包含过时的MSVC DLL)。

  1. OSError: [WinError 126] 找不到指定的模块。加载“…\Lib\site-packages\torch\lib\fbgemm.dll”或其依赖项之一时出错。

安装最新的[Visual Studio 2022 构建工具] (https://visualstudio.microsoft.com/downloads/#build-tools-for-visual-studio-2022) 将解决此问题。