在Windows上安装
注意
TensorRT-LLM 的 Windows 版本目前处于测试阶段。 我们建议查看 v0.16.0 标签 以获得最稳定的体验。
注意
TensorRT-LLM 在 Windows 上仅支持单 GPU 执行。
先决条件
使用Git for Windows克隆此仓库。
安装依赖项的两种方式之一:
安装所有依赖项。
运行提供的PowerShell脚本
setup_env.ps1,该脚本位于/windows/文件夹下,它会自动安装Python和CUDA 12.6.3,并使用默认设置。要以管理员身份运行PowerShell来使用该脚本。
./setup_env.ps1 [-skipCUDA] [-skipPython]
关闭并重新打开任何现有的PowerShell或Git Bash窗口,以便它们能够获取由上述
setup_env.ps1脚本修改的新Path。
逐个安装依赖项。
安装 Python 3.10。
在安装开始时选择将python.exe添加到PATH。安装可能只会添加
python命令,而不会添加python3命令。导航到安装路径
%USERPROFILE%\AppData\Local\Programs\Python\Python310(AppData是一个隐藏文件夹) 并将python.exe复制为python3.exe。
安装 CUDA 12.6.3 Toolkit。使用快速安装选项。安装可能需要重启。
如果使用conda环境,在安装TensorRT-LLM之前运行以下命令。
conda install -c conda-forge pyarrow
步骤
安装 TensorRT-LLM。
如果您已经安装了TensorRT(来自旧版本的tensorrt_llm),请执行
pip uninstall -y tensorrt tensorrt_libs tensorrt_bindings
pip uninstall -y nvidia-cublas-cu12 nvidia-cuda-nvrtc-cu12 nvidia-cuda-runtime-cu12 nvidia-cudnn-cu12
在安装TensorRT-LLM之前,请使用以下命令。
pip install tensorrt_llm==0.16.0 --extra-index-url https://download.pytorch.org/whl/
运行以下命令以验证您的TensorRT-LLM安装是否正常工作。
python -c "import tensorrt_llm; print(tensorrt_llm._utils.trt_version())"
构建模型。
部署模型。
已知问题
OSError: exception: access violation reading 0x0000000000000000在import tensorrt_llm或trtllm-build期间。
这可能是由于过时的Microsoft Visual C++ Redistributable版本引起的。请安装
最新的MSVC
并重试。检查系统路径以确保首先搜索到安装在System32中的最新版本。检查依赖项以确保没有其他包正在使用过时的版本(例如,包pyarrow可能包含过时的MSVC DLL)。
OSError: [WinError 126] 找不到指定的模块。加载“…\Lib\site-packages\torch\lib\fbgemm.dll”或其依赖项之一时出错。
安装最新的[Visual Studio 2022 构建工具] (https://visualstudio.microsoft.com/downloads/#build-tools-for-visual-studio-2022) 将解决此问题。