Skip to main content
Back to top
Ctrl
+
K
Search
Ctrl
+
K
开始使用
安装
快速开始
在其他平台上
开始使用华为昇腾(Atlas 800T A2)
模型
支持的模型
大型语言模型(LLMs)部署
离线推理管道
OpenAI 兼容服务器
Tools Calling
Serving LoRA
WebUI 演示
请求分发服务器
视觉-语言模型(VLMs) 部署
离线推理管道
OpenAI 兼容服务器
视觉-语言模型
LLaVA
InternVL
InternLM-XComposer-2.5
CogVLM
MiniCPM-V
Phi-3 Vision
Mllama
Qwen2-VL
Molmo
量化
AWQ/GPTQ
SmoothQuant
INT4/INT8 KV 缓存
基准测试
Profile Token 延迟和吞吐量
Profile Request Throughput
Profile API Server
使用OpenCompass评估LLMs
高级指南
TurboMind的架构
lmdeploy.pytorch的架构
lmdeploy.pytorch 新模型支持
上下文长度外推
自定义聊天模板
如何调试Turbomind
结构化输出
PyTorchEngine 多线程
API 参考
推理管道
Repository
Show source
Suggest edit
Open issue
.rst
.pdf
在其他平台上
在其他平台上
#
NPU(华为)
开始使用华为昇腾(Atlas 800T A2)