Skip to main content

Ctrl+K

开始使用

安装
快速开始
在其他平台上
- 开始使用华为昇腾（Atlas 800T A2）

模型

支持的模型

大型语言模型(LLMs)部署

离线推理管道
OpenAI 兼容服务器
Tools Calling
Serving LoRA
WebUI 演示
请求分发服务器

视觉-语言模型(VLMs) 部署

离线推理管道
OpenAI 兼容服务器
视觉-语言模型
- LLaVA
- InternVL
- InternLM-XComposer-2.5
- CogVLM
- MiniCPM-V
- Phi-3 Vision
- Mllama
- Qwen2-VL
- Molmo

量化

AWQ/GPTQ
SmoothQuant
INT4/INT8 KV 缓存

基准测试

Profile Token 延迟和吞吐量
Profile Request Throughput
Profile API Server
使用OpenCompass评估LLMs

高级指南

TurboMind的架构
lmdeploy.pytorch的架构
lmdeploy.pytorch 新模型支持
上下文长度外推
自定义聊天模板
如何调试Turbomind
结构化输出
PyTorchEngine 多线程

API 参考

推理管道

Repository
Show source
Suggest edit
Open issue

.rst

在其他平台上

在其他平台上#

NPU(华为)

开始使用华为昇腾（Atlas 800T A2）

上一页

快速开始

下一步

开始使用华为昇腾（Atlas 800T A2）

由LMDeploy作者

© 版权所有 2021-2024, OpenMMLab.

最后更新于2025年1月3日。