支持的模型#
以下表格详细列出了LMDeploy的TurboMind引擎和PyTorch引擎在不同平台上支持的模型。
CUDA平台上的TurboMind#
模型 |
大小 |
类型 |
FP16/BF16 |
KV 8位整数 |
KV INT4 |
W4A16 |
---|---|---|---|---|---|---|
骆驼 |
7B - 65B |
LLM |
是 |
是 |
是 |
是 |
Llama2 |
7B - 70B |
LLM |
是 |
是 |
是 |
是 |
Llama3 |
8B, 70B |
LLM |
是 |
是 |
是 |
是 |
Llama3.1 |
8B, 70B |
LLM |
是 |
是 |
是 |
是 |
Llama3.2[2] |
1B, 3B |
LLM |
是 |
是的* |
是的* |
是 |
InternLM |
7B - 20B |
LLM |
是 |
是 |
是 |
是 |
InternLM2 |
7B - 20B |
LLM |
是 |
是 |
是 |
是 |
InternLM2.5 |
7B |
LLM |
是 |
是 |
是 |
是 |
InternLM-XComposer2 |
7B, 4khd-7B |
MLLM |
是 |
是 |
是 |
是 |
InternLM-XComposer2.5 |
7B |
MLLM |
是 |
是 |
是 |
是 |
Qwen |
1.8B - 72B |
LLM |
是 |
是 |
是 |
是 |
Qwen1.5[1] |
1.8B - 110B |
LLM |
是 |
是 |
是 |
是 |
Qwen2[2] |
0.5B - 72B |
LLM |
是 |
是的* |
是的* |
是 |
Qwen2-MoE |
57BA14B |
LLM |
是 |
是 |
是 |
是 |
Qwen2.5[2] |
0.5B - 72B |
LLM |
是 |
是的* |
是的* |
是 |
Mistral[1] |
7B |
LLM |
是 |
是 |
是 |
否 |
Mixtral |
8x7B, 8x22B |
LLM |
是 |
是 |
是 |
是 |
深度搜索-V2 |
16B, 236B |
LLM |
是 |
是 |
是 |
否 |
深度搜索-V2.5 |
236B |
LLM |
是 |
是 |
是 |
否 |
Qwen-VL |
7B |
MLLM |
是 |
是 |
是 |
是 |
深度视觉语言 |
7B |
MLLM |
是 |
是 |
是 |
是 |
百川 |
7B |
LLM |
是 |
是 |
是 |
是 |
百川2 |
7B |
LLM |
是 |
是 |
是 |
是 |
代码骆驼 |
7B - 34B |
LLM |
是 |
是 |
是 |
否 |
YI |
6B - 34B |
LLM |
是 |
是 |
是 |
是 |
LLaVA(1.5,1.6) |
7B - 34B |
MLLM |
是 |
是 |
是 |
是 |
InternVL |
v1.1 - v1.5 |
MLLM |
是 |
是 |
是 |
是 |
InternVL2[2] |
1 - 2B, 8B - 76B |
MLLM |
是 |
是的* |
是的* |
是 |
InternVL2.5(MPO)[2] |
1 - 78B |
MLLM |
是 |
是的* |
是的* |
是 |
ChemVLM |
8B - 26B |
MLLM |
是 |
是 |
是 |
是 |
MiniCPM-Llama3-V-2_5 |
- |
MLLM |
是 |
是 |
是 |
是 |
MiniCPM-V-2_6 |
- |
MLLM |
是 |
是 |
是 |
是 |
MiniGeminiLlama |
7B |
MLLM |
是 |
- |
- |
是 |
GLM4 |
9B |
LLM |
是 |
是 |
是 |
是 |
CodeGeeX4 |
9B |
LLM |
是 |
是 |
是 |
- |
Molmo |
7B-D,72B |
MLLM |
是 |
是 |
是 |
否 |
“-” 表示尚未验证。
注意
[1] TurboMind引擎不支持窗口注意力机制。因此,对于应用了窗口注意力机制并启用了相应开关“use_sliding_window”的模型,如Mistral、Qwen1.5等,请选择PyTorch引擎进行推理。
[2] 当模型的head_dim不是128时,例如llama3.2-1B、qwen2-0.5B和internvl2-1B,turbomind不支持其kv缓存的4/8位量化和推理
CUDA平台上的PyTorch引擎#
模型 |
大小 |
类型 |
FP16/BF16 |
KV 8位整数 |
KV INT4 |
W8A8 |
W4A16 |
---|---|---|---|---|---|---|---|
骆驼 |
7B - 65B |
LLM |
是 |
是 |
是 |
是 |
是 |
Llama2 |
7B - 70B |
LLM |
是 |
是 |
是 |
是 |
是 |
Llama3 |
8B, 70B |
LLM |
是 |
是 |
是 |
是 |
是 |
Llama3.1 |
8B, 70B |
LLM |
是 |
是 |
是 |
是 |
是 |
Llama3.2 |
1B, 3B |
LLM |
是 |
是 |
是 |
是 |
是 |
Llama3.2-VL |
11B, 90B |
MLLM |
是 |
是 |
是 |
- |
- |
InternLM |
7B - 20B |
LLM |
是 |
是 |
是 |
是 |
是 |
InternLM2 |
7B - 20B |
LLM |
是 |
是 |
是 |
是 |
是 |
InternLM2.5 |
7B |
LLM |
是 |
是 |
是 |
是 |
是 |
百川2 |
7B |
LLM |
是 |
是 |
是 |
是 |
否 |
百川2 |
13B |
LLM |
是 |
是 |
是 |
否 |
否 |
ChatGLM2 |
6B |
LLM |
是 |
是 |
是 |
否 |
否 |
猎鹰 |
7B - 180B |
LLM |
是 |
是 |
是 |
否 |
否 |
YI |
6B - 34B |
LLM |
是 |
是 |
是 |
是 |
是 |
Mistral |
7B |
LLM |
是 |
是 |
是 |
是 |
是 |
Mixtral |
8x7B, 8x22B |
LLM |
是 |
是 |
是 |
否 |
否 |
QWen |
1.8B - 72B |
LLM |
是 |
是 |
是 |
是 |
是 |
QWen1.5 |
0.5B - 110B |
LLM |
是 |
是 |
是 |
是 |
是 |
QWen1.5-MoE |
A2.7B |
LLM |
是 |
是 |
是 |
否 |
否 |
QWen2 |
0.5B - 72B |
LLM |
是 |
是 |
否 |
是 |
是 |
Qwen2.5 |
0.5B - 72B |
LLM |
是 |
是 |
否 |
是 |
是 |
QWen2-VL |
2B, 7B |
MLLM |
是 |
是 |
否 |
否 |
是 |
深度探索-MoE |
16B |
LLM |
是 |
否 |
否 |
否 |
否 |
深度搜索-V2 |
16B, 236B |
LLM |
是 |
否 |
否 |
否 |
否 |
深度搜索-V2.5 |
236B |
LLM |
是 |
否 |
否 |
否 |
否 |
MiniCPM3 |
4B |
LLM |
是 |
是 |
是 |
否 |
否 |
MiniCPM-V-2_6 |
8B |
LLM |
是 |
否 |
否 |
否 |
是 |
Gemma |
2B-7B |
LLM |
是 |
是 |
是 |
否 |
否 |
Dbrx |
132B |
LLM |
是 |
是 |
是 |
否 |
否 |
StarCoder2 |
3B-15B |
LLM |
是 |
是 |
是 |
否 |
否 |
Phi-3-mini |
3.8B |
LLM |
是 |
是 |
是 |
是 |
是 |
Phi-3-视觉 |
42亿 |
MLLM |
是 |
是 |
是 |
- |
- |
CogVLM-Chat |
17B |
MLLM |
是 |
是 |
是 |
- |
- |
CogVLM2-聊天 |
19B |
MLLM |
是 |
是 |
是 |
- |
- |
LLaVA(1.5,1.6)[2] |
7B-34B |
MLLM |
否 |
否 |
否 |
否 |
否 |
InternVL(v1.5) |
2B-26B |
MLLM |
是 |
是 |
是 |
否 |
是 |
InternVL2 |
1B-76B |
MLLM |
是 |
是 |
是 |
- |
- |
InternVL2.5(MPO) |
1B-78B |
MLLM |
是 |
是 |
是 |
- |
- |
单声道-InternVL[1] |
2B |
MLLM |
是 |
是 |
是 |
- |
- |
ChemVLM |
8B-26B |
MLLM |
是 |
是 |
否 |
- |
- |
Gemma2 |
9B-27B |
LLM |
是 |
是 |
是 |
- |
- |
GLM4 |
9B |
LLM |
是 |
是 |
是 |
否 |
否 |
GLM-4V |
9B |
MLLM |
是 |
是 |
是 |
否 |
是 |
CodeGeeX4 |
9B |
LLM |
是 |
是 |
是 |
- |
- |
Phi-3.5-迷你 |
3.8B |
LLM |
是 |
是 |
否 |
- |
- |
Phi-3.5-MoE |
16x3.8B |
LLM |
是 |
是 |
否 |
- |
- |
Phi-3.5-视觉 |
42亿 |
MLLM |
是 |
是 |
否 |
- |
- |
注意
[1] 目前Mono-InternVL由于数值不稳定性不支持FP16。请改用BF16。
[2] PyTorch引擎在v0.6.4之后移除了对原始llava模型的支持。请使用它们对应的transformers模型代替,可以在https://huggingface.co/llava-hf找到。
华为昇腾平台上的PyTorch引擎#
模型 |
大小 |
类型 |
FP16/BF16(急切模式) |
FP16/BF16(图形) |
W4A16(急切模式) |
---|---|---|---|---|---|
Llama2 |
7B - 70B |
LLM |
是 |
是 |
是 |
Llama3 |
8B |
LLM |
是 |
是 |
是 |
Llama3.1 |
8B |
LLM |
是 |
是 |
是 |
InternLM2 |
7B - 20B |
LLM |
是 |
是 |
是 |
InternLM2.5 |
7B - 20B |
LLM |
是 |
是 |
是 |
Mixtral |
8x7B |
LLM |
是 |
是 |
否 |
QWen1.5-MoE |
A2.7B |
LLM |
是 |
- |
否 |
QWen2(.5) |
7B |
LLM |
是 |
是 |
否 |
QWen2-MoE |
A14.57B |
LLM |
是 |
- |
否 |
InternVL(v1.5) |
2B-26B |
MLLM |
是 |
- |
是 |
InternVL2 |
1B-40B |
MLLM |
是 |
是 |
是 |
CogVLM2-聊天 |
19B |
MLLM |
是 |
否 |
- |
GLM4V |
9B |
MLLM |
是 |
否 |
- |