支持的模型#

以下表格详细列出了LMDeploy的TurboMind引擎和PyTorch引擎在不同平台上支持的模型。

CUDA平台上的TurboMind#

模型

大小

类型

FP16/BF16

KV 8位整数

KV INT4

W4A16

骆驼

7B - 65B

LLM

Llama2

7B - 70B

LLM

Llama3

8B, 70B

LLM

Llama3.1

8B, 70B

LLM

Llama3.2[2]

1B, 3B

LLM

是的*

是的*

InternLM

7B - 20B

LLM

InternLM2

7B - 20B

LLM

InternLM2.5

7B

LLM

InternLM-XComposer2

7B, 4khd-7B

MLLM

InternLM-XComposer2.5

7B

MLLM

Qwen

1.8B - 72B

LLM

Qwen1.5[1]

1.8B - 110B

LLM

Qwen2[2]

0.5B - 72B

LLM

是的*

是的*

Qwen2-MoE

57BA14B

LLM

Qwen2.5[2]

0.5B - 72B

LLM

是的*

是的*

Mistral[1]

7B

LLM

Mixtral

8x7B, 8x22B

LLM

深度搜索-V2

16B, 236B

LLM

深度搜索-V2.5

236B

LLM

Qwen-VL

7B

MLLM

深度视觉语言

7B

MLLM

百川

7B

LLM

百川2

7B

LLM

代码骆驼

7B - 34B

LLM

YI

6B - 34B

LLM

LLaVA(1.5,1.6)

7B - 34B

MLLM

InternVL

v1.1 - v1.5

MLLM

InternVL2[2]

1 - 2B, 8B - 76B

MLLM

是的*

是的*

InternVL2.5(MPO)[2]

1 - 78B

MLLM

是的*

是的*

ChemVLM

8B - 26B

MLLM

MiniCPM-Llama3-V-2_5

-

MLLM

MiniCPM-V-2_6

-

MLLM

MiniGeminiLlama

7B

MLLM

-

-

GLM4

9B

LLM

CodeGeeX4

9B

LLM

-

Molmo

7B-D,72B

MLLM

“-” 表示尚未验证。

注意

  • [1] TurboMind引擎不支持窗口注意力机制。因此,对于应用了窗口注意力机制并启用了相应开关“use_sliding_window”的模型,如Mistral、Qwen1.5等,请选择PyTorch引擎进行推理。

  • [2] 当模型的head_dim不是128时,例如llama3.2-1B、qwen2-0.5B和internvl2-1B,turbomind不支持其kv缓存的4/8位量化和推理

CUDA平台上的PyTorch引擎#

模型

大小

类型

FP16/BF16

KV 8位整数

KV INT4

W8A8

W4A16

骆驼

7B - 65B

LLM

Llama2

7B - 70B

LLM

Llama3

8B, 70B

LLM

Llama3.1

8B, 70B

LLM

Llama3.2

1B, 3B

LLM

Llama3.2-VL

11B, 90B

MLLM

-

-

InternLM

7B - 20B

LLM

InternLM2

7B - 20B

LLM

InternLM2.5

7B

LLM

百川2

7B

LLM

百川2

13B

LLM

ChatGLM2

6B

LLM

猎鹰

7B - 180B

LLM

YI

6B - 34B

LLM

Mistral

7B

LLM

Mixtral

8x7B, 8x22B

LLM

QWen

1.8B - 72B

LLM

QWen1.5

0.5B - 110B

LLM

QWen1.5-MoE

A2.7B

LLM

QWen2

0.5B - 72B

LLM

Qwen2.5

0.5B - 72B

LLM

QWen2-VL

2B, 7B

MLLM

深度探索-MoE

16B

LLM

深度搜索-V2

16B, 236B

LLM

深度搜索-V2.5

236B

LLM

MiniCPM3

4B

LLM

MiniCPM-V-2_6

8B

LLM

Gemma

2B-7B

LLM

Dbrx

132B

LLM

StarCoder2

3B-15B

LLM

Phi-3-mini

3.8B

LLM

Phi-3-视觉

42亿

MLLM

-

-

CogVLM-Chat

17B

MLLM

-

-

CogVLM2-聊天

19B

MLLM

-

-

LLaVA(1.5,1.6)[2]

7B-34B

MLLM

InternVL(v1.5)

2B-26B

MLLM

InternVL2

1B-76B

MLLM

-

-

InternVL2.5(MPO)

1B-78B

MLLM

-

-

单声道-InternVL[1]

2B

MLLM

-

-

ChemVLM

8B-26B

MLLM

-

-

Gemma2

9B-27B

LLM

-

-

GLM4

9B

LLM

GLM-4V

9B

MLLM

CodeGeeX4

9B

LLM

-

-

Phi-3.5-迷你

3.8B

LLM

-

-

Phi-3.5-MoE

16x3.8B

LLM

-

-

Phi-3.5-视觉

42亿

MLLM

-

-

注意

  • [1] 目前Mono-InternVL由于数值不稳定性不支持FP16。请改用BF16。

  • [2] PyTorch引擎在v0.6.4之后移除了对原始llava模型的支持。请使用它们对应的transformers模型代替,可以在https://huggingface.co/llava-hf找到。

华为昇腾平台上的PyTorch引擎#

模型

大小

类型

FP16/BF16(急切模式)

FP16/BF16(图形)

W4A16(急切模式)

Llama2

7B - 70B

LLM

Llama3

8B

LLM

Llama3.1

8B

LLM

InternLM2

7B - 20B

LLM

InternLM2.5

7B - 20B

LLM

Mixtral

8x7B

LLM

QWen1.5-MoE

A2.7B

LLM

-

QWen2(.5)

7B

LLM

QWen2-MoE

A14.57B

LLM

-

InternVL(v1.5)

2B-26B

MLLM

-

InternVL2

1B-40B

MLLM

CogVLM2-聊天

19B

MLLM

-

GLM4V

9B

MLLM

-