支持的模型¶

vLLM支持跨多种任务的生成式和池化模型。

对于每项任务，我们列出了已在vLLM中实现的模型架构。每个架构旁边，我们都标注了使用该架构的一些流行模型。

模型实现¶

vLLM¶

如果vLLM原生支持某个模型，其实现可以在 vllm/model_executor/models中找到。

这些模型是我们列在supported-text-models和supported-mm-models中的。

Transformers¶

vLLM还支持Transformers中可用的模型实现。目前并非所有模型都适用，但大多数解码器语言模型和常见的视觉语言模型都已支持！视觉语言模型目前仅接受图像输入。视频输入的支持将在未来版本中添加。

要检查建模后端是否为Transformers，您可以简单地执行以下操作：

from vllm import LLM
llm = LLM(model=...)  # Name or path of your model
llm.apply_model(lambda model: print(type(model)))

如果是TransformersForCausalLM或TransformersForMultimodalLM，则表示它基于Transformers！

提示

你可以通过设置model_impl="transformers"强制使用TransformersForCausalLM进行离线推理，或者为openai兼容服务器设置--model-impl transformers。

注意

vLLM可能没有完全优化Transformers的实现，因此如果将原生模型与vLLM中的Transformers模型进行比较，可能会看到性能下降。

注意

对于视觉语言模型，如果使用dtype="auto"加载，vLLM会使用配置中的dtype（如果存在）加载整个模型。相比之下，原生Transformers会遵循模型中每个骨干网络的dtype属性。这可能会导致性能上的微小差异。

自定义模型¶

如果某个模型既不被vLLM原生支持也不被Transformers支持，它仍然可以在vLLM中使用！

要使模型兼容vLLM的Transformers后端，必须满足以下条件：

be a Transformers compatible custom model (see Transformers - 自定义模型):
- 模型目录必须具有正确的结构（例如存在config.json文件）。
- config.json 必须包含 auto_map.AutoModel。
be a Transformers backend for vLLM compatible model (see writing-custom-models):
- 自定义应在基础模型中完成（例如在MyModel中，而非MyModelForCausalLM中）。

如果兼容的模型是：

在Hugging Face模型中心，只需为离线推理设置trust_remote_code=True，或为openai兼容服务器设置--trust-remote-code。
在本地目录中，只需将目录路径传递给 model= 用于离线推理，或使用 vllm serve 启动 openai兼容服务器。

这意味着，借助vLLM的Transformers后端，新模型可以在Transformers或vLLM官方支持之前就投入使用！

编写自定义模型¶

本节详细说明如何对兼容Transformers的自定义模型进行必要修改，使其适配vLLM的Transformers后端。（我们假设已创建好兼容Transformers的自定义模型，具体可参考Transformers - Customizing models）。

要使您的模型兼容Transformers后端，需要满足以下条件：

kwargs 参数从 MyModel 向下传递到 MyAttention 的所有模块。
MyAttention 必须使用 ALL_ATTENTION_FUNCTIONS 来调用注意力机制。
MyModel 必须包含 _supports_attention_backend = True。

modeling_my_model.py

from transformers import PreTrainedModel
from torch import nn

class MyAttention(nn.Module):

    def forward(self, hidden_states, **kwargs):
        ...
        attention_interface = ALL_ATTENTION_FUNCTIONS[self.config._attn_implementation]
        attn_output, attn_weights = attention_interface(
            self,
            query_states,
            key_states,
            value_states,
            **kwargs,
        )
        ...

class MyModel(PreTrainedModel):
    _supports_attention_backend = True

以下是加载该模型时后台发生的情况：

配置已加载。
MyModel Python类是从配置中的auto_map加载的，我们会检查模型是否is_backend_compatible()。
MyModel 被加载到 TransformersForCausalLM 或 TransformersForMultimodalLM 中（参见 vllm/model_executor/models/transformers.py），这会设置 self.config._attn_implementation = "vllm" 以便使用 vLLM 的注意力层。

就这样！

要使您的模型兼容vLLM的张量并行和/或流水线并行功能，您必须在模型的配置类中添加base_model_tp_plan和/或base_model_pp_plan：

configuration_my_model.py

from transformers import PretrainedConfig

class MyConfig(PretrainedConfig):
    base_model_tp_plan = {
        "layers.*.self_attn.k_proj": "colwise",
        "layers.*.self_attn.v_proj": "colwise",
        "layers.*.self_attn.o_proj": "rowwise",
        "layers.*.mlp.gate_proj": "colwise",
        "layers.*.mlp.up_proj": "colwise",
        "layers.*.mlp.down_proj": "rowwise",
    }
    base_model_pp_plan = {
        "embed_tokens": (["input_ids"], ["inputs_embeds"]),
        "layers": (["hidden_states", "attention_mask"], ["hidden_states"]),
        "norm": (["hidden_states"], ["hidden_states"]),
    }

base_model_tp_plan 是一个 dict，它将完全限定的层名称模式映射到张量并行样式（目前仅支持 "colwise" 和 "rowwise"）。
base_model_pp_plan is a dict that maps direct child layer names to tuples of lists of strs:
- 您只需要对不位于所有流水线阶段的层执行此操作
- vLLM假设只会有一个nn.ModuleList，该列表会分布在各个流水线阶段中
- tuple第一个元素中的list包含输入参数的名称
- tuple最后一个元素中的list包含该层在你的建模代码中输出到的变量名称

加载模型¶

Hugging Face Hub¶

默认情况下，vLLM从Hugging Face (HF) Hub加载模型。如需更改模型下载路径，可以设置HF_HOME环境变量；更多详情请参阅其官方文档。

要判断某个模型是否原生支持，您可以检查HF仓库中的config.json文件。如果"architectures"字段包含下列列出的模型架构，则该模型应该能获得原生支持。

模型不需要原生支持即可在vLLM中使用。Transformers后端允许您直接使用模型的Transformers实现（甚至Hugging Face模型中心上的远程代码）来运行模型。

提示

要检查您的模型在运行时是否真正受支持，最简单的方法是运行以下程序：

from vllm import LLM

# For generative models (runner=generate) only
llm = LLM(model=..., runner="generate")  # Name or path of your model
output = llm.generate("Hello, my name is")
print(output)

# For pooling models (runner=pooling) only
llm = LLM(model=..., runner="pooling")  # Name or path of your model
output = llm.encode("Hello, my name is")
print(output)

如果vLLM成功返回文本（对于生成模型）或隐藏状态（对于池化模型），则表示您的模型受支持。

否则，请参考添加新模型了解如何在vLLM中实现您的模型。或者，您可以在GitHub上提交问题来请求vLLM支持。

下载模型¶

如果您愿意，可以使用Hugging Face CLI从模型仓库下载模型或特定文件：

# Download a model
huggingface-cli download HuggingFaceH4/zephyr-7b-beta

# Specify a custom cache directory
huggingface-cli download HuggingFaceH4/zephyr-7b-beta --cache-dir ./path/to/cache

# Download a specific file from a model repo
huggingface-cli download HuggingFaceH4/zephyr-7b-beta eval_results.json

列出已下载的模型¶

使用Hugging Face CLI来管理模型存储在本地缓存中：

# List cached models
huggingface-cli scan-cache

# Show detailed (verbose) output
huggingface-cli scan-cache -v

# Specify a custom cache directory
huggingface-cli scan-cache --dir ~/.cache/huggingface/hub

删除缓存的模型¶

使用Hugging Face CLI交互式删除已下载的模型从缓存中：

Commands

# The `delete-cache` command requires extra dependencies to work with the TUI.
# Please run `pip install huggingface_hub[cli]` to install them.

# Launch the interactive TUI to select models to delete
$ huggingface-cli delete-cache
? Select revisions to delete: 1 revisions selected counting for 438.9M.
  ○ None of the following (if selected, nothing will be deleted).
Model BAAI/bge-base-en-v1.5 (438.9M, used 1 week ago)
❯ ◉ a5beb1e3: main # modified 1 week ago

Model BAAI/bge-large-en-v1.5 (1.3G, used 1 week ago)
  ○ d4aa6901: main # modified 1 week ago

Model BAAI/bge-reranker-base (1.1G, used 4 weeks ago)
  ○ 2cfc18c9: main # modified 4 weeks ago

Press <space> to select, <enter> to validate and <ctrl+c> to quit without modification.

# Need to confirm after selected
? Select revisions to delete: 1 revision(s) selected.
? 1 revisions selected counting for 438.9M. Confirm deletion ? Yes
Start deletion.
Done. Deleted 1 repo(s) and 0 revision(s) for a total of 438.9M.

使用代理¶

以下是一些通过代理从Hugging Face加载/下载模型的技巧：

为当前会话全局设置代理（或在配置文件中设置）：

export http_proxy=http://your.proxy.server:port
export https_proxy=http://your.proxy.server:port

仅为当前命令设置代理：

https_proxy=http://your.proxy.server:port huggingface-cli download <model_name>

# or use vllm cmd directly
https_proxy=http://your.proxy.server:port  vllm serve <model_name> --disable-log-requests

在Python解释器中设置代理：

import os

os.environ['http_proxy'] = 'http://your.proxy.server:port'
os.environ['https_proxy'] = 'http://your.proxy.server:port'

ModelScope¶

要使用来自ModelScope而非Hugging Face Hub的模型，请设置以下环境变量：

export VLLM_USE_MODELSCOPE=True

并使用 trust_remote_code=True。

from vllm import LLM

llm = LLM(model=..., revision=..., runner=..., trust_remote_code=True)

# For generative models (runner=generate) only
output = llm.generate("Hello, my name is")
print(output)

# For pooling models (runner=pooling) only
output = llm.encode("Hello, my name is")
print(output)

功能状态图例¶

✅︎ 表示该模型支持此功能。
🚧 表示该功能已规划但该模型尚未支持。
⚠️ 表示该功能可用但可能存在已知问题或限制。

纯文本语言模型列表¶

生成模型¶

查看此页面获取更多关于如何使用生成模型的信息。

文本生成¶

架构	模型	示例HF模型	LoRA	PP	V1
`AquilaForCausalLM`	Aquila, Aquila2	`BAAI/Aquila-7B`, `BAAI/AquilaChat-7B`, etc.	✅︎	✅︎	✅︎
`ArceeForCausalLM`	Arcee (AFM)	`arcee-ai/AFM-4.5B-Base`, etc.	✅︎	✅︎	✅︎
`ArcticForCausalLM`	Arctic	`Snowflake/snowflake-arctic-base`, `Snowflake/snowflake-arctic-instruct`, etc.		✅︎	✅︎
`BaiChuanForCausalLM`	Baichuan2, Baichuan	`baichuan-inc/Baichuan2-13B-Chat`, `baichuan-inc/Baichuan-7B`, etc.	✅︎	✅︎	✅︎
`BailingMoeForCausalLM`	Ling	`inclusionAI/Ling-lite-1.5`, `inclusionAI/Ling-plus`, etc.	✅︎	✅︎	✅︎
`BambaForCausalLM`	Bamba	`ibm-ai-platform/Bamba-9B-fp8`, `ibm-ai-platform/Bamba-9B`	✅︎	✅︎	✅︎
`BloomForCausalLM`	BLOOM, BLOOMZ, BLOOMChat	`bigscience/bloom`, `bigscience/bloomz`, etc.		✅︎
`BartForConditionalGeneration`	BART	`facebook/bart-base`, `facebook/bart-large-cnn`, etc.
`ChatGLMModel`, `ChatGLMForConditionalGeneration`	ChatGLM	`THUDM/chatglm2-6b`, `THUDM/chatglm3-6b`, `ShieldLM-6B-chatglm3`, etc.	✅︎	✅︎	✅︎
`CohereForCausalLM`, `Cohere2ForCausalLM`	Command-R	`CohereForAI/c4ai-command-r-v01`, `CohereForAI/c4ai-command-r7b-12-2024`, etc.	✅︎	✅︎	✅︎
`DbrxForCausalLM`	DBRX	`databricks/dbrx-base`, `databricks/dbrx-instruct`, etc.		✅︎	✅︎
`DeciLMForCausalLM`	DeciLM	`nvidia/Llama-3_3-Nemotron-Super-49B-v1`, etc.	✅︎	✅︎	✅︎
`DeepseekForCausalLM`	DeepSeek	`deepseek-ai/deepseek-llm-67b-base`, `deepseek-ai/deepseek-llm-7b-chat`, etc.		✅︎	✅︎
`DeepseekV2ForCausalLM`	DeepSeek-V2	`deepseek-ai/DeepSeek-V2`, `deepseek-ai/DeepSeek-V2-Chat`, etc.		✅︎	✅︎
`DeepseekV3ForCausalLM`	DeepSeek-V3	`deepseek-ai/DeepSeek-V3-Base`, `deepseek-ai/DeepSeek-V3`, etc.		✅︎	✅︎
`Dots1ForCausalLM`	dots.llm1	`rednote-hilab/dots.llm1.base`, `rednote-hilab/dots.llm1.inst`, etc.		✅︎	✅︎
`Ernie4_5ForCausalLM`	Ernie4.5	`baidu/ERNIE-4.5-0.3B-PT`, etc.	✅︎	✅︎	✅︎
`Ernie4_5_MoeForCausalLM`	Ernie4.5MoE	`baidu/ERNIE-4.5-21B-A3B-PT`, `baidu/ERNIE-4.5-300B-A47B-PT`, etc.	✅︎	✅︎	✅︎
`ExaoneForCausalLM`	EXAONE-3	`LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct`, etc.	✅︎	✅︎	✅︎
`Exaone4ForCausalLM`	EXAONE-4	`LGAI-EXAONE/EXAONE-4.0-32B`, etc.	✅︎	✅︎	✅︎
`Fairseq2LlamaForCausalLM`	Llama (fairseq2 format)	`mgleize/fairseq2-dummy-Llama-3.2-1B`, etc.	✅︎	✅︎	✅︎
`FalconForCausalLM`	Falcon	`tiiuae/falcon-7b`, `tiiuae/falcon-40b`, `tiiuae/falcon-rw-7b`, etc.		✅︎	✅︎
`FalconMambaForCausalLM`	FalconMamba	`tiiuae/falcon-mamba-7b`, `tiiuae/falcon-mamba-7b-instruct`, etc.		✅︎	✅︎
`FalconH1ForCausalLM`	Falcon-H1	`tiiuae/Falcon-H1-34B-Base`, `tiiuae/Falcon-H1-34B-Instruct`, etc.	✅︎	✅︎	✅︎
`GemmaForCausalLM`	Gemma	`google/gemma-2b`, `google/gemma-1.1-2b-it`, etc.	✅︎	✅︎	✅︎
`Gemma2ForCausalLM`	Gemma 2	`google/gemma-2-9b`, `google/gemma-2-27b`, etc.	✅︎	✅︎	✅︎
`Gemma3ForCausalLM`	Gemma 3	`google/gemma-3-1b-it`, etc.	✅︎	✅︎	✅︎
`Gemma3nForConditionalGeneration`	Gemma 3n	`google/gemma-3n-E2B-it`, `google/gemma-3n-E4B-it`, etc.			✅︎
`GlmForCausalLM`	GLM-4	`THUDM/glm-4-9b-chat-hf`, etc.	✅︎	✅︎	✅︎
`Glm4ForCausalLM`	GLM-4-0414	`THUDM/GLM-4-32B-0414`, etc.	✅︎	✅︎	✅︎
`GPT2LMHeadModel`	GPT-2	`gpt2`, `gpt2-xl`, etc.		✅︎	✅︎
`GPTBigCodeForCausalLM`	StarCoder, SantaCoder, WizardCoder	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`, `WizardLM/WizardCoder-15B-V1.0`, etc.	✅︎	✅︎	✅︎
`GPTJForCausalLM`	GPT-J	`EleutherAI/gpt-j-6b`, `nomic-ai/gpt4all-j`, etc.		✅︎	✅︎
`GPTNeoXForCausalLM`	GPT-NeoX, Pythia, OpenAssistant, Dolly V2, StableLM	`EleutherAI/gpt-neox-20b`, `EleutherAI/pythia-12b`, `OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5`, `databricks/dolly-v2-12b`, `stabilityai/stablelm-tuned-alpha-7b`, etc.		✅︎	✅︎
`GraniteForCausalLM`	Granite 3.0, Granite 3.1, PowerLM	`ibm-granite/granite-3.0-2b-base`, `ibm-granite/granite-3.1-8b-instruct`, `ibm/PowerLM-3b`, etc.	✅︎	✅︎	✅︎
`GraniteMoeForCausalLM`	Granite 3.0 MoE, PowerMoE	`ibm-granite/granite-3.0-1b-a400m-base`, `ibm-granite/granite-3.0-3b-a800m-instruct`, `ibm/PowerMoE-3b`, etc.	✅︎	✅︎	✅︎
`GraniteMoeHybridForCausalLM`	Granite 4.0 MoE Hybrid	`ibm-granite/granite-4.0-tiny-preview`, etc.	✅︎	✅︎	✅︎
`GraniteMoeSharedForCausalLM`	Granite MoE Shared	`ibm-research/moe-7b-1b-active-shared-experts` (test model)	✅︎	✅︎	✅︎
`GritLM`	GritLM	`parasail-ai/GritLM-7B-vllm`.	✅︎	✅︎
`Grok1ModelForCausalLM`	Grok1	`hpcai-tech/grok-1`.	✅︎	✅︎	✅︎
`HunYuanDenseV1ForCausalLM`	Hunyuan-7B-Instruct-0124	`tencent/Hunyuan-7B-Instruct-0124`	✅︎		✅︎
`HunYuanMoEV1ForCausalLM`	Hunyuan-80B-A13B	`tencent/Hunyuan-A13B-Instruct`, `tencent/Hunyuan-A13B-Pretrain`, `tencent/Hunyuan-A13B-Instruct-FP8`, etc.	✅︎		✅︎
`HCXVisionForCausalLM`	HyperCLOVAX-SEED-Vision-Instruct-3B	`naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B`			✅︎
`InternLMForCausalLM`	InternLM	`internlm/internlm-7b`, `internlm/internlm-chat-7b`, etc.	✅︎	✅︎	✅︎
`InternLM2ForCausalLM`	InternLM2	`internlm/internlm2-7b`, `internlm/internlm2-chat-7b`, etc.	✅︎	✅︎	✅︎
`InternLM3ForCausalLM`	InternLM3	`internlm/internlm3-8b-instruct`, etc.	✅︎	✅︎	✅︎
`JAISLMHeadModel`	Jais	`inceptionai/jais-13b`, `inceptionai/jais-13b-chat`, `inceptionai/jais-30b-v3`, `inceptionai/jais-30b-chat-v3`, etc.		✅︎	✅︎
`JambaForCausalLM`	Jamba	`ai21labs/AI21-Jamba-1.5-Large`, `ai21labs/AI21-Jamba-1.5-Mini`, `ai21labs/Jamba-v0.1`, etc.	✅︎	✅︎
`LlamaForCausalLM`	Llama 3.1, Llama 3, Llama 2, LLaMA, Yi	`meta-llama/Meta-Llama-3.1-405B-Instruct`, `meta-llama/Meta-Llama-3.1-70B`, `meta-llama/Meta-Llama-3-70B-Instruct`, `meta-llama/Llama-2-70b-hf`, `01-ai/Yi-34B`, etc.	✅︎	✅︎	✅︎
`MambaForCausalLM`	Mamba	`state-spaces/mamba-130m-hf`, `state-spaces/mamba-790m-hf`, `state-spaces/mamba-2.8b-hf`, etc.		✅︎
`Mamba2ForCausalLM`	Mamba2	`mistralai/Mamba-Codestral-7B-v0.1`, etc.		✅︎	✅︎
`MiMoForCausalLM`	MiMo	`XiaomiMiMo/MiMo-7B-RL`, etc.	✅︎	✅︎	✅︎
`MiniCPMForCausalLM`	MiniCPM	`openbmb/MiniCPM-2B-sft-bf16`, `openbmb/MiniCPM-2B-dpo-bf16`, `openbmb/MiniCPM-S-1B-sft`, etc.	✅︎	✅︎	✅︎
`MiniCPM3ForCausalLM`	MiniCPM3	`openbmb/MiniCPM3-4B`, etc.	✅︎	✅︎	✅︎
`MistralForCausalLM`	Mistral, Mistral-Instruct	`mistralai/Mistral-7B-v0.1`, `mistralai/Mistral-7B-Instruct-v0.1`, etc.	✅︎	✅︎	✅︎
`MixtralForCausalLM`	Mixtral-8x7B, Mixtral-8x7B-Instruct	`mistralai/Mixtral-8x7B-v0.1`, `mistralai/Mixtral-8x7B-Instruct-v0.1`, `mistral-community/Mixtral-8x22B-v0.1`, etc.	✅︎	✅︎	✅︎
`MPTForCausalLM`	MPT, MPT-Instruct, MPT-Chat, MPT-StoryWriter	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`, etc.		✅︎	✅︎
`NemotronForCausalLM`	Nemotron-3, Nemotron-4, Minitron	`nvidia/Minitron-8B-Base`, `mgoin/Nemotron-4-340B-Base-hf-FP8`, etc.	✅︎	✅︎	✅︎
`NemotronHForCausalLM`	Nemotron-H	`nvidia/Nemotron-H-8B-Base-8K`, `nvidia/Nemotron-H-47B-Base-8K`, `nvidia/Nemotron-H-56B-Base-8K`, etc.	✅︎	✅︎	✅︎
`OLMoForCausalLM`	OLMo	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`, etc.		✅︎	✅︎
`OLMo2ForCausalLM`	OLMo2	`allenai/OLMo-2-0425-1B`, etc.		✅︎	✅︎
`OLMoEForCausalLM`	OLMoE	`allenai/OLMoE-1B-7B-0924`, `allenai/OLMoE-1B-7B-0924-Instruct`, etc.		✅︎	✅︎
`OPTForCausalLM`	OPT, OPT-IML	`facebook/opt-66b`, `facebook/opt-iml-max-30b`, etc.		✅︎	✅︎
`OrionForCausalLM`	Orion	`OrionStarAI/Orion-14B-Base`, `OrionStarAI/Orion-14B-Chat`, etc.		✅︎	✅︎
`PhiForCausalLM`	Phi	`microsoft/phi-1_5`, `microsoft/phi-2`, etc.	✅︎	✅︎	✅︎
`Phi3ForCausalLM`	Phi-4, Phi-3	`microsoft/Phi-4-mini-instruct`, `microsoft/Phi-4`, `microsoft/Phi-3-mini-4k-instruct`, `microsoft/Phi-3-mini-128k-instruct`, `microsoft/Phi-3-medium-128k-instruct`, etc.	✅︎	✅︎	✅︎
`PhiMoEForCausalLM`	Phi-3.5-MoE	`microsoft/Phi-3.5-MoE-instruct`, etc.	✅︎	✅︎	✅︎
`Phi4FlashForCausalLM`	Phi-4-mini-flash-reasoning	`microsoft/microsoft/Phi-4-mini-instruct`, etc.
`PersimmonForCausalLM`	Persimmon	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`, etc.		✅︎	✅︎
`Plamo2ForCausalLM`	PLaMo2	`pfnet/plamo-2-1b`, `pfnet/plamo-2-8b`, etc.		✅︎
`QWenLMHeadModel`	Qwen	`Qwen/Qwen-7B`, `Qwen/Qwen-7B-Chat`, etc.	✅︎	✅︎	✅︎
`Qwen2ForCausalLM`	QwQ, Qwen2	`Qwen/QwQ-32B-Preview`, `Qwen/Qwen2-7B-Instruct`, `Qwen/Qwen2-7B`, etc.	✅︎	✅︎	✅︎
`Qwen2MoeForCausalLM`	Qwen2MoE	`Qwen/Qwen1.5-MoE-A2.7B`, `Qwen/Qwen1.5-MoE-A2.7B-Chat`, etc.	✅︎	✅︎	✅︎
`Qwen3ForCausalLM`	Qwen3	`Qwen/Qwen3-8B`, etc.	✅︎	✅︎	✅︎
`Qwen3MoeForCausalLM`	Qwen3MoE	`Qwen/Qwen3-30B-A3B`, etc.	✅︎	✅︎	✅︎
`StableLmForCausalLM`	StableLM	`stabilityai/stablelm-3b-4e1t`, `stabilityai/stablelm-base-alpha-7b-v2`, etc.			✅︎
`Starcoder2ForCausalLM`	Starcoder2	`bigcode/starcoder2-3b`, `bigcode/starcoder2-7b`, `bigcode/starcoder2-15b`, etc.		✅︎	✅︎
`SolarForCausalLM`	Solar Pro	`upstage/solar-pro-preview-instruct`, etc.	✅︎	✅︎	✅︎
`TeleChat2ForCausalLM`	TeleChat2	`Tele-AI/TeleChat2-3B`, `Tele-AI/TeleChat2-7B`, `Tele-AI/TeleChat2-35B`, etc.	✅︎	✅︎	✅︎
`TeleFLMForCausalLM`	TeleFLM	`CofeAI/FLM-2-52B-Instruct-2407`, `CofeAI/Tele-FLM`, etc.	✅︎	✅︎	✅︎
`XverseForCausalLM`	XVERSE	`xverse/XVERSE-7B-Chat`, `xverse/XVERSE-13B-Chat`, `xverse/XVERSE-65B-Chat`, etc.	✅︎	✅︎	✅︎
`MiniMaxM1ForCausalLM`	MiniMax-Text	`MiniMaxAI/MiniMax-M1-40k`, `MiniMaxAI/MiniMax-M1-80k`, etc.
`MiniMaxText01ForCausalLM`	MiniMax-Text	`MiniMaxAI/MiniMax-Text-01`, etc.
`Zamba2ForCausalLM`	Zamba2	`Zyphra/Zamba2-7B-instruct`, `Zyphra/Zamba2-2.7B-instruct`, `Zyphra/Zamba2-1.2B-instruct`, etc.			✅︎

注意

目前，vLLM的ROCm版本仅支持Mistral和Mixtral模型，最大上下文长度为4096。

注意

目前Gemma3nForConditionalGeneration仅支持文本输入。要使用此模型，请将Hugging Face Transformers升级至4.53.0版本。

模型池化¶

查看此页面获取更多关于如何使用池化模型的信息。

重要

由于某些模型架构同时支持生成式和池化任务，您应明确指定--runner pooling以确保模型以池化模式而非生成模式运行。

文本嵌入¶

架构	模型	示例HF模型	LoRA	PP	V1
`BertModel`^C	BERT-based	`BAAI/bge-base-en-v1.5`, `Snowflake/snowflake-arctic-embed-xs`, etc.
`Gemma2Model`^C	Gemma 2-based	`BAAI/bge-multilingual-gemma2`, etc.	✅︎		✅︎
`GritLM`	GritLM	`parasail-ai/GritLM-7B-vllm`.	✅︎	✅︎
`GteModel`^C	Arctic-Embed-2.0-M	`Snowflake/snowflake-arctic-embed-m-v2.0`.
`GteNewModel`^C	mGTE-TRM (see note)	`Alibaba-NLP/gte-multilingual-base`, etc.
`ModernBertModel`^C	ModernBERT-based	`Alibaba-NLP/gte-modernbert-base`, etc.
`NomicBertModel`^C	Nomic BERT	`nomic-ai/nomic-embed-text-v1`, `nomic-ai/nomic-embed-text-v2-moe`, `Snowflake/snowflake-arctic-embed-m-long`, etc.
`LlamaModel`^C, `LlamaForCausalLM`^C, `MistralModel`^C, etc.	Llama-based	`intfloat/e5-mistral-7b-instruct`, etc.	✅︎	✅︎	✅︎
`Qwen2Model`^C, `Qwen2ForCausalLM`^C	Qwen2-based	`ssmits/Qwen2-7B-Instruct-embed-base` (see note), `Alibaba-NLP/gte-Qwen2-7B-instruct` (see note), etc.	✅︎	✅︎	✅︎
`Qwen3Model`^C, `Qwen3ForCausalLM`^C	Qwen3-based	`Qwen/Qwen3-Embedding-0.6B`, etc.	✅︎	✅︎	✅︎
`RobertaModel`, `RobertaForMaskedLM`	RoBERTa-based	`sentence-transformers/all-roberta-large-v1`, etc.
`Model`^C, `ForCausalLM`^C, etc.	Generative models	N/A	*	*	*

^C 通过 --convert embed 自动转换为嵌入模型。(details)
* 功能支持与原模型相同。

注意

ssmits/Qwen2-7B-Instruct-embed-base 的Sentence Transformers配置定义不当。您需要通过传递 --override-pooler-config '{"pooling_type": "MEAN"}' 手动设置均值池化。

注意

对于Alibaba-NLP/gte-Qwen2-*模型，您需要启用--trust-remote-code参数才能正确加载分词器。详见HF Transformers上的相关issue。

注意

jinaai/jina-embeddings-v3 通过LoRA支持多任务处理，而vllm目前仅支持通过合并LoRA权重来处理文本匹配任务。

注意

第二代GTE模型(mGTE-TRM)被命名为NewModel。名称NewModel过于通用，您应该设置--hf-overrides '{"architectures": ["GteNewModel"]}'来指定使用GteNewModel架构。

如果您的模型不在上述列表中，我们将尝试使用as_embedding_model自动转换模型。默认情况下，整个提示的嵌入向量会从与最后一个标记对应的归一化隐藏状态中提取。

奖励建模¶

架构	模型	示例HF模型	LoRA	PP	V1
`InternLM2ForRewardModel`	InternLM2-based	`internlm/internlm2-1_8b-reward`, `internlm/internlm2-7b-reward`, etc.	✅︎	✅︎	✅︎
`LlamaForCausalLM`^C	Llama-based	`peiyi9979/math-shepherd-mistral-7b-prm`, etc.	✅︎	✅︎	✅︎
`Qwen2ForRewardModel`	Qwen2-based	`Qwen/Qwen2.5-Math-RM-72B`, etc.	✅︎	✅︎	✅︎
`Qwen2ForProcessRewardModel`	Qwen2-based	`Qwen/Qwen2.5-Math-PRM-7B`, etc.	✅︎	✅︎	✅︎
`Model`^C, `ForCausalLM`^C, etc.	Generative models	N/A	*	*	*

^C 通过--convert reward自动转换为奖励模型。(details)
* 功能支持与原模型相同。

如果您的模型不在上述列表中，我们将尝试使用as_reward_model自动转换模型。默认情况下，我们直接返回每个token的隐藏状态。

重要

对于像peiyi9979/math-shepherd-mistral-7b-prm这样的过程监督奖励模型，需要显式设置池化配置，例如：--override-pooler-config '{"pooling_type": "STEP", "step_tag_id": 123, "returned_token_ids": [456, 789]}'。

分类¶

架构	模型	示例HF模型	LoRA	PP	V1
`JambaForSequenceClassification`	Jamba	`ai21labs/Jamba-tiny-reward-dev`, etc.	✅︎	✅︎
`GPT2ForSequenceClassification`	GPT2	`nie3e/sentiment-polish-gpt2-small`			✅︎
`Model`^C, `ForCausalLM`^C, etc.	Generative models	N/A	*	*	*

^C 通过--convert classify自动转换为分类模型。(details)
* 功能支持与原模型相同。

如果您的模型不在上述列表中，我们将尝试使用as_seq_cls_model自动转换模型。默认情况下，类别概率是从对应最后一个token的softmax隐藏状态中提取的。

句子对评分¶

架构	模型	示例HF模型	LoRA	PP	V1
`BertForSequenceClassification`	BERT-based	`cross-encoder/ms-marco-MiniLM-L-6-v2`, etc.
`GemmaForSequenceClassification`	Gemma-based	`BAAI/bge-reranker-v2-gemma` (see note), etc.	✅︎	✅︎	✅︎
`Qwen2ForSequenceClassification`	Qwen2-based	`mixedbread-ai/mxbai-rerank-base-v2` (see note), etc.	✅︎	✅︎	✅︎
`Qwen3ForSequenceClassification`	Qwen3-based	`tomaarsen/Qwen3-Reranker-0.6B-seq-cls`, `Qwen/Qwen3-Reranker-0.6B` (see note), etc.	✅︎	✅︎	✅︎
`RobertaForSequenceClassification`	RoBERTa-based	`cross-encoder/quora-roberta-base`, etc.
`XLMRobertaForSequenceClassification`	XLM-RoBERTa-based	`BAAI/bge-reranker-v2-m3`, etc.

^C 通过 --convert classify 自动转换为分类模型。(details)
* 功能支持与原模型相同。

注意

使用以下命令加载官方的原始 BAAI/bge-reranker-v2-gemma。

vllm serve BAAI/bge-reranker-v2-gemma --hf_overrides '{"architectures": ["GemmaForSequenceClassification"],"classifier_from_token": ["Yes"],"method": "no_post_processing"}'

注意

使用以下命令加载官方的原始mxbai-rerank-v2。

vllm serve mixedbread-ai/mxbai-rerank-base-v2 --hf_overrides '{"architectures": ["Qwen2ForSequenceClassification"],"classifier_from_token": ["0", "1"], "method": "from_2_way_softmax"}'

注意

通过以下命令加载官方的原始Qwen3 Reranker。更多信息请参阅： examples/offline_inference/qwen3_reranker.py。

vllm serve Qwen/Qwen3-Reranker-0.6B --hf_overrides '{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}'

多模态语言模型列表¶

根据模型的不同，支持以下模式：

T文本
Image
Video
Audio

支持由+连接的任何模态组合。

例如：T + I 表示该模型支持纯文本、纯图像以及图文混合输入。

另一方面，由/分隔的模态是互斥的。

例如：T / I 表示该模型仅支持纯文本和纯图像输入，但不支持文本与图像混合输入。

查看此页面了解如何向模型传递多模态输入。

重要

要在vLLM V0中实现每个文本提示支持多个多模态项目，你需要设置limit_mm_per_prompt（离线推理）或--limit-mm-per-prompt（在线服务）。例如，要启用每个文本提示最多传递4张图片的功能：

离线推理：

from vllm import LLM

llm = LLM(
    model="Qwen/Qwen2-VL-7B-Instruct",
    limit_mm_per_prompt={"image": 4},
)

在线服务：

vllm serve Qwen/Qwen2-VL-7B-Instruct --limit-mm-per-prompt '{"image":4}'

如果您使用的是vLLM V1版本，则不再需要此操作。

注意

vLLM目前仅支持向多模态模型的语言主干添加LoRA。

生成模型¶

查看此页面获取更多关于如何使用生成模型的信息。

文本生成¶

架构	模型	输入	示例HF模型	LoRA	PP	V1
`AriaForConditionalGeneration`	Aria	T + I⁺	`rhymes-ai/Aria`			✅︎
`AyaVisionForConditionalGeneration`	Aya Vision	T + I⁺	`CohereForAI/aya-vision-8b`, `CohereForAI/aya-vision-32b`, etc.		✅︎	✅︎
`Blip2ForConditionalGeneration`	BLIP-2	T + I^E	`Salesforce/blip2-opt-2.7b`, `Salesforce/blip2-opt-6.7b`, etc.		✅︎	✅︎
`ChameleonForConditionalGeneration`	Chameleon	T + I	`facebook/chameleon-7b`, etc.		✅︎	✅︎
`DeepseekVLV2ForCausalLM`^{^}	DeepSeek-VL2	T + I⁺	`deepseek-ai/deepseek-vl2-tiny`, `deepseek-ai/deepseek-vl2-small`, `deepseek-ai/deepseek-vl2`, etc.		✅︎	✅︎
`Florence2ForConditionalGeneration`	Florence-2	T + I	`microsoft/Florence-2-base`, `microsoft/Florence-2-large`, etc.
`FuyuForCausalLM`	Fuyu	T + I	`adept/fuyu-8b`, etc.		✅︎	✅︎
`Gemma3ForConditionalGeneration`	Gemma 3	T + I⁺	`google/gemma-3-4b-it`, `google/gemma-3-27b-it`, etc.	✅︎	✅︎	⚠️
`GLM4VForCausalLM`^{^}	GLM-4V	T + I	`THUDM/glm-4v-9b`, `THUDM/cogagent-9b-20241220`, etc.	✅︎	✅︎	✅︎
`Glm4vForConditionalGeneration`	GLM-4.1V-Thinking	T + I^E+ + V^E+	`THUDM/GLM-4.1V-9B-Thinking`, etc.	✅︎	✅︎	✅︎
`Glm4MoeForCausalLM`	GLM-4.5	T + I^E+ + V^E+	`THUDM/GLM-4.5`, etc.	✅︎	✅︎	✅︎
`GraniteSpeechForConditionalGeneration`	Granite Speech	T + A	`ibm-granite/granite-speech-3.3-8b`	✅︎	✅︎	✅︎
`H2OVLChatModel`	H2OVL	T + I^E+	`h2oai/h2ovl-mississippi-800m`, `h2oai/h2ovl-mississippi-2b`, etc.		✅︎	✅︎
`Idefics3ForConditionalGeneration`	Idefics3	T + I	`HuggingFaceM4/Idefics3-8B-Llama3`, etc.	✅︎		✅︎
`InternS1ForConditionalGeneration`	Intern-S1	T + I^E+ + V^E+	`internlm/Intern-S1`, etc.	✅︎	✅︎	✅︎
`InternVLChatModel`	InternVL 3.0, InternVideo 2.5, InternVL 2.5, Mono-InternVL, InternVL 2.0	T + I^E+ + (V^E+)	`OpenGVLab/InternVL3-9B`, `OpenGVLab/InternVideo2_5_Chat_8B`, `OpenGVLab/InternVL2_5-4B`, `OpenGVLab/Mono-InternVL-2B`, `OpenGVLab/InternVL2-4B`, etc.	✅︎	✅︎	✅︎
`KeyeForConditionalGeneration`	Keye-VL-8B-Preview	T + I^E+ + V^E+	`Kwai-Keye/Keye-VL-8B-Preview`			✅︎
`KimiVLForConditionalGeneration`	Kimi-VL-A3B-Instruct, Kimi-VL-A3B-Thinking	T + I⁺	`moonshotai/Kimi-VL-A3B-Instruct`, `moonshotai/Kimi-VL-A3B-Thinking`			✅︎
`Llama4ForConditionalGeneration`	Llama 4	T + I⁺	`meta-llama/Llama-4-Scout-17B-16E-Instruct`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8`, `meta-llama/Llama-4-Maverick-17B-128E-Instruct`, etc.		✅︎	✅︎
`Llama_Nemotron_Nano_VL`	Llama Nemotron Nano VL	T + I^E+	`nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1`	✅︎	✅︎	✅︎
`LlavaForConditionalGeneration`	LLaVA-1.5, Pixtral (HF Transformers)	T + I^E+	`llava-hf/llava-1.5-7b-hf`, `TIGER-Lab/Mantis-8B-siglip-llama3` (see note), `mistral-community/pixtral-12b`, etc.		✅︎	✅︎
`LlavaNextForConditionalGeneration`	LLaVA-NeXT	T + I^E+	`llava-hf/llava-v1.6-mistral-7b-hf`, `llava-hf/llava-v1.6-vicuna-7b-hf`, etc.		✅︎	✅︎
`LlavaNextVideoForConditionalGeneration`	LLaVA-NeXT-Video	T + V	`llava-hf/LLaVA-NeXT-Video-7B-hf`, etc.		✅︎	✅︎
`LlavaOnevisionForConditionalGeneration`	LLaVA-Onevision	T + I⁺ + V⁺	`llava-hf/llava-onevision-qwen2-7b-ov-hf`, `llava-hf/llava-onevision-qwen2-0.5b-ov-hf`, etc.		✅︎	✅︎
`MiniCPMO`	MiniCPM-O	T + I^E+ + V^E+ + A^E+	`openbmb/MiniCPM-o-2_6`, etc.	✅︎	✅︎	✅︎
`MiniCPMV`	MiniCPM-V	T + I^E+ + V^E+	`openbmb/MiniCPM-V-2` (see note), `openbmb/MiniCPM-Llama3-V-2_5`, `openbmb/MiniCPM-V-2_6`, etc.	✅︎		✅︎
`MiniMaxVL01ForConditionalGeneration`	MiniMax-VL	T + I^E+	`MiniMaxAI/MiniMax-VL-01`, etc.		✅︎	✅︎
`Mistral3ForConditionalGeneration`	Mistral3 (HF Transformers)	T + I⁺	`mistralai/Mistral-Small-3.1-24B-Instruct-2503`, etc.	✅︎	✅︎	✅︎
`MllamaForConditionalGeneration`	Llama 3.2	T + I⁺	`meta-llama/Llama-3.2-90B-Vision-Instruct`, `meta-llama/Llama-3.2-11B-Vision`, etc.
`MolmoForCausalLM`	Molmo	T + I⁺	`allenai/Molmo-7B-D-0924`, `allenai/Molmo-7B-O-0924`, etc.	✅︎	✅︎	✅︎
`NVLM_D_Model`	NVLM-D 1.0	T + I⁺	`nvidia/NVLM-D-72B`, etc.		✅︎	✅︎
`Ovis`	Ovis2, Ovis1.6	T + I⁺	`AIDC-AI/Ovis2-1B`, `AIDC-AI/Ovis1.6-Llama3.2-3B`, etc.		✅︎	✅︎
`PaliGemmaForConditionalGeneration`	PaliGemma, PaliGemma 2	T + I^E	`google/paligemma-3b-pt-224`, `google/paligemma-3b-mix-224`, `google/paligemma2-3b-ft-docci-448`, etc.		✅︎	⚠️
`Phi3VForCausalLM`	Phi-3-Vision, Phi-3.5-Vision	T + I^E+	`microsoft/Phi-3-vision-128k-instruct`, `microsoft/Phi-3.5-vision-instruct`, etc.		✅︎	✅︎
`Phi4MMForCausalLM`	Phi-4-multimodal	T + I⁺ / T + A⁺ / I⁺ + A⁺	`microsoft/Phi-4-multimodal-instruct`, etc.	✅︎	✅︎	✅︎
`Phi4MultimodalForCausalLM`	Phi-4-multimodal (HF Transformers)	T + I⁺ / T + A⁺ / I⁺ + A⁺	`microsoft/Phi-4-multimodal-instruct` (with revision `refs/pr/70`), etc.	✅︎	✅︎	✅︎
`PixtralForConditionalGeneration`	Mistral 3 (Mistral format), Pixtral (Mistral format)	T + I⁺	`mistralai/Mistral-Small-3.1-24B-Instruct-2503`, `mistralai/Pixtral-12B-2409`, etc.		✅︎	✅︎
`QwenVLForConditionalGeneration`^{^}	Qwen-VL	T + I^E+	`Qwen/Qwen-VL`, `Qwen/Qwen-VL-Chat`, etc.	✅︎	✅︎	✅︎
`Qwen2AudioForConditionalGeneration`	Qwen2-Audio	T + A⁺	`Qwen/Qwen2-Audio-7B-Instruct`		✅︎	✅︎
`Qwen2VLForConditionalGeneration`	QVQ, Qwen2-VL	T + I^E+ + V^E+	`Qwen/QVQ-72B-Preview`, `Qwen/Qwen2-VL-7B-Instruct`, `Qwen/Qwen2-VL-72B-Instruct`, etc.	✅︎	✅︎	✅︎
`Qwen2_5_VLForConditionalGeneration`	Qwen2.5-VL	T + I^E+ + V^E+	`Qwen/Qwen2.5-VL-3B-Instruct`, `Qwen/Qwen2.5-VL-72B-Instruct`, etc.	✅︎	✅︎	✅︎
`Qwen2_5OmniThinkerForConditionalGeneration`	Qwen2.5-Omni	T + I^E+ + V^E+ + A⁺	`Qwen/Qwen2.5-Omni-7B`		✅︎	✅︎
`SkyworkR1VChatModel`	Skywork-R1V-38B	T + I	`Skywork/Skywork-R1V-38B`		✅︎	✅︎
`SmolVLMForConditionalGeneration`	SmolVLM2	T + I	`SmolVLM2-2.2B-Instruct`	✅︎		✅︎
`Step3VLForConditionalGeneration`	Step3-VL	T + I⁺	`stepfun-ai/step3`		✅︎	✅︎
`TarsierForConditionalGeneration`	Tarsier	T + I^E+	`omni-search/Tarsier-7b`, `omni-search/Tarsier-34b`		✅︎	✅︎
`Tarsier2ForConditionalGeneration`^{^}	Tarsier2	T + I^E+ + V^E+	`omni-research/Tarsier2-Recap-7b`, `omni-research/Tarsier2-7b-0115`		✅︎	✅︎

部分模型仅通过Transformers后端获得支持。下表旨在列出我们官方以这种方式支持的模型。日志会显示正在使用Transformers后端，且不会提示这是回退行为。这意味着，如果您在使用以下列出的任何模型时遇到问题，请提交问题，我们将尽力修复！

架构	模型	输入	示例HF模型	LoRA	PP	V1
`Emu3ForConditionalGeneration`	Emu3	T + I	`BAAI/Emu3-Chat-hf`	✅︎	✅︎	✅︎

^{^} 你需要通过--hf-overrides设置架构名称以匹配vLLM中的架构。 • 例如，要使用DeepSeek-VL2系列模型： --hf-overrides '{"architectures": ["DeepseekVLV2ForCausalLM"]}' ^E 该模态可以输入预计算的嵌入向量。 ⁺ 该模态每个文本提示可以输入多个项目。

警告

V0和V1版本都支持Gemma3ForConditionalGeneration处理纯文本输入。但在处理文本+图像输入时存在差异：

V0正确实现了模型的注意力模式： - 对同一图像对应的图像标记使用双向注意力 - 对其他标记使用因果注意力 - 通过(原生)PyTorch SDPA配合掩码张量实现 - 注意：对于包含图像的长提示可能会占用大量内存

V1 当前使用简化的注意力模式： - 对所有标记（包括图像标记）使用因果注意力 - 能生成合理输出，但与原始模型对文本+图像输入的注意力模式不匹配，特别是当 {"do_pan_and_scan": true} 时 - 未来将更新以支持正确的行为

这一限制存在的原因是vLLM的注意力后端目前还不支持模型的混合注意力模式（对图像采用双向注意力，其他情况采用因果注意力）。

注意

目前只有带有Qwen2.5文本骨干的InternVLChatModel（如OpenGVLab/InternVL3-2B、OpenGVLab/InternVL2.5-1B等）支持视频输入。

注意

要使用TIGER-Lab/Mantis-8B-siglip-llama3，你必须在运行vLLM时传递--hf_overrides '{"architectures": ["MantisForConditionalGeneration"]}'参数。

警告

AllenAI/Molmo-7B-D-0924的输出质量（特别是在物体定位任务中）在最近的更新中有所下降。

为了获得最佳效果，我们推荐使用以下依赖版本（已在A10和L40上测试）：

Dependency versions

# Core vLLM-compatible dependencies with Molmo accuracy setup (tested on L40)
torch==2.5.1
torchvision==0.20.1
transformers==4.48.1
tokenizers==0.21.0
tiktoken==0.7.0
vllm==0.7.0

# Optional but recommended for improved performance and stability
triton==3.1.0
xformers==0.0.28.post3
uvloop==0.21.0
protobuf==5.29.3
openai==1.60.2
opencv-python-headless==4.11.0.86
pillow==10.4.0

# Installed FlashAttention (for float16 only)
flash-attn>=2.5.6  # Not used in float32, but should be documented

注意： 请确保您了解使用过时软件包的安全隐患。

注意

官方的 openbmb/MiniCPM-V-2 目前还不可用，因此我们需要暂时使用一个分支版本 (HwwwH/MiniCPM-V-2)。更多详情请参阅： Pull Request #4087

警告

我们的PaliGemma实现在V0和V1版本上都存在与Gemma 3相同的问题（见上文）。

注意

对于Qwen2.5-Omni，目前仅V0版本支持从视频预处理中读取音频(--mm-processor-kwargs '{"use_audio_in_video": true}')，因为V1版本尚未支持多模态重叠功能。

转录¶

专门为自动语音识别训练的Speech2Text模型。

架构	模型	示例HF模型	LoRA	PP	V1
`WhisperForConditionalGeneration`	Whisper	`openai/whisper-small`, `openai/whisper-large-v3-turbo`, etc.
`VoxtralForConditionalGeneration`	Voxtral (Mistral format)	`mistralai/Voxtral-Mini-3B-2507`, `mistralai/Voxtral-Small-24B-2507`, etc.		✅︎	✅︎

模型池化¶

查看此页面获取更多关于如何使用池化模型的信息。

重要

由于某些模型架构同时支持生成式和池化任务，您应明确指定--runner pooling以确保模型以池化模式而非生成模式运行。

文本嵌入¶

注意

为了获得最佳效果，您应该使用专门为此训练的池化模型。

下表列出了在vLLM中经过测试的项目。

架构	模型	输入	示例HF模型	LoRA	PP	V1
`LlavaNextForConditionalGeneration`^C	LLaVA-NeXT-based	T / I	`royokong/e5-v`
`Phi3VForCausalLM`^C	Phi-3-Vision-based	T + I	`TIGER-Lab/VLM2Vec-Full`	🚧	✅︎
`ForConditionalGeneration`^C, `ForCausalLM`^C, etc.	Generative models	*	N/A	*	*	*

^C 通过 --convert embed 自动转换为嵌入模型。(details)
* 功能支持与原模型相同。

评分¶

架构	模型	输入	示例HF模型	[LoRA][lora-adapter]	[PP][distributed-serving]	V1
`JinaVLForSequenceClassification`	JinaVL-based	T + I^E+	`jinaai/jina-reranker-m0`, etc.			✅︎

^C 通过 --convert classify 自动转换为分类模型。(details)
* 功能支持与原模型相同。

模型支持政策¶

在vLLM，我们致力于促进第三方模型在我们生态系统中的集成与支持。我们的方法旨在平衡对稳健性的需求与支持广泛模型的实际限制。以下是我们管理第三方模型支持的方式：

社区驱动的支持: 我们鼓励社区贡献来添加新模型。当用户请求支持新模型时，我们欢迎社区提交拉取请求(PRs)。这些贡献主要根据其生成输出的合理性进行评估，而非严格遵循现有实现(如transformers中的实现)。贡献号召： 来自模型供应商的直接PRs将特别受欢迎！
尽力保持一致性: 虽然我们致力于维持vLLM中实现的模型与其他框架(如transformers)之间的一致性水平，但完全对齐并不总是可行的。加速技术和低精度计算的使用等因素可能会引入差异。我们的承诺是确保所实现的模型功能正常并产生合理的结果。

提示

当比较Hugging Face Transformers的model.generate输出与vLLM的llm.generate输出时，请注意前者会读取模型的生成配置文件(即generation_config.json)并应用默认生成参数，而后者仅使用传递给函数的参数。在比较输出时，请确保所有采样参数完全相同。
问题解决与模型更新: 我们鼓励用户报告在使用第三方模型时遇到的任何错误或问题。建议的修复方案应通过PR提交，并附上对问题及解决方案背后原理的清晰说明。如果某个模型的修复会影响其他模型，我们依赖社区来发现并解决这些跨模型依赖关系。注意：对于错误修复的PR，通知原作者并征求他们的反馈是一种良好的礼仪。
监控与更新: 对特定模型感兴趣的用户应监控这些模型的提交历史（例如通过跟踪main/vllm/model_executor/models目录中的变更）。这种主动方式有助于用户及时了解可能影响其所用模型的更新和变更。
选择性聚焦: 我们的资源主要投向具有重大用户关注度和影响力的模型。使用频率较低的模型可能获得的关注较少，我们依赖社区在其维护和改进方面发挥更积极的作用。

通过这种方式，vLLM 营造了一个协作环境，让核心开发团队和更广泛的社区共同为我们生态系统中支持的第三方模型提供稳健性和多样性。

请注意，作为推理引擎，vLLM本身并不引入新模型。因此，从这个角度来看，vLLM支持的所有模型都属于第三方模型。

我们对模型有以下几级测试：

严格一致性：我们将模型的输出与HuggingFace Transformers库中模型在贪婪解码下的输出进行比较。这是最严格的测试。请参考models tests查看已通过此测试的模型。
输出合理性: 我们通过测量输出的困惑度并检查是否存在明显错误，来验证模型的输出是否合理且连贯。这是一个较为宽松的测试。
运行时功能: 我们检查模型是否能无错误地加载和运行。这是最宽松的测试。请参考功能测试和示例查看已通过此测试的模型。
社区反馈: 我们依赖社区提供关于模型的反馈。如果某个模型出现问题或未按预期工作，我们鼓励用户提交问题报告或发起拉取请求进行修复。其余模型属于此类别。