离线推理

你可以在自己的代码中针对一组提示词运行vLLM。

离线API基于LLM类。 要初始化vLLM引擎,需创建LLM的新实例并指定要运行的模型。

例如,以下代码从HuggingFace下载facebook/opt-125m模型,并使用vLLM的默认配置运行它。

from vllm import LLM

llm = LLM(model="facebook/opt-125m")

初始化LLM实例后,您可以使用各种API执行模型推理。 可用的API取决于正在运行的模型类型:

有关每个API的更多详情,请参阅上述页面。