离线推理

你可以在自己的代码中针对一组提示词运行vLLM。

离线API基于LLM类。要初始化vLLM引擎，需创建LLM的新实例并指定要运行的模型。

例如，以下代码从HuggingFace下载facebook/opt-125m模型，并使用vLLM的默认配置运行它。

from vllm import LLM

llm = LLM(model="facebook/opt-125m")

初始化LLM实例后，您可以使用各种API执行模型推理。可用的API取决于正在运行的模型类型：

有关每个API的更多详情，请参阅上述页面。

信息