离线推理
你可以在自己的代码中针对一组提示词运行vLLM。
离线API基于LLM类。
要初始化vLLM引擎,需创建LLM
的新实例并指定要运行的模型。
例如,以下代码从HuggingFace下载facebook/opt-125m
模型,并使用vLLM的默认配置运行它。
初始化LLM
实例后,您可以使用各种API执行模型推理。
可用的API取决于正在运行的模型类型:
- Generative models 输出对数概率,通过采样获得最终输出文本。
- Pooling models直接输出其隐藏状态。
有关每个API的更多详情,请参阅上述页面。
信息