跳至内容
vLLM
用户指南
正在初始化搜索
GitHub
首页
用户指南
开发者指南
API参考文档
CLI 参考文档
社区
vLLM
GitHub
首页
User Guide
User Guide
用户指南
vLLM V1
General
General
常见问题解答
生产指标
可复现性
安全
故障排除
使用数据收集
Inference and Serving
Inference and Serving
离线推理
OpenAI兼容服务器
数据并行部署
分布式推理与服务
专家级并行部署
集成
Deployment
Deployment
使用Docker
使用Kubernetes
使用Nginx
框架
集成
Training
Training
基于人类反馈的强化学习
变换器强化学习
Configuration
Configuration
概述
节省内存
引擎参数
环境变量
模型分辨率
优化与调优
服务器参数
TPU优化技巧
Models
Models
支持的模型
生成模型
模型池化
扩展功能
支持的硬件型号
Features
Features
兼容性矩阵
自动前缀缓存
分离式预填充(实验性功能)
LoRA适配器
多模态输入
提示词嵌入输入
推理输出
推测解码
结构化输出
工具调用
量化
开发者指南
API参考文档
CLI参考文档
社区
使用vLLM
¶
vLLM 支持以下使用模式:
Inference and Serving
: 运行模型的单个实例。
Deployment
: 为生产环境扩展模型实例。
训练
: 训练或微调模型。
Back to top
×