您正在查看最新的开发者预览版文档。点击此处查看最新稳定版的文档。

vLLM

量化

正在初始化搜索

首页
用户指南
开发者指南
API参考文档
CLI 参考文档
社区

vLLM

首页
User Guide
User Guide
- 用户指南
- vLLM V1
- General
  General
- Inference and Serving
  Inference and Serving
- Deployment
  Deployment
- Training
  Training
  - 基于人类反馈的强化学习
  - 变换器强化学习
- Configuration
  Configuration
- Models
  Models
- Features
  Features
  - 兼容性矩阵
  - 自动前缀缓存
  - 分离式预填充（实验性功能）
  - LoRA适配器
  - 多模态输入
  - 提示词嵌入输入
  - 推理输出
  - 推测解码
  - 结构化输出
  - 工具调用
  - Quantization
    Quantization
    
    量化
    
    AutoAWQ
    
    AutoRound
    
    BitBLAS
    
    BitsAndBytes
    
    FP8 W8A8
    
    GGUF
    
    GPTQModel
    
    FP8 增量计算
    
    INT4 W4A16
    
    INT8 W8A8
    
    NVIDIA TensorRT 模型优化器
    
    量化KV缓存
    
    AMD Quark
    
    支持的硬件
    
    TorchAO
开发者指南
API参考文档
CLI参考文档
社区

量化¶

量化通过牺牲模型精度来换取更小的内存占用，使得大型模型能够在更广泛的设备上运行。

目录：

支持的硬件
AutoAWQ
AutoRound
BitsAndBytes
BitBLAS
GGUF
GPTQModel
INC
INT4 W4A16
INT8 W8A8
FP8 W8A8
NVIDIA TensorRT 模型优化器
AMD Quark
量化键值缓存
TorchAO

July 25, 2025

Made with Material for MkDocs

优云智算