BitBLAS

vLLM 现已支持 BitBLAS，可实现更高效灵活的模型推理。与其他量化框架相比，BitBLAS 提供了更多精度组合。

注意

请确保您的硬件支持所选的dtype(torch.bfloat16或torch.float16)。大多数现代NVIDIA GPU支持float16，而bfloat16在较新的架构(如Ampere或Hopper)上更为常见。详情请参阅supported hardware。

以下是使用BitBLAS与vLLM的步骤。

pip install bitblas>=0.1.0

vLLM读取模型的配置文件并支持预量化的检查点。

你可以在以下位置找到预量化模型：

通常，这些代码库会包含一个quantize_config.json文件，其中包含quantization_config配置部分。

读取bitblas格式检查点¶

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
    model=model_id,
    dtype=torch.bfloat16,
    trust_remote_code=True,
    quantization="bitblas"
)

读取gptq格式的检查点¶

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1"
llm = LLM(
    model=model_id,
    dtype=torch.float16,
    trust_remote_code=True,
    quantization="bitblas",
    max_model_len=1024
)