跳至内容

BitBLAS

vLLM 现已支持 BitBLAS,可实现更高效灵活的模型推理。与其他量化框架相比,BitBLAS 提供了更多精度组合。

注意

请确保您的硬件支持所选的dtype(torch.bfloat16torch.float16)。 大多数现代NVIDIA GPU支持float16,而bfloat16在较新的架构(如Ampere或Hopper)上更为常见。 详情请参阅supported hardware

以下是使用BitBLAS与vLLM的步骤。

pip install bitblas>=0.1.0

vLLM读取模型的配置文件并支持预量化的检查点。

你可以在以下位置找到预量化模型:

通常,这些代码库会包含一个quantize_config.json文件,其中包含quantization_config配置部分。

读取bitblas格式检查点

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
    model=model_id,
    dtype=torch.bfloat16,
    trust_remote_code=True,
    quantization="bitblas"
)

读取gptq格式的检查点

from vllm import LLM
import torch

# "hxbgsyxh/llama-13b-4bit-g-1" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1"
llm = LLM(
    model=model_id,
    dtype=torch.float16,
    trust_remote_code=True,
    quantization="bitblas",
    max_model_len=1024
)