BitBLAS
vLLM 现已支持 BitBLAS,可实现更高效灵活的模型推理。与其他量化框架相比,BitBLAS 提供了更多精度组合。
注意
请确保您的硬件支持所选的dtype
(torch.bfloat16
或torch.float16
)。
大多数现代NVIDIA GPU支持float16
,而bfloat16
在较新的架构(如Ampere或Hopper)上更为常见。
详情请参阅supported hardware。
以下是使用BitBLAS与vLLM的步骤。
vLLM读取模型的配置文件并支持预量化的检查点。
你可以在以下位置找到预量化模型:
通常,这些代码库会包含一个quantize_config.json
文件,其中包含quantization_config
配置部分。
读取bitblas格式检查点¶
from vllm import LLM
import torch
# "hxbgsyxh/llama-13b-4bit-g-1-bitblas" is a pre-quantized checkpoint.
model_id = "hxbgsyxh/llama-13b-4bit-g-1-bitblas"
llm = LLM(
model=model_id,
dtype=torch.bfloat16,
trust_remote_code=True,
quantization="bitblas"
)