量化¶ 量化通过牺牲模型精度来换取更小的内存占用,使得大型模型能够在更广泛的设备上运行。 目录: 支持的硬件 AutoAWQ AutoRound BitsAndBytes BitBLAS GGUF GPTQModel INC INT4 W4A16 INT8 W8A8 FP8 W8A8 NVIDIA TensorRT 模型优化器 AMD Quark 量化键值缓存 TorchAO