int4_tensor
实现INT4量化,用于高效的张量存储和计算。
类
在张量上实现INT4量化,以实现更高效的存储或计算。 |
- class INT4QTensor
基础类:
BaseQuantizedTensor在张量上实现INT4量化,以实现更高效的存储或计算。
- quantized_data
量化的数据存储为一个打包的uint8张量。
- Type:
torch.Tensor
- dequantize(dtype=None, **kwarg)
将INT4打包的张量反量化为目标数据类型。
- Parameters:
dtype (dtype) –
- classmethod quantize(input, block_size)
将张量转换为基于INT4(AWQ)量化的量化格式。
- Parameters:
输入 (torch.Tensor) – 要量化的输入张量。
block_size (int) – 量化的每个块的大小。
- Returns:
包含量化数据、输入量化配置和比例量化配置。
- Return type:
元组