int4_tensor

实现INT4量化,用于高效的张量存储和计算。

INT4QTensor

在张量上实现INT4量化,以实现更高效的存储或计算。

class INT4QTensor

基础类: BaseQuantizedTensor

在张量上实现INT4量化,以实现更高效的存储或计算。

quantized_data

量化的数据存储为一个打包的uint8张量。

Type:

torch.Tensor

dequantize(dtype=None, **kwarg)

将INT4打包的张量反量化为目标数据类型。

Parameters:

dtype (dtype) –

classmethod quantize(input, block_size)

将张量转换为基于INT4(AWQ)量化的量化格式。

Parameters:
  • 输入 (torch.Tensor) – 要量化的输入张量。

  • block_size (int) – 量化的每个块的大小。

Returns:

包含量化数据、输入量化配置和比例量化配置。

Return type:

元组