nf4_tensor

实现NF4量化，用于高效的张量存储和计算。

类

在张量上实现NF4量化，以实现更高效的存储或计算。

class NF4QTensor

基础类: BaseQuantizedTensor

在张量上实现NF4量化，以实现更高效的存储或计算。

quantized_data

量化的数据存储为一个打包的uint8张量。

dequantize(dtype=None, **kwarg)

将NF4打包的张量反量化为目标数据类型。

classmethod double_quantization(scales, scale_block_size, num_scale_bits)

对比例进行双重量化。

与quantize方法量化输入数据不同，此函数将浮点比例量化为int8，以进一步减少比例的内存使用。

Parameters:

classmethod quantize(input, block_size)

将张量转换为基于NF4双重量化的量化格式。

Parameters:

Returns:

包含量化数据、输入量化配置和比例量化配置。

Return type:

元组