常见问题解答

ModelOpt-Windows

ONNX PTQ

Awq-scale 搜索应在几分钟内完成，使用 NVIDIA GPU 加速。如果停滞：

在GenAI中使用的ORT可能与ModelOpt-Windows ORT发生冲突：

这通常是由于CUDA和cuDNN版本不匹配或路径缺失导致的。请确保：

确保在每次量化运行之前输出目录是干净的，否则，现有的量化模型文件可能会在每次运行中被追加，导致模型大小增加并可能损坏它。

错误无法识别的属性：block_size 用于操作符 DequantizeLinear

ModelOpt-Windows 使用 ONNX 的 DequantizeLinear (DQ) 节点。block_size 属性在 Opset-21 的 DeQuantizeLinear 节点中被添加。确保量化模型的 opset 版本为 21 或更高。详情请参考应用训练后量化 (PTQ)。

错误：节点 (onnx::MatMul_6508_DequantizeLinear) 中操作符 (DequantizeLinear) 的输入参数 (onnx::MatMul_6508_i4) 的类型 'tensor(int4)' 无效。

上述错误的一个可能原因是INT4量化的ONNX模型的opset版本（默认或onnx域）小于21。确保INT4量化模型的opset版本为21或更高，因为DeQuantizeLinear ONNX节点中的INT4数据类型支持是在opset-21中引入的。

如果你的mtn.search()中的score_func支持并行评估，你可以通过传入DistributedDataParallel模块来进行搜索。

在转换过程中（mtn.convert()），我们使用了一个monkey patch来增强forward()、eval()和train()方法的功能。这使得ModelOpt转换过程与对这些方法的其他monkey patch不兼容。

# Internally in mtn.convert, we do:
model.forward = types.MethodType(nas_forward_func, model)
model.train = types.MethodType(nas_train_func, model)

当使用FSDP并设置use_orig_params=True时，在训练过程中可能会存在内存泄漏问题，尤其是在与modelopt转换的模型一起使用时。请使用use_orig_params=False来避免这个问题。