故障排除#
本页面列出了一些常见错误及其修复技巧。
CUDA内存不足#
如果您看到内存不足(OOM)错误,您可以尝试调整以下参数。
如果在预填充期间发生OOM,请尝试将
--chunked-prefill-size减少到4096或2048。如果在解码过程中发生OOM,请尝试减少
--max-running-requests。你也可以尝试减少
--mem-fraction-static,这会减少KV缓存内存池的内存使用,有助于预填充和解码。
CUDA错误:遇到了非法的内存访问#
此错误可能是由于内核错误或内存不足问题引起的。
如果是内核错误,修复起来并不容易。请在GitHub上提交问题。
如果是内存不足,有时会报告此错误而不是“内存不足”。请参考上述部分以避免OOM。