故障排除#

本页面列出了一些常见错误及其修复技巧。

CUDA内存不足#

如果您看到内存不足(OOM)错误,您可以尝试调整以下参数。

  • 如果在预填充期间发生OOM,请尝试将--chunked-prefill-size减少到40962048

  • 如果在解码过程中发生OOM,请尝试减少--max-running-requests

  • 你也可以尝试减少--mem-fraction-static,这会减少KV缓存内存池的内存使用,有助于预填充和解码。

CUDA错误:遇到了非法的内存访问#

此错误可能是由于内核错误或内存不足问题引起的。

  • 如果是内核错误,修复起来并不容易。请在GitHub上提交问题。

  • 如果是内存不足,有时会报告此错误而不是“内存不足”。请参考上述部分以避免OOM。