跳至内容

性能与延迟

TensorZero网关从设计之初就以性能为核心考量。在极端负载下,它能实现P99延迟开销小于1毫秒(详见基准测试)。

即使在默认设置下,该网关也足够快速轻量,在大多数应用中几乎无感。

优化

如果您关注极致并发和低延迟,我们推荐以下设置和工作流程。

TensorZero Gateway

  • 启用 gateway.observability.async_writes 将推理响应写入ClickHouse的责任卸载到后台任务,而不是等待ClickHouse返回推理响应。了解更多 →
  • 确保您的应用程序、TensorZero网关和ClickHouse部署在同一区域,以最小化网络延迟。

Python客户端

  • 尽可能复用已初始化的客户端,避免重复初始化的开销并保持连接活跃。