基准测试

TensorZero网关从设计之初就将性能作为核心考量。

它采用Rust语言编写，专为处理极端并发场景而设计，延迟可控制在亚毫秒级别。

TensorZero Gateway 对比 LiteLLM

简要说明：TensorZero在负载提升100倍的同时，实现了P99延迟开销降低100倍的突破。

我们对TensorZero Gateway与流行的LiteLLM代理(LiteLLM Gateway)进行了基准测试。

在AWS的c7i.xlarge实例上（4个vCPU，8GB内存），当并发量超过几百QPS时LiteLLM会崩溃。 TensorZero Gateway在相同实例上轻松处理10k+ QPS。

即使在吞吐量相差100倍的情况下，TensorZero网关仍能实现25-100倍以上的延迟降低。这种差异在尾部延迟尤为显著：P99延迟降低100倍以上。使用Rust构建(TensorZero)可在极端负载下保持稳定的亚毫秒级延迟开销，而Python(LiteLLM)往往会成为性能瓶颈。

技术说明：

我们在AWS上使用c7i.xlarge实例(4个vCPU，8GB内存)。
我们在两个基准测试中都使用了模拟的OpenAI推理服务提供商。
负载生成器、两个网关以及模拟推理服务提供者都运行在同一实例上。
我们在TensorZero网关中配置了observability.enabled = false（即禁用将推理日志记录到ClickHouse）以使场景具有可比性。（即便如此，可观测性功能仍在后台异步运行，因此只要ClickHouse部署足够强大，它们不会实质性地影响延迟。）

了解更多技术细节和复现说明请点击此处。