跳至内容

基准测试

TensorZero网关从设计之初就将性能作为核心考量。

它采用Rust语言编写,专为处理极端并发场景而设计,延迟可控制在亚毫秒级别。

TensorZero Gateway 对比 LiteLLM

简要说明:TensorZero在负载提升100倍的同时,实现了P99延迟开销降低100倍的突破。

我们对TensorZero Gateway与流行的LiteLLM代理(LiteLLM Gateway)进行了基准测试。

在AWS的c7i.xlarge实例上(4个vCPU,8GB内存),当并发量超过几百QPS时LiteLLM会崩溃。 TensorZero Gateway在相同实例上轻松处理10k+ QPS。

即使在吞吐量相差100倍的情况下,TensorZero网关仍能实现25-100倍以上的延迟降低。这种差异在尾部延迟尤为显著:P99延迟降低100倍以上。使用Rust构建(TensorZero)可在极端负载下保持稳定的亚毫秒级延迟开销,而Python(LiteLLM)往往会成为性能瓶颈。

延迟LiteLLM代理
(100 QPS)
TensorZero网关
(10,000 QPS)
平均值8.36毫秒0.21毫秒
50%7.00毫秒0.19毫秒
90%7.53毫秒0.25毫秒
95%7.79毫秒0.28毫秒
99%66.68毫秒0.57毫秒

技术说明:

  • 我们在AWS上使用c7i.xlarge实例(4个vCPU,8GB内存)。
  • 我们在两个基准测试中都使用了模拟的OpenAI推理服务提供商。
  • 负载生成器、两个网关以及模拟推理服务提供者都运行在同一实例上。
  • 我们在TensorZero网关中配置了observability.enabled = false(即禁用将推理日志记录到ClickHouse)以使场景具有可比性。(即便如此,可观测性功能仍在后台异步运行,因此只要ClickHouse部署足够强大,它们不会实质性地影响延迟。)

了解更多技术细节和复现说明请点击此处