基准测试
TensorZero网关从设计之初就将性能作为核心考量。
它采用Rust语言编写,专为处理极端并发场景而设计,延迟可控制在亚毫秒级别。
TensorZero Gateway 对比 LiteLLM
简要说明:TensorZero在负载提升100倍的同时,实现了P99延迟开销降低100倍的突破。
我们对TensorZero Gateway与流行的LiteLLM代理(LiteLLM Gateway)进行了基准测试。
在AWS的c7i.xlarge
实例上(4个vCPU,8GB内存),当并发量超过几百QPS时LiteLLM会崩溃。
TensorZero Gateway在相同实例上轻松处理10k+ QPS。
即使在吞吐量相差100倍的情况下,TensorZero网关仍能实现25-100倍以上的延迟降低。这种差异在尾部延迟尤为显著:P99延迟降低100倍以上。使用Rust构建(TensorZero)可在极端负载下保持稳定的亚毫秒级延迟开销,而Python(LiteLLM)往往会成为性能瓶颈。
延迟 | LiteLLM代理 (100 QPS) | TensorZero网关 (10,000 QPS) |
---|---|---|
平均值 | 8.36毫秒 | 0.21毫秒 |
50% | 7.00毫秒 | 0.19毫秒 |
90% | 7.53毫秒 | 0.25毫秒 |
95% | 7.79毫秒 | 0.28毫秒 |
99% | 66.68毫秒 | 0.57毫秒 |
技术说明:
- 我们在AWS上使用
c7i.xlarge
实例(4个vCPU,8GB内存)。 - 我们在两个基准测试中都使用了模拟的OpenAI推理服务提供商。
- 负载生成器、两个网关以及模拟推理服务提供者都运行在同一实例上。
- 我们在TensorZero网关中配置了
observability.enabled = false
(即禁用将推理日志记录到ClickHouse)以使场景具有可比性。(即便如此,可观测性功能仍在后台异步运行,因此只要ClickHouse部署足够强大,它们不会实质性地影响延迟。)
了解更多技术细节和复现说明请点击此处。