跳至内容

概述

TensorZero Gateway 是一个高性能模型网关,为您的所有LLM应用提供统一接口。

  • 统一API支持所有大语言模型。 该网关为所有主流大语言模型提供商提供统一接口,实现无缝跨平台集成和故障转移。 TensorZero原生支持 AnthropicAWS BedrockAWS SageMakerAzure OpenAI服务FireworksGCP Vertex AI AnthropicGCP Vertex AI GeminiGoogle AI Studio (Gemini API)HyperbolicMistralOpenAITogethervLLM以及 xAI。 需要其他支持? 由于TensorZero集成了任何OpenAI兼容API(如Ollama),您的提供商很可能已被支持。 仍未支持? 请在GitHub上提交问题,我们将进行集成!

  • 极速响应。 网关(采用Rust 🦀编写)在极端负载下实现P99延迟开销<1毫秒。 基准测试显示,LiteLLM在100 QPS时的延迟比我们的网关在10,000 QPS时高出25-100倍以上。

  • 结构化推理。 网关强制执行输入和输出的模式,确保应用程序的健壮性。 结构化推理数据随后可用于强大的优化方案(例如在微调前替换历史提示)。 了解更多关于提示模板与模式的信息。

  • 多步骤大语言模型工作流。 该网关通过将多个推理与一个事件(episode)关联,为复杂的多步骤大语言模型工作流提供一流支持。 反馈可以在推理或事件级别进行分配,从而实现复合大语言模型系统的端到端优化。 了解更多关于episodes的信息。

  • 内置可观测性。 网关会收集结构化的推理追踪数据,同时关联下游指标和自然语言反馈。 所有数据都存储在ClickHouse数据库中,支持实时、可扩展且对开发者友好的分析。 TensorZero Recipes利用这一数据集来优化您的LLM模型。

  • 内置实验功能。 该网关能自动在不同变体间分配流量以支持A/B测试。 它确保多步骤工作流中每个会话内的变体保持一致性。 更先进的实验技术(例如异步多臂老虎机)即将推出。

  • 内置故障回退机制。 网关会自动将失败的推理请求回退到不同的推理服务提供商,甚至完全不同的变体版本。 确保配置错误、服务商宕机等边缘情况不会影响您的服务可用性。

  • GitOps编排。 通过兼容GitOps的配置编排提示词、模型、参数、工具、实验等内容。 既可以使用人类可读的配置文件手动管理少量大语言模型,也能完全以编程方式管理成千上万的提示词和大语言模型。

后续步骤