概述

TensorZero Gateway 是一个高性能模型网关，为您的所有LLM应用提供统一接口。

统一API支持所有大语言模型。 该网关为所有主流大语言模型提供商提供统一接口，实现无缝跨平台集成和故障转移。 TensorZero原生支持 Anthropic、 AWS Bedrock、 AWS SageMaker、 Azure OpenAI服务、 Fireworks、 GCP Vertex AI Anthropic、 GCP Vertex AI Gemini、 Google AI Studio (Gemini API)、 Hyperbolic、 Mistral、 OpenAI、 Together、 vLLM以及 xAI。需要其他支持？由于TensorZero集成了任何OpenAI兼容API（如Ollama），您的提供商很可能已被支持。仍未支持？请在GitHub上提交问题，我们将进行集成！
极速响应。 网关（采用Rust 🦀编写）在极端负载下实现P99延迟开销<1毫秒。基准测试显示，LiteLLM在100 QPS时的延迟比我们的网关在10,000 QPS时高出25-100倍以上。
结构化推理。 网关强制执行输入和输出的模式，确保应用程序的健壮性。结构化推理数据随后可用于强大的优化方案（例如在微调前替换历史提示）。了解更多关于提示模板与模式的信息。
多步骤大语言模型工作流。 该网关通过将多个推理与一个事件(episode)关联，为复杂的多步骤大语言模型工作流提供一流支持。反馈可以在推理或事件级别进行分配，从而实现复合大语言模型系统的端到端优化。了解更多关于episodes的信息。
内置可观测性。 网关会收集结构化的推理追踪数据，同时关联下游指标和自然语言反馈。所有数据都存储在ClickHouse数据库中，支持实时、可扩展且对开发者友好的分析。 TensorZero Recipes利用这一数据集来优化您的LLM模型。
内置实验功能。 该网关能自动在不同变体间分配流量以支持A/B测试。它确保多步骤工作流中每个会话内的变体保持一致性。更先进的实验技术（例如异步多臂老虎机）即将推出。
内置故障回退机制。 网关会自动将失败的推理请求回退到不同的推理服务提供商，甚至完全不同的变体版本。确保配置错误、服务商宕机等边缘情况不会影响您的服务可用性。
GitOps编排。 通过兼容GitOps的配置编排提示词、模型、参数、工具、实验等内容。既可以使用人类可读的配置文件手动管理少量大语言模型，也能完全以编程方式管理成千上万的提示词和大语言模型。

后续步骤

快速入门在5分钟内完成您的首次TensorZero API调用，内置可观测性功能。

教程使用TensorZero构建一个简单的聊天机器人、邮件助手、RAG系统和数据提取管道。

部署快速本地部署，或为生产环境设置高可用服务。

集成 TensorZero网关与主流大语言模型提供商实现集成。

Benchmarks TensorZero网关在极端负载下实现亚毫秒级延迟开销。

API参考文档 TensorZero网关为推理和反馈API调用提供了统一接口。

配置参考通过GitOps编排轻松管理您的LLM应用——即使是复杂的多步骤系统。