多实例

负载均衡多个相同模型的实例

代理将处理请求路由（使用LiteLLM的Router）。如果你想最大化吞吐量，请在配置中设置rpm

info

有关路由策略/参数的更多详细信息，请参阅路由

使用多个litellm实例进行负载均衡（Kubernetes，自动扩展）

LiteLLM代理支持在多个litellm实例之间共享rpm/tpm，传递redis_host、redis_password和redis_port来启用此功能。（LiteLLM将使用Redis来跟踪rpm/tpm的使用情况）

示例配置

model_list:
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/<your-deployment-name>
      api_base: <your-azure-endpoint>
      api_key: <your-azure-api-key>
      rpm: 6      # 此部署的速率限制：每分钟请求数（rpm）
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/gpt-turbo-small-ca
      api_base: https://my-endpoint-canada-berri992.openai.azure.com/
      api_key: <your-azure-api-key>
      rpm: 6
router_settings:
  redis_host: <your redis host>
  redis_password: <your redis password>
  redis_port: 1992

配置中的路由器设置 - routing_strategy, model_group_alias

在代理服务器上为'model_name'公开一个'alias'。

model_group_alias: {
  "gpt-4": "gpt-3.5-turbo"
}

默认情况下，这些别名会在/v1/models、/v1/model/info和/v1/model_group/info上显示。

litellm.Router()的设置可以在router_settings下设置。你可以设置model_group_alias、routing_strategy、num_retries、timeout。查看所有支持的路由器参数这里

使用方法

带有router_settings的示例配置

model_list:
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/<your-deployment-name>
      api_base: <your-azure-endpoint>
      api_key: <your-azure-api-key>

router_settings:
  model_group_alias: {"gpt-4": "gpt-3.5-turbo"} # 所有带有`gpt-4`的请求将被路由到模型

隐藏别名模型

如果你想为以下情况设置别名，请使用此选项：

拼写错误
较小的模型版本变化
更新之间的区分大小写变化

model_list:
  - model_name: gpt-3.5-turbo
    litellm_params:
      model: azure/<your-deployment-name>
      api_base: <your-azure-endpoint>
      api_key: <your-azure-api-key>

router_settings:
  model_group_alias:
    "GPT-3.5-turbo": # 别名
      model: "gpt-3.5-turbo"  # 'model_list'中的实际模型名称
      hidden: true             # 从`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中排除

完整规范

model_group_alias: Optional[Dict[str, Union[str, RouterModelGroupAliasItem]]] = {}


class RouterModelGroupAliasItem(TypedDict):
    model: str
    hidden: bool  # 如果为'True'，则不在`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中返回

多实例

使用多个litellm实例进行负载均衡（Kubernetes，自动扩展）​

配置中的路由器设置 - routing_strategy, model_group_alias​

使用方法​

隐藏别名模型​

完整规范​

使用多个litellm实例进行负载均衡（Kubernetes，自动扩展）

配置中的路由器设置 - routing_strategy, model_group_alias

使用方法

隐藏别名模型

完整规范