Skip to main content

多实例

负载均衡多个相同模型的实例

代理将处理请求路由(使用LiteLLM的Router)。如果你想最大化吞吐量,请在配置中设置rpm

info

有关路由策略/参数的更多详细信息,请参阅路由

使用多个litellm实例进行负载均衡(Kubernetes,自动扩展)

LiteLLM代理支持在多个litellm实例之间共享rpm/tpm,传递redis_hostredis_passwordredis_port来启用此功能。(LiteLLM将使用Redis来跟踪rpm/tpm的使用情况)

示例配置

model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>
rpm: 6 # 此部署的速率限制:每分钟请求数(rpm)
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/gpt-turbo-small-ca
api_base: https://my-endpoint-canada-berri992.openai.azure.com/
api_key: <your-azure-api-key>
rpm: 6
router_settings:
redis_host: <your redis host>
redis_password: <your redis password>
redis_port: 1992

配置中的路由器设置 - routing_strategy, model_group_alias

在代理服务器上为'model_name'公开一个'alias'。

model_group_alias: {
"gpt-4": "gpt-3.5-turbo"
}

默认情况下,这些别名会在/v1/models/v1/model/info/v1/model_group/info上显示。

litellm.Router()的设置可以在router_settings下设置。你可以设置model_group_aliasrouting_strategynum_retriestimeout。查看所有支持的路由器参数这里

使用方法

带有router_settings的示例配置

model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>

router_settings:
model_group_alias: {"gpt-4": "gpt-3.5-turbo"} # 所有带有`gpt-4`的请求将被路由到模型

隐藏别名模型

如果你想为以下情况设置别名,请使用此选项:

  1. 拼写错误
  2. 较小的模型版本变化
  3. 更新之间的区分大小写变化
model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>

router_settings:
model_group_alias:
"GPT-3.5-turbo": # 别名
model: "gpt-3.5-turbo" # 'model_list'中的实际模型名称
hidden: true # 从`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中排除

完整规范

model_group_alias: Optional[Dict[str, Union[str, RouterModelGroupAliasItem]]] = {}


class RouterModelGroupAliasItem(TypedDict):
model: str
hidden: bool # 如果为'True',则不在`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中返回
优云智算