多实例
负载均衡多个相同模型的实例
代理将处理请求路由(使用LiteLLM的Router)。如果你想最大化吞吐量,请在配置中设置rpm
info
有关路由策略/参数的更多详细信息,请参阅路由
使用多个litellm实例进行负载均衡(Kubernetes,自动扩展)
LiteLLM代理支持在多个litellm实例之间共享rpm/tpm,传递redis_host、redis_password和redis_port来启用此功能。(LiteLLM将使用Redis来跟踪rpm/tpm的使用情况)
示例配置
model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>
rpm: 6 # 此部署的速率限制:每分钟请求数(rpm)
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/gpt-turbo-small-ca
api_base: https://my-endpoint-canada-berri992.openai.azure.com/
api_key: <your-azure-api-key>
rpm: 6
router_settings:
redis_host: <your redis host>
redis_password: <your redis password>
redis_port: 1992
配置中的路由器设置 - routing_strategy, model_group_alias
在代理服务器上为'model_name'公开一个'alias'。
model_group_alias: {
"gpt-4": "gpt-3.5-turbo"
}
默认情况下,这些别名会在/v1/models、/v1/model/info和/v1/model_group/info上显示。
litellm.Router()的设置可以在router_settings下设置。你可以设置model_group_alias、routing_strategy、num_retries、timeout。查看所有支持的路由器参数这里
使用方法
带有router_settings的示例配置
model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>
router_settings:
model_group_alias: {"gpt-4": "gpt-3.5-turbo"} # 所有带有`gpt-4`的请求将被路由到模型
隐藏别名模型
如果你想为以下情况设置别名,请使用此选项:
- 拼写错误
- 较小的模型版本变化
- 更新之间的区分大小写变化
model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-deployment-name>
api_base: <your-azure-endpoint>
api_key: <your-azure-api-key>
router_settings:
model_group_alias:
"GPT-3.5-turbo": # 别名
model: "gpt-3.5-turbo" # 'model_list'中的实际模型名称
hidden: true # 从`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中排除
完整规范
model_group_alias: Optional[Dict[str, Union[str, RouterModelGroupAliasItem]]] = {}
class RouterModelGroupAliasItem(TypedDict):
model: str
hidden: bool # 如果为'True',则不在`/v1/models`、`/v1/model/info`、`/v1/model_group/info`中返回