Skip to main content

请求的生命周期

高层架构

请求流程

  1. 用户发送请求:当用户向LiteLLM代理服务器(网关)发送请求时,流程开始。

  2. 虚拟密钥:在此阶段,检查请求中的Bearer令牌以确保其有效并符合预算。以下是每次请求运行的检查列表

    • 2.1 检查虚拟密钥是否存在于Redis缓存或内存缓存中
    • 2.2 如果不在缓存中,在数据库中查找虚拟密钥
  3. 速率限制MaxParallelRequestsHandler检查以下组件的速率限制(rpm/tpm)

    • 全局服务器速率限制
    • 虚拟密钥速率限制
    • 用户速率限制
    • 团队限制
  4. LiteLLM proxy_server.py:包含/chat/completions/embeddings端点。这些端点的请求通过LiteLLM路由器发送。

  5. LiteLLM路由器:LiteLLM路由器处理LLM API部署的负载均衡、回退和重试。

  6. litellm.completion() / litellm.embedding():使用litellm Python SDK以OpenAI API格式调用LLM(转换和参数映射)。

  7. 请求后处理:在响应发送回客户端后,执行以下异步任务:

优云智算