LiteLLM - 入门指南
https://github.com/BerriAI/litellm
使用 OpenAI 输入/输出格式调用 100+ 个 LLM
- 将输入转换为供应商的
completion
、embedding
和image_generation
端点 - 一致的输出,文本响应将始终可在
['choices'][0]['message']['content']
中找到 - 在多个部署(例如 Azure/OpenAI)中实现重试/回退逻辑 - 路由器
- 跟踪支出并为每个项目设置预算 LiteLLM 代理服务器
如何使用 LiteLLM
您可以通过以下方式使用 litellm:
- LiteLLM 代理服务器 - 服务器(LLM 网关)来调用 100+ 个 LLM,实现负载均衡和跨项目的成本跟踪
- LiteLLM Python SDK - Python 客户端来调用 100+ 个 LLM,实现负载均衡和成本跟踪
何时使用 LiteLLM 代理服务器(LLM 网关)
tip
如果您想要一个 中央服务(LLM 网关)来访问多个 LLM,请使用 LiteLLM 代理服务器。
通常由生成 AI 启用 / 机器学习平台团队使用
- LiteLLM 代理提供统一的接口来访问多个 LLM(100+ 个 LLM)
- 跟踪 LLM 使用情况并设置保护措施
- 为每个项目自定义日志记录、保护措施和缓存
何时使用 LiteLLM Python SDK
tip
如果您想在 Python 代码 中使用 LiteLLM,请使用 LiteLLM Python SDK。
通常由开发者在构建 LLM 项目时使用
- LiteLLM SDK 提供统一的接口来访问多个 LLM(100+ 个 LLM)
- 在多个部署(例如 Azure/OpenAI)中实现重试/回退逻辑 - 路由器
LiteLLM Python SDK
基本用法
pip install litellm
- OpenAI
- Anthropic
- VertexAI
- HuggingFace
- Azure OpenAI
- Ollama
- Openrouter
from litellm import completion
import os
## 设置环境变量
os.environ["OPENAI_API_KEY"] = "your-api-key"
response = completion(
model="gpt-3.5-turbo",
messages=[{ "content": "你好,你好吗?","role": "user"}]
)
from litellm import completion
import os
## 设置环境变量
os.environ["ANTHROPIC_API_KEY"] = "your-api-key"
response = completion(
model="claude-2",
messages=[{ "content": "你好,你好吗?","role": "user"}]
)
from litellm import completion
import os
# 身份验证: 运行 'gcloud auth application-default'
os.environ["VERTEX_PROJECT"] = "hardy-device-386718"
os.environ["VERTEX_LOCATION"] = "us-central1"
response = completion(
model="chat-bison",
messages=[{ "content": "你好,你好吗?","role": "user"}]
)
from litellm import completion
import os
os.environ["HUGGINGFACE_API_KEY"] = "huggingface_api_key"
# 例如,调用托管在 HF 推理端点上的 'WizardLM/WizardCoder-Python-34B-V1.0'
response = completion(
model="huggingface/WizardLM/WizardCoder-Python-34B-V1.0",
messages=[{ "content": "你好,你好吗?","role": "user"}],
api_base="https://my-endpoint.huggingface.cloud"
)
print(response)
from litellm import completion
import os
## 设置环境变量
os.environ["AZURE_API_KEY"] = ""
os.environ["AZURE_API_BASE"] = ""
os.environ["AZURE_API_VERSION"] = ""
# Azure 调用
response = completion(
"azure/<your_deployment_name>",
messages = [{ "content": "你好,你好吗?","role": "user"}]
)
from litellm import completion
response = completion(
model="ollama/llama2",
messages = [{ "content": "你好,你好吗?","role": "user"}],
api_base="http://localhost:11434"
)
from litellm import completion
import os
## 设置环境变量
os.environ["OPENROUTER_API_KEY"] = "openrouter_api_key"
response = completion(
model="openrouter/google/palm-2-chat-bison",
messages = [{ "content": "你好,你好吗?","role": "user"}],
)
流式传输
在 completion
参数中设置 stream=True
。
- OpenAI
- Anthropic
- VertexAI
- HuggingFace
- Azure OpenAI
- Ollama
- Openrouter
from litellm import completion
import os
## 设置环境变量
os.environ["OPENAI_API_KEY"] = "your-api-key"
response = completion(
model="gpt-3.5-turbo",
messages=[{ "content": "你好,你好吗?","role": "user"}],
stream=True,
)
from litellm import completion
import os
## 设置环境变量
os.environ["ANTHROPIC_API_KEY"] = "your-api-key"
response = completion(
model="claude-2",
messages=[{ "content": "你好,你好吗?","role": "user"}],
stream=True,
)
from litellm import completion
import os
# 身份验证: 运行 'gcloud auth application-default'
os.environ["VERTEX_PROJECT"] = "hardy-device-386718"
os.environ["VERTEX_LOCATION"] = "us-central1"
response = completion(
model="chat-bison",
messages=[{ "content": "你好,你好吗?","role": "user"}],
stream=True,
)
from litellm import completion
import os
os.environ["HUGGINGFACE_API_KEY"] = "huggingface_api_key"
# 例如,调用托管在 HF 推理端点上的 'WizardLM/WizardCoder-Python-34B-V1.0'
response = completion(
model="huggingface/WizardLM/WizardCoder-Python-34B-V1.0",
messages=[{ "content": "你好,你好吗?","role": "user"}],
api_base="https://my-endpoint.huggingface.cloud",
stream=True,
)
print(response)
from litellm import completion
import os
## 设置环境变量
os.environ["AZURE_API_KEY"] = ""
os.environ["AZURE_API_BASE"] = ""
os.environ["AZURE_API_VERSION"] = ""
# Azure 调用
response = completion(
"azure/<your_deployment_name>",
messages = [{ "content": "你好,你好吗?","role": "user"}],
stream=True,
)
from litellm import completion
response = completion(
model="ollama/llama2",
messages = [{ "content": "你好,你好吗?","role": "user"}],
api_base="http://localhost:11434",
stream=True,
)
from litellm import completion
import os
## 设置环境变量
os.environ["OPENROUTER_API_KEY"] = "openrouter_api_key"
response = completion(
model="openrouter/google/palm-2-chat-bison",
messages = [{ "content": "你好,你好吗?","role": "user"}],
stream=True,
)
异常处理
LiteLLM 将所有支持的供应商的异常映射到 OpenAI 的异常。我们所有的异常都继承自 OpenAI 的异常类型,因此您针对 OpenAI 的任何错误处理都应能与 LiteLLM 一起使用。
from openai.error import OpenAIError
from litellm import completion
os.environ["ANTHROPIC_API_KEY"] = "bad-key"
try:
# 一些代码
completion(model="claude-instant-1", messages=[{"role": "user", "content": "嘿,你好吗?"}])
except OpenAIError as e:
print(e)
日志观察 - 记录 LLM 输入/输出 (文档)
LiteLLM 提供预定义的回调函数,以将数据发送到 Lunary、Langfuse、Helicone、Promptlayer、Traceloop、Slack
from litellm import completion
## 设置用于日志记录工具的环境变量
os.environ["HELICONE_API_KEY"] = "your-helicone-key"
os.environ["LANGFUSE_PUBLIC_KEY"] = ""
os.environ["LANGFUSE_SECRET_KEY"] = ""
os.environ["LUNARY_PUBLIC_KEY"] = "your-lunary-public-key"
os.environ["OPENAI_API_KEY"]
# 设置回调
litellm.success_callback = ["lunary", "langfuse", "helicone"] # 将输入/输出记录到 lunary、langfuse、supabase、helicone
# OpenAI 调用
response = completion(model="gpt-3.5-turbo", messages=[{"role": "user", "content": "嗨 👋 - 我是 openai"}])
跟踪成本、使用情况、流式传输的延迟
使用回调函数来实现此功能 - 有关自定义回调的更多信息,请参见:https://docs.litellm.ai/docs/observability/custom_callback
import litellm
# track_cost_callback
def track_cost_callback(
kwargs, # completion 的 kwargs
completion_response, # completion 的响应
start_time, end_time # 开始/结束时间
):
try:
response_cost = kwargs.get("response_cost", 0)
print("流式响应成本", response_cost)
except:
pass
# 设置回调
litellm.success_callback = [track_cost_callback] # 设置自定义回调函数
# litellm.completion() 调用
response = completion(
model="gpt-3.5-turbo",
messages=[
{
"role": "user",
"content": "嗨 👋 - 我是 openai"
}
],
stream=True
)
LiteLLM 代理服务器(LLM 网关)
跟踪多个项目/人员的支出
代理提供:
📖 代理端点 - Swagger 文档
前往此处获取带有密钥和速率限制的完整教程 - 这里
快速启动代理 - CLI
pip install 'litellm[proxy]'
步骤 1:启动 litellm 代理
- pip 包
- Docker 容器
$ litellm --model huggingface/bigcode/starcoder
#INFO: 代理运行在 http://0.0.0.0:4000
步骤 1. 创建 config.yaml
示例 litellm_config.yaml
model_list:
- model_name: gpt-3.5-turbo
litellm_params:
model: azure/<your-azure-model-deployment>
api_base: os.environ/AZURE_API_BASE # 运行 os.getenv("AZURE_API_BASE")
api_key: os.environ/AZURE_API_KEY # 运行 os.getenv("AZURE_API_KEY")
api_version: "2023-07-01-preview"
步骤 2. 运行 Docker 镜像
docker run \
-v $(pwd)/litellm_config.yaml:/app/config.yaml \
-e AZURE_API_KEY=d6*********** \
-e AZURE_API_BASE=https://openai-***********/ \
-p 4000:4000 \
ghcr.io/berriai/litellm:main-latest \
--config /app/config.yaml --detailed_debug
步骤 2:向代理发送 ChatCompletions 请求
import openai # openai v1.0.0+
client = openai.OpenAI(api_key="anything",base_url="http://0.0.0.0:4000") # 将代理设置为 base_url
# 请求发送到在 litellm 代理上设置的模型,`litellm --model`
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
{
"role": "user",
"content": "这是一个测试请求,写一首短诗"
}
])
print(response)