Skip to main content

[旧代理 👉 新代理在此] 本地LiteLLM代理服务器

一个快速且轻量级的OpenAI兼容服务器,用于调用100多个LLM API。

info

文档已过时。新文档在此 👉 这里

使用方法

pip install 'litellm[proxy]'
$ litellm --model ollama/codellama 

#INFO: Ollama运行在 http://0.0.0.0:8000

测试

在新终端中运行:

$ litellm --test

替换OpenAI基础

import openai 

openai.api_base = "http://0.0.0.0:8000"

print(openai.ChatCompletion.create(model="test", messages=[{"role":"user", "content":"Hey!"}]))

其他支持的模型:

假设你正在本地运行vllm
$ litellm --model vllm/facebook/opt-125m

教程:与多个LLM + LibreChat/Chatbot-UI/Auto-Gen/ChatDev/Langroid等一起使用

替换OpenAI基础:

import openai 

openai.api_key = "any-string-here"
openai.api_base = "http://0.0.0.0:8080" # 你的代理URL

# 调用OpenAI
response = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": "Hey"}])

print(response)

# 调用Cohere
response = openai.ChatCompletion.create(model="command-nightly", messages=[{"role": "user", "content": "Hey"}])

print(response)

本地代理

以下是如何使用本地代理测试不同 GitHub 仓库中的 codellama/mistral 等模型

pip install litellm
$ ollama pull codellama # 我们的本地 CodeLlama  

$ litellm --model ollama/codellama --temperature 0.3 --max_tokens 2048

教程:与多个 LLM 一起使用 + Aider/AutoGen/Langroid 等

$ litellm

#INFO: litellm 代理运行在 http://0.0.0.0:8000

向您的代理发送请求

import openai 

openai.api_key = "any-string-here"
openai.api_base = "http://0.0.0.0:8080" # 您的代理 URL

# 调用 gpt-3.5-turbo
response = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": "Hey"}])

print(response)

# 调用 ollama/llama2
response = openai.ChatCompletion.create(model="ollama/llama2", messages=[{"role": "user", "content": "Hey"}])

print(response)
note

贡献 使用此服务器与项目?在此处贡献你的教程here!

高级

日志

$ litellm --logs

这将返回最近的日志(发送到LLM API的调用及接收到的响应)。

所有日志都保存到当前目录下的api_logs.json文件中。

配置代理

如果需要:

  • 保存API密钥
  • 设置litellm参数(例如,丢弃未映射的参数,设置备用模型等)
  • 设置特定模型的参数(最大token数、温度、api基础、提示模板)

你可以通过cli仅为此会话设置这些参数,或通过配置文件跨重启持久化这些设置。

保存API密钥

$ litellm --api_key OPENAI_API_KEY=sk-...

LiteLLM将这些密钥保存到本地存储的配置文件中,并跨会话持久化。

LiteLLM Proxy支持所有litellm支持的api密钥。要为特定提供者添加密钥,请检查此列表:

$ litellm --add_key HUGGINGFACE_API_KEY=my-api-key #[可选]

例如:设置API基础、最大令牌数和温度。

对于该会话

litellm --model ollama/llama2 \
--api_base http://localhost:11434 \
--max_tokens 250 \
--temperature 0.5

# 在 http://0.0.0.0:8000 上运行的兼容OpenAI的服务器

性能

我们使用wrk对FastAPI服务器进行了500,000次HTTP连接的负载测试,持续1分钟。

以下是我们的结果:

Thread Stats   Avg      Stdev     Max   +/- Stdev
Latency 156.38ms 25.52ms 361.91ms 84.73%
Req/Sec 13.61 5.13 40.00 57.50%
383625 requests in 1.00m, 391.10MB read
Socket errors: connect 0, read 1632, write 1, timeout 0

支持/与创始人交流

优云智算