跳到主要内容

OpenAI 兼容性

注意: OpenAI 兼容性功能目前处于实验阶段,可能会发生重大调整,包括不兼容的破坏性更改。如需完整功能的 Ollama API 访问,请参考 Ollama Python 库JavaScript 库REST API

Ollama 提供了与 OpenAI API 部分功能的实验性兼容支持,帮助现有应用程序连接到 Ollama。

使用方法

OpenAI Python 库

from openai import OpenAI

client = OpenAI(
base_url='http://localhost:11434/v1/',

# 必填但会被忽略
api_key='ollama',
)

chat_completion = client.chat.completions.create(
messages=[
{
'role': 'user',
'content': 'Say this is a test',
}
],
model='llama3.2',
)

response = client.chat.completions.create(
model="llava",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{
"type": "image_url",
"image_url": "",
},
],
}
],
max_tokens=300,
)

completion = client.completions.create(
model="llama3.2",
prompt="Say this is a test",
)

list_completion = client.models.list()

model = client.models.retrieve("llama3.2")

embeddings = client.embeddings.create(
model="all-minilm",
input=["why is the sky blue?", "why is the grass green?"],
)

结构化输出

from pydantic import BaseModel
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

# 定义响应的数据结构
class FriendInfo(BaseModel):
name: str
age: int
is_available: bool

class FriendList(BaseModel):
friends: list[FriendInfo]

try:
completion = client.beta.chat.completions.parse(
temperature=0,
model="llama3.1:8b",
messages=[
{"role": "user", "content": "我有两个朋友。第一个是 Ollama,22 岁,忙着拯救世界;第二个是 Alonso,23 岁,想要出去玩。请以 JSON 格式返回朋友列表"}
],
response_format=FriendList,
)

friends_response = completion.choices[0].message
if friends_response.parsed:
print(friends_response.parsed)
elif friends_response.refusal:
print(friends_response.refusal)
except Exception as e:
print(f"错误:{e}")

OpenAI JavaScript 库

import OpenAI from 'openai'

const openai = new OpenAI({
baseURL: 'http://localhost:11434/v1/',

// 必填但会被忽略
apiKey: 'ollama',
})

const chatCompletion = await openai.chat.completions.create({
messages: [{ role: 'user', content: 'Say this is a test' }],
model: 'llama3.2',
})

const response = await openai.chat.completions.create({
model: "llava",
messages: [
{
role: "user",
content: [
{ type: "text", text: "What's in this image?" },
{
type: "image_url",

```javascript
image_url: "",
},
],
},
],
})

const completion = await openai.completions.create({
model: "llama3.2",
prompt: "Say this is a test.",
})

const listCompletion = await openai.models.list()

const model = await openai.models.retrieve("llama3.2")

const embedding = await openai.embeddings.create({
model: "all-minilm",
input: ["why is the sky blue?", "why is the grass green?"],
})
### `curl`

```shell
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}'

curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llava",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "这张图片里有什么?"
},
{
"type": "image_url",
"image_url": {
"url": ""
}
}
]
}
],
"max_tokens": 300
}'

curl http://localhost:11434/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"prompt": "说这是一个测试"
}'

curl http://localhost:11434/v1/models

curl http://localhost:11434/v1/models/llama3.2

curl http://localhost:11434/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "all-minilm",
"input": ["为什么天空是蓝色的?", "为什么草是绿色的?"]
}'

端点说明

/v1/chat/completions

支持的功能

  • 聊天补全(Chat completions)
  • 流式传输(Streaming)
  • JSON 模式
  • 可重现输出
  • 视觉能力(Vision)
  • 工具调用(Tools)
  • 对数概率(Logprobs)

支持的请求字段

  • model - 模型名称
  • messages - 消息数组
    • 文本 content - 文本内容
    • 图像 content - 图像内容
      • Base64 编码图像
      • 图像 URL
    • content 部分数组
  • frequency_penalty - 频率惩罚
  • presence_penalty - 存在惩罚
  • response_format - 响应格式
  • seed - 随机种子
  • stop - 停止词
  • stream - 流式传输
  • stream_options - 流式选项
    • include_usage - 包含使用情况
  • temperature - 温度参数
  • top_p - Top-p 采样
  • max_tokens - 最大令牌数
  • tools - 工具列表
  • tool_choice - 工具选择
  • logit_bias - 词元偏置
  • user - 用户标识
  • n - 生成数量

/v1/completions

支持的功能

  • 文本补全(Completions)
  • 流式传输(Streaming)
  • JSON 模式
  • 可重现输出
  • 对数概率(Logprobs)

支持的请求字段

  • model - 模型名称
  • prompt - 提示文本
  • frequency_penalty - 频率惩罚
  • presence_penalty - 存在惩罚
  • seed - 随机种子
  • stop - 停止词
  • stream - 流式传输
  • stream_options - 流式选项
    • include_usage - 包含使用情况
  • temperature - 温度参数
  • top_p - Top-p 采样
  • max_tokens - 最大令牌数
  • suffix - 后缀文本
  • best_of - 最佳选择数
  • echo - 回显提示
  • logit_bias - 词元偏置
  • user - 用户标识
  • n - 生成数量

注意事项

  • prompt 目前仅接受字符串格式

/v1/models

注意事项

  • created 字段对应模型最后修改时间
  • owned_by 字段对应 ollama 用户名,默认为 "library"

/v1/models/{model}

注意事项

  • created 对应模型最后修改的时间
  • owned_by 对应 ollama 用户名,默认值为 "library"

/v1/embeddings

支持的请求字段

  • model(模型)
  • input(输入)
    • 字符串
    • 字符串数组
    • 令牌数组
    • 令牌数组的数组
  • encoding format(编码格式)
  • dimensions(维度)
  • user(用户)

模型管理

在使用模型之前,请先使用 ollama pull 命令将其下载到本地:

ollama pull llama3.2

默认模型名称

对于依赖 OpenAI 默认模型名称(如 gpt-3.5-turbo)的工具,可以使用 ollama cp 命令将现有模型复制为临时名称:

ollama cp llama3.2 gpt-3.5-turbo

之后,就可以在 model 字段中指定这个新的模型名称:

curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-3.5-turbo",
"messages": [
{
"role": "user",
"content": "Hello!"
}
]
}'

设置上下文长度

OpenAI API 没有直接设置模型上下文长度的方法。如果需要修改上下文长度,请创建一个 Modelfile 文件,内容如下:

FROM <某个模型> PARAMETER num_ctx <上下文长度>

使用 ollama create mymodel 命令创建一个具有更新上下文长度的新模型。然后使用更新后的模型名称调用 API:

curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "mymodel",
"messages": [
{
"role": "user",
"content": "Hello!"
}
]
}'

注意: 上下文长度(context size)决定了模型能够处理的输入文本的最大长度。增加上下文长度会消耗更多内存,请根据实际需求和硬件配置合理设置。

优云智算