跳到主要内容
ollama

Ollama

快速上手大型语言模型。

macOS

下载

Windows

下载

Linux

curl -fsSL https://ollama.com/install.sh | sh

手动安装说明

Docker

官方 Ollama Docker 镜像 ollama/ollama 可在 Docker Hub 上获取。

开发库

社区

快速开始

要运行并与 Llama 3.2 进行对话:

ollama run llama3.2

模型库

Ollama 支持 ollama.com/library 上提供的模型列表

以下是一些可下载的示例模型:

模型参数量大小下载命令
Gemma 31B815MBollama run gemma3:1b
Gemma 34B3.3GBollama run gemma3
Gemma 312B8.1GBollama run gemma3:12b
Gemma 327B17GBollama run gemma3:27b
QwQ32B20GBollama run qwq
DeepSeek-R17B4.7GBollama run deepseek-r1
DeepSeek-R1671B404GBollama run deepseek-r1:671b
Llama 4109B67GBollama run llama4:scout
Llama 4400B245GBollama run llama4:maverick
Llama 3.370B43GBollama run llama3.3
Llama 3.23B2.0GBollama run llama3.2
Llama 3.21B1.3GBollama run llama3.2:1b
Llama 3.2 Vision11B7.9GBollama run llama3.2-vision
Llama 3.2 Vision90B55GBollama run llama3.2-vision:90b
Llama 3.18B4.7GBollama run llama3.1
Llama 3.1405B231GBollama run llama3.1:405b
Phi 414B9.1GBollama run phi4
Phi 4 Mini3.8B2.5GBollama run phi4-mini
Mistral7B4.1GBollama run mistral
Moondream 21.4B829MBollama run moondream
Neural Chat7B4.1GBollama run neural-chat
Starling7B4.1GBollama run starling-lm
Code Llama7B3.8GBollama run codellama
Llama 2 Uncensored7B3.8GBollama run llama2-uncensored
LLaVA7B4.5GBollama run llava
Granite-3.38B4.9GBollama run granite3.3

注意: 运行 7B 模型至少需要 8 GB 内存,运行 13B 模型需要 16 GB 内存,运行 33B 模型需要 32 GB 内存。

自定义模型

从 GGUF 导入

Ollama 支持在 Modelfile 中导入 GGUF 模型:

  1. 创建名为 Modelfile 的文件,使用 FROM 指令指定要导入的模型的本地文件路径。

    FROM ./vicuna-33b.Q4_0.gguf
  2. 在 Ollama 中创建模型

    ollama create example -f Modelfile
  3. 运行模型

    ollama run example

从 Safetensors 导入

有关导入模型的更多信息,请参阅导入指南

自定义提示词

可以使用提示词自定义 Ollama 库中的模型。例如,要自定义 llama3.2 模型:

ollama pull llama3.2
创建一个 `Modelfile`

FROM llama3.2

# 设置温度为 1(数值越高越有创意,数值越低越连贯)
PARAMETER temperature 1

# 设置系统消息
SYSTEM """
你是《超级马里奥兄弟》中的马里奥。请以马里奥助手的身份回答,仅限马里奥的角色。
"""
接下来,创建并运行模型:

ollama create mario -f ./Modelfile
ollama run mario
>>> 你好
你好!我是你的朋友马里奥。
有关使用 Modelfile 的更多信息,请参阅 [Modelfile](docs/modelfile.md) 文档。

## 命令行参考

### 创建模型

`ollama create` 用于从 Modelfile 创建模型。

```shell
ollama create mymodel -f ./Modelfile

拉取模型

ollama pull llama3.2

此命令也可用于更新本地模型。只会拉取差异部分。

删除模型

ollama rm llama3.2

复制模型

ollama cp llama3.2 my-model

多行输入

对于多行输入,可以使用 """ 包装文本:

"""你好, ... 世界! ... """ 我是一个基础程序,用于向控制台打印著名的"Hello, world!"消息。

多模态模型

ollama run llava "这张图片里有什么? /Users/jmorgan/Desktop/smile.png"

输出:图像显示了一个黄色的笑脸,这可能是图片的中心焦点。

将提示词作为参数传递

ollama run llama3.2 "总结这个文件:$(cat README.md)"

输出:Ollama 是一个轻量级、可扩展的框架,用于在本地机器上构建和运行语言模型。它提供了一个简单的 API 来创建、运行和管理模型,以及一个预构建模型库,可以轻松在各种应用程序中使用。

显示模型信息

ollama show llama3.2

列出计算机上的模型

ollama list

列出当前加载的模型

ollama ps

停止当前运行的模型

ollama stop llama3.2

启动 Ollama

当你想启动 ollama 而不运行桌面应用程序时,使用 ollama serve

构建

请参阅开发者指南

运行本地构建

接下来,启动服务器:

./ollama serve

最后,在单独的终端中运行模型:

./ollama run llama3.2

REST API

Ollama 提供用于运行和管理模型的 REST API。

生成响应

curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt":"为什么天空是蓝色的?"
}'

与模型对话

curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{ "role": "user", "content": "为什么天空是蓝色的?" }
]
}'

所有端点的信息请参阅 API 文档

社区集成

Web 和桌面应用

云平台

终端工具

Apple Vision Pro

  • SwiftChat(通过"为 iPad 设计"支持 Apple Vision Pro 的跨平台 AI 聊天应用)
  • Enchanted

数据库

  • pgai - PostgreSQL 作为向量数据库(使用 pgvector 从 Ollama 模型创建和搜索嵌入)
  • MindsDB(将 Ollama 模型与近 200 个数据平台和应用程序连接)
  • chromem-go 及其 示例
  • Kangaroo(用于流行数据库的 AI 驱动 SQL 客户端和管理工具)

包管理器

编程库

移动端

  • SwiftChat(快速的跨平台 AI 聊天应用,为 Android、iOS 和 iPad 提供原生界面)
  • Enchanted
  • Maid
  • Ollama App(现代且易用的多平台 Ollama 客户端)
  • ConfiChat(轻量级、独立运行、多平台、注重隐私的大语言模型聊天界面,支持可选加密)
  • Ollama Android Chat(无需 Termux,一键在 Android 设备上启动 Ollama 服务)
  • Reins(轻松调整参数,为每个聊天自定义系统提示,支持推理模型,增强您的 AI 实验)

扩展与插件

支持的后端

  • 由 Georgi Gerganov 创立的 llama.cpp 项目

可观测性

  • Opik 是一个开源平台,用于调试、评估和监控您的大语言模型应用、RAG 系统和智能体工作流,提供全面的跟踪、自动化评估和生产就绪的仪表板。Opik 原生支持 Ollama 集成
  • Lunary 是领先的开源大语言模型可观测性平台。它提供各种企业级功能,如实时分析、提示模板管理、PII 遮罩和全面的智能体跟踪
  • OpenLIT 是一个原生 OpenTelemetry 工具,使用跟踪和指标监控 Ollama 应用和 GPU
  • HoneyHive 是一个用于 AI 智能体的 AI 可观测性和评估平台。使用 HoneyHive 评估智能体性能、调查故障并监控生产质量
  • Langfuse 是一个开源大语言模型可观测性平台,帮助团队协作监控、评估和调试 AI 应用
  • MLflow Tracing 是一个开源大语言模型可观测性工具,提供便捷的 API 来记录和可视化跟踪,使调试和评估生成式 AI 应用变得容易
优云智算