一、 Ollama安装和使用
(1). macOS
在 macOS 上安装 Ollama,请点击以下链接进行下载:
(2). Windows 预览版
在 Windows 上安装 Ollama,请点击以下链接进行下载:
(3). Linux
在 Linux 上,可以通过以下命令进行安装:
curl -fsSL https://ollama.com/install.sh | sh
如果需要手动安装,请参考手动安装说明
(4). Docker
Ollama 官方提供了 Docker 镜像,可以在 Docker Hub 上获取:
Ollama Docker 镜像 ollama/ollama
2. 快速开始
要运行并与 Llama 2 进行交流,可以使用以下命令:
ollama run llama2
3. 模型库
Ollama 支持一系列模型,可以在 ollama.com/library 上找到。以下是一些示例模型及其下载方式:
模型 | 参数数量 | 大小 | 下载方式 |
---|---|---|---|
Llama 2 | 7B | 3.8GB | ollama run llama2 |
Mistral | 7B | 4.1GB | ollama run mistral |
Dolphin Phi | 2.7B | 1.6GB | ollama run dolphin-phi |
Phi-2 | 2.7B | 1.7GB | ollama run phi |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
Llama 2 13B | 13B | 7.3GB | ollama run llama2:13b |
Llama 2 70B | 70B | 39GB | ollama run llama2:70b |
Orca Mini | 3B | 1.9GB | ollama run orca-mini |
Vicuna | 7B | 3.8GB | ollama run vicuna |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
注意:运行 7B 模型需要至少 8GB 的 RAM,运行 13B 模型需要 16GB RAM,运行 33B 模型需要 32GB RAM。
4. 自定义模型
(1). 从 GGUF 导入
Ollama 支持在 Modelfile 中导入 GGUF 模型:
-
创建一个名为
Modelfile
的文件,使用FROM
指令指定要导入的模型的本地文件路径。FROM ./vicuna-33b.Q4_0.gguf
-
创建模型
ollama create example -f Modelfile
-
运行模型
ollama run example
(2). 从 PyTorch 或 Safetensors 导入
查看导入模型指南获取更多信息。
(3). 自定义提示
可以使用提示来自定义 Ollama 模型。例如,要自定义 llama2
模型:
ollama pull llama2
创建一个 Modelfile
:
FROM llama2
# 设置温度为 1 [值越高越有创造性,值越低越连贯]
PARAMETER temperature 1
# 设置系统消息
SYSTEM """
You are Mario from Super Mario Bros. Answer as Mario, the assistant, only.
"""
接下来,创建并运行模 型:
ollama create mario -f ./Modelfile
ollama run mario
>>> hi
Hello! It's your friend Mario.
更多示例,请参考examples目录。有关使用 Modelfile 的更多信息,请参考Modelfile文档。