0%

使用 Ollama 部署本地模型

什么是 Ollama?

正如 Ollama 官方仓库所说:本地启动并运行大型语言模型。

Ollama 是一个开源的大型语言模型服务工具,旨在帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以通过一条命令轻松启动和运行开源的大型语言模型。 它提供了一个简洁易用的命令行界面和服务器,专为构建大型语言模型应用而设计。用户可以轻松下载、运行和管理各种开源 LLM。与传统 LLM 需要复杂配置和强大硬件不同,Ollama 能够让用户在消费级的 PC 上体验 LLM 的强大功能。

Ollama 会自动监测本地计算资源,如有 GPU 的条件,会优先使用 GPU 的资源,同时模型的推理速度也更快。如果没有 GPU 条件,直接使用 CPU 资源。

Ollama 极大地简化了在 Docker 容器中部署和管理大型语言模型的过程,使用户能够迅速在本地启动和运行这些模型。

Ollama 常用指令

1
2
3
4
5
6
7
8
9
10
ollama serve         #启动ollama
ollama create #从模型文件创建模型
ollama show #显示模型信息
ollama run #运行模型
ollama pull #从注册表中拉取模型
ollama push #将模型推送到注册表
ollama list #列出模型
ollama cp #复制模型
ollama rm #删除模型
ollama help #获取有关任何命令的帮助信息

通过 Docker 运行 Ollama

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# CPU 或者 Nvidia GPU 
docker pull ollama/ollama

# AMD GPU
docker pull ollama/ollama:rocm

# 启动 ollama
docker run -d -v D:\Document\docker\ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 拉取模型
docker exec -it ollama ollama pull deepseek-r1:8b
docker exec -it ollama ollama pull nomic-embed-text:latest

#运行模型
docker exec -it ollama ollama run nomic-embed-text:latest

通过 Open WebUi 提供图形界面(可选)

1
2
3
4
5
6
7
8
9
# 拉取镜像
docker pull ghcr.io/open-webui/open-webui:main

# 运行 Open WebUI 容器
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

# 访问 webui
# 进入webUI界面后,在系统配置中进行配置访问本地模型接口。http://host.docker.internal:11434
docker inspect open-webui

参考

客官,赏一杯coffee嘛~~~~