使用 Ollama 部署本地模型

什么是 Ollama？

正如 Ollama 官方仓库所说：本地启动并运行大型语言模型。

Ollama 是一个开源的大型语言模型服务工具，旨在帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以通过一条命令轻松启动和运行开源的大型语言模型。它提供了一个简洁易用的命令行界面和服务器，专为构建大型语言模型应用而设计。用户可以轻松下载、运行和管理各种开源 LLM。与传统 LLM 需要复杂配置和强大硬件不同，Ollama 能够让用户在消费级的 PC 上体验 LLM 的强大功能。

Ollama 会自动监测本地计算资源，如有 GPU 的条件，会优先使用 GPU 的资源，同时模型的推理速度也更快。如果没有 GPU 条件，直接使用 CPU 资源。

Ollama 极大地简化了在 Docker 容器中部署和管理大型语言模型的过程，使用户能够迅速在本地启动和运行这些模型。

Ollama 常用指令

ollama serve         #启动ollama
ollama create        #从模型文件创建模型
ollama show          #显示模型信息
ollama run           #运行模型
ollama pull          #从注册表中拉取模型
ollama push          #将模型推送到注册表
ollama list          #列出模型
ollama cp            #复制模型
ollama rm            #删除模型
ollama help          #获取有关任何命令的帮助信息

通过 Docker 运行 Ollama

# CPU 或者 Nvidia GPU 
docker pull ollama/ollama

# AMD GPU
docker pull ollama/ollama:rocm

# 启动 ollama
docker run -d -v D:\Document\docker\ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# 拉取模型
docker exec -it ollama ollama pull deepseek-r1:8b
docker exec -it ollama ollama pull nomic-embed-text:latest

#运行模型
docker exec -it ollama ollama run nomic-embed-text:latest

通过 Open WebUi 提供图形界面（可选）

# 拉取镜像
docker pull ghcr.io/open-webui/open-webui:main

# 运行 Open WebUI 容器
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

# 访问 webui
# 进入webUI界面后，在系统配置中进行配置访问本地模型接口。http://host.docker.internal:11434
docker inspect open-webui

蒋先森のBlog

使用 Ollama 部署本地模型

什么是 Ollama？

Ollama 常用指令

通过 Docker 运行 Ollama

通过 Open WebUi 提供图形界面（可选）

参考