ollama部署本地大模型

ollama部署本地大模型以及python调用

1.什么是ollama

Ollama 是一个开源的大语言模型(LLM)本地部署框架,旨在让用户能够像使用 Docker 一样,通过极简的命令行操作在个人电脑(macOS、Windows、Linux)上快速运行、管理和部署各种开源模型。


2. 安装ollama

访问网站:https://ollama.com/

然后根据你的平台选择不同的的方式,我的是windows,需要下载一个.exe的安装文件。

安装路径选择

ollama 在windows下无法选择安装的路径,直接就安装到了C盘,这是我们无法接受的!所以我们需要更改路径,那么具体如下:

1
2
3
4
5
6
7
8
9
10
1.首先在其他盘创建文件夹,例如D盘,创建文件夹 AI/ollama(路径建议使用英文,避免中文或特殊字符)

2.将下载的安装包迁移至这个文件夹下

3.然后执行cmd命令
D:
cd D:\AI\Ollama
.\OllamaSetup.exe /DIR="D:\AI\Ollama"

4.此时就会执行安装程序,发现就会安装在D盘了!

模型路径选择

虽然我们将安装路径选择了D盘,但是模型的下载路径依旧在C盘,具体路径是:
C:\Users\<用户名>\.ollama。 这样就会有一个问题,那就是模型很大下载后依旧会占用C盘的空间,所以我们需要将其修改到D盘。

环境变量设置

PATH:

  • 右键“此电脑” → “属性” → “高级系统设置” → “环境变量”
  • 在“系统变量”或“用户变量”中找到 Path,编辑并替换旧路径为新路径(如 D:\AI\Ollama)
    4.重启命令行或系统,验证是否生效:
    ollama -v

此时你需要确认的是:

  1. 停止 Ollama 服务:
  • 打开任务管理器 → 结束所有 ollama.exe 进程
  • 或在 CMD 中运行:
    taskkill /f /im ollama.exe
  1. 重启电脑

电脑重启完毕后,我们开始下载模型

模型下载

我们还是登录ollama 的官网 https://ollama.com/search

这里是下载模型的地方,我们可以选择适合自己电脑配置的模型,例如qwen3.6:27b

但是这个对于电脑要求性能很高,显卡的显存最好在16G以上,我本地的是8G的显存,在调用的时候会在6分左右给到我答案(通过python调用),通过ollama 命令行,会展示思考的过程!

具体cmd下载命令:

ollama run qwen3.6

你也可以选择其他的,那么就在模型的下方有下载的命令

执行完毕,就等待下载模型就行,此时会在你定义的模型下载文件夹中出现两个文件夹

此时就下载完毕了!

注意

我本地在下载模型的时候不知道为什么仍然会下在到C盘默认路径下,那么如果你和我的情况一样,则不要担心,只需要将C:\Users\<用户名>\.ollama\models 文件夹下的 blobs, mainfetsts 文件下的对应内容迁移到D盘就行,直接剪切!

文件夹都是相同的!

模型查看

下载模型完毕后,执行下面的命令可以看到你的模型有那些

1
ollama list

ollama 基础命令

核心终端命令

这些命令在 CMD、PowerShell 或终端中直接运行:

  • 模型运行与下载
  • ollama run <模型名>:运行模型。如果本地没有该模型,会自动从库中拉取。
  • ollama pull <模型名>:仅下载/更新模型,不直接运行。
  • 模型管理
  • ollama list:列出所有已下载的模型及其大小、ID。
  • ollama ps:查看当前正在内存中运行的模型。
  • ollama rm <模型名>:删除指定的本地模型以释放空间。
  • ollama cp <原模型> <新名称>:复制并重命名模型。
  • 信息查询
  • ollama show <模型名>:显示模型的详细信息(如参数量、量化格式、Modelfile 结构)。
  • ollama –version:查看当前 Ollama 的版本号。 [1, 2, 3, 4, 5, 6, 7]

交互会话指令当你运行

  • ollama serve:手动启动 Ollama 服务端(通常软件会自动在后台运行,但在 Linux 上调试时常用)。

  • ollama create <新名> -f <Modelfile路径>:通过自定义的 Modelfile 配置文件创建一个新模型(比如给模型预设特定的身份)。 [1, 12, 13, 14]

  • 💡 小技巧:
    如果你需要输入多行文字(如粘贴一段长代码),在交互模式下可以使用
    “””(三个双引号)包围你的内容,完成后再输入
    “”” 结束并发送。 [8, 15]

模型调用

命令行调用

首先我们执行 ollama server 将服务开启(开启了就不需要了)

然后执行唤起大模型命令 ollama run qwen3.6,z 这个命令会先检查本地是否有这个模型,如果没有会先下载然后打开,有的话就会直接运行!

打开成功后!如下:

我们尝试问一些内容:

python 基础代码调用

安装完毕模型后,我们也可以通过脚本的方式调用,需要安装一个python的三方包 ollama

1
pip install ollama

然后可以编写脚本:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
from ollama import chat
from ollama import ChatResponse
import time


def main():
print("开始请求计时!")
# 记录开始时间
start_time = time.perf_counter()
response: ChatResponse = chat(model='qwen3.6:27b', messages=[
{
'role': 'user',
'content': '你是谁?',
},
])
# 打印响应内容
print(response['message']['content'])
# 记录结束时间
end_time = time.perf_counter()

# 计算分钟数
duration_minutes = (end_time - start_time) / 60

print(f"程序结束,共耗时: {duration_minutes:.2f} 分钟")

# 或者直接访问响应对象的字段
# print(response.message.content)


if __name__ == "__main__":
main()


这里我们增加一个时间计时器,因为这个模型参数比较大,我的是50570(8G)+32G的内存,运行起来还是比较吃力的!

可以看到通过python 调用的时间是6分钟多,当然我们可以选择更小的模型这样的会更快!

总结

部署本地大模型对于不方便上云的业务很好,但是越好的模型对于硬件要求也越高!大家可以选择适合自己的模型!


ollama部署本地大模型
https://dreamshao.github.io/2026/05/09/本地部署大模型/
作者
Yun Shao
发布于
2026年5月9日
许可协议