AI 工具

开源大模型Ollama本地部署全攻略：2026年免费跑Llama/DeepSeek/Qwen

FlowPix Team 发布于 2026-06-09 更新于 2026-06-10 3,357 字

简单说：Ollama是目前最省事的本地大模型运行工具——一条命令下载并运行Llama/DeepSeek/Qwen，自带OpenAI兼容API。8GB显存的显卡就能跑7B-8B参数模型，数据完全离线，适合对隐私敏感或者想免费薅大模型羊毛的人。

开源大模型Ollama本地部署全攻略：2026年免费跑Llama/DeepSeek/Qwen

说实话，ChatGPT Plus每个月20美元，Claude Pro 20美元，一年下来小两千块。更烦的是你喂给它的数据全上云端了——公司内部文档你敢往ChatGPT里贴吗？反正我不敢。

Ollama就是解决这个问题的。它让你在自己的电脑上跑开源大模型——完全本地、完全免费、数据不出门。而且2026年的开源模型进步太大了，Llama 4和DeepSeek V3在很多任务上已经追到了GPT-4的八成功力。根据 Ollama官方的数据，截至2026年6月，Ollama已支持超过200个模型，GitHub Star突破120K。

安装Ollama：3分钟搞定

Ollama的安装可能是你接触过最简单的AI工具——没有之一。

去 ollama.com/download 下载对应系统版本（Windows/Mac/Linux都有）
双击安装，一路Next，什么都不用配
安装完成后打开终端（Windows用PowerShell或CMD），输入 ollama --version 确认安装成功

就这么简单。没有Python环境、没有CUDA配置、没有千奇百怪的依赖。Ollama把你可能遇到的所有环境问题都打包解决了。

跑起来：一条命令启动大模型

运行模型只需要一条命令：ollama run 模型名。第一次运行会自动下载模型（几个GB到几十GB不等），之后就是秒启。

推荐几个入门模型：

ollama run llama3.2 — Meta的Llama 3.2 3B，最轻量，4GB显存就能跑。适合测试和低配电脑
ollama run qwen2.5:7b — 阿里的通义千问2.5 7B，中文能力强，8GB显存流畅运行
ollama run deepseek-r1:8b — DeepSeek R1 8B蒸馏版，推理能力出色，中文友好
ollama run llama4:8b — Llama 4 8B版，Meta 2026年最新，综合能力强

启动后直接在这个终端窗口里对话——跟ChatGPT一样，只不过它跑在你的电脑上。想退出就输入 /bye。

我常驻用的是deepseek-r1:8b，中文回答质量真的不错。写个邮件、总结个文档、解释个概念，绰绰有余。

各模型显存需求对照表

选模型之前先看显存，不然下载半天跑不动就尴尬了。

模型	参数规模	最低显存	推荐显存	中文能力
Llama 3.2 3B	3B	4GB	6GB	一般
Qwen 2.5 7B	7B	6GB	8GB	优秀
DeepSeek R1 8B	8B	6GB	8GB	优秀
Llama 4 8B	8B	6GB	8GB	良好
Qwen 2.5 14B	14B	10GB	16GB	优秀
DeepSeek V3 Lite	16B	12GB	16GB	优秀
Qwen 2.5 32B	32B	20GB	24GB	极佳
Llama 4 70B	70B	40GB	48GB+	良好

8GB显存是现在的甜点配置——你能跑通市面上80%的7B-8B开源模型。如果只有4GB显存别灰心，llama3.2:3b和qwen2.5:3b这些轻量版日常够用了。

Ollama + Open WebUI：搭个自己的ChatGPT界面

命令行虽然好用，但大部分人还是习惯网页聊天界面。Open WebUI就是干这个的。

同样用Docker一键启动：

确保Ollama已经在后台运行
终端执行：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://host.docker.internal:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
浏览器打开 http://localhost:3000
注册账号（本地账号，数据不出你电脑）
搞定——现在你有一个完全离线的ChatGPT界面了

这界面支持多轮对话、对话历史、上传文件、Markdown渲染……基本跟ChatGPT的体验一样，但数据全在你电脑上。

API调用：把本地模型集成到你的程序里

Ollama自带OpenAI兼容API，这意味着你能用任何支持OpenAI的客户端调用本地模型。端口是11434。

Python调用示例：

import requests
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'qwen2.5:7b',
    'prompt': '用一句话解释什么是机器学习',
    'stream': False
})
print(response.json()['response'])

或者直接用OpenAI SDK：

from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create(
    model='qwen2.5:7b',
    messages=[{'role': 'user', 'content': '你好'}]
)
print(response.choices[0].message.content)

这意味着你之前基于ChatGPT API做的应用，换一行base_url就能切到本地模型——零成本迁移。

常见问题

Ollama和LM Studio哪个好用？

Ollama适合程序员和需要API集成的场景，命令行操作、兼容OpenAI API格式、资源占用低。LM Studio有图形界面，适合非程序员。如果你要写代码调用模型选Ollama，如果只是想聊天选LM Studio。

多少显存能跑什么模型？

8GB显存可跑7B-8B参数模型（Llama 3 8B、Qwen 2.5 7B）；16GB可跑13B-14B参数模型；24GB可跑32B-34B模型；32GB+可跑70B模型。系统内存也能辅助但速度会降。推荐8GB显存起步。

本地模型和ChatGPT差距有多大？

小参数模型（7B-8B）在中文理解和推理上明显弱于GPT-4o，适合简单任务。70B+参数的开源模型在多数任务上接近GPT-4水平，但需要高端显卡。2026年的Llama 4和DeepSeek V3缩小了差距，复杂推理约GPT-4o的85%水平。

Ollama能跑多模态模型吗？

可以。Ollama支持llava、bakllava等多模态模型，能识别图片内容。2026年新增了Qwen-VL和Llama 4 Vision的支持。命令：ollama run llava:13b，然后拖图片进去就行。

用了Ollama大半年，最大的感受是：以前觉得本地跑大模型是件很硬核的事，现在一条命令就搞定了。开源模型和工具的进步速度，说实话比我想象的快太多了。分享给也在折腾本地AI的朋友吧。