开源大模型Ollama本地部署全攻略:2026年免费跑Llama/DeepSeek/Qwen

开源大模型Ollama本地部署全攻略:2026年免费跑Llama/DeepSeek/Qwen
Ollama本地部署开源大模型教程封面图

简单说:Ollama是目前最省事的本地大模型运行工具——一条命令下载并运行Llama/DeepSeek/Qwen,自带OpenAI兼容API。8GB显存的显卡就能跑7B-8B参数模型,数据完全离线,适合对隐私敏感或者想免费薅大模型羊毛的人。

开源大模型Ollama本地部署全攻略:2026年免费跑Llama/DeepSeek/Qwen

说实话,ChatGPT Plus每个月20美元,Claude Pro 20美元,一年下来小两千块。更烦的是你喂给它的数据全上云端了——公司内部文档你敢往ChatGPT里贴吗?反正我不敢。

Ollama就是解决这个问题的。它让你在自己的电脑上跑开源大模型——完全本地、完全免费、数据不出门。而且2026年的开源模型进步太大了,Llama 4和DeepSeek V3在很多任务上已经追到了GPT-4的八成功力。根据 Ollama官方 的数据,截至2026年6月,Ollama已支持超过200个模型,GitHub Star突破120K。

安装Ollama:3分钟搞定

Ollama的安装可能是你接触过最简单的AI工具——没有之一。

  1. ollama.com/download 下载对应系统版本(Windows/Mac/Linux都有)
  2. 双击安装,一路Next,什么都不用配
  3. 安装完成后打开终端(Windows用PowerShell或CMD),输入 ollama --version 确认安装成功

就这么简单。没有Python环境、没有CUDA配置、没有千奇百怪的依赖。Ollama把你可能遇到的所有环境问题都打包解决了。

跑起来:一条命令启动大模型

运行模型只需要一条命令:ollama run 模型名第一次运行会自动下载模型(几个GB到几十GB不等),之后就是秒启。

推荐几个入门模型:

  • ollama run llama3.2 — Meta的Llama 3.2 3B,最轻量,4GB显存就能跑。适合测试和低配电脑
  • ollama run qwen2.5:7b — 阿里的通义千问2.5 7B,中文能力强,8GB显存流畅运行
  • ollama run deepseek-r1:8b — DeepSeek R1 8B蒸馏版,推理能力出色,中文友好
  • ollama run llama4:8b — Llama 4 8B版,Meta 2026年最新,综合能力强

启动后直接在这个终端窗口里对话——跟ChatGPT一样,只不过它跑在你的电脑上。想退出就输入 /bye

我常驻用的是deepseek-r1:8b,中文回答质量真的不错。写个邮件、总结个文档、解释个概念,绰绰有余。

各模型显存需求对照表

选模型之前先看显存,不然下载半天跑不动就尴尬了。

模型参数规模最低显存推荐显存中文能力
Llama 3.2 3B3B4GB6GB一般
Qwen 2.5 7B7B6GB8GB优秀
DeepSeek R1 8B8B6GB8GB优秀
Llama 4 8B8B6GB8GB良好
Qwen 2.5 14B14B10GB16GB优秀
DeepSeek V3 Lite16B12GB16GB优秀
Qwen 2.5 32B32B20GB24GB极佳
Llama 4 70B70B40GB48GB+良好

8GB显存是现在的甜点配置——你能跑通市面上80%的7B-8B开源模型。如果只有4GB显存别灰心,llama3.2:3b和qwen2.5:3b这些轻量版日常够用了。

Ollama + Open WebUI:搭个自己的ChatGPT界面

命令行虽然好用,但大部分人还是习惯网页聊天界面。Open WebUI就是干这个的。

同样用Docker一键启动:

  1. 确保Ollama已经在后台运行
  2. 终端执行:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://host.docker.internal:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  3. 浏览器打开 http://localhost:3000
  4. 注册账号(本地账号,数据不出你电脑)
  5. 搞定——现在你有一个完全离线的ChatGPT界面了

这界面支持多轮对话、对话历史、上传文件、Markdown渲染……基本跟ChatGPT的体验一样,但数据全在你电脑上。

API调用:把本地模型集成到你的程序里

Ollama自带OpenAI兼容API,这意味着你能用任何支持OpenAI的客户端调用本地模型。端口是11434。

Python调用示例:

import requests
response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'qwen2.5:7b',
    'prompt': '用一句话解释什么是机器学习',
    'stream': False
})
print(response.json()['response'])

或者直接用OpenAI SDK:

from openai import OpenAI
client = OpenAI(base_url='http://localhost:11434/v1', api_key='ollama')
response = client.chat.completions.create(
    model='qwen2.5:7b',
    messages=[{'role': 'user', 'content': '你好'}]
)
print(response.choices[0].message.content)

这意味着你之前基于ChatGPT API做的应用,换一行base_url就能切到本地模型——零成本迁移。

常见问题

Ollama和LM Studio哪个好用?

Ollama适合程序员和需要API集成的场景,命令行操作、兼容OpenAI API格式、资源占用低。LM Studio有图形界面,适合非程序员。如果你要写代码调用模型选Ollama,如果只是想聊天选LM Studio。

多少显存能跑什么模型?

8GB显存可跑7B-8B参数模型(Llama 3 8B、Qwen 2.5 7B);16GB可跑13B-14B参数模型;24GB可跑32B-34B模型;32GB+可跑70B模型。系统内存也能辅助但速度会降。推荐8GB显存起步。

本地模型和ChatGPT差距有多大?

小参数模型(7B-8B)在中文理解和推理上明显弱于GPT-4o,适合简单任务。70B+参数的开源模型在多数任务上接近GPT-4水平,但需要高端显卡。2026年的Llama 4和DeepSeek V3缩小了差距,复杂推理约GPT-4o的85%水平。

Ollama能跑多模态模型吗?

可以。Ollama支持llava、bakllava等多模态模型,能识别图片内容。2026年新增了Qwen-VL和Llama 4 Vision的支持。命令:ollama run llava:13b,然后拖图片进去就行。

用了Ollama大半年,最大的感受是:以前觉得本地跑大模型是件很硬核的事,现在一条命令就搞定了。开源模型和工具的进步速度,说实话比我想象的快太多了。分享给也在折腾本地AI的朋友吧。