AirLLM让我第一次惊喜——然后在笔记本上搭出了私人ChatGPT

2026-05-26

1. 为什么这很重要
2. AirLLM的优点和局限
3. Ollama是什么
4. 安装Ollama
5. 第一次运行的感受
6. 用Open WebUI加一个ChatGPT界面
7. 从Python调用Ollama
8. 做一个带记忆的本地聊天机器人
9. 为什么这对开发者有用
10. AirLLM仍然有价值
11. 我的真实体验
12. 快速设置回顾
13. 最后的想法

1. 为什么这很重要

很多开发者现在都对本地AI很好奇。

他们想在本机跑LLM，因为在意隐私、想在没有API账单的情况下测试模型。这正是AirLLM、Ollama和Open WebUI这些工具变得重要的原因。

AirLLM在你想用有限硬件试验大模型时非常出色。但有时你不想跟复杂的配置搏斗，只想跑一个本地AI模型然后开始构建东西。这就是Ollama的用武之地。

2. AirLLM的优点和局限

AirLLM的核心思路很聪明：按层加载模型，用完一层卸载再加载下一层，大幅降低显存需求。

我在一台8GB内存的旧笔记本上跑过Llama 3 70B，确实能出结果。但速度很慢，每生成一个token要等好几秒。它适合做实验——验证一个模型在你的硬件上能不能跑——但不适合日常使用。

3. Ollama是什么

Ollama就像本地AI界的Docker。你不用手动配置模型文件，不用操心格式，不用写长长的安装脚本。简单装好Ollama，然后运行一个模型就行。

ollama run llama3.2

这一条命令就能下载模型、加载它、并启动一个本地聊天会话。

4. 安装Ollama

macOS或Linux上，一行安装：

curl -fsSL https://ollama.com/install.sh | sh

Windows上，从官网下载安装。

装好后，运行：

ollama run llama3.2

如果机器配置一般，先从小模型开始：

ollama run gemma3:1b

或者试试专门写代码的模型：

ollama run qwen2.5-coder

5. 第一次运行的感受

第一次跑Ollama，感觉和普通的AI教程完全不同。没有API Key，没有账单面板，没有云机器，没有等待审核。模型就是在你自己的笔记本上跑的。

这种感觉很重要。因为一旦AI本地跑起来了，你思考问题的方式就不一样了。你可以测试更多东西，可以搞坏它，可以建小工具，可以随便实验而不用担心每个token都要花钱。这就是本地AI真正的力量。

6. 用Open WebUI加一个ChatGPT界面

终端里跑AI对开发者来说够用，但有时你需要一个正经的聊天界面。这就是Open WebUI做的事情。

Open WebUI给你一个浏览器里的ChatGPT风格界面，连接到你本地的Ollama模型。

用Docker运行：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

然后打开 http://localhost:3000，你就有了一个私人AI聊天应用。它在浏览器里跑，连接到Ollama，你的提示词都留在你自己的机器上。

7. 从Python调用Ollama

最妙的是，Ollama不只是用来聊天的。你还能在Python里用它。

安装Python包：

pip install ollama

创建一个 local_ai_chat.py 文件：

import ollama

response = ollama.chat(model='llama3.2', messages=[
  {'role': 'user', 'content': '用Python写一个快速排序'}
])
print(response['message']['content'])

跑起来之后，你的Python程序就和一个本地AI模型通信了。不需要OpenAI的API Key，模型下载后甚至不需要联网。

8. 做一个带记忆的本地聊天机器人

进阶一点，带上对话历史：

import ollama

messages = [{'role': 'system', 'content': '你是一个AI助手'}]

def local_chat():
    while True:
        user_input = input('你: ')
        if user_input.lower() == 'exit':
            break
        messages.append({'role': 'user', 'content': user_input})
        response = ollama.chat(model='llama3.2', messages=messages)
        print(f"AI: {response['message']['content']}")
        messages.append(response['message'])

local_chat()

现在你有了一个基本的本地AI聊天机器人。每个初学者都应该试试这个——它让你直观理解本地AI的工作方式。

9. 为什么这对开发者有用

这套方案对开发者很有用，因为你可以在上面搭很多东西。比如私有聊天机器人、不需要联网的AI工具、给你自己的文件做的小工具。

最棒的是，你不必从一开始就绑定付费API。你可以先在本地做原型，然后如果以后需要更强算力，再迁移到云端模型。

10. AirLLM仍然有价值

用过Ollama之后你可能会问：还需要AirLLM吗？

答案是：需要。

AirLLM在你想要用有限硬件试验超大模型时仍然有用。它的逐层加载思路很聪明，能减少内存压力。

但Ollama更适合日常使用。所以我的看法是：AirLLM用来推硬件极限，Ollama用来日常使用，Open WebUI提供好看的本地聊天界面，Python让你在本地AI上建真正的应用。

它们不是对手，是不同场景的工具。

11. 我的真实体验

一切都完美吗？不是。

本地AI仍然有局限。小模型快但能力弱，大模型需要更多内存、更好的显卡或者更多耐心。有些答案没有付费前沿模型那么强。第一次下载模型也要花时间。

但即便如此，这体验也值得。因为当你真正在本地跑起AI的那一刻，你会理解一件重要的事：AI不一定非要活在云端。

对于日常任务，本地AI已经够用了。用于学习，它很出色。用于原型，它很便宜。用于保护隐私，它很强大。对于开发者，它是一个游乐场。

12. 快速设置回顾

# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh

# 运行本地模型
ollama run llama3.2

# 运行小模型
ollama run gemma3:1b

# 安装Python包
pip install ollama

# 运行Open WebUI
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

# 打开
http://localhost:3000

现在你的笔记本电脑上有了一个私人的ChatGPT风格AI应用。

13. 最后的想法

AirLLM是我的第一个惊喜。它让我知道大AI模型可以在有限硬件上用更聪明的方式运行。

但Ollama和Open WebUI给了我下一个惊喜。它们让我看到本地AI也可以很简单、很实用、很好看。

这很重要，因为AI的未来不只是云端AI。还有本地AI——在笔记本电脑上、在桌面、在私人工具里、在不把每个提示词都发送到服务器的AI。

那个未来已经开始。而理解它最好的方式很简单：装Ollama，跑一个模型，开WebUI，写一个小Python脚本。亲眼看看它怎么工作。

因为当你在本地跑起第一个AI模型的时候，这个概念就变成现实了。

你不再只是读关于AI的文章——你在运行它。而这才是真正的学习开始的地方。

版权所有，本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处：https://www.wangjun.dev//2026/05/airllm-to-ollama-private-chatgpt/