95%的开发者都在用错AI Agent——一份Hermes实战指南

2026-06-06

引子
第一层：持久化架构
- 1. SOUL.md 与 /personality
- 2. MEMORY.md 与 USER.md
第二层：执行与版本控制
第三层：路由引擎
- 7. 实时模型切换 — /model
- 8. 辅助模型路由
第四层：分发与自动化
真正的架构视角
我的看法
说人话的总结

引子

45%的人装好Hermes后连跑都没跑起来。另外45%跑了一次，测了一下，然后就忘了。再5%跑得不错，但根本不知道它能做什么。如果你只是在打字、拿答案、关掉标签页——你的运营经济模型就是坏的。

这段话来自一篇上周引爆的技术拆解文章。两位开发者从内部架构的角度，剖析了一个残酷现实：95%的AI Agent用户从未触及工具的真实能力。

持久化内存、会话分支、文件回滚、多模型路由——所有功能都摆在那里，没人用。

以下是12个结构性功能，区分了”游客”和”真正的工程师”。

第一层：持久化架构

1. SOUL.md 与 /personality

每次新会话都要打”你是一个资深Vue.js开发者”？停止重复。

Hermes在启动时自动读取 SOUL.md 文件。只要写在这个文件里的内容，就是Agent在所有会话、所有平台上的永久基准行为。

# 在 SOUL.md 中定义：
你是一个资深全栈开发者
- 优先使用 TypeScript
- 测试覆盖率 > 80%
- 代码必须通过 lint

通过 /personality 命令可以实时切换命名角色：

/personality vue-dev      # 切换到 Vue 前端模式
/personality backend-go   # 切换到 Go 后端模式
/personality devops       # 切换到运维模式

你只需要写一次身份定义。

2. MEMORY.md 与 USER.md

上下文坍塌是生产力的头号杀手。Hermes在每个会话中都读取两个持久化文件。

MEMORY.md — 项目笔记本。记录架构决策、技术债务、已知问题。

USER.md — 用户档案。记录Agent对你的编码习惯的了解。

<!-- MEMORY.md 示例 -->
## 架构决策
- 2026-03-15: 决定使用 Postgres 而非 MySQL，因为需要原生 JSON 查询
- 2026-04-01: CI 流水线从 Jenkins 迁移到 GitHub Actions

## 已知问题
- 登录模块在 Safari 下有 Cookie 兼容性问题（2026-05-10 发现）
- 批量导出超过 1000 条会触发 OOM（2026-04-20 已知）

关键是：它使用 FTS5 全文索引 + LLM 摘要器。八周前发现的一个非常具体的部署问题的修复方案，会在今天的会话中自动浮现。你不再需要重复解释架构。

第二层：执行与版本控制

3. /branch — 会话分支

你正在做一个大规模重构，想尝试一个冒险的架构转向。传统做法要么是烧掉热上下文（开新会话），要么是在当前会话里赌一把。

/branch 就像 git branch 但针对会话：

/branch try-new-architecture

它会精确地分叉当前会话，像 Git commit 一样保存所有上下文。如果实验失败：

/branch main          # 无缝切回主干
/rollback             # 回滚文件变更

不丢失任何状态。

4. /rollback — 文件系统安全网

Agent 幻觉了？直接删了你的配置文件？不用碰 Git。

Hermes 会为它触碰的每个文件保存快照。执行：

/rollback

就是即时文件系统检查点。

/rollback                  # 查看最近变更
/rollback --file config.yml  # 只回滚特定文件
/rollback --ago 30m         # 回滚到30分钟前的状态

5. 飞行中转向 — /steer 与 /queue

Agent已经执行了三步工具调用，正在进行大规模的自动化运行。你突然发现它在操作生产数据库，而不是预发布环境。

不要让进程崩溃。

/steer 用预发布数据库，不要用生产环境

Agent 会在下一个工具调用时截获这个指令，不破坏缓存。

而 /queue 允许你排队后续指令：

/queue 接下来帮我生成测试用例
/queue 然后更新 README
/queue 最后提交 PR

Agent 会按顺序执行，当前操作不中断。

6. 动力开关 — /yolo, /fast, /reasoning

大多数开发者停留在默认设置，然后抱怨速度慢。这三个开关改变Agent的核心运行参数：

/yolo         # 绕过危险命令的人工确认（快速原型阶段）
/fast         # 切换到最快的 API 模型
/reasoning 5  # 手动设定推理深度（1-10）

yolo：跳过”这个操作有风险，确认吗？”的确认框。适合快速原型和信任模式。
fast：切换到低成本快速模型。适合批量处理和数据转换。
reasoning：设定推理深度。/reasoning 10 解决复杂逻辑问题，/reasoning 1 快速完成简单任务。

最佳实践：默认用 fast + reasoning 3，遇到复杂问题时切换到 reasoning 10。

第三层：路由引擎

7. 实时模型切换 — /model

你不被任何一个供应商锁定。

/model anthropic:claude-opus-4-7       # 架构设计用顶级模型
/model openrouter:kimi-k2.6           # 批量数据处理用高性价比模型
/model deepseek:deepseek-v4-flash     # 代码生成用快速模型

所有操作在同一个会话中完成，不丢失状态。上下文完整保留。

8. 辅助模型路由

这可能是最省钱的功能。

Agent 执行大量后台工作：压缩上下文、总结会话、生成聊天标题。如果你把所有工作都通过前沿模型处理，API 成本会让你破产。

Hermes允许你把主逻辑路由到 Opus 4.7（高质量），而把后台压缩卸载给 Haiku（低成本）：

# 在配置中设定：
main_model: anthropic:claude-opus-4-7
aux_model: anthropic:claude-haiku-3-5  # 压缩、摘要等后台工作

主模型保持输出质量，辅助模型控制成本。这一项就能把月度 API 开销砍掉 60-70%。

第四层：分发与自动化

9. 17平台网关

Hermes 不局限于一个终端窗口。单个 Hermes 进程同时驱动 17 个不同的平台：

聊天平台：Telegram / Discord / Slack / WhatsApp / Signal / SMS
开发工具：CLI / VS Code 插件 / Web 界面
协作平台：钉钉 / 飞书 / 邮件

你在手机 Telegram 上发出的指令，和在终端里输入的效果完全一样。Agent 状态是统一的。

10. 实时语音 — /voice

跨 CLI、Telegram 和 Discord 可用。

/voice

直接对 Agent 说话。当你离开键盘或开车时，可以用语音推送架构更新或口述文档草稿。

对移动场景特别实用：你在通勤路上发现了一个架构问题，直接说话让 Agent 准备好修复方案，到办公室就能直接审查。

11. Cron + Webhook 订阅

这完全消除了对 Zapier/IFTTT 的需求。

# 自然语言定时任务
"每周五下午5点，总结本周的 GitHub 提交记录，发到 Slack #standups 频道"

结合 webhook：

# 订阅 GitHub webhook
/webhook-subscriptions add github:repo-events
当有新的 PR 提交时，自动进行 Code Review

平台如 GitHub、Vercel、Stripe 可以将 payload 直接推送到 Agent 的私信，零 Token 延迟。

你不再需要第三方自动化平台。

12. 自定义命令 — Skills

这是最终的杠杆点。

Hermes 内置了 100+ 现成的斜杠命令：

/architecture-diagram     # 生成架构图
/systematic-debugging     # 系统化调试
/codebase-inspection      # 代码库体检
/github-code-review       # PR 代码审查
/toutiao-publish          # 头条发布

但真正的力量是构建你自己的命令。

# 一个自定义 skill 示例
# 写一个脚本，抓取特定数据源，格式化，执行工作流
# 映射到自定义命令，然后在任何平台上无缝运行

书写 SKILL.md，定义触发条件、步骤、验证逻辑。一旦注册，它可以在所有 17 个平台上通过 /your-command 触发。

这就是你个人专属的 AI 工作流引擎。

真正的架构视角

让我把整件事总结成一个简单的模型：

用户输入
    │
    ▼
┌────────────────────────┐
│    SOUL.md + 身份层    │ ← 永久角色定义
├────────────────────────┤
│   MEMORY.md + USER.md  │ ← 持久化上下文
├────────────────────────┤
│   路由引擎 (/model)    │ ← 动态模型切换
├────────────────────────┤
│   执行引擎 (/steer)    │ ← 飞行中转向
├────────────────────────┤
│   安全网 (/rollback)   │ ← 文件系统保护
├────────────────────────┤
│   自动化层 (cron+skill) │ ← 无人值守运行
├────────────────────────┤
│  分发层 (17 平台)      │ ← 无处不在的入口
└────────────────────────┘
    │
    ▼
  输出

大多数用户只接触了最上层——他们在终端里输入提示词，拿到答案，关掉窗口。

整个基础设施都在下面，从没人碰过。

我的看法

我从两个月前开始系统性地使用 Hermes 的这些高级功能——特别是 SOUL.md 持久化配置和辅助模型路由。变化是显著的。

首先是上下文坍塌彻底消失了。以前每个新会话我都要花 5-10 分钟重新建立上下文（”这是一个 Vue 项目，使用 Nuxt 3，UI 库是 PrimeVue…“）。现在 SOUL.md 自动加载，Agent 从第一句就知道它面对的是什么项目。

其次是费用。我的月度 API 账单从大约 $120 降到了 $40 左右——主要归功于辅助模型路由。代码生成和架构设计仍然用 Opus，但上下文压缩和会话摘要全部走 Haiku。

最让我惊讶的是 /steer。曾经我以为 Agent 一旦开始执行，就只能让它跑完或者杀掉进程。现在可以在执行中途改变方向——”不要用那个 API，用新的那个版本”——这改变了整个工作流。

如果你还在每次会话中手动输入”你是一个资深开发者”，你就是在用一台超级计算机做计算器的工作。

说人话的总结

把这套系统想象成一个交响乐团：

SOUL.md 是乐谱——定义了乐队要演奏什么音乐
MEMORY.md 是排练笔记——记录了哪些段落需要特别注意
/model 是乐器调换——需要大提琴的时候换上大提琴，需要小提琴的时候就换
/steer 是指挥的实时手势——乐手在演奏中看到
Skills 是谱好的乐章组合——一整套编排好的工作流

大多数人做了什么？他们只拿了一把小提琴，要求它演奏整场音乐会。

工具早已准备好。你需要的是给对的指令。

版权所有，本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处：https://www.wangjun.dev//2026/06/95-devs-using-ai-agents-wrong-hermes-guide/