95%的开发者都在用错AI Agent——一份Hermes实战指南
引子
45%的人装好Hermes后连跑都没跑起来。 另外45%跑了一次,测了一下,然后就忘了。 再5%跑得不错,但根本不知道它能做什么。 如果你只是在打字、拿答案、关掉标签页——你的运营经济模型就是坏的。
这段话来自一篇上周引爆的技术拆解文章。两位开发者从内部架构的角度,剖析了一个残酷现实:95%的AI Agent用户从未触及工具的真实能力。
持久化内存、会话分支、文件回滚、多模型路由——所有功能都摆在那里,没人用。
以下是12个结构性功能,区分了”游客”和”真正的工程师”。
第一层:持久化架构
1. SOUL.md 与 /personality
每次新会话都要打”你是一个资深Vue.js开发者”?停止重复。
Hermes在启动时自动读取 SOUL.md 文件。只要写在这个文件里的内容,就是Agent在所有会话、所有平台上的永久基准行为。
# 在 SOUL.md 中定义:
你是一个资深全栈开发者
- 优先使用 TypeScript
- 测试覆盖率 > 80%
- 代码必须通过 lint
通过 /personality 命令可以实时切换命名角色:
/personality vue-dev # 切换到 Vue 前端模式
/personality backend-go # 切换到 Go 后端模式
/personality devops # 切换到运维模式
你只需要写一次身份定义。
2. MEMORY.md 与 USER.md
上下文坍塌是生产力的头号杀手。Hermes在每个会话中都读取两个持久化文件。
MEMORY.md — 项目笔记本。记录架构决策、技术债务、已知问题。
USER.md — 用户档案。记录Agent对你的编码习惯的了解。
<!-- MEMORY.md 示例 -->
## 架构决策
- 2026-03-15: 决定使用 Postgres 而非 MySQL,因为需要原生 JSON 查询
- 2026-04-01: CI 流水线从 Jenkins 迁移到 GitHub Actions
## 已知问题
- 登录模块在 Safari 下有 Cookie 兼容性问题(2026-05-10 发现)
- 批量导出超过 1000 条会触发 OOM(2026-04-20 已知)
关键是:它使用 FTS5 全文索引 + LLM 摘要器。八周前发现的一个非常具体的部署问题的修复方案,会在今天的会话中自动浮现。你不再需要重复解释架构。
第二层:执行与版本控制
3. /branch — 会话分支
你正在做一个大规模重构,想尝试一个冒险的架构转向。传统做法要么是烧掉热上下文(开新会话),要么是在当前会话里赌一把。
/branch 就像 git branch 但针对会话:
/branch try-new-architecture
它会精确地分叉当前会话,像 Git commit 一样保存所有上下文。如果实验失败:
/branch main # 无缝切回主干
/rollback # 回滚文件变更
不丢失任何状态。
4. /rollback — 文件系统安全网
Agent 幻觉了?直接删了你的配置文件?不用碰 Git。
Hermes 会为它触碰的每个文件保存快照。执行:
/rollback
就是即时文件系统检查点。
/rollback # 查看最近变更
/rollback --file config.yml # 只回滚特定文件
/rollback --ago 30m # 回滚到30分钟前的状态
5. 飞行中转向 — /steer 与 /queue
Agent已经执行了三步工具调用,正在进行大规模的自动化运行。你突然发现它在操作生产数据库,而不是预发布环境。
不要让进程崩溃。
/steer 用预发布数据库,不要用生产环境
Agent 会在下一个工具调用时截获这个指令,不破坏缓存。
而 /queue 允许你排队后续指令:
/queue 接下来帮我生成测试用例
/queue 然后更新 README
/queue 最后提交 PR
Agent 会按顺序执行,当前操作不中断。
6. 动力开关 — /yolo, /fast, /reasoning
大多数开发者停留在默认设置,然后抱怨速度慢。这三个开关改变Agent的核心运行参数:
/yolo # 绕过危险命令的人工确认(快速原型阶段)
/fast # 切换到最快的 API 模型
/reasoning 5 # 手动设定推理深度(1-10)
yolo:跳过”这个操作有风险,确认吗?”的确认框。适合快速原型和信任模式。fast:切换到低成本快速模型。适合批量处理和数据转换。reasoning:设定推理深度。/reasoning 10解决复杂逻辑问题,/reasoning 1快速完成简单任务。
最佳实践:默认用 fast + reasoning 3,遇到复杂问题时切换到 reasoning 10。
第三层:路由引擎
7. 实时模型切换 — /model
你不被任何一个供应商锁定。
/model anthropic:claude-opus-4-7 # 架构设计用顶级模型
/model openrouter:kimi-k2.6 # 批量数据处理用高性价比模型
/model deepseek:deepseek-v4-flash # 代码生成用快速模型
所有操作在同一个会话中完成,不丢失状态。上下文完整保留。
8. 辅助模型路由
这可能是最省钱的功能。
Agent 执行大量后台工作:压缩上下文、总结会话、生成聊天标题。如果你把所有工作都通过前沿模型处理,API 成本会让你破产。
Hermes允许你把主逻辑路由到 Opus 4.7(高质量),而把后台压缩卸载给 Haiku(低成本):
# 在配置中设定:
main_model: anthropic:claude-opus-4-7
aux_model: anthropic:claude-haiku-3-5 # 压缩、摘要等后台工作
主模型保持输出质量,辅助模型控制成本。这一项就能把月度 API 开销砍掉 60-70%。
第四层:分发与自动化
9. 17平台网关
Hermes 不局限于一个终端窗口。单个 Hermes 进程同时驱动 17 个不同的平台:
- 聊天平台:Telegram / Discord / Slack / WhatsApp / Signal / SMS
- 开发工具:CLI / VS Code 插件 / Web 界面
- 协作平台:钉钉 / 飞书 / 邮件
你在手机 Telegram 上发出的指令,和在终端里输入的效果完全一样。Agent 状态是统一的。
10. 实时语音 — /voice
跨 CLI、Telegram 和 Discord 可用。
/voice
直接对 Agent 说话。当你离开键盘或开车时,可以用语音推送架构更新或口述文档草稿。
对移动场景特别实用:你在通勤路上发现了一个架构问题,直接说话让 Agent 准备好修复方案,到办公室就能直接审查。
11. Cron + Webhook 订阅
这完全消除了对 Zapier/IFTTT 的需求。
# 自然语言定时任务
"每周五下午5点,总结本周的 GitHub 提交记录,发到 Slack #standups 频道"
结合 webhook:
# 订阅 GitHub webhook
/webhook-subscriptions add github:repo-events
当有新的 PR 提交时,自动进行 Code Review
平台如 GitHub、Vercel、Stripe 可以将 payload 直接推送到 Agent 的私信,零 Token 延迟。
你不再需要第三方自动化平台。
12. 自定义命令 — Skills
这是最终的杠杆点。
Hermes 内置了 100+ 现成的斜杠命令:
/architecture-diagram # 生成架构图
/systematic-debugging # 系统化调试
/codebase-inspection # 代码库体检
/github-code-review # PR 代码审查
/toutiao-publish # 头条发布
但真正的力量是构建你自己的命令。
# 一个自定义 skill 示例
# 写一个脚本,抓取特定数据源,格式化,执行工作流
# 映射到自定义命令,然后在任何平台上无缝运行
书写 SKILL.md,定义触发条件、步骤、验证逻辑。一旦注册,它可以在所有 17 个平台上通过 /your-command 触发。
这就是你个人专属的 AI 工作流引擎。
真正的架构视角
让我把整件事总结成一个简单的模型:
用户输入
│
▼
┌────────────────────────┐
│ SOUL.md + 身份层 │ ← 永久角色定义
├────────────────────────┤
│ MEMORY.md + USER.md │ ← 持久化上下文
├────────────────────────┤
│ 路由引擎 (/model) │ ← 动态模型切换
├────────────────────────┤
│ 执行引擎 (/steer) │ ← 飞行中转向
├────────────────────────┤
│ 安全网 (/rollback) │ ← 文件系统保护
├────────────────────────┤
│ 自动化层 (cron+skill) │ ← 无人值守运行
├────────────────────────┤
│ 分发层 (17 平台) │ ← 无处不在的入口
└────────────────────────┘
│
▼
输出
大多数用户只接触了最上层——他们在终端里输入提示词,拿到答案,关掉窗口。
整个基础设施都在下面,从没人碰过。
我的看法
我从两个月前开始系统性地使用 Hermes 的这些高级功能——特别是 SOUL.md 持久化配置和辅助模型路由。变化是显著的。
首先是上下文坍塌彻底消失了。以前每个新会话我都要花 5-10 分钟重新建立上下文(”这是一个 Vue 项目,使用 Nuxt 3,UI 库是 PrimeVue…“)。现在 SOUL.md 自动加载,Agent 从第一句就知道它面对的是什么项目。
其次是费用。我的月度 API 账单从大约 $120 降到了 $40 左右——主要归功于辅助模型路由。代码生成和架构设计仍然用 Opus,但上下文压缩和会话摘要全部走 Haiku。
最让我惊讶的是 /steer。曾经我以为 Agent 一旦开始执行,就只能让它跑完或者杀掉进程。现在可以在执行中途改变方向——”不要用那个 API,用新的那个版本”——这改变了整个工作流。
如果你还在每次会话中手动输入”你是一个资深开发者”,你就是在用一台超级计算机做计算器的工作。
说人话的总结
把这套系统想象成一个交响乐团:
- SOUL.md 是乐谱——定义了乐队要演奏什么音乐
- MEMORY.md 是排练笔记——记录了哪些段落需要特别注意
- /model 是乐器调换——需要大提琴的时候换上大提琴,需要小提琴的时候就换
- /steer 是指挥的实时手势——乐手在演奏中看到
- Skills 是谱好的乐章组合——一整套编排好的工作流
大多数人做了什么?他们只拿了一把小提琴,要求它演奏整场音乐会。
工具早已准备好。你需要的是给对的指令。