Update avaliable. Click RELOAD to update.
📱 安装应用到主屏幕,获得更好体验
目录

实测 Qwen3.7-Max vs Claude Opus 4.6 vs GPT-5.5:Agent 场景才是真正战场

为什么做这个测试

Alibaba 在 2026 年 5 月 19 日发布了 Qwen3.7-Max,定位为”Agent 优先”的旗舰模型。宣传素材中甚至演示了连续 35 小时、超过 1000 次工具调用的自主编程场景。

Benchmark 数据很好看,但真实工程好不好用从来是两码事。所以我花了一周,把它和 Claude Opus 4.6、GPT-5.5 在五项真实任务上做了正面比较。

Qwen3.7-Max 到底是什么

Qwen3.7-Max 是阿里闭源旗舰模型,最大的特点是双系统架构

在 Agent 能力上,它原生支持 MCP 协议,内置多 Agent 编排能力,与 Claude Code、OpenClaw 等框架直接兼容。

早期 benchmark 表现抢眼:Arena Text 综合排名第 13(Elo ≈ 1475),数学第 7,专家提示第 9,软件与 IT 第 9,编码第 10。

测试方法

我设计了三组模型都参与的五类任务,以及一组仅 Qwen3.7-Max 重点测试的 Agent 流程:

任务类型说明
编写新功能给定代码上下文和需求,实现完整功能
调试错误给出失败测试和错误堆栈,定位并修复
重构代码拆分 300 行的大类为单一职责组件
编写测试为现有代码编写完整测试套件
Agent 多步任务安全审计 → 打补丁 → 测试验证 → 汇总报告

测试结果

编写新功能

给三个模型同一个 Prompt:

在现有的 FastAPI 应用中添加后台任务队列。使用当前的 Redis 配置。任务失败后指数退避重试。重试三次后进入死信队列。

Claude Opus 4.6: 一次性通过。自动匹配了项目现有模式和风格,没有额外说明。

GPT-5.5: 正确但通用性较强,重试逻辑需要手动调整以适配项目约定。

Qwen3.7-Max(Thinking Mode): 一次性通过。死信队列实现是三家中最完整的——额外包含了一个监控钩子,Claude 和 GPT-5.5 都没有自动生成这个功能。

Non-Thinking Mode 下质量明显下滑,接近 GPT-5.5 水平。结论:重度编码场景必须开 Thinking Mode。

调试错误

给定异步测试的失败场景和错误堆栈。

Qwen3.7-Max 五个 case 全部定位正确。最让我意外的是,它在两个 case 中主动指出了 Prompt 没有问到的隐藏问题——对事件循环状态的逐步推理能力,是它在此项目中表现最好的部分。

Claude Opus 4.6 全对且解释质量最高。GPT-5.5 遗漏了一个竞态条件。

重构代码

300 行的大类拆分为多个单一职责组件。

Qwen3.7-Max 产出了干净的输出,命名合理,可读性好,而且主动加了 Docstring(Claude 和 GPT 都没做)。但在解耦判断上不如 Claude 细腻——Claude 发现了一个 Qwen 漏掉的耦合依赖。

GPT-5.5 在重构任务上是三者中最弱的,需要额外 Prompt 修正提取类之间不自然的依赖关系。

Qwen3.7-Max 在重构任务上处于 Claude 和 GPT-5.5 之间——不是最佳,但有竞争力。

编写测试

Qwen3.7-Max 在每一个任务上都写出了完整的 Happy Path 测试,边界覆盖比预期要强。

一个 case 中它抓到了 Claude 漏掉的边界情况,另一个 case 中它漏掉了时区相关的边界而 Claude 抓到了。整体覆盖水平与 Claude Opus 4.6 相当,优于 GPT-5.5。

一个值得注意的行为:Thinking Mode 开启时,Qwen3.7-Max 会主动解释为什么某个边界不需要测试——这对审核输出来说很省时间。

Agent 多步任务——真正的战场

这是 Qwen3.7-Max 的核心定位。我给了一个多步任务:

审计代码库安全漏洞 → 生成优先级报告 → 为前三个问题编写补丁 → 运行测试套件验证补丁 → 汇总结果

Claude Opus 4.6(通过 Claude Code)能完成,但中途需要人工确认保持节奏。

GPT-5.5 大部分步骤完成了,但在补丁验证步骤卡住,需要人工干预恢复。

Qwen3.7-Max 一次跑完全程,中断最少。工具调用序列干净利落。遇到歧义场景时,它自己做了合理选择并记录理由而不是停下来问人。最终汇总报告是三家里最结构化的。

Alibaba 展示的 35 小时持续运行是一个极端案例,但它在 15 分钟测试中已经展现了核心能力:跨多次工具调用保持状态和意图的一致性

结论

维度胜出者说明
纯编程质量Claude Opus 4.6代码解释质量和精细重构判断仍领先
日常编码Qwen3.7 ≈ Claude差距缩小,Thinking Mode 下接近
短平快任务GPT-5.5无需深度推理时一致性更好
Agent 多步流程Qwen3.7-Max保持状态一致,工具调度干净,自主决策

Qwen3.7-Max 不是纯编程能力最强的模型,它不需要是。它带来的是不一样的能力:让模型自主执行长任务、在数十到数百次工具调用中保持状态一致。

如果你的工作涉及让 AI 跑完完整流程而不是一问一答——Qwen3.7-Max 现在是首选。Agent Frontier 这个定位,不只是营销噱头。

版权所有,本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。转载请注明出处:https://www.wangjun.dev//2026/06/qwen3-7-vs-claude-opus-4-6-vs-gpt-5-5/