从编程助手到自主代理,通义千问迈出关键一步


2026年4月1日,阿里巴巴通义千问团队正式发布 Qwen3.6-Plus。这不是一次常规的版本迭代——它标志着大语言模型从"被动应答"走向"主动执行"的关键转折。在 AI 行业集体追寻 Agent(智能体)方向的浪潮中,Qwen3.6-Plus 用实打实的性能数据和技术突破,给出了属于中国团队的答案。

一、不是修补,是跃迁

让我们先把时钟拨回两个月前。2026年2月,Qwen3.5 系列发布,开源了 397B-A17B 的混合专家模型,在推理、编码、多模态等维度展现了强劲实力。彼时社区的评价是"全面且均衡",但在智能体编程(Agentic Coding)这一前沿方向上,仍有追赶空间。

Qwen3.6-Plus 正是针对这一短板的精准发力。

据官方描述,Qwen3.6-Plus 相较前代实现了"大规模能力升级"(massive capability upgrade),最核心的突破在于:大幅增强了智能体编程能力。从前端网页开发到复杂的仓库级问题解决,Qwen3.6-Plus 树立了新的业界标杆。

这不是营销话术。让我们看看数据。

二、硬核数据:全面且领先的基准测试

智能体编程:代码不再是纸上谈兵

在 Coding Agent 维度,Qwen3.6-Plus 的表现令人瞩目:

基准测试

Claude Opus 4.5

Kimi-K2.5

GLM5

Qwen3.5-397B

Qwen3.6-Plus

SWE-bench Verified

80.9

76.8

77.8

76.2

78.8

SWE-bench Multilingual

77.5

73.0

73.3

69.3

73.8

SWE-bench Pro

57.1

53.8

55.1

50.9

56.6

Terminal-Bench 2.0

59.3

50.8

56.2

52.5

61.6

最值得关注的,是 Terminal-Bench 2.0——这个基准测试衡量模型在真实终端环境中执行复杂任务的能力。Qwen3.6-Plus 在此拿下 61.6 分,超越了所有对手,包括 Claude Opus 4.5。这意味着模型不仅能"写代码",还能在真实的命令行环境中"操作代码"——这才是智能体的核心价值。

通用智能体与工具调用:规划与执行的统一

在通用 Agent 和工具使用方面,Qwen3.6-Plus 同样实现了显著突破。它在多个具有挑战性的长程规划任务中取得了顶尖成绩,并在各种工具调用基准测试中领先。

这背后的逻辑是:真正的 Agent 不只需要"会用工具",更需要"知道什么时候用什么工具、以什么顺序使用"。这要求模型将深度逻辑推理、大范围上下文记忆和精确的工具执行有机整合——Qwen3.6-Plus 正是在这种"全能型"(all-rounder)特质上实现了质变。

通用能力:不偏科的优等生

更难得的是,在专项能力突飞猛进的同时,Qwen3.6-Plus 并没有在其他维度妥协。在困难 STEM 推理、超长上下文精确信息提取、多语言适配等关键评估中,它同样创下了新纪录。

一个模型,既要能写复杂的工程代码,又要能处理超长文档,还要能理解多语言场景——这种"既要又要还要"的能力平衡,正是 Qwen3.6-Plus 区别于偏科模型的根本优势。

三、1M 上下文窗口:长文本处理的新基准

Qwen3.6-Plus 默认支持 100 万 token 的上下文窗口。这个数字意味着什么?

  • 一本《红楼梦》约 73 万字,1M token 可以轻松容纳数本长篇小说

  • 大型代码仓库的完整源码可以在一次对话中加载

  • 数十页甚至上百页的技术文档可以同时分析

更重要的是,这不是简单的"塞进去",而是"真正理解"。在超长上下文的信息提取任务中,Qwen3.6-Plus 的精确度表现优异,说明模型在面对海量文本时依然保持了信息定位和推理能力。

四、多模态进化:从"看见"到"理解"再到"行动"

Qwen3.6-Plus 的多模态能力遵循一条清晰的能力演进路径:视觉感知 → 多模态推理 → 智能体执行

视觉推理:不只是认图

传统多模态模型往往停留在"这张图里有什么"的层面。Qwen3.6-Plus 更进一步——它能结合推理、定位和 OCR 能力,对复杂视觉输入进行深度分析:

  • 文档理解:识别文档结构,提取关键信息

  • 图表解析:不只读取数据,更能理解趋势和关联

  • UI 理解:识别界面元素,为 GUI Agent 操作铺路

  • 精细定位:在图像中精确定位目标对象的位置

换句话说,模型不仅能回答"图中有什么",还能推断"这些信息之间有何关联"以及"如何据此采取行动"。

视频理解:从静态到动态

视频理解是对多模态能力的更高考验——模型需要同时处理时间信息、动态变化和跨帧关系。Qwen3.6-Plus 支持对视频内容进行分析、提取和处理,包括:

  • 将视频内容转换为结构化的课堂笔记

  • 基于视频内容进行编辑操作

  • 理解视频中的复杂事件序列

视觉智能体应用

在 GUI Agent 场景中,Qwen3.6-Plus 能够理解当前屏幕状态,结合规划能力决定并执行下一步操作。通过 OpenClaw 等项目,模型展示了在开放环境中完成复杂交互任务的潜力——比如自动在电商网站上筛选符合特定条件的商品。

五、开发者生态:从 API 到工具链

API 兼容性

Qwen3.6-Plus 通过阿里云模型工作室(Alibaba Cloud Model Studio)提供服务,支持行业标准的 chat completions 和 responses API,兼容 OpenAI 规范,甚至还兼容 Anthropic API 协议。

这意味着开发者可以几乎零成本地迁移——只需更换 API 端点和密钥,代码逻辑无需大幅改动。

与 Claude Code 的集成

一个令人惊喜的特性是:Qwen3.6-Plus 的 API 支持 Anthropic 协议,因此可以直接与 Claude Code 配合使用:

# 安装 Claude Code
npm install -g @anthropic-ai/claude-code
​
# 配置环境变量
export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=<your_api_key>
​
# 启动
claude

这种"用 Claude Code 的壳,跑 Qwen 的核"的方式,为开发者提供了极佳的编程体验——享受 Claude Code 的交互设计,同时使用 Qwen3.6-Plus 的编程能力。

思考模式

Qwen3.6-Plus 支持思维链(Chain of Thought)输出,通过 enable_thinking 参数开启。在流式输出中,模型会先展示推理过程,再给出最终答案,这对于复杂问题的透明性和可调试性至关重要。

六、Vibe Coding:重新定义编程体验

Qwen3.6-Plus 官方提出了"Vibe Coding"(氛围编程)的概念——这是一种全新的编程方式,开发者只需用自然语言描述想要的效果,模型就能直接生成可运行的完整应用。

从官方演示来看,Qwen3.6-Plus 能够:

  • 生成带复杂动画效果的前端页面(如打字机效果的展示页)

  • 创建第一人称视角的 HTML 飞行游戏

  • 开发交互式数据可视化应用

这不是"代码补全",而是"意图到产品"的直接映射。当模型具备了足够强的智能体编程能力,编程的门槛就从"会写代码"降低到了"能说清楚需求"。

七、Qwen 的演进哲学:从 Qwen3.5 到 Qwen3.6

回顾 Qwen 近期的发展脉络,一条清晰的演进路径浮现:

  • Qwen3.5(2026年2月):确立了"原生多模态智能体"的方向,开源 397B 模型,展示了全面的能力基座

  • Qwen3.5-Omni(2026年3月):向全模态(文本、图像、音频、视听)进发,支持 256K 上下文

  • Qwen3.6-Plus(2026年4月):聚焦智能体编程的质变飞跃,1M 上下文,更强的多模态推理

每一步都不是简单的参数堆叠,而是在关键能力维度上的精准突破。这种"每代解决一个核心问题"的节奏,体现了团队对技术路线的深刻理解和工程上的克制。

八、挑战与展望

Qwen3.6-Plus 当然并非没有挑战:

闭源限制。作为托管模型,开发者无法在本地部署,这在数据隐私敏感场景下是硬约束。不过官方已预告将开源小规模变体,这在一定程度上缓解了社区期待。

竞争白热化。Claude Opus 4.5 在 SWE-bench Verified 上仍以 80.9 分领先,Kimi-K2.5 和 GLM5 也在快速迭代。中国大模型赛道的内卷程度,已经从"有没有"进入"好不好"的深水区。

Agent 的长程可靠性。基准测试的成绩是一回事,在真实生产环境中的长程任务执行可靠性是另一回事。从 Demo 到 Production,中间的路永远比看起来更远。

但 Qwen3.6-Plus 传递出的信号是积极的:中国大模型团队不仅在追赶,更在某些维度实现了引领。Terminal-Bench 上的胜出,恰恰说明在"让 AI 真正做事"这个最核心的命题上,Qwen3.6-Plus 找到了自己的发力点。

结语

Qwen3.6-Plus 的副标题是 "Towards Real World Agents"——迈向真实世界的智能体。这不是一个修辞,而是一份承诺:AI 不应只活在基准测试和 Demo 中,它要走进真实的开发工作流,走进真实的终端命令行,走进真实的业务场景。

从"能聊天"到"能做事",这一步的跨越,Qwen3.6-Plus 已经迈出去了。

接下来的问题是:它能走多远?而我们,又将如何与它同行?


参考来源:Qwen3.6-Plus: Towards Real World Agents — Qwen Team, 2026年4月