登顶国产AI榜首实现10倍加速：阿里Qwen3.7 Max成智能体时代标杆

> 2026年5月20日，阿里巴巴在阿里云峰会上发布全新一代千问旗舰模型Qwen3.7-Max。该模型在三方机构Arena全球大模型盲测总榜中，超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产对手，与GPT、Claude、Gemini的最强模型性能接近，位列国产模型第一。 ![](blockview://markdown-image-tos-cn-i-tt/6db9244b9d474885afd0f7bf92333b3e) 同日，权威评测机构Artificial Analysis公布的全球大模型榜单显示，Qwen3.7-Max得分56.6分，排名全球第五、国产第一，综合性能直逼国际顶尖梯队。这标志着国产大模型在智能体（Agent）时代，首次在核心能力上展现出与国际巨头“并跑”的潜力。 ## 评测表现：编程、推理与多维度领先 Qwen3.7-Max的登顶并非偶然，其在多项权威评测中展现了全面优势。根据中国日报网的报道，该模型在数项核心维度位居前列： ![](blockview://markdown-image-tos-cn-i-tt/ab97d4efb625452a8f77037931416f5f) - **编程智能体**：在SWE-Pro、SWE-Multilingual等测评中领先，在Terminal Bench 2.0-Terminus得分**69.7**，超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等模型。 - **通用智能体**：在MCP-Atlas、MCP-Mark、Skillbench等贴近现实任务的测试中表现优异，超越GLM5.1、Kimi-K2.6，创下国产新高。 - **推理能力**：在GPQA Diamond、HMMT 2026 Feb、IMOAnswerBench等硬核推理测评中，**超越了Claude-Opus4.6及所有国产模型**。 - **指令遵循与多语言**：在IFBench评测中得分**79.1分**，在多语言理解和翻译任务中也处于领先水平。当下，编程能力已成为衡量大语言模型的核心指标。Qwen3.7-Max较上代模型实现大幅提升，从前端原型开发到复杂的多文件工程均能驾驭，在评估真实世界实战编程的SWE-bench系列测评中表现突出。 ## 实战突破：35小时自主优化芯片内核比跑分更令人关注的是Qwen3.7-Max在长周期自主任务上的突破。在一个实战测试中，模型被置于一个**训练时从未接触过的全新硬件平台**——平头哥真武M890芯片上，任务是优化一个AI推理内核。 > 在没有任何性能分析数据或示例的情况下，Qwen3.7-Max仅从一个空白工作空间出发，从零开始持续编程35小时，独立进行了432次内核评估和1158次工具调用，完全自主地完成了编写、编译、性能分析与迭代改进的全流程。最终，经Qwen3.7-Max优化后的推理内核，比SGLang Triton官方参考实现取得了**10倍的加速**。测试轨迹显示，模型在运行超过30小时后仍能发现新的优化点，甚至主动发起架构重设计。这展示了AI模型从“对齐人类偏好”到“对齐任务目标”的范式转移——即从“说得好”转向“做得到”。阿里巴巴通义大模型事业部负责人周靖人指出，Qwen3.7-Max的设计初衷是让模型真正成为Agent的智能内核，具备自主规划、持续迭代、跨工具协作的能力。 ## 迭代加速：三个月三次版本更新 Qwen3.7-Max的快速进化背后，是阿里大模型研发节奏的显著加速。近**3个月内**，千问旗舰大模型已稳定迭代了**3.5、3.6、3.7三个版本**，不断抬高国产模型的性能上限。这种月度级的更新频率，即便在全球范围内也属罕见，反映出厂商为匹配Agent时代对模型能力指数级增长需求而采取的刻意加速。迭代方向也高度聚焦于智能体赛道。从Qwen3.5强调“原生多模态智能体”，到Qwen3.6主打“面向现实世界智能体”，再到Qwen3.7-Max展现的长周期自主任务能力，阿里正系统性构建智能体新基座。模型本身具有极强的Agent能力，并涌现出跨框架泛化能力，在Claude Code、OpenClaw、Qwen Code等主流智能体框架下都能稳定发挥，有望成为各类智能体系统的可靠底座。 ## 商业化落地：API上线与亲民定价强大的能力需通过商业化落地转化为实际生产力。5月22日，**Qwen3.7-Max已登陆阿里云百炼平台**，用户可直接调用API。其定价也已公布：**输入价格每百万Tokens 12元，输出价格每百万Tokens 36元**。同时，阿里云百炼的Token Plan订阅服务也已支持该模型。在企业级应用场景，Qwen3.7-Max驱动的智能体已展现出效率提升的潜力。例如，在办公自动化基准SpreadSheetBench-v1上斩获**87分**（顶尖水平），以往需专业团队耗时一至两周的复杂项目，现可在数小时内完成端到端交付。此外，通过MCP集成和多智能体协作，模型能在企业办公场景实现工作流自动化。 ## 行业影响：智能体时代与国产并跑 Qwen3.7-Max的发布与登顶，不仅是阿里在AI大模型领域的一次突破，更折射出国产大模型整体的演进态势。当模型能独立完成长达35小时的复杂工程任务时，一个真正的“智能体时代”正加速到来。阿里云在此次峰会上宣布面向Agentic时代全面升级，发布全新的“**芯-云-模型-推理**”技术体系，其中自研的真武M890芯片性能是上一代的3倍，旨在解决Agent场景的海量并发需求。这一系列动作表明，中国AI力量正在从过去的“跟跑”转向关键领域的“并跑”。在智能体这个被全球科技行业视为下一个主战场的赛道，以Qwen3.7-Max为代表的国产模型，已经具备了与国际顶尖玩家同台竞技的核心能力底座。未来，随着模型持续迭代与生态完善，AI作为“数字员工”自主完成复杂任务的场景，将更快从实验室走向广泛产业应用。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。