> 2026年5月20日,阿里巴巴在阿里云峰会上发布全新一代千问旗舰模型Qwen3.7-Max。该模型在三方机构Arena全球大模型盲测总榜中,超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产对手,与GPT、Claude、Gemini的最强模型性能接近,位列国产模型第一。 ![](blockview://markdown-image-tos-cn-i-tt/6db9244b9d474885afd0f7bf92333b3e) 同日,权威评测机构Artificial Analysis公布的全球大模型榜单显示,Qwen3.7-Max得分56.6分,排名全球第五、国产第一,综合性能直逼国际顶尖梯队。这标志着国产大模型在智能体(Agent)时代,首次在核心能力上展现出与国际巨头“并跑”的潜力。 ## 评测表现:编程、推理与多维度领先 Qwen3.7-Max的登顶并非偶然,其在多项权威评测中展现了全面优势。根据中国日报网的报道,该模型在数项核心维度位居前列: ![](blockview://markdown-image-tos-cn-i-tt/ab97d4efb625452a8f77037931416f5f) - **编程智能体**:在SWE-Pro、SWE-Multilingual等测评中领先,在Terminal Bench 2.0-Terminus得分**69.7**,超过了DeepSeek-v4-pro-Max、Claude-Opus4.6等模型。 - **通用智能体**:在MCP-Atlas、MCP-Mark、Skillbench等贴近现实任务的测试中表现优异,超越GLM5.1、Kimi-K2.6,创下国产新高。 - **推理能力**:在GPQA Diamond、HMMT 2026 Feb、IMOAnswerBench等硬核推理测评中,**超越了Claude-Opus4.6及所有国产模型**。 - **指令遵循与多语言**:在IFBench评测中得分**79.1分**,在多语言理解和翻译任务中也处于领先水平。 当下,编程能力已成为衡量大语言模型的核心指标。Qwen3.7-Max较上代模型实现大幅提升,从前端原型开发到复杂的多文件工程均能驾驭,在评估真实世界实战编程的SWE-bench系列测评中表现突出。 ## 实战突破:35小时自主优化芯片内核 比跑分更令人关注的是Qwen3.7-Max在长周期自主任务上的突破。在一个实战测试中,模型被置于一个**训练时从未接触过的全新硬件平台**——平头哥真武M890芯片上,任务是优化一个AI推理内核。 > 在没有任何性能分析数据或示例的情况下,Qwen3.7-Max仅从一个空白工作空间出发,从零开始持续编程35小时,独立进行了432次内核评估和1158次工具调用,完全自主地完成了编写、编译、性能分析与迭代改进的全流程。 最终,经Qwen3.7-Max优化后的推理内核,比SGLang Triton官方参考实现取得了**10倍的加速**。测试轨迹显示,模型在运行超过30小时后仍能发现新的优化点,甚至主动发起架构重设计。这展示了AI模型从“对齐人类偏好”到“对齐任务目标”的范式转移——即从“说得好”转向“做得到”。 阿里巴巴通义大模型事业部负责人周靖人指出,Qwen3.7-Max的设计初衷是让模型真正成为Agent的智能内核,具备自主规划、持续迭代、跨工具协作的能力。 ## 迭代加速:三个月三次版本更新 Qwen3.7-Max的快速进化背后,是阿里大模型研发节奏的显著加速。近**3个月内**,千问旗舰大模型已稳定迭代了**3.5、3.6、3.7三个版本**,不断抬高国产模型的性能上限。 这种月度级的更新频率,即便在全球范围内也属罕见,反映出厂商为匹配Agent时代对模型能力指数级增长需求而采取的刻意加速。 迭代方向也高度聚焦于智能体赛道。从Qwen3.5强调“原生多模态智能体”,到Qwen3.6主打“面向现实世界智能体”,再到Qwen3.7-Max展现的长周期自主任务能力,阿里正系统性构建智能体新基座。 模型本身具有极强的Agent能力,并涌现出跨框架泛化能力,在Claude Code、OpenClaw、Qwen Code等主流智能体框架下都能稳定发挥,有望成为各类智能体系统的可靠底座。 ## 商业化落地:API上线与亲民定价 强大的能力需通过商业化落地转化为实际生产力。5月22日,**Qwen3.7-Max已登陆阿里云百炼平台**,用户可直接调用API。其定价也已公布:**输入价格每百万Tokens 12元,输出价格每百万Tokens 36元**。同时,阿里云百炼的Token Plan订阅服务也已支持该模型。 在企业级应用场景,Qwen3.7-Max驱动的智能体已展现出效率提升的潜力。例如,在办公自动化基准SpreadSheetBench-v1上斩获**87分**(顶尖水平),以往需专业团队耗时一至两周的复杂项目,现可在数小时内完成端到端交付。 此外,通过MCP集成和多智能体协作,模型能在企业办公场景实现工作流自动化。 ## 行业影响:智能体时代与国产并跑 Qwen3.7-Max的发布与登顶,不仅是阿里在AI大模型领域的一次突破,更折射出国产大模型整体的演进态势。当模型能独立完成长达35小时的复杂工程任务时,一个真正的“智能体时代”正加速到来。 阿里云在此次峰会上宣布面向Agentic时代全面升级,发布全新的“**芯-云-模型-推理**”技术体系,其中自研的真武M890芯片性能是上一代的3倍,旨在解决Agent场景的海量并发需求。 这一系列动作表明,中国AI力量正在从过去的“跟跑”转向关键领域的“并跑”。在智能体这个被全球科技行业视为下一个主战场的赛道,以Qwen3.7-Max为代表的国产模型,已经具备了与国际顶尖玩家同台竞技的核心能力底座。 未来,随着模型持续迭代与生态完善,AI作为“数字员工”自主完成复杂任务的场景,将更快从实验室走向广泛产业应用。
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。