今天,我们正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
千问新模型总参数超万亿,进行了更大规模的强化学习后训练,并通过推理技术的系列创新,新模型实现了性能的大幅飞跃,在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,Qwen3-Max-Thinking刷新了数项最佳表现(SOTA)纪录,特别在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试中表现优异,达到国际领先水平。

Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。
具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。
模型可像专业人士一样边用工具边思考,回答更合用户心意、更智能、更流畅。
这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅。
同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。
普通用户可通过千问PC端和网页端体验,千问APP也即将接入。
推荐阅读:
券商晨会精华:京沪房价止跌传递积极信号,有望加速房地产市场预期的修复







