阿里巴巴发布通义千问旗舰推理模型Qwen3-Max-Thinking

今天,我们正式发布千问旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。

千问新模型总参数超万亿,进行了更大规模的强化学习后训练,并通过推理技术的系列创新,新模型实现了性能的大幅飞跃,在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,Qwen3-Max-Thinking刷新了数项最佳表现(SOTA)纪录,特别在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试中表现优异,达到国际领先水平。

c97b726a-facd-11f0-92de-92fbcf53809c.jpg

Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。

具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

模型可像专业人士一样边用工具边思考,回答更合用户心意、更智能、更流畅。

这种自适应的工具调用能力可在QwenChat上完整体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,提供专业人士一样水平的回答,更合用户心意、更智能、更流畅。

同时,模型幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。

普通用户可通过千问PC端和网页端体验,千问APP也即将接入。

推荐阅读:

券商晨会精华:京沪房价止跌传递积极信号,有望加速房地产市场预期的修复

今天A股大逆转!高股息股集体降温 医药股午后集体走强

证监会严肃查处5起上市公司财务造假等信息披露违法案件

一周牛熊股 | 沪指守住2900点,本周最牛股五天翻倍

斯塔默带领英国工党时隔14年重新执政:能否重启增长?

快速发展背后压力重重,泰康养老频繁增资能否解决问题?

您可以还会对下面的文章感兴趣:

暂无相关文章

使用微信扫描二维码后

点击右上角发送给好友