阿里千问3发布并开源,参数仅为DeepSeek-R1三分之一

4月29日上午消息,阿里巴巴开源了新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等领先模型。千问3是一个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,极大节省了算力消耗。

据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。千问3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。性能大幅提升的同时,千问3的部署成本还大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一。(文猛)

推荐阅读:

宇谷科技创业板IPO折戟 两轮换电是门好生意吗?

A股午后反攻 央妈有新进展!“100万点可期”?

公共数据开发利用政策即将出台!机构预测这些概念股业绩有望持续增长

习近平同塔吉克斯坦总统拉赫蒙共同出席中方援塔议会大楼和政府大楼落成仪式,习近平同塔吉克斯坦总统拉赫蒙共同出席中方援塔议会大楼和政府大楼落成仪式

(铸牢共同体 中华一家亲)时间不语过千年 内蒙古文物里的民族文化交融

护曲护艺也护“人” 浙江温州施行曲艺类地方性法规

您可以还会对下面的文章感兴趣:

暂无相关文章

使用微信扫描二维码后

点击右上角发送给好友