最新AI评测出炉:国产模型仅可争全球第五 难撼海外巨头霸榜优势
SuperCLUE最新中文大模型测评结果出炉,全球第一梯队被海外模型牢牢占据,国产表现最好的三款模型,只能在全球第五名的位置上激烈竞争。
本次测评覆盖21款国内外主流模型,测评集包括六大任务:数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制,共492题。
Gemini、GPT-5.5、Claude-Opus、Gemini-Flash四款海外模型稳居前四,形成难以撼动的第一梯队。
SuperCLUE最新中文大模型测评结果出炉。(superclueai.com)
DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed 2.0 Pro三款国产模型分数非常接近,组成国内第一梯队,全球排名集中在第五位附近,成为国产第一集团。
各厂商大模型在其它维度上的排名▼▼▼
虽然整体仍有差距,但国产模型进步很明显。代码生成项目中,Qwen3.7-Max得分仅次于海外头部模型,差距不到2分。数学推理、科学推理等项目,国产模型也多次冲进全球前列。
性价比方面,国产模型优势突出,多款产品进入高性价比区间,用更低成本实现接近头部的效果。推理效能上,海外模型仍垄断高效能区,国产模型多处在中低区间,还有提升空间。
虽然整体仍有差距,但国产模型进步很明显。(superclueai.com)
整体来看,国产大模型正在快速追赶,但全球第一梯队的格局暂时没变。
【延伸阅读】Google全新AI搜寻上线 加Gemini功能 彻底终结25年点击网页习惯
+5
日本47岁大叔用AI网美月入10万 Claude+社交平台引流=自动变现AI总一本正经“胡说八道”?央视解构AI幻觉根源 附两招规避技巧贪快用AI写东西会变无脑?Google高层警告工程师正丧失思考力现在是否投资 AI 并建立数码员工团队的最佳时机?|苏仲成Google推出Android XR眼镜主打潮流穿搭 搭载Gemini涵盖7大功能
【本文获“快科技”授权转载,微信公众号:mydrivers】