5月28日欧洲杯体育,泰斗大模子测评机构SuperCLUE《汉文大模子基准测评2025年5月诠释》全新出炉!
豆包1.5·深度念念考模子(Doubao-1.5-thinking-pro)和商汤日日新 V6多模态模子(SenseNova-V6 Reasoner)共同摘得金牌,卓绝Gemini 2.5 Flash Preview,在国内大模子第一梯队领跑。
位居第二梯队的大模子包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1以及DeepSeek-V3。
诠释指出,国表里第一梯队大模子在汉文畛域的通用才略差距正在减轻。在国产大模子中,Doubao-1.5-thinking-pro-250415、SenseNova V6 Reasoner露出最为亮眼。国内推理模子竞争神气初露线索。
SuperCLUE是行业泰斗的通用大模子的空洞性测评基准。本次2025年5月诠释聚焦通用才略测评,涵盖数学推理、科学推理、代码生成、智能体Agent、精准请示驯顺、文本意会与创作六大任务,总量为1579说念多轮简答题。
南边+记者 郜小平