爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

车祸后的伍兹...

埃迪-豪7次...

乌称挫败针对...

Linus新...

今夏就要穿“...

苹果将在美停...

嫦娥五号顺利完成第一次轨道修正，正按照计划继续方向月球

谷歌将对员工考勤更加严格

疑似董小姐回应“牵手门”风波：做自己就好了

锋寻生物完成近6000万元种子轮及天使轮融资，加速体内CAR-T疗法临床转化 | 融资首发

ITC提交诉讼，Apple Watch在美国恐再次禁售

小米SU7 Ultra飞坡翻滚多圈车主：感谢雷军

末节7中1还犯致命错误：热巴完败约基奇没借口内线狂输26分太惨

海军四川舰顺利完成首次航行试验

中国今年首场重大主场外交活动后陕西省长率团出访

全力向上！重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

有一种惊艳，叫40+的姐姐们称霸时装周！

河南官方：刘斌已于昨天完成手术，接下来将进入较长的康复期

小二一年贪污近亿，阿里改革遭重击丨深度

传Blackwell架构GB20x的GPC配置基本不变，英伟达仍在开发GB205/6/7

vivo严打“黑公关”：索赔近千万！

跻身世界第一梯队！这一行业，迎爆发风口

巴菲特和李嘉诚，为何后期都大量投资公用事业类生意

董璇新剧状态憔悴显老与高云翔离婚四年状态下滑

外交部回应收复台湾言论，美国人又在骗军费了

奥特曼重新加入 OpenAI董事会；比特币突破7万美元大关；苹果中文官网出现Vision Pro｜极客早知道

美国演员约翰尼-德普现场观看博卡比赛，并与里克尔梅合影

官宣！这座“一线”省份，继续力挺省会

曾负债超200亿，创始人已跑路！这家新势力官宣复活，即将发新车

卡塔尔正式投诉以色列：公然侵犯主权违反国际公约