爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

白百何疑开撕...

3年200亿...

计划3年完成...

赫尔松关键大...

CES＂节目...

高善文发声：...

女人老了别瞎穿，记住“衣不紧身，裙不上膝”，才是真的优雅

王思聪前任甜仇直播婚礼现场！新郎被曝是官二代

著名画家黄永玉先生逝世留下遗嘱：火化之后不取骨灰

一轮有望创历史新高的“鸡周期”来了？

Uber称正与特斯拉合作购买Model 3/Y将最高补贴司机2000美元

兴业银行异常涨停操盘者：系福建省属国企，此前已持有该行2.8%股份

欧盟委员会“以身试法”：涉嫌违规使用微软 365 ，被勒令整改

车机升级新款丰田皇冠陆放售28.48万起

加速进化抢单“双11”

索要1000万元逼死丈夫苏享茂翟欣欣一审获刑12年

郭富城爱驹赛马跑第一赢百万奖金，紧搂方媛庆祝

董明珠再回应“手机核心团队解散”：我现在用的就是格力手机，消费者用了都说好

朝方称越界入朝美军士兵＂下决心倒戈＂美方回应

媒体：上合组织因俄乌战事面临三重困境中国迎来机遇

天马推出高端 OLED 技术品牌“天马天工屏”

我国又添“超级充电宝”：世界坝体最高抽水蓄能电站全面投产发电

朱孝天方回应被踢出F4，刚合体时就挺不合群，如今开公司当老板

羊绒专场|| 如果秋冬只买一件针织衫，我一定毫不犹豫选它（已穿上）

公司创始人被指打断妻子七根肋骨被刑事立案后取保

杨钰莹造型好新潮：上半身约会，下半身跑步

加里-麦卡利斯特：林德斯是纯粹的足球人；杰拉德还会再执教

郭德纲否认于谦离开德云社单飞称将于4月回归

俄网红直播冻死女友，为1000美元打赏将其全裸丢到户外

最终票房24亿？张艺谋《第二十条》逆袭，中国大导演的荣光回来了