关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12528人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

锋寻生物完成近6000万元种子轮及天使轮融资,加速体内CAR-T疗法临床转化 | 融资首发

钛媒体APP 浏览 664

ITC提交诉讼,Apple Watch在美国恐再次禁售

IT之家 浏览 12573

小米SU7 Ultra飞坡翻滚多圈 车主:感谢雷军

扬子晚报 浏览 965

末节7中1还犯致命错误:热巴完败约基奇没借口 内线狂输26分太惨

颜小白的篮球梦 浏览 16369

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 491

中国今年首场重大主场外交活动后 陕西省长率团出访

政知新媒体 浏览 91347

全力向上!重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

懂球帝 浏览 869

有一种惊艳,叫40+的姐姐们称霸时装周!

出飒 浏览 20070

河南官方:刘斌已于昨天完成手术,接下来将进入较长的康复期

懂球帝 浏览 10679

小二一年贪污近亿,阿里改革遭重击丨深度

正经社 浏览 11055

传Blackwell架构GB20x的GPC配置基本不变,英伟达仍在开发GB205/6/7

超能网 浏览 11285

vivo严打“黑公关”:索赔近千万!

互联网那些事 浏览 981

跻身世界第一梯队!这一行业,迎爆发风口

环球网资讯 浏览 962

巴菲特和李嘉诚,为何后期都大量投资公用事业类生意

锦缎研究院 浏览 16021

董璇新剧状态憔悴显老 与高云翔离婚四年状态下滑

叶公子 浏览 13805

外交部回应收复台湾言论,美国人又在骗军费了

趣看热点 浏览 430475

奥特曼重新加入 OpenAI董事会;比特币突破7万美元大关;苹果中文官网出现Vision Pro|极客早知道

极客公园 浏览 12589

美国演员约翰尼-德普现场观看博卡比赛,并与里克尔梅合影

懂球帝 浏览 545

官宣!这座“一线”省份,继续力挺省会

西部城市 浏览 969

曾负债超200亿,创始人已跑路!这家新势力官宣复活,即将发新车

明镜pro 浏览 716

卡塔尔正式投诉以色列:公然侵犯主权 违反国际公约

上观新闻 浏览 1603
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1