关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12526人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"九一八事变"纪念日当天 有些日媒还"警戒"上了

澎湃新闻 浏览 12442

美职联季后赛东部对阵:迈阿密国际VS纳什维尔,赛制三局两胜

懂球帝 浏览 952

AI重构双11|成交暴涨25倍,智能眼镜从极客玩具到大众爆款

红星新闻 浏览 677

特朗普:芝加哥市长和伊利诺伊州州长都该入狱

新华社 浏览 15635

特朗普"朋友"1.3亿美元捐款到账 还不够美军发1天工资

红星新闻 浏览 5289

沈知渝:科尔不见得会下课 不知有哪个主帅能让这支勇士战力爆表

直播吧 浏览 12703

30亿资本注入,破产重整的上汽红岩如何“翻身”?

汽扯扒谈 浏览 782

今年冬天最火的穿法:夹克+裤子,时髦又减龄!

LinkFashion 浏览 603

巴以冲突进入第六个月 加沙人民在绝望中等待明天

国际在线 浏览 11409

弗里克:来巴萨后我变了,我也不希望孙子看到爷爷是这样的

懂球帝 浏览 889

蓝军太难黑猫太黑!切尔西一周内两张脸

体坛周报 浏览 834

港媒:中美达成共识后,荷兰在接管安世问题上进退两难

环球时报国际 浏览 784

赖清德宣布追加400亿美元用于对美军购 提及2个时间点

经济观察报 浏览 29311

“2025全球十大工程成就”揭晓,DeepSeek开源大模型等上榜

上观新闻 浏览 1029

亚马逊据悉要求员工迁址办公

界面新闻 浏览 14192

青春归来,76人主场换回艾弗森时期经典LOGO致敬01年总决赛赛季

懂球帝 浏览 649

朱元璋变脸 研究学者:"鞋拔子脸"异像并非其真实面容

环球网资讯 浏览 14857

旧车比新车贵,比亚迪断了二手车贩子活路

网易科技报道 浏览 10642

特朗普政府要求美国最高法院准许将美联储理事库克免职

华尔街见闻官方 浏览 1651

Stein:猛龙预计会给珀尔特尔开出年薪2000万的续约合同

直播吧 浏览 15630

果汁厂倾倒果渣疑产生有毒气体致3死 其中1人准备结婚

上观新闻 浏览 79135
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1